跳到内容

如何用 ElevenLabs、Gemini 和 VEO 2 搭建文本转广告生成器

如何打造一款 AI 工具,将简单提示词变成完整视频广告。

Marketing video gen

我做内容创作已有 20 年——从新闻到产品视频。AI 让全新创作流程成为可能。随着氛围编程和视频生成越来越真实,我开始思考,能否用一个简单提示词就生成 20 秒广告。

思路很简单:输入一个粗略的产品想法,AI 就能生成包含画面、旁白和音效的完整 30 秒广告。下面介绍我是如何用 ElevenLabs 文本转语音 和 SFX API、Google 的 Gemini 以及 Google 的 VEO 2 来生成视频的。当时 VEO 3 还未发布。

最终版本几乎完全用 Anthropic 的 Claude 4 Opus 完成,不过因为频率限制,花了几天时间。

技术栈选择:Node.js、Express、React 和 Claude 4 Opus

A commercial for "finding places to eat lunch in a park"

后端选用 Node.js 和 Express,前端用 React。Node 负责视频生成时的实时更新,React 的组件化结构让多步骤界面易于管理和扩展。

我从小就断断续续写代码——小学时用过画图机器人。但我一直更偏向产品思维,而不是全职工程师。像 Claude 4 Opus 这样的工具改变了这一点。只要提示词合适,就能快速推进,正确实现功能,把精力放在产品逻辑上,而不是重复代码。

这不是把创意交给 AI,而是用合适的工具更高效地创作。

八步流程:从提示词到成品广告

Eight step wizard

即使只有 20 秒的新产品或服务广告,也涉及多个复杂环节,所以我把流程拆分为八个阶段:

  1. 产品信息
  2. 脚本生成
  3. 视频生成
  4. 音效生成
  5. 视频合成
  6. 旁白配音
  7. 最终视频
  8. 社交媒体发布

每一步都在前一步基础上推进,把一个简单想法变成完整广告。每个阶段用户都能完全掌控,随时修改或重新生成文本、视频或音频。

A commercial for "Epoch" matching

用 Gemini Flash 优化创意

第一个难点是,大多数人一开始并没有成型的产品想法。可能只会输入“提升效率的东西”这种模糊描述,这时就需要 Gemini。

我用 Google 的 Gemini 2.0 Flash 模型,把粗糙想法细化为具体产品概念。提示词设计很关键——要让 Gemini 输出具体、明确的内容,而不是泛泛而谈。比如把“健身相关”转化为“FitPulse AI:一款利用高级生物识别技术,为你定制全天微型锻炼的智能手环”。

"""Enhance a product idea using Gemini"""
        
        prompt = f"""
        Enhance this product idea to make it more compelling:
        
        Original idea: {idea}
        Target mood: {mood}
        Target audience: {audience}
        
        Make it:
        1. Clear and specific about the value proposition
        2. Appeal to {audience}
        3. Match the {mood.lower()} tone
        4. Be memorable and marketable
        
        Keep it to 2-3 sentences.
        """

用 Gemini 生成有针对性的脚本

接下来是脚本生成。还是用 Gemini,把输出结构化为 4 个 5 秒场景,每个场景包含三部分:

  • 旁白脚本
  • 视频生成提示词
  • 音效描述

关键在于让 Gemini 理解氛围和受众。面向年轻人的“有趣”广告和面向企业客户的“专业”广告,语言完全不同。

我花了不少时间优化提示词,避免千篇一律的 AI 腔,确保脚本贴合每个产品。

     """Generate a 4-scene commercial script"""
        
        prompt = f"""
        Create a 30-second commercial script with exactly 4 scenes.
        
        Product: {product_name}
        Audience: {target_audience}
        Key Message: {key_message}
        Mood: {mood}
        
        Return a JSON array with 4 scenes, each with:
        - number: 1-4
        - duration: 5
        - script: What the voiceover says
        - videoPrompt: Visual description for video generation
        - sfxPrompt: Sound effects description
        
        Example format:
        [{{"number": 1, "duration": 5, "script": "...", "videoPrompt": "...", "sfxPrompt": "..."}}]
        """

用 VEO 2 生成 5 秒场景

我用 FAL.ai 托管的 Google VEO 2 模型 API。每个场景的视频提示词发给 FAL.ai,返回一个 5 秒视频片段。这部分集成最复杂——要处理生成时间长、API 限制,还要在等待时给用户反馈。

原本打算用 Google AI Studio 或 Vertex AI 调用 Veo 2 API,这样和 Gemini 用同一个 API 密钥,但 Veo 2 在我的账号上无法使用。

我实现了状态管理系统,把生成的视频本地保存,用户离开页面再回来时不用重新生成这些高成本内容。遇到 Claude 频率限制时,最不想看到的就是刷新页面后视频丢失。

生成 20 秒视频内容(不重剪、不重生成)大约花费 10 美元。

用 ElevenLabs 生成音效和旁白

这一步我用到了 ElevenLabs 的 API。虽然 ElevenLabs 主要用于语音生成,但我们的音效 API 也非常强大。可以参考 音效面板 的精彩用例。

我用它为每个场景生成四种音效风格:音效 ——活力、动感、平静、戏剧化。用户可试听每个选项,选择最符合自己想法的效果。

const response = await elevenLabs.soundGeneration({
  text: modifiedPrompt,
  duration_seconds: duration,
  prompt_influence: 0.3
});

用 FFmpeg 合成最终视频

有了四段视频和四条音效轨道,需要把它们合成。这就要用到视频处理利器 FFmpeg。后端通过 FFmpeg 命令实现:

  1. 将音效与每段视频混音
  2. 拼接所有片段为一个视频
  3. 为最终视频添加旁白音轨

调试 FFmpeg 命令花了不少功夫。尤其是音频混音,要特别注意音量和时序。实践中发现,背景音混入旁白时音量应降到 30% 左右,太高会抢戏,太低则几乎听不见。

旁白:ElevenLabs 的真正优势

旁白部分,我集成了 ElevenLabs 的 文本转语音 API,让用户可以选择不同音色。系统会把所有场景脚本合成为一段完整旁白,再用优化后的音色参数发送给 ElevenLabs:

const voiceSettings = {
  stability: 0.75,
  similarity_boost: 0.75,
  style: 0.0,
  use_speaker_boost: true
};

这些设置能带来清晰、专业的广告解说。多次尝试后,我发现这样既统一又不机械。

健壮的错误处理与用户体验

集成多个 AI API,难免遇到各种异常:频率限制、超时、响应格式错误等。尤其凌晨两点调试时,VEO 2 偶尔还会返回奇怪结果。

我实现了全面的错误处理和备用方案:

  • Gemini 失败时,系统会提供智能备用脚本
  • 视频生成失败时,提供占位视频
  • 音效生成失败时,使用基础音轨

目标是确保用户始终能完成广告制作,即使部分 AI 服务偶尔出错。

性能优化

A commercial for "Globetrotter Grocer"

生成广告涉及多次 AI API 调用,可能需要几分钟。为提升体验,我做了这些优化:

  • 尽量并行处理视频
  • 实时显示进度
  • 本地保存高成本生成内容
  • 允许用户单独重生成各部分

还实现了状态持久化。用户中途关闭浏览器,回来后可继续操作。原本没计划做这个,但测试时自己多次丢进度后,成了刚需。

核心收获与后续计划

这个工具让我有三点重要体会。

第一,提示词设计至关重要。 AI 输出质量很大程度取决于输入方式。我花的时间,提示词优化和写代码几乎一样多。

第二,用户体验比技术复杂度更重要。 用户不关心背后有多少 AI 服务,只关心工具好不好用。进度提示、错误处理和快速反馈才是关键。

第三,Claude 这样的 AI 助手能极大加速开发。 我专注于产品逻辑,重复代码和语法交给模型处理。这不是跳步骤,而是更聪明地搭建产品。

最初只是周末项目,最后变成了真正可扩展的工具。市场团队可用来做原型,初创公司做路演视频,创作者做商业合作内容。

系统本身非常灵活。可通过调整 VEO 2 提示词改变视频风格,按需修改场景时长,或用 FFmpeg 添加音乐。

真正的机会在于多 AI 系统协作。单一模型无法生成完整广告,但 Gemini、VEO 2 和 ElevenLabs 结合后,效果远超单独使用。

这不是 AI 取代创作者,而是让创作者拥有更好工具。做内容 20 年,见证了很多变化,但这次的转变更为根本。

如果想了解 ElevenLabs 技术如何助力内容和媒体创新,欢迎联系销售团队.

查看更多 ElevenLabs 团队的文章

用高质量 AI 音频创作