如何用 ElevenLabs、Gemini 和 VEO 2 搭建文本转广告生成器

作者: Ryan Morrison
发布时间: 2025年5月29日
最近更新: 2026年5月27日

收听收听本文

0:00

0:000:00

我做内容创作已有 20 年——从新闻到产品视频。AI 让全新创作流程成为可能。随着氛围编程和视频生成越来越真实，我开始思考，能否用一个简单提示词就生成 20 秒广告。

思路很简单：输入一个粗略的产品想法，AI 就能生成包含画面、旁白和音效的完整 30 秒广告。下面介绍我是如何用 ElevenLabs 文本转语音和 SFX API、Google 的 Gemini 以及 Google 的 VEO 2 来生成视频的。当时 VEO 3 还未发布。

最终版本几乎完全用 Anthropic 的 Claude 4 Opus 完成，不过因为频率限制，花了几天时间。

技术栈选择：Node.js、Express、React 和 Claude 4 Opus

A commercial for "finding places to eat lunch in a park"

后端选用 Node.js 和 Express，前端用 React。Node 负责视频生成时的实时更新，React 的组件化结构让多步骤界面易于管理和扩展。

我从小就断断续续写代码——小学时用过画图机器人。但我一直更偏向产品思维，而不是全职工程师。像 Claude 4 Opus 这样的工具改变了这一点。只要提示词合适，就能快速推进，正确实现功能，把精力放在产品逻辑上，而不是重复代码。

这不是把创意交给 AI，而是用合适的工具更高效地创作。

八步流程：从提示词到成品广告

即使只有 20 秒的新产品或服务广告，也涉及多个复杂环节，所以我把流程拆分为八个阶段：

产品信息
脚本生成
视频生成
音效生成
视频合成
旁白配音
最终视频
社交媒体发布

每一步都在前一步基础上推进，把一个简单想法变成完整广告。每个阶段用户都能完全掌控，随时修改或重新生成文本、视频或音频。

用 Gemini Flash 优化创意

第一个难点是，大多数人一开始并没有成型的产品想法。可能只会输入“提升效率的东西”这种模糊描述，这时就需要 Gemini。

我用 Google 的 Gemini 2.0 Flash 模型，把粗糙想法细化为具体产品概念。提示词设计很关键——要让 Gemini 输出具体、明确的内容，而不是泛泛而谈。比如把“健身相关”转化为“FitPulse AI：一款利用高级生物识别技术，为你定制全天微型锻炼的智能手环”。

"""Enhance a product idea using Gemini"""
        
        prompt = f"""
        Enhance this product idea to make it more compelling:
        
        Original idea: {idea}
        Target mood: {mood}
        Target audience: {audience}
        
        Make it:
        1. Clear and specific about the value proposition
        2. Appeal to {audience}
        3. Match the {mood.lower()} tone
        4. Be memorable and marketable
        
        Keep it to 2-3 sentences.
        """

用 Gemini 生成有针对性的脚本

接下来是脚本生成。还是用 Gemini，把输出结构化为 4 个 5 秒场景，每个场景包含三部分：

旁白脚本
视频生成提示词
音效描述

关键在于让 Gemini 理解氛围和受众。面向年轻人的“有趣”广告和面向企业客户的“专业”广告，语言完全不同。

我花了不少时间优化提示词，避免千篇一律的 AI 腔，确保脚本贴合每个产品。

     """Generate a 4-scene commercial script"""
        
        prompt = f"""
        Create a 30-second commercial script with exactly 4 scenes.
        
        Product: {product_name}
        Audience: {target_audience}
        Key Message: {key_message}
        Mood: {mood}
        
        Return a JSON array with 4 scenes, each with:
        - number: 1-4
        - duration: 5
        - script: What the voiceover says
        - videoPrompt: Visual description for video generation
        - sfxPrompt: Sound effects description
        
        Example format:
        [{{"number": 1, "duration": 5, "script": "...", "videoPrompt": "...", "sfxPrompt": "..."}}]
        """

用 VEO 2 生成 5 秒场景

我用 FAL.ai 托管的 Google VEO 2 模型 API。每个场景的视频提示词发给 FAL.ai，返回一个 5 秒视频片段。这部分集成最复杂——要处理生成时间长、API 限制，还要在等待时给用户反馈。

原本打算用 Google AI Studio 或 Vertex AI 调用 Veo 2 API，这样和 Gemini 用同一个 API 密钥，但 Veo 2 在我的账号上无法使用。

我实现了状态管理系统，把生成的视频本地保存，用户离开页面再回来时不用重新生成这些高成本内容。遇到 Claude 频率限制时，最不想看到的就是刷新页面后视频丢失。

生成 20 秒视频内容（不重剪、不重生成）大约花费 10 美元。

用 ElevenLabs 生成音效和旁白

这一步我用到了 ElevenLabs 的 API。虽然 ElevenLabs 主要用于语音生成，但我们的音效 API 也非常强大。可以参考音效面板的精彩用例。

我用它为每个场景生成四种音效风格：音效 ——活力、动感、平静、戏剧化。用户可试听每个选项，选择最符合自己想法的效果。

const response = await elevenLabs.soundGeneration({
  text: modifiedPrompt,
  duration_seconds: duration,
  prompt_influence: 0.3
});

用 FFmpeg 合成最终视频

有了四段视频和四条音效轨道，需要把它们合成。这就要用到视频处理利器 FFmpeg。后端通过 FFmpeg 命令实现：

将音效与每段视频混音
拼接所有片段为一个视频
为最终视频添加旁白音轨

调试 FFmpeg 命令花了不少功夫。尤其是音频混音，要特别注意音量和时序。实践中发现，背景音混入旁白时音量应降到 30% 左右，太高会抢戏，太低则几乎听不见。

旁白：ElevenLabs 的真正优势

旁白部分，我集成了 ElevenLabs 的文本转语音 API，让用户可以选择不同音色。系统会把所有场景脚本合成为一段完整旁白，再用优化后的音色参数发送给 ElevenLabs：

const voiceSettings = {
  stability: 0.75,
  similarity_boost: 0.75,
  style: 0.0,
  use_speaker_boost: true
};

这些设置能带来清晰、专业的广告解说。多次尝试后，我发现这样既统一又不机械。

健壮的错误处理与用户体验

集成多个 AI API，难免遇到各种异常：频率限制、超时、响应格式错误等。尤其凌晨两点调试时，VEO 2 偶尔还会返回奇怪结果。

我实现了全面的错误处理和备用方案：

Gemini 失败时，系统会提供智能备用脚本
视频生成失败时，提供占位视频
音效生成失败时，使用基础音轨

目标是确保用户始终能完成广告制作，即使部分 AI 服务偶尔出错。

性能优化

生成广告涉及多次 AI API 调用，可能需要几分钟。为提升体验，我做了这些优化：

尽量并行处理视频
实时显示进度
本地保存高成本生成内容
允许用户单独重生成各部分

还实现了状态持久化。用户中途关闭浏览器，回来后可继续操作。原本没计划做这个，但测试时自己多次丢进度后，成了刚需。

核心收获与后续计划

这个工具让我有三点重要体会。

第一，提示词设计至关重要。 AI 输出质量很大程度取决于输入方式。我花的时间，提示词优化和写代码几乎一样多。

第二，用户体验比技术复杂度更重要。用户不关心背后有多少 AI 服务，只关心工具好不好用。进度提示、错误处理和快速反馈才是关键。

第三，Claude 这样的 AI 助手能极大加速开发。我专注于产品逻辑，重复代码和语法交给模型处理。这不是跳步骤，而是更聪明地搭建产品。

最初只是周末项目，最后变成了真正可扩展的工具。市场团队可用来做原型，初创公司做路演视频，创作者做商业合作内容。

系统设计灵活。可通过调整 VEO 2 提示词切换视频风格，修改场景时长适配不同格式，或添加

真正的机会在于多 AI 系统协作。单一模型无法生成完整广告，但 Gemini、VEO 2 和 ElevenLabs 结合后，效果远超单独使用。

这不是 AI 取代创作者，而是让创作者拥有更好工具。做内容 20 年，见证了很多变化，但这次的转变更为根本。

如果想了解 ElevenLabs 技术如何助力内容和媒体创新，欢迎联系销售团队.