
人声分离 API 上线
- 分类
- ElevenAPI
- 日期
如何打造一款 AI 工具,将简单提示词变成完整视频广告。
我做内容创作已有 20 年——从新闻到产品视频。AI 让全新创作流程成为可能。随着氛围编程和视频生成越来越真实,我开始思考,能否用一个简单提示词就生成 20 秒广告。
思路很简单:输入一个粗略的产品想法,AI 就能生成包含画面、旁白和音效的完整 30 秒广告。下面介绍我是如何用 ElevenLabs 文本转语音 和 SFX API、Google 的 Gemini 以及 Google 的 VEO 2 来生成视频的。当时 VEO 3 还未发布。
最终版本几乎完全用 Anthropic 的 Claude 4 Opus 完成,不过因为频率限制,花了几天时间。
后端选用 Node.js 和 Express,前端用 React。Node 负责视频生成时的实时更新,React 的组件化结构让多步骤界面易于管理和扩展。
我从小就断断续续写代码——小学时用过画图机器人。但我一直更偏向产品思维,而不是全职工程师。像 Claude 4 Opus 这样的工具改变了这一点。只要提示词合适,就能快速推进,正确实现功能,把精力放在产品逻辑上,而不是重复代码。
这不是把创意交给 AI,而是用合适的工具更高效地创作。

即使只有 20 秒的新产品或服务广告,也涉及多个复杂环节,所以我把流程拆分为八个阶段:
每一步都在前一步基础上推进,把一个简单想法变成完整广告。每个阶段用户都能完全掌控,随时修改或重新生成文本、视频或音频。
第一个难点是,大多数人一开始并没有成型的产品想法。可能只会输入“提升效率的东西”这种模糊描述,这时就需要 Gemini。
我用 Google 的 Gemini 2.0 Flash 模型,把粗糙想法细化为具体产品概念。提示词设计很关键——要让 Gemini 输出具体、明确的内容,而不是泛泛而谈。比如把“健身相关”转化为“FitPulse AI:一款利用高级生物识别技术,为你定制全天微型锻炼的智能手环”。
接下来是脚本生成。还是用 Gemini,把输出结构化为 4 个 5 秒场景,每个场景包含三部分:
关键在于让 Gemini 理解氛围和受众。面向年轻人的“有趣”广告和面向企业客户的“专业”广告,语言完全不同。
我花了不少时间优化提示词,避免千篇一律的 AI 腔,确保脚本贴合每个产品。
我用 FAL.ai 托管的 Google VEO 2 模型 API。每个场景的视频提示词发给 FAL.ai,返回一个 5 秒视频片段。这部分集成最复杂——要处理生成时间长、API 限制,还要在等待时给用户反馈。
原本打算用 Google AI Studio 或 Vertex AI 调用 Veo 2 API,这样和 Gemini 用同一个 API 密钥,但 Veo 2 在我的账号上无法使用。
我实现了状态管理系统,把生成的视频本地保存,用户离开页面再回来时不用重新生成这些高成本内容。遇到 Claude 频率限制时,最不想看到的就是刷新页面后视频丢失。
生成 20 秒视频内容(不重剪、不重生成)大约花费 10 美元。
这一步我用到了 ElevenLabs 的 API。虽然 ElevenLabs 主要用于语音生成,但我们的音效 API 也非常强大。可以参考 音效面板 的精彩用例。
我用它为每个场景生成四种音效风格:音效 ——活力、动感、平静、戏剧化。用户可试听每个选项,选择最符合自己想法的效果。
有了四段视频和四条音效轨道,需要把它们合成。这就要用到视频处理利器 FFmpeg。后端通过 FFmpeg 命令实现:
调试 FFmpeg 命令花了不少功夫。尤其是音频混音,要特别注意音量和时序。实践中发现,背景音混入旁白时音量应降到 30% 左右,太高会抢戏,太低则几乎听不见。
旁白部分,我集成了 ElevenLabs 的 文本转语音 API,让用户可以选择不同音色。系统会把所有场景脚本合成为一段完整旁白,再用优化后的音色参数发送给 ElevenLabs:
这些设置能带来清晰、专业的广告解说。多次尝试后,我发现这样既统一又不机械。
集成多个 AI API,难免遇到各种异常:频率限制、超时、响应格式错误等。尤其凌晨两点调试时,VEO 2 偶尔还会返回奇怪结果。
我实现了全面的错误处理和备用方案:
目标是确保用户始终能完成广告制作,即使部分 AI 服务偶尔出错。
生成广告涉及多次 AI API 调用,可能需要几分钟。为提升体验,我做了这些优化:
还实现了状态持久化。用户中途关闭浏览器,回来后可继续操作。原本没计划做这个,但测试时自己多次丢进度后,成了刚需。
这个工具让我有三点重要体会。
第一,提示词设计至关重要。 AI 输出质量很大程度取决于输入方式。我花的时间,提示词优化和写代码几乎一样多。
第二,用户体验比技术复杂度更重要。 用户不关心背后有多少 AI 服务,只关心工具好不好用。进度提示、错误处理和快速反馈才是关键。
第三,Claude 这样的 AI 助手能极大加速开发。 我专注于产品逻辑,重复代码和语法交给模型处理。这不是跳步骤,而是更聪明地搭建产品。
最初只是周末项目,最后变成了真正可扩展的工具。市场团队可用来做原型,初创公司做路演视频,创作者做商业合作内容。
系统本身非常灵活。可通过调整 VEO 2 提示词改变视频风格,按需修改场景时长,或用 FFmpeg 添加音乐。
真正的机会在于多 AI 系统协作。单一模型无法生成完整广告,但 Gemini、VEO 2 和 ElevenLabs 结合后,效果远超单独使用。
这不是 AI 取代创作者,而是让创作者拥有更好工具。做内容 20 年,见证了很多变化,但这次的转变更为根本。
如果想了解 ElevenLabs 技术如何助力内容和媒体创新,欢迎联系销售团队.