.webp&w=3840&q=80)
用 ElevenLabs 旁白和音效让 Veo 2 视频焕发生机
- 分类
- 产品
- 日期
拍摄雕像,识别人物,然后与他们实时语音对话——每个角色都用独特且符合时代的声音说话。
这些都可以通过 ElevenLabs 的声音设计和 Agent API 实现。本文将介绍一个结合了计算机视觉和语音生成的移动 Web 应用架构,让公共雕像变成可互动体验。下方 API 和代码示例均可复现。
下方整个应用仅用一条提示词构建,并已在光标 中用 Claude Opus 4.5(高配)从空白 NextJS 项目一键生成。如果想直接上手,可将以下内容粘贴到编辑器:
你也可以使用ElevenLabs 智能体技能,无需查阅文档。这些基于文档,效果甚至更好。
下文将详细拆解该提示词生成的内容。
流程共分为五步:
用户拍摄雕像后,图片会发送到支持视觉的 OpenAI 模型。结构化系统提示词会提取艺术品名称、地点、艺术家、年代,以及每个角色的详细声音描述。系统提示词包含预期的 JSON 输出格式:
以伦敦威斯敏斯特大桥上的布狄卡雕像为例,返回结果如下:
声音描述的质量直接决定生成音色的效果。声音设计提示词指南有详细说明,重点包括:音质标注(“完美音质。”)、年龄和性别、语气/音色(低沉、浑厚、沙哑)、具体口音(如“浓重的凯尔特英国口音”,不要只写“英国口音”),以及语速。描述越具体,效果越准确——比如“60 多岁、幽默感十足的纽约老太太”远比“年长女性声音”更好。
指南还提到几点:描述口音时用“浓重”而非“强烈”,避免用“外国人”等模糊词汇;虚构或历史人物可参考现实口音(如“古代凯尔特女王,浓重英国口音,庄重有威严”)。
声音设计 API可根据文本描述生成全新合成音色,无需音频样本或克隆。非常适合没有原始音频的历史人物。
流程分两步。
文本内容很重要。更长、贴合角色的样本文本(50 字以上)能生成更稳定的音色——建议用角色台词而非通用问候语。声音设计提示词指南有详细说明。
试听生成后,选择一个并创建为永久音色:
多角色雕像可并行生成音色。五个角色的音色生成时间与单个角色几乎相同:
音色创建完成后,下一步是配置ElevenLabs 智能体,可实时切换不同角色音色。
supportedVoices 数组用于告知 Agent 可用音色。Agents 平台会自动切换音色——当 LLM 响应中出现不同角色时,TTS 引擎会将对应片段分配到正确音色。
让多个角色像真实群体互动,而非轮流问答,需要精心设计提示词:
最后一步是客户端连接。ElevenLabs Agents 支持 WebRTC,实现低延迟语音对话——比基于 WebSocket 的连接更快,有助于自然轮流发言。
useConversation hook 负责音频采集、流式传输、语音活动检测和播放。
如需在对话前了解更多历史背景,可用 OpenAI 的网页搜索工具添加增强研究模式:
本项目展示了结合文本、研究、视觉和音频等多模态 AI,可打造跨越数字与现实世界的互动体验。多模态智能体还有很多未被探索的潜力,欢迎大家在教育、工作和娱乐等场景中尝试。
本项目用到的 API——声音设计,ElevenAgents 和 OpenAI——现已开放使用。