
Eleven v3(alpha)全新发布
- 分类
- 研究
- 日期
通过 Eleven v3 Audio Tags 增强 AI 语音表现。可灵活控制语气、情感和语速,实现自然对话。为文本转语音加入情境感知。
Audio Tags 是全新 Eleven v3(alpha)文本转语音模型的重要组成部分。可灵活控制语句的表达方式——调整语气、情感和语速,贴合真实场景。
Audio Tags 本质上是用方括号标注的词,模型会将其理解为表演提示。这样可以在一句话中随时调整表达,反映情感变化或情境转变,让 AI 具备一定的情境感知能力。
情境感知指的是 AI 能根据场景调整表达方式。通过 Audio Tags,不仅能控制模型说什么,还能决定它如何回应。
无论用 [SHOUTING] 增加紧迫感,用 [WHISPER] 柔化警告,还是用 [SIGH] 表现犹豫,标签都能让旁白变成表演。尤其适用于高情境或动态场景。
比如你在为 Veo 3 制作一场 11 United 对阵 12 United 的足球集锦视频脚本,希望随着比赛推进气氛逐渐升温:“他晃过一名后卫——[EXCITED] 传中来了——[SHOUTING] 进球!”
或者为有声书配音紧张时刻:“[WHISPERING] 我觉得屋里有人。[PAUSE] 别出声。”
这些不是简单的风格修饰,而是决定场景氛围的关键。模型不再只是朗读,而是真正表演。
Audio Tags 可模拟多种情感和动作提示:
标签可叠加,表现更细腻:“[NERVOUSLY] 我……我不确定这样行不行。[GULPS] 但还是试试吧。”
Eleven v3 通过更强的上下文模型支持这些标签。可在一句话中切换语气、处理打断、保持流畅,让表达更自然,无需反复修改脚本。
对声音设计师、游戏开发者和叙事创作者来说,这带来了全新创作空间。不只是写台词,更是在导演表演。
目前专业语音克隆(PVC)尚未完全适配 Eleven v3,克隆质量可能低于早期模型。在当前研究预览阶段,如需使用 v3 功能,建议选择即时语音克隆(IVC)或设计音色。PVC 对 v3 的优化即将上线。