Eleven v3 Audio Tags：让 AI 音频具备情境感知

收听收听本文

0:00

0:000:00

Audio Tags 是全新 Eleven v3（alpha）

Audio Tags 本质上是用方括号标注的词，模型会将其理解为表演提示。这样可以在一句话中随时调整表达，反映情感变化或情境转变，让 AI 具备一定的情境感知能力。

情境感知指的是 AI 能根据场景调整表达方式。通过 Audio Tags，不仅能控制模型说什么，还能决定它如何回应。

无论用 [SHOUTING] 增加紧迫感，用 [WHISPER] 柔化警告，还是用 [SIGH] 表现犹豫，标签都能让旁白变成表演。尤其适用于高情境或动态场景。

比如你在为 Veo 3 制作一场 11 United 对阵 12 United 的足球集锦视频脚本，希望随着比赛推进气氛逐渐升温：“他晃过一名后卫——[EXCITED] 传中来了——[SHOUTING] 进球！”

或者你正在为一段悬疑情节配音，

这些不是简单的风格修饰，而是决定场景氛围的关键。模型不再只是朗读，而是真正表演。

Audio Tags 可模拟多种情感和动作提示：

标签可叠加，表现更细腻：“[NERVOUSLY] 我……我不确定这样行不行。[GULPS] 但还是试试吧。”

Eleven v3 通过更强的上下文模型支持这些标签。可在一句话中切换语气、处理打断、保持流畅，让表达更自然，无需反复修改脚本。

适用于

选择合适的音色

专业语音克隆（PVC）目前尚未针对 Eleven v3 完全优化，克隆质量可能低于早期模型。在当前的研究预览阶段，如需使用 v3 功能，建议选择即时