跳到内容

Eleven v3 Audio Tags:让 AI 音频具备情境感知

通过 Eleven v3 Audio Tags 增强 AI 语音表现。可灵活控制语气、情感和语速,实现自然对话。为文本转语音加入情境感知。

v3

Audio Tags 是全新 Eleven v3(alpha)文本转语音模型的重要组成部分。可灵活控制语句的表达方式——调整语气、情感和语速,贴合真实场景。

Audio Tags 本质上是用方括号标注的词,模型会将其理解为表演提示。这样可以在一句话中随时调整表达,反映情感变化或情境转变,让 AI 具备一定的情境感知能力。

AI 语音中的情境感知是什么?

Background
Background

情境感知指的是 AI 能根据场景调整表达方式。通过 Audio Tags,不仅能控制模型说什么,还能决定它如何回应。

无论用 [SHOUTING] 增加紧迫感,用 [WHISPER] 柔化警告,还是用 [SIGH] 表现犹豫,标签都能让旁白变成表演。尤其适用于高情境或动态场景。

不仅仅是朗读,更是表演

比如你在为 Veo 3 制作一场 11 United 对阵 12 United 的足球集锦视频脚本,希望随着比赛推进气氛逐渐升温:“他晃过一名后卫——[EXCITED] 传中来了——[SHOUTING] 进球!”

或者为有声书配音紧张时刻:“[WHISPERING] 我觉得屋里有人。[PAUSE] 别出声。”

这些不是简单的风格修饰,而是决定场景氛围的关键。模型不再只是朗读,而是真正表演。

常用情境标签

Audio Tags 可模拟多种情感和动作提示:

  • 情感语气: [EXCITED]、[NERVOUS]、[FRUSTRATED]、[TIRED]
  • 反应: [GASP]、[SIGH]、[LAUGHS]、[GULPS]
  • 音量与能量: [WHISPERING]、[SHOUTING]、[QUIETLY]、[LOUDLY]
  • 语速与节奏: [PAUSES]、[STAMMERS]、[RUSHED]

标签可叠加,表现更细腻:“[NERVOUSLY] 我……我不确定这样行不行。[GULPS] 但还是试试吧。”

可控的表演

Eleven v3 通过更强的上下文模型支持这些标签。可在一句话中切换语气、处理打断、保持流畅,让表达更自然,无需反复修改脚本。

对声音设计师、游戏开发者和叙事创作者来说,这带来了全新创作空间。不只是写台词,更是在导演表演。

选择合适的音色

目前专业语音克隆(PVC)尚未完全适配 Eleven v3,克隆质量可能低于早期模型。在当前研究预览阶段,如需使用 v3 功能,建议选择即时语音克隆(IVC)或设计音色。PVC 对 v3 的优化即将上线。

查看更多 ElevenLabs 团队的文章

用高质量 AI 音频创作