
Eleven v3 Audio Tags:让 AI 音频具备情境感知
- 分类
- 资源
- 日期
随着 Eleven v3 发布,音频提示成为一项必备技能。现在不仅能输入或粘贴要让 AI 语音说的话,还能用全新功能——音频标签——来控制情感和表达方式。
Eleven v3 是一款 alpha 版本的 研究预览,基于全新模型。相比之前的模型,需要更多 提示词设计,但生成效果非常惊艳。
ElevenLabs 音频标签是用方括号包裹的词语,Eleven v3 新模型能识别并据此调整语音表现。例如 [excited]、[whispers]、[sighs],甚至 [gunshot]、[clapping]、[explosion] 等。
音频标签可调节 AI 语音的表现,包括语气、停顿、语速等非语言细节。无论是打造沉浸式有声书、互动角色还是对话内容,这些简单的脚本级工具都能精准控制情感和表达。
可在脚本任意位置插入音频标签,实时调整语音表现。标签可组合使用,甚至一句话内也能混用。标签主要分为几类:
这些标签可设定语音的情感基调,比如低落、激烈或愉快。可以单独或组合使用 [sad]、[angry]、[happily]、[sorrowful] 等。
这类标签主要调节语气和表现力。可用来调整音量和情绪强度,适合需要克制或强调的场景。例如:[whispers]、[shouts],甚至 [x accent]。
自然语音包含各种反应。可用这些标签让语音更真实,加入自然、即兴的细节。例如:[laughs]、[clears throat]、[sighs]。
这些功能基于 v3 新架构。模型能更深入理解文本语境,更自然地把握情感、语气变化和说话人切换。结合音频标签,TTS 表现力大幅提升。
现在还可以创建 多角色对话,让对话更自然,支持打断、情绪切换和细腻互动,只需简单提示即可实现。
专业语音克隆(PVC)目前尚未完全适配 Eleven v3,克隆质量可能低于旧版模型。在此研究预览阶段,如需用 v3 功能,建议选择即时语音克隆(IVC)或设计声音。PVC 适配 v3 很快上线。
Eleven v3 已在 ElevenLabs UI 上线,现 6 月底前享受 8 折优惠。Eleven v3(alpha)公测 API 也已开放。无论是试用还是大规模部署,现在正是探索新可能的好时机。
要让 AI 语音真正“演绎”而非只“朗读”,关键在于掌握音频标签。我们准备了 7 份简明实用指南,演示如何用 标签,如 【低语】, 【轻声笑】,或 【法国口音】,灵活控制语境、情感、语速,甚至多角色对话。
【低语】, 【喊叫】,以及 【叹气】,Eleven v3 可根据场景调整表现,强化氛围、缓和警告或制造悬念。【海盗语气】 到 【法国口音】,标签让旁白变成角色扮演。可随时切换角色,无需更换模型。【叹气】, 【兴奋】,或 【疲惫】,实时调节情绪,叠加紧张、轻松或幽默,无需重新录制。【停顿】, 【敬畏】,或 【戏剧性语气】,控制语速和重音,引导听众跟随每个节奏点。【打断】, 【重叠】 或语气切换,写出重叠台词和快速对话。一个模型,多种声音,一次完成自然对话。【停顿】, 【急促】,或 【拉长】,精准把控节奏,让文本变成表演。【美式口音】, 【英式口音】, 【美国南方口音】 等,无需更换模型即可实现多元文化表达。