Eleven v3 音频标签：引导角色表现

收听收听本文

0:00

0:000:00

音频标签是 Eleven v3（alpha）新研究预览版中的强大工具

通过类似 [pirate voice]、[French accent] 或 [sarcastically] 这样的标签，声音不再只是叙述工具，更能讲故事。结合高质量的角色语音克隆，不只是还原声音，更能呈现完整表演。

这些标签让你可以在一句话中切换声音身份、模仿口音，或塑造反派、旁白、配角等角色，无需更改脚本或切换音色。

角色表现就是进入某个角色。不管是夸张的反派、粗犷的船长，还是墨尔本的小店主，全新音频标签都能让你引导表达，贴合想要呈现的人物形象。

只需简单加上方括号标签，就能设定场景：“[pirate voice] Arr，大海无垠。闻到了吗，伙计们？那是自由的味道……还有一丝叛变的气息。”

模型不仅仅是读出单词，而是以角色身份来表演。

声音表现不仅仅是音量或情感，更关乎“谁”在说话。通过 Eleven v3，可以随时切换口音、方言和说话风格。例如：

[American accent] 旧模型能切换口音吗？[dismissive] 我就知道不行。[Australian accent] 但现在可以了——来看看吧，伙计！[French accent] 我的爱……就像一朵红玫瑰。

这种灵活切换身份的能力，非常适合动画、游戏、互动小说等需要突出角色个性的场景。

以角色为核心的标签可以塑造声音身份和表现力：

叠加标签能让角色更生动：“[dramatic][French accent] 你不明白……这从来不是为了复仇，而是命运。”

在多角色剧本中，音频标签让切换声音变得简单。只需在对话中切换角色表现，就能增加紧张感、幽默或惊喜，无需额外剪辑。

以下是演示片段： “Jessica: [laughs] 太美了。Dr. Von Fusion: [dramatic] 生存还是毁灭——这是个问题！Jessica: [French accent] 太精彩了，不是吗？”

过去需要整组配音演员，现在只需一条音轨就能实现丰富表现，且不损失层次感。

Eleven v3 支持动态切换声音、上下文变化和角色间一致表达。也就是说，模型不仅理解内容，还知道方式每个角色该如何表达。

对创作者来说，这带来了全新控制维度。不只是写对话，更是在导演表演。

选择合适的声音

专业语音克隆（PVC）目前尚未针对 Eleven v3 完全优化，克隆质量可能低于早期模型。当前为研究预览阶段，如需使用 v3 功能，建议选择即时