Eleven v3 音频标签是什么，有什么用

收听收听本文

0:00

0:000:00

随着 Eleven v3 发布，音频提示成为一项必备技能。现在不仅能输入或粘贴要让 AI 语音说的话，还能用全新功能——音频标签——来控制情感和表达方式。

Eleven v3 是一款 alpha 版本的研究预览，基于全新模型。相比之前的模型，需要更多提示词设计，但生成效果非常惊艳。

ElevenLabs 音频标签是用方括号包裹的词语，Eleven v3 新模型能识别并据此调整语音表现。例如 [excited]、[whispers]、[sighs]，甚至 [gunshot]、[clapping]、[explosion] 等。

音频标签可自定义

用音频标签引导演绎

可在脚本任意位置插入音频标签，实时调整语音表现。标签可组合使用，甚至一句话内也能混用。标签主要分为几类：

这些标签可设定语音的情感基调，比如低落、激烈或愉快。可以单独或组合使用 [sad]、[angry]、[happily]、[sorrowful] 等。

这类标签主要调节语气和表现力。可用来调整音量和情绪强度，适合需要克制或强调的场景。例如：[whispers]、[shouts]，甚至 [x accent]。

自然语音包含各种反应。可用这些标签让语音更真实，加入自然、即兴的细节。例如：[laughs]、[clears throat]、[sighs]。

这些功能背后是 v3 的全新架构。模型能更深入理解文本语境，更自然地把握情感变化、语气转换和说话人切换。结合音频标签，带来比以往更丰富的表达能力，突破传统

现在还可以创建多角色对话，让对话更自然，支持打断、情绪切换和细腻互动，只需简单提示即可实现。

专业语音克隆（PVC）目前尚未完全适配 Eleven v3，克隆质量可能低于早期模型。在当前研究预览阶段，如需使用 v3 功能，建议选择即时

Eleven v3 已在 ElevenLabs UI 上线，现 6 月底前享受 8 折优惠。Eleven v3（alpha）公测 API 也已开放。无论是试用还是大规模部署，现在正是探索新可能的好时机。

要让 AI 语音真正“演绎”而非只“朗读”，关键在于掌握音频标签。我们准备了 7 份简明实用指南，演示如何用标签，如 【低语】, 【轻声笑】，或 【法国口音】，灵活控制语境、情感、语速，甚至多角色对话。