
全新 Voice Design v3 上线
- 分类
- 研究
- 日期
最具表现力的文本转语音模型
我们很高兴推出 Eleven v3(alpha)——最具表现力的文本转语音模型.
本次研究预览为语音生成带来前所未有的可控性和真实感,主要特性包括:
Eleven v3(alpha)需要更多提示词设计,相比之前的模型,但生成效果极为惊艳。
如果你在制作视频、有声书或媒体工具,这将带来全新的表现力。实时和对话场景建议继续使用 v2.5 Turbo 或 Flash。v3 的实时版本正在开发中。
Eleven v3 现已在我们的网站和API.
自从推出多语言 v2 后,AI 语音已被广泛应用于专业影视、游戏开发、教育和无障碍领域。但始终的限制不是音质,而是表现力。更夸张的情感、对话打断和自然的互动一直难以实现。
Eleven v3 正是为了解决这一问题。从底层重构,支持叹息、低语、笑声和实时反应,让语音更真实、更有生命力。
| Feature | What it unlocks |
|---|---|
| Audio tags | Inline control of tone, emotion, and non-verbal reactions |
| Dialogue mode | Multi-speaker conversations with natural pacing and interruptions |
| 70+ languages | Full coverage of high-demand global languages |
| Deeper text understanding | Better stress, cadence, and expressivity from text input |
音频标签可直接嵌入脚本,格式为小写方括号。详细用法可参考我们的v3 提示词指南.
专业语音克隆(PVC)目前尚未完全适配 Eleven v3,克隆质量可能低于早期模型。研究预览阶段,如需使用 v3 功能,建议选择即时语音克隆(IVC)或设计声音。PVC 的 v3 适配即将上线。
例如,可以这样输入提示词:“[whispers] 有东西来了…… [sighs] 我能感觉到。”如需更丰富的表现力,也可组合多个标签:
Eleven v3 已支持现有文本转语音接口。同时,我们还推出了全新文本对话 API 接口。只需提供结构化的 JSON 数组,每个对象代表一位说话人,模型即可生成连贯、可重叠的音频文件:
接口会自动处理说话人切换、情感变化和打断。
详细了解请见这里.
| Plan | Launch promo | At the end of June |
|---|---|---|
| UI (self-serve) | 80% off (~5× cheaper) | Same as Multilingual V2 |
| UI (enterprise) | 80% off business plan pricing | Business plan pricing |
启用 v3:
API 接入和 Studio 支持即将上线。如需提前体验,请联系销售.
Eleven v3(alpha)对提示词设计要求更高,生成效果惊艳,但稳定性和延迟较高,不适合实时和对话场景。此类需求建议使用 Eleven v2.5 Turbo/Flash。
更多信息请参考完整v3 文档和常见问题。
期待你用 v3 实现更多新场景——无论是沉浸式故事还是影视制作流程。