跳到内容

Eleven v3 正式上线

我们最先进的文本转语音模型 Eleven v3 已结束 Alpha 测试,现已全面开放使用。

Eleven v3, our most advanced Text to Speech model, is now out of Alpha and generally available.

我们最先进的 文本转语音 模型 Eleven v3 已结束 Alpha 测试,现已全面开放。

自 Alpha 版本发布后,我们持续优化了模型。主要改进包括:

更稳定。 测试中,72% 的用户更喜欢新版本,相比之前的 Alpha 版本。

更准确。 我们大幅提升了模型对数字、符号和专业符号在多语言环境下的处理能力。

准确性提升

文本转语音模型需要理解输入内容,并决定如何朗读。同样的符号在不同语境下含义不同。

比如电话号码:“+49 170 9876543”

有时模型会将其读作“加四十九,一百七十,九百八十七万六千五百四十三”,把数字当作大数而不是逐位数字。正确读法应为“加四九,一七零,九八七六五四三”。

这类错误在多种场景中都会出现,比如体育比分、化学式、货币、坐标等,只要模型需要判断符号含义并决定如何朗读。

我们基于内部基准测试,覆盖 8 种语言、27 个类别进行了测试。

整体结果: 错误率降低 68%,从 15.3% 降至 4.9%。

各类别错误率:

Before
Chemical Formulas
45.6%
Phone Numbers
16.9%
URLs / Emails
45.6%
ISBNs
17.9%
License Plates
14.4%
Mathematical Expressions
23.8%
Geographic Coordinates
46.2%
After
Chemical Formulas
0.6%
Phone Numbers
0.6%
URLs / Emails
3.9%
ISBNs
0.0%
License Plates
1.2%
Mathematical Expressions
6.9%
Geographic Coordinates
17.5%
Error Reduction
Chemical Formulas
99%
Phone Numbers
99%
URLs / Emails
91%
ISBNs
100%
License Plates
91%
Mathematical Expressions
71%
Geographic Coordinates
62%

在需要根据语境判断含义的类别中提升最明显,比如冒号可能表示比分、时间或宽高比,具体取决于上下文。

示例

货币 — 数值识别准确:

输入:¥250,000

之前:25,000 日元

现在:250,000 日元

化学式 — 符号保留正确:

输入:SO₂

之前:“硫双”(读错)

现在:“S O 二”

体育比分 — 语境识别更准确:

输入:最终比分:102-98

之前:“一百零二减九十八”

现在:“一百零二比九十八”

可用性

Eleven v3 现已在所有平台全面开放。

查看更多 ElevenLabs 团队的文章

用高质量 AI 音频创作