跳到内容

Eleven v3 正式上线

作者
Joe Reeve
发布时间

收听收听本文

我们最先进的 文本转语音 模型 Eleven v3 已结束 Alpha 测试,现已全面开放。

自 Alpha 版本发布后,我们持续优化了模型。主要改进包括:

更稳定。 测试中,72% 的用户更喜欢新版本,相比之前的 Alpha 版本。

更准确。 我们大幅提升了模型对数字、符号和专业符号在多语言环境下的处理能力。

准确性提升

文本转语音模型需要理解输入内容,并决定如何朗读。同样的符号在不同语境下含义不同。

比如电话号码:“+49 170 9876543”

有时模型会将其读作“加四十九,一百七十,九百八十七万六千五百四十三”,把数字当作大数而不是逐位数字。正确读法应为“加四九,一七零,九八七六五四三”。

这类错误在多种场景中都会出现,比如体育比分、化学式、货币、坐标等,只要模型需要判断符号含义并决定如何朗读。

我们基于内部基准测试,覆盖 8 种语言、27 个类别进行了测试。

整体结果: 错误率降低 68%,从 15.3% 降至 4.9%。

各类别错误率:

Before
Chemical Formulas
45.6%
Phone Numbers
16.9%
URLs / Emails
45.6%
ISBNs
17.9%
License Plates
14.4%
Mathematical Expressions
23.8%
Geographic Coordinates
46.2%
After
Chemical Formulas
0.6%
Phone Numbers
0.6%
URLs / Emails
3.9%
ISBNs
0.0%
License Plates
1.2%
Mathematical Expressions
6.9%
Geographic Coordinates
17.5%
Error Reduction
Chemical Formulas
99%
Phone Numbers
99%
URLs / Emails
91%
ISBNs
100%
License Plates
91%
Mathematical Expressions
71%
Geographic Coordinates
62%

在需要根据语境判断含义的类别中提升最明显,比如冒号可能表示比分、时间或宽高比,具体取决于上下文。

示例

货币 — 数值识别准确:

输入:¥250,000

之前:25,000 日元

现在:250,000 日元

化学式 — 符号保留正确:

输入:SO₂

之前:“硫双”(读错)

现在:“S O 二”

体育比分 — 语境识别更准确:

输入:最终比分:102-98

之前:“一百零二减九十八”

现在:“一百零二比九十八”

可用性

Eleven v3 现已在所有平台全面开放。

相关内容

用高质量 AI 音频创作