
Eleven v3(alpha)全新发布
- 分类
- 研究
- 日期
我们最先进的 文本转语音 模型 Eleven v3 已结束 Alpha 测试,现已全面开放。
自 Alpha 版本发布后,我们持续优化了模型。主要改进包括:
更稳定。 测试中,72% 的用户更喜欢新版本,相比之前的 Alpha 版本。
更准确。 我们大幅提升了模型对数字、符号和专业符号在多语言环境下的处理能力。
文本转语音模型需要理解输入内容,并决定如何朗读。同样的符号在不同语境下含义不同。
比如电话号码:“+49 170 9876543”
有时模型会将其读作“加四十九,一百七十,九百八十七万六千五百四十三”,把数字当作大数而不是逐位数字。正确读法应为“加四九,一七零,九八七六五四三”。
这类错误在多种场景中都会出现,比如体育比分、化学式、货币、坐标等,只要模型需要判断符号含义并决定如何朗读。
我们基于内部基准测试,覆盖 8 种语言、27 个类别进行了测试。
整体结果: 错误率降低 68%,从 15.3% 降至 4.9%。
各类别错误率:
在需要根据语境判断含义的类别中提升最明显,比如冒号可能表示比分、时间或宽高比,具体取决于上下文。
示例
货币 — 数值识别准确:
输入:¥250,000
之前:25,000 日元
现在:250,000 日元
化学式 — 符号保留正确:
输入:SO₂
之前:“硫双”(读错)
现在:“S O 二”
体育比分 — 语境识别更准确:
输入:最终比分:102-98
之前:“一百零二减九十八”
现在:“一百零二比九十八”
Eleven v3 现已在所有平台全面开放。