
ElevenAgents React SDK v1.0
- 分类
- 产品
- 日期
我们超低延迟的流式语音转文本模型,专为智能体场景优化,现已在 Agents 平台上线。
本周,我们推出了 Scribe v2 实时——超低延迟流式语音转文本模型,专为对速度、准确率和对话精度有高要求的智能体场景设计。
Scribe v2 Realtime 可在 30-80 毫秒内转写语音,具备业界领先的准确率,让智能体能像人类一样自然应答。
大多数语音转文本系统在理想测试环境下表现良好,但在嘈杂环境、多样口音或包含姓名、邮箱、ID 等信息时,往往难以应对。
Scribe v2 Realtime 专为解决这些挑战而训练。
在我们内部基准测试中,针对数百段包含音质差、多种口音和语气词的英语对话,Scribe v2 Realtime 对用户意图的识别准确率高于所有同类实时 ASR 模型。
以下是我们在不同环境下测试 Scribe v2 Realtime 转写准确率的几个真实案例。
作为全球化公司,我们有大量智能体部署在西班牙语、葡萄牙语、印地语等多种语言环境,因此 Scribe v2 Realtime 在各地区都保持了业界领先的表现。
在 FLEURS 多语言基准测试中(覆盖 30 种语言),Scribe v2 Realtime 实现了所有低延迟 ASR 模型中最低的词错误率(WER)。
企业可借此快速上线多语言智能体,实现即时、准确响应,无需在速度和精度间妥协。
Scribe v2 Realtime 已全面集成至 ElevenLabs Agents,可在高级配置中启用。
