跳到内容

Scribe v2 Realtime 已在 ElevenLabs Agents 上线

我们超低延迟的流式语音转文本模型,专为智能体场景优化,现已在 Agents 平台上线。

rt

实时智能体专用超低延迟语音转文本

本周,我们推出了 Scribe v2 实时——超低延迟流式语音转文本模型,专为对速度、准确率和对话精度有高要求的智能体场景设计。

Scribe v2 Realtime 可在 30-80 毫秒内转写语音,具备业界领先的准确率,让智能体能像人类一样自然应答。

为真实对话场景打造

大多数语音转文本系统在理想测试环境下表现良好,但在嘈杂环境、多样口音或包含姓名、邮箱、ID 等信息时,往往难以应对。

Scribe v2 Realtime 专为解决这些挑战而训练。

在我们内部基准测试中,针对数百段包含音质差、多种口音和语气词的英语对话,Scribe v2 Realtime 对用户意图的识别准确率高于所有同类实时 ASR 模型。

以下是我们在不同环境下测试 Scribe v2 Realtime 转写准确率的几个真实案例。

 / 
 / 

多语言识别领先

作为全球化公司,我们有大量智能体部署在西班牙语、葡萄牙语、印地语等多种语言环境,因此 Scribe v2 Realtime 在各地区都保持了业界领先的表现。

在 FLEURS 多语言基准测试中(覆盖 30 种语言),Scribe v2 Realtime 实现了所有低延迟 ASR 模型中最低的词错误率(WER)。

企业可借此快速上线多语言智能体,实现即时、准确响应,无需在速度和精度间妥协。

现已在 ElevenLabs Agents 上线

Scribe v2 Realtime 已全面集成至 ElevenLabs Agents,可在高级配置中启用。

product

查看更多 ElevenLabs 团队的文章

用高质量 AI 音频创作