跳到内容

Scribe v2 Realtime 全新发布

今天推出 Scribe v2 Realtime,这是目前最精准、延迟最低的语音转文本模型,实时转写延迟低于 150 毫秒。

Scribe v2 Realtime

Scribe v2 Realtime:实时转写最精准的模型

Scribe v2 Realtime

Scribe v2 Realtime 为低延迟语音转文本树立了新标准。

专为实时场景设计——语音智能体、会议助手、实时字幕等,支持英语、法语、德语、意大利语、西班牙语、葡萄牙语及 90 种语言,语音转写延迟低于 150 毫秒。

Scribe v2 Realtime benchmark

Scribe v2 Realtime 针对智能体场景专门打造。在包含背景噪音和复杂信息的 500 个高难样本上,表现远超其他模型。

主要特性

  • 负延迟:可预测下一个词和标点
  • 自动语言检测:支持任意语言,通话中可随时切换
  • 文本条件控制:Scribe v2 Realtime 可根据上一批内容继续转写,适用于重连场景
  • 语音活动检测(VAD)
  • 手动提交:可完全控制转写片段的最终确认时机
  • 多种音频格式:支持 PCM(48kHz)和 μ-law 编码
  • 企业级支持,符合 SOC 2、ISO 27001、PCI DSS L1、HIPAA 和 GDPR 标准,支持欧盟和印度数据本地化及敏感数据零留存模式

Scribe v2 Realtime 实现了实时的人类级理解,让对话自然流畅,现场环境下可即时响应。Scribe v2 Realtime 在 30 种常用欧亚语言中,准确率达 93.5%。

通过 API 集成

Scribe v2 Realtime 现已通过 ElevenLabs API 提供。

查看文档:https://elevenlabs.io/docs/cookbooks/speech-to-text/streaming

Scribe v2 Realtime API

在 ElevenLabs 智能体中使用 Scribe v2 Realtime

部署由 Scribe v2 Realtime 驱动的自然人声智能体。可为客服、销售或产品内体验打造能实时理解和响应的语音助手。

了解详情:https://elevenlabs.io/agents

Scribe v2 Realtime for Agents

立即开始集成

可通过 API 或直接在 ElevenLabs 智能体中使用 Scribe v2 Realtime。

立即注册:https://elevenlabs.io/app/sign-up

查看更多 ElevenLabs 团队的文章

用高质量 AI 音频创作