跳到内容

Scribe v2 全新发布

今天推出 Scribe v2:有史以来最精准的转录模型,支持超过 90 种语言。

Introducing Scribe v2

Scribe v2 专为大批量转录、字幕和字幕制作而设计。相比 Scribe v1,稳定性和准确性进一步提升,更好地处理长音频、停顿、语调变化和长时间静音。

Introducing Scribe v2

Scribe v2 Realtime 针对超低延迟和智能体场景优化,而 Scribe v2 更适合长时复杂录音,能在多说话人、不同口音和表达风格下保持高准确率,适应各种真实音频环境,始终输出可靠转录结果。


Scribe v2 在行业标准测试中实现了最低词错误率。

Scribe v2 FLEURS benchmark

关键词提示,支持上下文感知转录

关键词提示不仅仅是自定义词汇,还能结合转录内容上下文。可选择最多 100 个词或短语,Scribe v2 会智能判断何时转录这些术语,特别适合技术领域、品牌名称和行业专用语言。

Scribe v2 keyterm prompting

内置实体检测,精确时间戳标记

Scribe v2 原生支持实体检测,便于结构化音频分析。

可选择多达 56 个类别,涵盖个人身份信息、健康数据或支付信息。Scribe v2 会自动检测这些内容及其在转录中的精确时间点,便于大规模审核、脱敏或处理敏感信息。

详细信息请参见 API 文档:https://elevenlabs.io/docs/developers/guides/cookbooks/speech-to-text/batch/entity-detection

自动多语言转录

Scribe v2 原生支持智能多语言 workflow。

可上传包含多种语言的音频文件,模型会自动识别每种语言并准确转录,无需手动分段或配置。

面向生产 workflow 的更多功能

Scribe v2 提供多项专为企业和开发者设计的功能:

  • 智能说话人分离,清晰直观标记说话人
  • 精确到词级的时间戳,便于字幕对齐和交互体验
  • 动态音频标签,自动检测笑声、脚步声等非语音事件
  • 企业级合规支持:SOC 2、ISO 27001、PCI DSS L1、HIPAA、GDPR,支持欧盟和印度数据本地化及零数据留存模式

Scribe v2 已集成至 ElevenLabs Studio

Scribe v2 现已应用于 ElevenLabs Studio,带来更精准的字幕、转录,助力团队高效管理营销、媒体、研究、培训、合规等场景下的大量音视频内容。

Scribe v2 in Studio

立即试用:https://elevenlabs.io/app/studio

API 集成开发

借助 Scribe v2,开发者和企业可自动化复杂音频流程,提升全球内容 workflow 的准确率,并通过合规和数据本地化控制实现安全扩展。

Scribe v2 Keyterm prompting code snippet

Scribe v2 现已通过我们的 API 和 Creative 平台上线。

立即试用:https://elevenlabs.io/app/speech-to-text

查看文档:https://elevenlabs.io/docs/capabilities/speech-to-text

立即注册:https://elevenlabs.io/speech-to-text

查看更多 ElevenLabs 团队的文章

用高质量 AI 音频创作