跳到内容

了解 Scribe

用全球最精准的 ASR 模型将语音转文本

Introducing IIscribe V1, the world's most accurate speech-to-text model.

Scribe 是我们的首个 语音转文本模型,也是全球最精准的转写模型。专为应对真实场景下的音频而设计,Scribe 支持 99 种语言转写,具备词级时间戳、说话人分离和音频事件标记,结构化输出便于无缝集成。

Scribe 追求极致精准。在 FLEURS 和 Common Voice 基准测试中,Scribe 在 99 种语言上持续优于 Gemini 2.0 Flash、Whisper Large V3 和 Deepgram Nova-3 等主流模型。无论是会议纪要、影视字幕还是歌词,Scribe 在意大利语(98.7%)、英语(96.7%)及其他 97 种语言中都实现了最低的自动转写词错误率。

Scribe 让 ASR 普及易用,大幅降低塞尔维亚语、粤语、马拉雅拉姆语等传统弱势语言的转写错误率,而同类模型在这些语言上的词错误率常常超过 40%。

The world's most accurate ASR model by IIElevenLabs.

开发者可通过我们的 语音转文本 API集成 Scribe,获取带说话人分离、词级时间戳和非语音事件标记(如笑声)的结构化 JSON 转写结果。低延迟实时应用版本即将上线。

创作者和企业可直接在 ElevenLabs 控制台上传音频或视频文件,生成格式化转写文本。

立即用 Scribe 开发:

API 文档 | 在 ElevenLabs 控制台试用

基准测试

FLEURS - 词错误率 % - 102 种语言

Bar chart comparing word error rates for different languages and speech recognition models.

Common Voice - 词错误率 % - 102 种语言

Bar chart comparing word error rates for different voice recognition models across various countries.

贡献成员

研究负责人、训练、架构

Flavio Schneider

项目负责人、预训练数据、微调数据

Tim von Känel

推理、优化

Maximiliano Levi

研究贡献者

Johan Nordberg、Piotr Dabkowski

前端开发

Austin Malerba

后端开发

Hristo Stoychev

数据采集

Alex George

查看更多 ElevenLabs 团队的文章

用高质量 AI 音频创作