
认识 Flash
- 分类
- 研究
- 日期
Scribe 是我们的首个 语音转文本模型,也是全球最精准的转写模型。专为应对真实场景下的音频而设计,Scribe 支持 99 种语言转写,具备词级时间戳、说话人分离和音频事件标记,结构化输出便于无缝集成。
Scribe 追求极致精准。在 FLEURS 和 Common Voice 基准测试中,Scribe 在 99 种语言上持续优于 Gemini 2.0 Flash、Whisper Large V3 和 Deepgram Nova-3 等主流模型。无论是会议纪要、影视字幕还是歌词,Scribe 在意大利语(98.7%)、英语(96.7%)及其他 97 种语言中都实现了最低的自动转写词错误率。
Scribe 让 ASR 普及易用,大幅降低塞尔维亚语、粤语、马拉雅拉姆语等传统弱势语言的转写错误率,而同类模型在这些语言上的词错误率常常超过 40%。

开发者可通过我们的 语音转文本 API集成 Scribe,获取带说话人分离、词级时间戳和非语音事件标记(如笑声)的结构化 JSON 转写结果。低延迟实时应用版本即将上线。
创作者和企业可直接在 ElevenLabs 控制台上传音频或视频文件,生成格式化转写文本。
立即用 Scribe 开发:


研究负责人、训练、架构
Flavio Schneider
项目负责人、预训练数据、微调数据
Tim von Känel
推理、优化
Maximiliano Levi
研究贡献者
Johan Nordberg、Piotr Dabkowski
前端开发
Austin Malerba
后端开发
Hristo Stoychev
数据采集
Alex George
