跳到内容

实时语音转文本

即时转写语音内容

Scribe v2 Realtime 是最精准的实时转写模型,延迟仅 150 毫秒,支持 90 多种语言。可通过 API 使用。

全新 Scribe v2 Realtime,专为速度与准确率打造

超快、超准,专为实时语音打造。Scribe v2 Realtime 为智能体、会议和对话式 AI 提供即时转写。

高准确率

基于全球多样化数据训练,并针对自然语音精调,Scribe 在主流语言和口音下实现行业领先的词错误率。

Scribe 在准确率基准测试中超越所有同类模型

超低延迟

音频流式传输,约 150 毫秒内返回转写结果,助力智能体、会议和对话式 AI 实时理解。

为智能体、应用和多语言场景提供实时语音转写

Scribe Card background
Live call
I’m
happy
to
help.
What’s
your
email
address?
It’s
john.doe@me.com
Thanks.
And
your
phone
number?
1-800-404

专为智能体和语音应用打造

Scribe v2 Realtime 专为开发者打造,适用于对速度和准确率要求极高的对话式智能体、会议助手和语音应用。

Japanese
Hindi
Polish
Swedish
Mandarin
Vietnamese
French

精准识别 90 种语言语音

Scribe v2 Realtime 在 90 种语言中都能保持高准确率,轻松应对各种口音、方言和声学环境。

多种音频格式

支持 PCM(8–48 kHz)和 μ-law 编码,兼容电话、浏览器和录音棚场景。

语音活动检测

自动检测语音起止,精准分段音频,实现流畅高效的实时转写。

手动提交控制

开发者可自定义何时提交转写结果,适合自定义流式场景和精细化准确率需求。

专为实时性能设计的语音识别

V2
V1
V2

基于新一代模型

基于 Scribe v1 打造,Scribe v2 Realtime 实现约 150 毫秒延迟,在不同口音、语调和环境下都能保持突破性准确率。

Scribe
makes
uses
is
has
new

预测式转写,极低延迟

Scribe v2 Realtime 采用预测式转写,提前判断下一个最可能的词和标点,实现实时高准确率。

复杂词汇支持

内置复杂词汇支持,包括技术术语、药品名称和专有名词。

流式传输支持

音频可持续分段发送,实时返回转写结果,无需缓冲,真正实现实时理解。

文本条件优化

即使连接重置,Scribe v2 Realtime 也能无缝继续转写。

企业级安全与大规模基础设施

Foreground

即使在复杂环境下也能保持高准确率

Scribe Background 2

Natural Speech

Filler words, pauses and emotional cues

Scribe 1

Low-quality Audio

Background noise or low-bandwidth audio

Scribe background 4

Accents

Diverse accents and pronunciations

Scribe background 3

Domain Terms

Acronyms, brands, financial or medical terms

适用于各类工作流程,从智能体到生产场景

ElevenLabs 智能体

通过即时、低延迟转写,实现实时语音交互和对话式 AI。Scribe v2 Realtime 让智能体更快聆听、理解和响应。

Agents Graphic - scribe

Scribe Realtime API

通过简单的 WebSocket 或 REST API,将超快语音转文本功能直接集成到产品中。音频实时传输,100 毫秒内返回精准文本。

Scribe code snippet

灵活定价,按需选择

体验行业领先的准确率和响应速度,定价适合从初创到企业团队的各类需求。

$0.28 每小时起,更低可享

适用于年度 Business 方案

UI Screenshot

常见问题

最新动态

用高质量 AI 音频创作