跳到内容

语音转文本

最精准的语音转文本模型

Scribe v2 是最精准的语音转文本模型。Scribe v2 Realtime 为实时转写树立了新标准,适用于智能体和实时应用。两者均可通过 API 使用。

Scribe v2 实时

Scribe v2 Realtime 实现 150 毫秒内的实时语音转文本

Scribe v2 Realtime 采用 ElevenLabs 的流式架构,实时将语音转为文本,支持 90 多种语言。

Live call
I’m
happy
to
help.
What’s
your
email
address?
It’s
john.doe@me.com
Thanks.
And
your
phone
number?
1-800-404

实时转写语音

Scribe v2 Realtime 可在 150 毫秒内精准捕捉实时语音,适用于智能体、会议和需要即时理解的 AI 智能体场景。

柱状图显示 Scribe Realtime 在准确率上优于 Gemini、OpenAI 和 Deepgram 的语音转文本模型。

高准确率与超低延迟

Scribe v2 Realtime 以低于 150 毫秒的延迟实现行业领先的准确率,树立实时语音识别新标杆。

语音活动检测

自动检测语音起止,精准分段,提升实时处理流畅度。

支持 90 多种语言转写

在不同口音、方言和录音环境下都能保持高准确率。

API 实时转写

通过 API 将 Scribe Realtime v2 集成到产品中,支持全流式转写和提交控制。

Scribe v2

用 Scribe v2 转换语音为文本、生成字幕并编辑音频和视频

为播客、视频、访谈等录音内容生成字幕、双语字幕和可编辑转写文本,在 Studio 或通过 API 都能获得行业领先的准确率。

Amidst the outer atmosphere of the planet Aurora, the sky shimmered with fractured light, as though the planet's veil were made of stained glass suspended in space.
Sensors pulsed with irregular patterns, the kind no algorithm could quite reconcile.
Amidst the outer atmosphere of the planet Aurora, the sky shimmered with fractured light, as though the planet's veil were made of stained glass suspended in space.

转写音频和视频

支持上传任意格式的音频或视频(如 MP4、MOV、MP3、WAV 等),Scribe v2 自动将语音精准转为文本,适用于字幕、双语字幕或编辑。

柱状图显示 Scribe v2 在准确率上优于 Gemini、OpenAI 和 Deepgram 的语音转文本模型。

行业领先的转写准确率

Scribe v2 实现行业领先的转写准确率,即使在复杂音频环境或多样口音下,也能输出干净、可编辑的文本。

关键词提示词

可选择最多 1000 个特定词语或句子,Scribe 将根据上下文准确转写。

动态音频标签

从笑声到脚步声,Scribe v2 能为每个声音事件打标签,让转写内容更完整。

说话人及实体检测

Scribe v2 可智能区分并标记每位说话人,计算实体时间戳,并自动从转录文本中去除敏感信息。

企业级安全与大规模基础设施

Foreground

适配所有工作流程,从 API 到智能体

语音转文本 API 与 SDK

通过 API 或 SDK,将 Scribe v2 和 Scribe v2 Realtime 集成到产品中。

Scribe API code snippet

ElevenLabs 智能体

实现实时语音交互,转写速度快,延迟极低。

Agents UI screenshot

ElevenLabs Studio

将录音内容转为可编辑文本、字幕和可复用内容。

Studio UI mockup

常见问题

最新动态

最逼真的语音 AI 平台