跳到内容

实时语音转文本 API

使用 Scribe v2 Realtime 实时转写语音

Scribe v2 Realtime 是目前最精准的实时语音转文本,延迟仅 150 毫秒,支持 90 多种语言。可通过 API 使用。

  • Lovable
  • Veed model
  • Synthesia
  • Stripe
  • Perplexity
  • Twilio

为速度和准确率而生

超快、超准,专为实时语音打造。Scribe v2 Realtime 可为实时场景提供即时转写。

Scribe v2 Realtime 在约 150 毫秒延迟下实现行业领先的转写准确率,即使在复杂音频或多样口音下也表现出色。

最高准确率的实时转写

Scribe v2 Realtime 在约 150 毫秒延迟下实现行业领先的转写准确率,即使在复杂音频或多样口音下也表现出色。

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

适用于各种场景

可在嘈杂环境、背景音乐、强烈口音和低质量音频下稳定转写。

专为实时性能打造的语音识别

基于 Scribe v1 打造,Scribe v2 Realtime 实现约 150 毫秒延迟,在各种口音、语调和环境下都能保持高准确率。

可以退款吗?
好的,请提供订单号。
订单号是 EL4543490
谢谢。 已启动退款流程。
退款完成

专为智能体和语音应用设计

Scribe v2 Realtime 专为开发者打造,适用于对话式智能体、会议助手和对速度与准确率要求极高的语音应用。

Scribe
makes
uses
is
has
new

预测式转写,极低延迟

Scribe v2 Realtime 采用预测式转写,提前判断下一个最可能的词和标点,实现实时高准确率。

语音活动检测

自动检测语音起止,精准分割音频,实现流畅高效的实时转写。

手动提交控制

开发者可自定义转写提交时机,适合自定义流式处理和精细化控制。

多种音频格式

支持 PCM(8–48 kHz)和 μ-law 编码,兼容电话、浏览器和录音棚等多种场景。

针对不同场景优化的模型

Scribe v2 适用于批量场景,Scribe v2 Realtime 适用于低延迟需求

Black Mountain

Scribe v2

最高准确率,适合批量处理。

  • 准确率 >95%
  • 90 多种语言
  • 非语音事件检测
  • 实体检测
  • 关键词提示
Mountains

Scribe v2 实时

最低延迟,适合实时处理。

  • 延迟低于 150 毫秒
  • 90 多种语言
  • 流式转写
  • 语音活动检测
  • 自动语言识别

支持 90 多种语言和多种口音的语音转写

在不同口音、方言和录音条件下都能保持极高准确率。

更改 languageCode 预览不同语言

import { useScribe } from "@elevenlabs/react";

const scribe = useScribe({
  modelId: "scribe_v2_realtime",

  languageCode: 
, // 设置语言 onSessionStarted: () => console.log("Session started"), onPartialTranscript: (data) => console.log("Partial:", data.text) });
Flag for en
英语
Flag for zh
中文
Flag for es
西班牙语
Flag for fr
法语
Flag for pt
葡萄牙语
Flag for de
德语
Flag for ja
日语
Flag for it
意大利语
Flag for hi
印地语
Flag for en
英语点击试听

为全球领先企业和品牌赋能

  • 从本地语言配音 Reels,到在 Horizon 生成音乐和角色声音,ElevenLabs 平台让全球创作者、企业和机构都能大规模使用语音、音乐和音效。
    Meta Color Logo
  • Scribe 在多语言下的高准确率让 Fieldy 能理解每一次日常对话,轻松扩展到全球。迁移到 ElevenLabs Scribe 后,Fieldy 用户留存率提升了 50%。
    Fieldy logo
  • ElevenLabs 让我们能快速为 SDK 集成强大的文本转语音功能,智能体可实时用富有表现力的语音回应用户问题或反馈所见内容。
    Stream Color Logo
  • Twilio 已将 ElevenLabs 的生成式 AI 语音技术集成到其 CPaaS,提升了 ConversationRelay。该集成让企业和开发者可直接在 Twilio CPaaS 平台创建拟人、富有表现力、实时响应的对话式 AI 语音交互。ElevenLabs 很高兴能为 ConversationRelay 提供最具表现力、最自然的人声。
    Twilio logo

面向生产环境的 API

Foreground

灵活定价,按需选择

体验顶级准确率和响应速度,定价覆盖初创到企业团队,灵活可扩展。

$0.28/小时起

适用于年付 Business 方案

UI Screenshot

常见问题

最新动态

最逼真的音频 AI 平台