跳到内容

语音转文本 API

使用 ElevenLabs Scribe v2 转录语音

批量应用场景下的最高准确率语音转文本。可识别重音和音效,并支持通过关键词提示优化转写。

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

  • Lovable
  • Veed model
  • Synthesia
  • Stripe
  • Perplexity
  • Twilio

批量处理场景下最精准的语音转文本 API

通过 API,为播客、视频、访谈等录音内容生成字幕、编辑文本和可编辑转录稿,行业领先的准确率。

Scribe v2 实现行业领先的转录准确率,即使在复杂音频环境或多样口音下,也能输出干净、可编辑的文本。

前所未有的转录准确率

Scribe v2 实现行业领先的转录准确率,即使在复杂音频环境或多样口音下,也能输出干净、可编辑的文本。

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

适用于各种场景

在嘈杂环境、背景音乐、强烈口音和低质量音频下也能准确转录。

精细控制时间轴、说话人和非语音事件

ElevenLabs 转录 API 可识别笑声、情感和音效。通过关键词提示,支持领域专属词汇转录。

音频与视频转录

支持上传 MP3、MP4、WAV、MOV 等常见格式。Scribe 可异步处理最长 10 小时文件,大批量任务支持 webhook 通知。
Transcription Formats

干净、可编辑的转录稿

输出带标点、分段的文本,便于编辑、发布或后续处理,无需额外整理。
Editable transcripts

关键词提示

最多支持 100 个领域专属词汇,产品名、技术术语、专业词汇首次转录即准确。
Keyterm Prompting

动态音频标记

可捕捉笑声、掌声、音乐、背景噪音等非语音事件。转录稿完整还原音频上下文,不仅仅是文字内容。

智能说话人分离

自动识别并标记最多 48 位说话人,清晰区分发言人,转录稿结构清晰易读。

实体识别

自动识别并标记 56 种实体类型,包括姓名、日期、地点和组织等。

Black Mountain

Scribe v2

最高准确率,适合批量处理。

  • 准确率 >95%
  • 支持 90 多种语言
  • 非语音事件检测
  • 实体识别
  • 关键词提示
Mountains

Scribe v2 实时版

最低延迟,适合实时场景。

  • 延迟低于 150ms
  • 支持 90 多种语言
  • 转录流式输出
  • 语音活动检测
  • 自动语言识别

支持 90 多种语言和多种口音的语音转录

在不同口音、方言和录音条件下都能保持高准确率。

更改 languageCode 预览不同语言

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";

const elevenlabs = new ElevenLabsClient({
	apiKey: "<your_api_key>"
});
const response = await fetch(
  "https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });

const transcription = await	elevenlabs
	.speechToText.convert({
	  file: audioBlob,
	  modelId: "scribe_v2",
	  tagAudioEvents: true,
	  languageCode: 
, // 设置语言 diarize: true }); console.log(transcription);
Flag for en
英语
Flag for zh
中文
Flag for es
西班牙语
Flag for fr
法语
Flag for pt
葡萄牙语
Flag for de
德语
Flag for ja
日语
Flag for it
意大利语
Flag for hi
印地语
Flag for en
英语点击试听

为全球领先企业和品牌提供支持

  • 从本地语言配音 Reels,到在 Horizon 生成音乐和角色声音,ElevenLabs 平台让全球创作者、企业和机构都能大规模使用语音、音乐和音效。
    Meta Color Logo
  • Scribe 在多语言环境下的高准确率,让 Fieldy 能理解每一次日常对话,轻松扩展到全球。迁移到 ElevenLabs Scribe 后,Fieldy 用户留存率提升了 50%。
    Fieldy logo
  • ElevenLabs 让我们能快速为 SDK 集成强大的文本转语音功能,智能体可实时用富有表现力的语音回应用户问题或反馈所见内容。
    Stream Color Logo
  • Twilio 已将 ElevenLabs 的生成式 AI 语音技术集成到其 CPaaS,增强了 ConversationRelay。该集成让企业和开发者可直接在 Twilio CPaaS 平台创建拟人、富有表现力、实时响应的对话式 AI 语音交互。ElevenLabs 很高兴能为 ConversationRelay 提供最具表现力、最自然的语音。
    Twilio logo

专为生产环境打造的 API

Foreground

常见问题

最新动态

最逼真的音频 AI 平台