什么是 ElevenLabs 批量转录 API？

批量转录 API 是 Scribe 的一部分，专为大规模音频和视频转录设计。开发者和企业可高精度处理数小时录音，支持 99 种语言。

支持上传哪些音频和视频文件？

Scribe 支持所有常见格式，包括 MP4、MOV、MP3、WAV 等。

Scribe 的批量转录准确率如何？

Scribe v2 在 99 种语言中实现顶级准确率，适应复杂音频环境、口音和录音质量。公开基准测试中表现优于上一代模型和其他主流 API。

大文件转录需要多长时间？

处理时间取决于文件长度和并发量。Scribe 针对吞吐量优化，可高并发处理大规模任务，转录结果最快数秒即可返回。

Scribe 支持说话人分离和时间戳吗？

支持。API 提供智能说话人分离、词级和字符级时间戳，以及笑声、音乐等非语音事件的动态标记。

可以自定义领域专属词汇吗？

支持。可自定义词汇，确保产品名、技术术语或品牌专属短语通过关键词提示准确转录。

批量转录 API 是否安全合规？

Scribe 支持 SOC 2、GDPR 和可选 HIPAA 合规。数据传输和存储全程加密，团队可启用 EU 数据驻留或零保留模式，严格管控数据。

批量转录 API 如何计费？

按输入音频分钟数计费，支持大批量优惠和企业方案。欢迎联系销售团队沟通需求。

如何开始使用？

生成 API 密钥并查看文档，即可立即开始转录。

语音转文本 API

使用 ElevenLabs Scribe v2 转录语音

获取 API 密钥查看文档

批量应用场景下的最高准确率语音转文本。可识别重音和音效，并支持通过关键词提示优化转写。

演示

代码

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

Lovable
Veed model
Synthesia
Stripe
Perplexity
Twilio

批量处理场景下最精准的语音转文本 API

获取 API 密钥查看文档

通过 API，为播客、视频、访谈等录音内容生成字幕、编辑文本和可编辑转录稿，行业领先的准确率。

前所未有的转录准确率

Scribe v2 实现行业领先的转录准确率，即使在复杂音频环境或多样口音下，也能输出干净、可编辑的文本。

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

适用于各种场景

在嘈杂环境、背景音乐、强烈口音和低质量音频下也能准确转录。

精细控制时间轴、说话人和非语音事件

ElevenLabs 转录 API 可识别笑声、情感和音效。通过关键词提示，支持领域专属词汇转录。

音频与视频转录

支持上传 MP3、MP4、WAV、MOV 等常见格式。Scribe 可异步处理最长 10 小时文件，大批量任务支持 webhook 通知。

干净、可编辑的转录稿

输出带标点、分段的文本，便于编辑、发布或后续处理，无需额外整理。

关键词提示

最多支持 100 个领域专属词汇，产品名、技术术语、专业词汇首次转录即准确。

动态音频标记

可捕捉笑声、掌声、音乐、背景噪音等非语音事件。转录稿完整还原音频上下文，不仅仅是文字内容。

智能说话人分离

自动识别并标记最多 48 位说话人，清晰区分发言人，转录稿结构清晰易读。

实体识别

自动识别并标记 56 种实体类型，包括姓名、日期、地点和组织等。

Scribe v2

最高准确率，适合批量处理。

准确率 >95%
支持 90 多种语言
非语音事件检测
实体识别
关键词提示

了解更多

Scribe v2 实时版

最低延迟，适合实时场景。

延迟低于 150ms
支持 90 多种语言
转录流式输出
语音活动检测
自动语言识别

了解更多

支持 90 多种语言和多种口音的语音转录

在不同口音、方言和录音条件下都能保持高准确率。

更改 languageCode 预览不同语言

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";

const elevenlabs = new ElevenLabsClient({
	apiKey: "<your_api_key>"
});
const response = await fetch(
  "https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });

const transcription = await	elevenlabs
	.speechToText.convert({
	  file: audioBlob,
	  modelId: "scribe_v2",
	  tagAudioEvents: true,
	  languageCode: 
, // 设置语言
	  diarize: true
	});

console.log(transcription);

英语

中文

西班牙语

法语

葡萄牙语

德语

日语

意大利语

印地语

英语点击试听

为全球领先企业和品牌提供支持

查看客户案例

“从本地语言配音 Reels，到在 Horizon 生成音乐和角色声音，ElevenLabs 平台让全球创作者、企业和机构都能大规模使用语音、音乐和音效。”
“Scribe 在多语言环境下的高准确率，让 Fieldy 能理解每一次日常对话，轻松扩展到全球。迁移到 ElevenLabs Scribe 后，Fieldy 用户留存率提升了 50%。”
“ElevenLabs 让我们能快速为 SDK 集成强大的文本转语音功能，智能体可实时用富有表现力的语音回应用户问题或反馈所见内容。”
“Twilio 已将 ElevenLabs 的生成式 AI 语音技术集成到其 CPaaS，增强了 ConversationRelay。该集成让企业和开发者可直接在 Twilio CPaaS 平台创建拟人、富有表现力、实时响应的对话式 AI 语音交互。ElevenLabs 很高兴能为 ConversationRelay 提供最具表现力、最自然的语音。”