Question 1

Scribe 支持哪些语言？

Accepted Answer

极高准确率（≤ 5% 词错误率 - WER）

白俄罗斯语（bel）、波斯尼亚语（bos）、保加利亚语（bul）、加泰罗尼亚语（cat）、克罗地亚语（hrv）、捷克语（ces）、丹麦语（dan）、荷兰语（nld）、英语（eng）、爱沙尼亚语（est）、芬兰语（fin）、法语（fra）、加利西亚语（glg）、德语（deu）、希腊语（ell）、匈牙利语（hun）、冰岛语（isl）、印尼语（ind）、意大利语（ita）、日语（jpn）、卡纳达语（kan）、拉脱维亚语（lav）、马其顿语（mkd）、马来语（msa）、马拉雅拉姆语（mal）、挪威语（nor）、波兰语（pol）、葡萄牙语（por）、罗马尼亚语（ron）、俄语（rus）、斯洛伐克语（slk）、西班牙语（spa）、瑞典语（swe）、土耳其语（tur）、乌克兰语（ukr）、越南语（vie）。

高准确率（>5% 到 ≤10% WER）

亚美尼亚语（hye）、阿塞拜疆语（aze）、孟加拉语（ben）、粤语（yue）、菲律宾语（fil）、格鲁吉亚语（kat）、古吉拉特语（guj）、印地语（hin）、哈萨克语（kaz）、立陶宛语（lit）、马耳他语（mlt）、普通话（cmn）、马拉地语（mar）、尼泊尔语（nep）、奥里亚语（ori）、波斯语（fas）、塞尔维亚语（srp）、斯洛文尼亚语（slv）、斯瓦希里语（swa）、泰米尔语（tam）、泰卢固语（tel）。

良好（>10% 到 ≤20% WER）

南非荷兰语（afr）、阿拉伯语（ara）、阿萨姆语（asm）、阿斯图里亚斯语（ast）、缅甸语（mya）、豪萨语（hau）、希伯来语（heb）、爪哇语（jav）、韩语（kor）、吉尔吉斯语（kir）、卢森堡语（ltz）、毛利语（mri）、奥克西唐语（oci）、旁遮普语（pan）、塔吉克语（tgk）、泰语（tha）、乌兹别克语（uzb）、威尔士语（cym）。

中等（>20% 到 ≤50% WER）

阿姆哈拉语（amh）、卢干达语（lug）、伊博语（ibo）、爱尔兰语（gle）、高棉语（khm）、库尔德语（kur）、老挝语（lao）、蒙古语（mon）、北索托语（nso）、普什图语（pus）、绍纳语（sna）、信德语（snd）、索马里语（som）、乌尔都语（urd）、沃洛夫语（wol）、科萨语（xho）、约鲁巴语（yor）、祖鲁语（zul）。

Question 2

什么是语音转文本？它如何工作？

Accepted Answer

语音转文本（STT）是一种利用自动语音识别（ASR）技术，将语音内容转换为书面文本的技术。它通过处理音频信号，识别语音模式，并高准确率地转写为文本。

ElevenLabs 的 AI 语音转文本软件可精准转写音频和视频内容，适用于语音转文本、音频转写和实时语音识别。

语音转文本技术常用于：
✔ 播客、会议、访谈等场景的语音转文本转写
✔ 视频内容的字幕和双语字幕
✔ 语音转文本软件实现免手打和无障碍辅助

ElevenLabs ASR 提供多语言、多口音下快速、可靠且高准确率的语音转文本服务。

Question 3

如何将视频转为文本？

Accepted Answer

ElevenLabs 提供视频转写服务，将语音内容转为文本，方便生成字幕、双语字幕和可检索的转写文本。

视频转文本步骤：
1. 上传视频文件到 ElevenLabs ASR
2. 语音识别技术处理音频
3. 自动生成带时间戳的转写文本
4. 下载文本文件或导出字幕进行编辑

这款 AI 视频转写模型帮助内容创作者、企业和教育者快速将视频语音转为精准文本，提升内容可访问性和复用效率。

Question 4

Scribe 的费用是多少？

Accepted Answer

每小时转写音频最低 $0.40，企业方案大规模使用价格更低。

Question 5

可以为社交媒体视频生成字幕吗？

Accepted Answer

可以。Scribe 可自动为 YouTube、TikTok、Instagram 等平台生成字幕和双语字幕，支持多语言，提升可访问性和覆盖面。

Question 6

最精准的语音转文本模型是哪一个？

Accepted Answer

最精准的语音转文本模型采用大规模多语言数据集训练的深度神经网络。Scribe 在 90 多种语言中实现行业领先准确率，基准测试优于 Whisper、Deepgram 和 Gemini 等模型。

Question 7

语音转文本可以实时工作吗？

Accepted Answer

可以。实时语音转文本可边说边转为文本。Scribe v2 Realtime 转写延迟低于 150 毫秒，适合实时对话、会议和 AI 智能体。

Question 8

语音转文本可以用来做什么？

Accepted Answer

语音转文本可用于会议记录、播客、无障碍字幕、客服通话等所有需要将语音内容转为可读文本的场景，也可为实时 AI 助手和自动化流程提供支持。

Question 9

语音转文本转写有多安全？

Accepted Answer

所有语音转文本数据均采用企业级安全标准处理。转写可通过加密 API 完成，敏感信息可本地处理或限制访问，满足合规要求。

Question 10

语音转文本支持离线使用吗？

Accepted Answer

如本地部署模型，语音转文本技术可离线运行。Scribe 支持云端和本地部署，企业可自主管控数据，同时保证低延迟和高准确率。

Question 11

语音转文本能区分不同说话人吗？

Accepted Answer

可以。先进的语音转文本系统通过说话人分离技术，自动区分并标记多位说话人，即使在对话重叠时也能识别。

Question 12

语音转文本和转写软件有什么区别？

Accepted Answer

语音转文本是利用 AI 自动将语音内容转为文本的过程，而转写软件则可能包含编辑、格式化和协作等功能，基于该核心技术扩展。

语音转文本

最精准的语音转文本模型

Scribe v2 Realtime 实现 150 毫秒内的实时语音转文本

实时转写语音

高准确率与超低延迟

语音活动检测

支持 90 多种语言转写

API 实时转写

用 Scribe v2 转换语音为文本、生成字幕并编辑音频和视频

转写音频和视频

行业领先的转写准确率

关键词提示词

动态音频标签

说话人及实体检测

企业级安全与大规模基础设施

企业级数据保护

细致的团队权限管理

高级支持与定制部署

适配所有工作流程，从 API 到智能体

语音转文本 API 与 SDK

ElevenLabs 智能体

ElevenLabs Studio

常见问题

支持 90 多种语言的 AI 语音转文本

最新动态

全新 References：Music v2 声音风格控制

Finetunes Music API，打造专属声音标识

全新 Vocals，为 ElevenMusic 歌曲带来统一音色

你可能感兴趣