Question 1

应该选择哪个文本转语音模型？

Accepted Answer

- Flash v2.5 - 超低延迟（约 75ms），适合实时语音智能体
- Turbo v2.5 - 质量与速度平衡（约 250-300ms），适合互动场景
- Multilingual v2 - 长文本内容（最多 10,000 字符）保持一致高质量
- Eleven v3 - 创意应用场景下表现力和情感最丰富

Question 2

延迟大概是多少？

Accepted Answer

Flash v2.5 延迟约 75ms。
Turbo v2.5 通常在 250-300ms 内响应。
两者均支持流式输出，可在生成完成前开始播放。

Question 3

支持多少种语言？

Accepted Answer

Eleven v3 支持 70 多种语言。
Flash v2.5 和 Turbo v2.5 支持 32 种语言。
Multilingual v2 支持 29 种语言。

Question 4

每次请求的字符上限是多少？

Accepted Answer

Flash v2.5 和 Turbo v2.5：40,000 字符
Multilingual v2：10,000 字符
Eleven v3：3,000 字符

Question 5

可以控制情感和表达吗？

Accepted Answer

通过音频标签（如 [laughs]、[whispers]、[sighs]、[door slam]）控制表达、情感、重音、停顿和音效。Eleven v3 提供最丰富的表达控制。

Question 6

有多少种音色可用？

Accepted Answer

声音库包含 10,000 多种音色。还可通过文本提示词克隆或设计自定义音色。

Question 7

API 支持流式传输吗？

Accepted Answer

支持。流式传输可在音频生成完成前开始播放，降低实时应用中的感知延迟。

Question 8

可以使用自定义音色吗？

Accepted Answer

支持。可通过音色 ID 调用库中任意音色，包括专业语音克隆、即时克隆和自定义音色。

Question 9

支持哪些音频格式？

Accepted Answer

API 默认输出 MP3。还支持 PCM 和 μ-law 格式。

Question 10

如何优化延迟？

Accepted Answer

建议使用 Flash v2.5 并开启流式传输。每次请求控制在 1,000 字符以内。实时应用可启用 WebSocket 长连接。

Question 11

发音可以自定义吗？

Accepted Answer

支持。可通过音标拼写或发音词典控制特定词语的发音。

Question 12

有哪些 SDK 可用？

Accepted Answer

提供官方 Python、JavaScript/TypeScript SDK，也可直接使用 HTTP API。

Question 13

在哪里可以找到代码示例？

Accepted Answer

完整 API 参考、代码示例和集成指南请访问 elevenlabs.io/docs/api-reference

Question 14

有企业级支持吗？

Accepted Answer

支持。企业版包含 SOC 2 合规、HIPAA 支持、GDPR 合规、欧盟数据驻留、零保留模式、专属支持和定制 SLA。

文本转语音 API

超逼真、低延迟语音生成

基于最强大的语音 AI 模型

Flash v2.5

Turbo v2.5

多语言 v2

Eleven v3

打造可上线语音应用的全套工具

情感与表达控制

访问 10,000+ 种音色

声音设计与克隆

多说话人对话

音频事件与指令

发音词典

为全球领先企业和品牌提供支持

专为生产环境打造的 API

企业级数据保护

Python 和 TypeScript SDK

高级支持与定制部署

常见问题

最新动态