Question 1

Qual modelo de Text to Speech devo usar?

Accepted Answer

- Flash v2.5 - Latência ultrabaixa (~75ms) para aplicações em tempo real, como agentes de voz
- Turbo v2.5 - Equilíbrio entre qualidade e velocidade (~250-300ms) para usos interativos
- Multilingual v2 - Qualidade consistente para conteúdos longos de até 10.000 caracteres
- Eleven v3 - Máxima expressividade e alcance emocional para aplicações criativas

Question 2

Qual latência posso esperar?

Accepted Answer

O Flash v2.5 entrega latência de ~75ms.
O Turbo v2.5 normalmente responde em 250-300ms.
Ambos suportam saída em streaming, permitindo iniciar a reprodução antes da geração completa.

Question 3

Quantos idiomas são suportados?

Accepted Answer

O Eleven v3 oferece suporte a mais de 70 idiomas.
O Flash v2.5 e o Turbo v2.5 suportam 32 idiomas.
O Multilingual v2 suporta 29 idiomas.

Question 4

Quais são os limites de caracteres por requisição?

Accepted Answer

Flash v2.5 e Turbo v2.5: 40.000 caracteres
Multilingual v2: 10.000 caracteres
Eleven v3: 3.000 caracteres

Question 5

Posso controlar emoção e entonação?

Accepted Answer

Use tags de áudio ([laughs], [whispers], [sighs], [door slam]) para controlar entonação, emoção, ênfase, pausas e efeitos sonoros. O Eleven v3 oferece o controle mais expressivo.

Question 6

Quantas vozes estão disponíveis?

Accepted Answer

A Voice Library inclui mais de 10.000 vozes. Você também pode clonar vozes ou criar vozes personalizadas usando prompts de texto.

Question 7

A API suporta streaming?

Accepted Answer

Sim. O streaming permite iniciar a reprodução antes que o áudio completo seja gerado, reduzindo a latência percebida em aplicações em tempo real.

Question 8

Posso usar vozes personalizadas?

Accepted Answer

Sim. Use qualquer voz da sua biblioteca pelo ID da voz, incluindo clones profissionais, clones instantâneos e vozes que você criou.

Question 9

Quais formatos de áudio são suportados?

Accepted Answer

A API gera MP3 por padrão. Outros formatos disponíveis incluem PCM e μ-law.

Question 10

Como otimizar para latência?

Accepted Answer

Use o Flash v2.5 com streaming ativado. Mantenha as requisições abaixo de 1.000 caracteres. Ative conexões WebSocket para aplicações em tempo real persistentes.

Question 11

A pronúncia é personalizável?

Accepted Answer

Sim. Use escrita fonética ou dicionários de pronúncia para controlar como palavras específicas são faladas.

Question 12

Quais SDKs estão disponíveis?

Accepted Answer

SDKs oficiais para Python e JavaScript/TypeScript estão disponíveis. Você também pode usar a API HTTP.

Question 13

Onde encontro exemplos de código?

Accepted Answer

Referência completa da API, exemplos de código e guias de integração estão disponíveis em elevenlabs.io/docs/api-reference

Question 14

Vocês oferecem suporte para empresas?

Accepted Answer

Sim. Os planos empresariais incluem conformidade SOC 2, suporte HIPAA, conformidade LGPD, residência de dados na UE, modo de retenção zero, suporte dedicado e SLAs personalizados.

API de Text to Speech

Geração de fala ultrarrealista e com baixa latência

Baseado nos modelos de Voz IA mais avançados

Flash v2.5

Turbo v2.5

Multilíngue v2

Eleven v3

Tudo o que você precisa para criar fala pronta para produção

Controle de emoção e entonação

Acesse mais de 10.000 vozes

Design e clonagem de vozes

Diálogo com vários falantes

Eventos e direção de áudio

Dicionários de pronúncia

Impulsionando as principais empresas e marcas do mundo

APIs feitas para produção

Proteção de dados em nível empresarial

SDKs para Python e TypeScript

Suporte avançado e implantações personalizadas

Perguntas frequentes

Últimas atualizações