
API de Text to Speech
Geração de fala ultrarrealista e com baixa latência
Crie com geração de fala de alta qualidade e controlável para aplicações em tempo real ou em lote. Modelos otimizados para latência, fidelidade e consistência em longos formatos.
Demo
Código
Na antiga terra de Eldoria, onde os céus brilhavam e as florestas sussurravam segredos ao vento, vivia um dragão chamado Zephyros. [sarcastically] Não do tipo que “queima tudo... [giggles] mas ele era gentil, sábio, com olhos como estrelas antigas. [whispers] Até os pássaros ficavam em silêncio quando ele passava.
- Lovable
- Synthesia
- Stripe
- Perplexity
- Twilio
Baseado nos modelos de Voz IA mais avançados
Escolha o modelo ideal para o seu caso de uso: de agentes com latência ultrabaixa até narração expressiva e de longa duração.

Flash v2.5
Nosso modelo de síntese de fala com menor latência
- Latência ultrabaixa (~75ms)
- 32 idiomas suportados
- Limite de 40.000 caracteres
- ~$0,06 por minuto

Turbo v2.5
Equilíbrio entre qualidade e latência
- Baixa latência (~250-300ms)
- Geração de voz de alta qualidade
- 32 idiomas suportados
- Limite de 40.000 caracteres
- ~$0,06 por minuto

Multilíngue v2
Modelo de síntese de fala realista e consistente
- Saída com som natural
- 29 idiomas suportados
- Limite de 10.000 caracteres
- Projetado para gerações longas
- ~$0,12 por minuto

Eleven v3
Nosso modelo mais expressivo e emocional
- Entrega e performance dramáticas
- Mais de 70 idiomas suportados
- Limite de 3.000 caracteres
- Diálogo com vários falantes
- ~$0,12 por minuto
Tudo o que você precisa para criar fala pronta para produção
Gere fala expressiva e controlável com modelos criados para uso em tempo real, longas durações e produção.
Controle de emoção e entonação
Crie falas controláveis e expressivas, com emoção, eventos de áudio e paisagens sonoras imersivas.

Acesse mais de 10.000 vozes
Explore uma coleção sempre crescente de vozes expressivas e realistas para qualquer necessidade.

Design e clonagem de vozes
Crie em mais de 30 idiomas com vozes naturais, sotaques expressivos e áudio localizado para o seu público.

Diálogo com vários falantes
Crie conversas naturais com vários participantes em mais de 70 idiomas usando vozes expressivas e controláveis.

Eventos e direção de áudio
Controle a entrega com tags de áudio, marcações de tempo e direção narrativa integradas à fala.

Dicionários de pronúncia
Defina pronúncias personalizadas para garantir fala consistente e precisa de nomes e termos.

Impulsionando as principais empresas e marcas do mundo
“De dublar Reels em idiomas locais a gerar músicas e vozes de personagens no Horizon, a plataforma ElevenLabs permite que criadores, empresas e negócios do mundo todo criem com voz, música e som em escala.”
“Milhões de pessoas aprendem xadrez com criadores como Hikaru, Levy e Magnus todos os dias no YouTube e Twitch. Agora você pode aprender com eles dentro do Chess.com de um jeito imersivo, pessoal e cheio de personalidade. Nossa missão é criar um treinador de xadrez que ensina no nível certo, acolhe jogadores de todos os níveis e desmistifica o xadrez mantendo a diversão e a personalidade. Com a ElevenLabs e essas novas vozes incríveis, demos um grande passo para tornar essa visão realidade.”
“A ElevenLabs facilitou para nós a integração rápida de recursos avançados de text-to-speech no nosso SDK, permitindo que agentes respondam em tempo real com vozes expressivas às perguntas dos usuários ou como feedback ao que estão vendo.”

“A Twilio integrou a tecnologia de voz IA generativa da ElevenLabs ao seu CPaaS, aprimorando o ConversationRelay. Essa integração permite que empresas e desenvolvedores criem interações de voz com IA conversacional que soam humanas, são expressivas e respondem em tempo real diretamente da plataforma Twilio CPaaS. Nós, da ElevenLabs, estamos animados que a Twilio escolheu a ElevenLabs para tornar o ConversationRelay ainda mais expressivo, com as vozes mais naturais e humanas disponíveis.”
APIs feitas para produção

Perguntas frequentes
- Flash v2.5 - Latência ultrabaixa (~75ms) para aplicações em tempo real, como agentes de voz
- Turbo v2.5 - Equilíbrio entre qualidade e velocidade (~250-300ms) para usos interativos
- Multilingual v2 - Qualidade consistente para conteúdos longos de até 10.000 caracteres
- Eleven v3 - Máxima expressividade e alcance emocional para aplicações criativas
O Flash v2.5 entrega latência de ~75ms.
O Turbo v2.5 normalmente responde em 250-300ms.
Ambos suportam saída em streaming, permitindo iniciar a reprodução antes da geração completa.
O Eleven v3 suporta mais de 70 idiomas.
O Flash v2.5 e o Turbo v2.5 suportam 32 idiomas.
O Multilingual v2 suporta mais de 70 idiomas.
Flash v2.5 e Turbo v2.5: 40.000 caracteres
Multilingual v2: 10.000 caracteres
Eleven v3: 3.000 caracteres
Use tags de áudio ([laughs], [whispers], [sighs], [door slam]) para controlar entonação, emoção, ênfase, pausas e efeitos sonoros. O Eleven v3 oferece o controle mais expressivo.
A Voice Library inclui mais de 10.000 vozes. Você também pode clonar vozes ou criar vozes personalizadas usando prompts de texto.
Sim. O streaming permite iniciar a reprodução antes que o áudio completo seja gerado, reduzindo a latência percebida em aplicações em tempo real.
Sim. Use qualquer voz da sua biblioteca pelo ID da voz, incluindo clones profissionais, clones instantâneos e vozes que você criou.
A API gera MP3 por padrão. Outros formatos disponíveis incluem PCM e μ-law.
Use o Flash v2.5 com streaming ativado. Mantenha as requisições abaixo de 1.000 caracteres. Ative conexões WebSocket para aplicações em tempo real persistentes.
Sim. Use escrita fonética ou dicionários de pronúncia para controlar como palavras específicas são faladas.
SDKs oficiais para Python e JavaScript/TypeScript estão disponíveis. Você também pode usar a API HTTP.
Referência completa da API, exemplos de código e guias de integração estão disponíveis em elevenlabs.io/docs/api-reference
Sim. Os planos empresariais incluem conformidade SOC 2, suporte HIPAA, conformidade LGPD, residência de dados na UE, modo de retenção zero, suporte dedicado e SLAs personalizados.

.webp&w=3840&q=80)




.webp&w=3840&q=80)
