.webp&w=3840&q=95)
ElevenLabs partners with the UK Government on voice AI safety research
UK AI Security Institute researchers will explore the implications of AI voice technology
O modelo de Text to Speech mais expressivo
Temos o prazer de apresentar o Eleven v3 (alpha) — o modelo de Text to Speech mais expressivo.
O Eleven v3 não está mais em versão alpha e já está disponível para todos.
Mais de 70 idiomas exige mais engenharia de prompts do que os modelos anteriores — mas os resultados são impressionantes.
Se você trabalha com vídeos, audiolivros ou ferramentas de mídia, isso abre um novo nível de expressividade. Para usos em tempo real e conversacionais, recomendamos continuar com o v2.5 Turbo ou Flash por enquanto. Uma versão em tempo real do v3 está em desenvolvimento.
Se você trabalha com vídeos, audiolivros ou ferramentas de mídia, isso libera um novo nível de expressividade. Para usos em tempo real e conversação, recomendamos continuar usando o v2.5 Turbo ou Flash por enquanto. Uma versão em tempo real do v3 está em desenvolvimento.API.
Por que criamos o v3expressividade. Emoções mais marcantes, interrupções naturais e conversas críveis eram difíceis de alcançar.
Desde o lançamento do Multilingual v2, vimos a voz IA ser adotada em filmes profissionais, desenvolvimento de jogos, educação e acessibilidade. Mas a limitação não era a qualidade do som — era a
| Feature | What it unlocks |
|---|---|
| Audio tags | Inline control of tone, emotion, and non-verbal reactions |
| Dialogue mode | Multi-speaker conversations with natural pacing and interruptions |
| 70+ languages | Full coverage of high-demand global languages |
| Deeper text understanding | Better stress, cadence, and expressivity from text input |
Como usar tags de áudioguia de prompting para o v3 na documentação.
As tags de áudio ficam no próprio texto do seu roteiro e são escritas entre colchetes em minúsculas. Você pode saber mais sobre as tags de áudio no nosso
Clones Profissionais de Voz (PVCs) ainda não estão totalmente otimizados para o Eleven v3, o que pode resultar em clones de qualidade inferior em relação aos modelos anteriores. Durante esta fase de prévia de pesquisa, o ideal é usar um Clone Instantâneo de Voz (IVC) ou uma voz criada especialmente para seu projeto, caso precise dos recursos do v3. A otimização de PVC para o v3 chegará em breve.
| 1 | “[happily][shouts] We did it! [laughs].” |
Criando diálogos com vários falantesendpoint Text to Dialogue na API. Basta enviar um array estruturado de objetos JSON — cada um representando a fala de um personagem — e o modelo gera um arquivo de áudio coeso, com sobreposição de vozes:
| 1 | [ |
| 2 | {"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."}, |
| 3 | {"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."}, |
| 4 | {"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"} |
| 5 | ] |
| 6 |
O endpoint gerencia automaticamente as transições entre falantes, mudanças de emoção e interrupções.
O endpoint gerencia automaticamente as trocas de falante, mudanças de emoção e interrupções.aqui.
| Plan | Launch promo | At the end of June |
|---|---|---|
| UI (self-serve) | 80% off (~5× cheaper) | Same as Multilingual V2 |
| UI (enterprise) | 80% off business plan pricing | Business plan pricing |
Para ativar o v3:
O acesso via API e suporte no Studio estarão disponíveis em breve. Para acesso antecipado, por favor fale com vendas.
Quando não usar o v3
O Eleven v3 (alpha) exige mais engenharia de prompts do que nossos modelos anteriores. Quando funciona, o resultado é impressionante, mas a confiabilidade e a latência maior fazem com que ele não seja indicado para usos em tempo real ou conversação. Para esses casos, recomendamos o Eleven v2.5 Turbo/Flash.documentação completa do v3 e o FAQ.
Estamos animados para ver como você vai usar o v3 em novos projetos — de narrativas imersivas a produções cinematográficas.
.webp&w=3840&q=95)
UK AI Security Institute researchers will explore the implications of AI voice technology
.webp&w=3840&q=95)