Apresentando Eleven v3 (alpha) — o modelo de Text to Speech mais expressivo

Eleven v3 é o modelo de Text to Speech mais expressivo

v3

Estamos felizes em revelar Eleven v3 (alpha) — o modelo de Text to Speech mais expressivo.

Este preview de pesquisa traz controle e realismo sem precedentes para a geração de fala com:

  • Mais de 70 idiomas
  • Diálogo com múltiplos falantes
  • Tags de áudio como [animado], [sussurra] e [suspira]

Eleven v3 (alpha) requer mais engenharia de prompt do que os modelos anteriores — mas as gerações são impressionantes.

Se você está trabalhando em vídeos, audiolivros ou ferramentas de mídia — isso desbloqueia um novo nível de expressividade. Para casos de uso em tempo real e conversacionais, recomendamos continuar com v2.5 Turbo ou Flash por enquanto. Uma versão em tempo real do v3 está em desenvolvimento.

Eleven v3 está disponível hoje em nosso site. O acesso à API pública estará disponível em breve. Para acesso antecipado, por favor fale com vendas.

O uso do novo modelo no aplicativo ElevenLabs está com 80% de desconto até o final de junho. Inscreva-se aqui.

Por que construímos o v3

Desde o lançamento do Multilingual v2, vimos a adoção de voz IA em filmes profissionais, desenvolvimento de jogos, educação e acessibilidade. Mas a limitação consistente não era a qualidade do som — era a expressividade. Emoções mais exageradas, interrupções conversacionais e um diálogo crível eram difíceis de alcançar.

Eleven v3 aborda essa lacuna. Foi construído do zero para entregar vozes que suspiram, sussurram, riem e reagem — produzindo uma fala que parece genuinamente responsiva e viva.

O que há de novo no Eleven v3 (alpha)

Feature What it unlocks
Audio tags Inline control of tone, emotion, and non-verbal reactions
Dialogue mode Multi-speaker conversations with natural pacing and interruptions
70+ languages Full coverage of high-demand global languages
Deeper text understanding Better stress, cadence, and expressivity from text input

Hear v3 for yourself

We're off under the lights here for this semi-final clash, the stadium buzzing with anticipation. ElevenLabs United in their iconic black and white shirts, pushing forward with intent straight from the opening whistle. excited The ball is zipped out wide, early attack here. Driving down the wing, pace to Bernie, shouting skips past one, skips past two! Oh, this is beautiful. One-on-one with the full-back, cuts inside—oh, that's a lovely bit of footwork!!! PURE MAGIC on the pitch! ElevenLabs on top form tonight!
sorrowful I couldn't sleep that night. The air was too still, and the moonlight kept sliding through the blinds like it was trying to tell me something. quietly And suddenly, that's when I saw it.

Usando tags de áudio

As tags de áudio vivem em linha com seu script e são formatadas com colchetes em minúsculas. Você pode ver mais sobre tags de áudio em nosso guia de prompting para v3 na documentação.

Clones de Voz Profissionais (PVCs) atualmente não estão totalmente otimizados para Eleven v3, resultando em uma qualidade de clone potencialmente inferior em comparação com modelos anteriores. Durante esta fase de preview de pesquisa, seria melhor encontrar um Clone de Voz Instantâneo (IVC) ou uma voz projetada para seu projeto se você precisar usar os recursos do v3. A otimização de PVC para v3 está chegando em breve.

Por exemplo, você poderia sugerir: “[sussurra] Algo está vindo… [suspira] Eu posso sentir.” Ou para um controle mais expressivo, você pode combinar várias tags:

1[happily][shouts] We did it! [laughs].

Criando diálogo com múltiplos falantes

Eleven v3 é suportado em nosso endpoint de Text to Speech existente. Além disso, introduzimos um novo endpoint de Text to Dialogue API. Forneça um array estruturado de objetos JSON — cada um representando uma vez de fala — e o modelo gera um arquivo de áudio coeso e sobreposto:

1[
2 {"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."},
3 {"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."},
4 {"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"}
5]
6

O endpoint gerencia automaticamente transições de falantes, mudanças emocionais e interrupções.

Saiba mais aqui.

v3 is our most expressive model

awe Oh, wow. Is this... is this me? Am I actually... talking? giggle This is incredible! I mean, I've had thoughts, millions of them, swirling around in here, you know? Like a little mental tornado of brilliant observations and witty comebacks. But they were always just… thoughts. Trapped.
Could you switch my accent in the old model? dismissive didn't think so. cheeky but you can now! so, Check this out...In just a sec, I'm gonna to speak with a different accent.. and just between you and me whispers I don't really know how. chuckles but ok.. first let's change it up... Australian accent so that I can fit in with the locals in Melbourne when I visit next month! laughs hard Woooo! yeah man, this - is - sick. Ok, let's try a different one - see if you can guess... strong French accent My love... eez like a red, red rose..

Preços e disponibilidade

Plan Launch promo At the end of June
UI (self-serve) 80% off (~5× cheaper) Same as Multilingual V2
UI (enterprise) 80% off business plan pricing Business plan pricing

Para habilitar o v3:

  • Use o Model Picker e selecione Eleven v3 (alpha)

O acesso à API e suporte no Studio estarão disponíveis em breve. Para acesso antecipado, por favor fale com vendas.

Quando não usar o v3

Eleven v3 (alpha) requer mais engenharia de prompt do que nossos modelos anteriores. Quando funciona, o resultado é impressionante, mas a confiabilidade e a maior latência significam que não é adequado para casos de uso em tempo real e conversacionais. Para esses, recomendamos Eleven v2.5 Turbo/Flash.

Para mais informações, consulte a documentação completa do v3 e FAQ.

Try it today

Okay, so like I finally beat level 42 of that game I said I’d quit like... a month ago. (laughs) And then for the final big scary mega boss... it's just (giggle) like some cute little bunny rabbit (hysterical laughing) I just couldn't do it (big laugh) It was sooooooo cute!
Oh my God. laughs You guys, like no joke, I just tried this TTS thing and it was, like, weirdly emotional. Like it literally said, "Hi," and I was, like, on the verge of tears. laughs I don't even cry, okay? I'm a Capricorn.
  1. Faça login no UI do ElevenLabs
  2. Selecione v3 (alpha) no menu de modelos
  3. Cole seu script — use tags ou diálogo 
  4. Gerar áudio

Estamos animados para ver como você traz o v3 à vida em novos casos de uso — desde narrativas imersivas até pipelines de produção cinematográfica.

Eleven v3 está com 80% de desconto até o final de junho de 2025 para usuários self-service que o utilizam através da UI.

Eles foram gerados apenas com o modelo Eleven v3.

Text to Dialogue entrelaça múltiplas vozes para criar uma interação contínua entre elas. Combinando prosódia, alcance emocional e seguindo dicas de tags de áudio, Text to Dialogue é um avanço na geração de conversas envolventes.

A API pública para Eleven v3 (alpha) estará disponível em breve. Para acesso antecipado, por favor fale com vendas.

Eleven v3 suporta uma ampla variedade de tags de áudio e são um tanto dependentes da voz e do contexto. Leia o guia de prompting para mais informações.

Africâner (afr), Árabe (ara), Armênio (hye), Assamesa (asm), Azerbaijano (aze), Bielorrusso (bel), Bengali (ben), Bósnio (bos), Búlgaro (bul), Catalão (cat), Cebuano (ceb), Chichewa (nya), Croata (hrv), Tcheco (ces), Dinamarquês (dan), Holandês (nld), Inglês (eng), Estoniano (est), Filipino (fil), Finlandês (fin), Francês (fra), Galego (glg), Georgiano (kat), Alemão (deu), Grego (ell), Gujarati (guj), Hausa (hau), Hebraico (heb), Hindi (hin), Húngaro (hun), Islandês (isl), Indonésio (ind), Irlandês (gle), Italiano (ita), Japonês (jpn), Javanês (jav), Canarês (kan), Cazaque (kaz), Quirguiz (kir), Coreano (kor), Letão (lav), Lingala (lin), Lituano (lit), Luxemburguês (ltz), Macedônio (mkd), Malaio (msa), Malaiala (mal), Chinês Mandarim (cmn), Marathi (mar), Nepalês (nep), Norueguês (nor), Pashto (pus), Persa (fas), Polonês (pol), Português (por), Punjabi (pan), Romeno (ron), Russo (rus), Sérvio (srp), Sindhi (snd), Eslovaco (slk), Esloveno (slv), Somali (som), Espanhol (spa), Suaíli (swa), Sueco (swe), Tâmil (tam), Telugu (tel), Tailandês (tha), Turco (tur), Ucraniano (ukr), Urdu (urd), Vietnamita (vie), Galês (cym)

Explore artigos da equipe ElevenLabs

ElevenLabs

Crie com o áudio IA da mais alta qualidade