O que são as Audio Tags Eleven v3 — e por que elas importam

Escrito por: Ryan Morrison
Publicado: 6 de jun. de 2025
Última atualização: 22 de jul. de 2026

OuvirOuça este artigo

0:00

0:000:00

Com o lançamento do Eleven v3, o uso de prompts de áudio se tornou uma habilidade essencial. Em vez de apenas digitar ou colar o texto que você quer que a voz IA fale, agora você pode usar um novo recurso — Tags de Áudio — para controlar desde a emoção até a entrega.

O Eleven v3 é um lançamento alpha prévia de pesquisa do novo modelo. Ele exige mais engenharia de prompt do que os modelos anteriores — mas os resultados são impressionantes.

As Audio Tags ElevenLabs são palavras entre colchetes que o novo modelo Eleven v3 entende e usa para direcionar a ação sonora. Elas podem ser desde [excited], [whispers] e [sighs] até [gunshot], [clapping] e [explosion].

As Tags de Áudio permitem que você defina como as

Direcionando a performance com Audio Tags

Você pode colocar Audio Tags em qualquer parte do seu roteiro para ajustar a entrega em tempo real. Também é possível combinar tags dentro de um mesmo texto ou até em uma frase. As tags se dividem em categorias principais:

Emoções

Essas tags ajudam a definir o tom emocional da voz — seja mais sóbria, intensa ou animada. Por exemplo, você pode usar uma ou combinar [sad], [angry], [happily] e [sorrowful].

Direção de entrega

Essas tags são voltadas para o tom e a performance. Você pode usá-las para ajustar o volume e a energia em cenas que pedem mais suavidade ou intensidade. Exemplos: [whispers], [shouts] e até [x accent].

Reações humanas

A fala natural inclui reações. Você pode usar isso para trazer mais realismo, inserindo momentos naturais e espontâneos na fala. Por exemplo: [laughs], [clears throat] e [sighs].

Baseado em um modelo mais expressivo

Por trás desses recursos está a nova arquitetura do v3. O modelo entende o contexto do texto de forma mais profunda, o que permite seguir emoções, mudanças de tom e transições de falantes de maneira mais natural. Combinado com as Audio Tags, isso traz uma expressividade muito maior do que era possível antes em

Agora você também pode criar diálogos com vários personagens que soam espontâneos — lidando com interrupções, mudanças de humor e nuances de conversa com pouco esforço.

Disponível agora

Clones de Voz Profissionais (PVCs) ainda não estão totalmente otimizados para o Eleven v3, o que pode resultar em clones de qualidade inferior em relação aos modelos anteriores. Durante esta fase de prévia de pesquisa, o ideal é buscar um

O Eleven v3 já está disponível na interface da ElevenLabs, e estamos oferecendo 80% de desconto até o final de junho. A API pública do Eleven v3 (alpha) também está disponível. Seja para experimentar ou usar em escala, agora é a hora de explorar o que é possível.

Criando Audio Tags

Criar fala com IA que interpreta — e não apenas lê — depende do domínio das Audio Tags. Preparamos sete guias práticos e diretos que mostram como tags como [SUSSURRO], [RISADA SUAVE], ou [sotaque francês] permitem definir contexto, emoção, ritmo e até diálogos com vários personagens usando um único modelo.

Veja a série completa

Consciência de situação – Tags como [SUSSURRO], [GRITANDO], e [SUSPIRO] fazem o Eleven v3 reagir ao momento — aumentando a tensão, suavizando alertas ou criando suspense com uma pausa.
Performance de personagem – De [voz de pirata] a [sotaque francês], as tags transformam a narração em interpretação. Mude de personagem no meio da fala e direcione performances completas sem trocar de modelo.
Contexto emocional – Sinais como [suspiro], [animado], ou [cansado] conduzem as emoções a cada momento, trazendo tensão, alívio ou humor — sem precisar regravar.
Inteligência narrativa – Contar histórias é questão de ritmo. Tags como [pausa], [surpreso], ou [tom dramático] controle o ritmo e a ênfase para que
Diálogo com vários personagens – Escreva falas sobrepostas e conversas rápidas com [interrompendo], [sobreposição], ou mudanças de tom. Um modelo, várias vozes — conversas naturais em uma só gravação.
Controle de entrega – Ajuste ritmo e ênfase. Tags como [pausa], [apressado], ou [prolongado] dão precisão ao tempo, transformando texto simples em interpretação.
Emulação de sotaque – Troque de região na hora — [sotaque americano], [sotaque britânico], [sotaque do sul dos EUA] e outros — para falas com riqueza cultural sem trocar de modelo.

O que são as Audio Tags Eleven v3 — e por que elas importam

Direcionando a performance com Audio Tags

Emoções

Direção de entrega

Reações humanas

Baseado em um modelo mais expressivo

Disponível agora

Criando Audio Tags

Veja a série completa

Artigos relacionados

Eleven v3 Audio Tags: Dando consciência situacional ao áudio com IA

Crie Text to Speech com sotaque Mid-Atlantic realista

Melhores práticas para criar chatbots de IA conversacional com Text-to-Speech

Crie Text to Speech com sotaque do Brooklyn realista