O que são as Audio Tags Eleven v3 — e por que são importantes

As audio tags da ElevenLabs controlam a emoção, ritmo e efeitos sonoros da voz IA.

Audio tags

Com o lançamento do Eleven v3, a criação de áudio se tornou uma habilidade essencial. Em vez de digitar ou colar as palavras que você quer que a voz IA diga, agora você pode usar uma nova capacidade — Audio Tags — para controlar tudo, desde a emoção até a entrega.

Eleven v3 é uma versão alfa de prévia de pesquisa do novo modelo. Requer mais engenharia de prompt do que os modelos anteriores — mas as gerações são impressionantes.

As Audio Tags ElevenLabs são palavras entre colchetes que o novo modelo Eleven v3 pode interpretar e usar para direcionar a ação audível. Podem ser desde [excited], [whispers] e [sighs] até [gunshot], [clapping] e [explosion].

As Audio Tags permitem que você molde como as vozes IA soam, incluindo sinais não verbais como tom, pausas e ritmo. Seja criando audiolivros imersivos, personagens interativos ou mídia orientada por diálogos, essas ferramentas simples no nível do script oferecem controle preciso sobre emoção e entrega.

Dirigindo a performance com Audio Tags

Você pode colocar Audio Tags em qualquer lugar do seu script para moldar a entrega em tempo real. Também pode usar combinações de tags dentro de um script ou até mesmo em uma frase. As tags se dividem em categorias principais:

Emoções

Essas tags podem ajudar você a definir o tom emocional da voz — seja sombrio, intenso ou animado. Por exemplo, você pode usar uma ou uma combinação de [sad], [angry], [happily] e [sorrowful].

Background
Background

Direção de entrega

Essas são mais sobre o tom e a performance. Você pode usar essas tags para ajustar o volume e a energia para cenas que precisam de contenção ou força. Exemplos incluem: [whispers], [shouts] e até [x accent].

Background
Background

Reações humanas

A fala natural verdadeira inclui reações. Por exemplo, você pode usar isso para adicionar realismo incorporando momentos naturais e não roteirizados na fala. Por exemplo: [laughs], [clears throat] e [sighs].

Background
Background

Construído em um modelo mais expressivo

Por trás desses recursos está a nova arquitetura do v3. O modelo entende o contexto do texto em um nível mais profundo, o que significa que pode seguir pistas emocionais, mudanças de tom e transições de falante de forma mais natural. Combinado com as Audio Tags, isso desbloqueia uma expressividade maior do que era possível anteriormente no TTS.

Agora você também pode criar diálogos com vários falantes que parecem espontâneos — lidando com interrupções, mudanças de humor e nuances de conversação com mínimo de prompts.

Disponível agora

Os Professional Voice Clones (PVCs) atualmente não estão totalmente otimizados para o Eleven v3, resultando em uma qualidade de clone potencialmente inferior em comparação com modelos anteriores. Durante esta fase de prévia de pesquisa, é melhor encontrar um Instant Voice Clone (IVC) ou uma voz projetada para seu projeto se você precisar usar os recursos do v3. A otimização de PVC para v3 está chegando em breve.

Eleven v3 está disponível na interface da ElevenLabs, e estamos oferecendo 80% de desconto até o final de junho. A API pública para Eleven v3 (alfa) está chegando em breve. Para acesso antecipado, por favor entre em contato com vendas. Seja você um experimentador ou esteja implantando em escala, agora é a hora de explorar o que é possível.

Criando Audio Tags

Criar fala IA que atua — não apenas lê — depende de dominar as Audio Tags. Produzimos sete guias concisos e práticos que mostram como tags como [WHISPER], [LAUGHS SOFTLY], ou [French accent] permitem que você molde contexto, emoção, ritmo e até diálogos de múltiplos personagens com um único modelo.

Explore a série

  • Consciência Situacional – Tags como [WHISPER], [SHOUTING], e [SIGH] permitem que o Eleven v3 reaja ao momento — aumentando a tensão, suavizando avisos ou pausando para suspense.
  • Performance de Personagem – De [pirate voice] a [French accent], as tags transformam a narração em interpretação de papéis. Mude de persona no meio da linha e dirija performances completas de personagens sem trocar de modelo.
  • Contexto Emocional – Pistas como [sigh], [excited], ou [tired] direcionam sentimentos momento a momento, adicionando tensão, alívio ou humor — sem necessidade de regravação.
  • Inteligência Narrativa – Contar histórias é tempo. Tags como [pause], [awe], ou [dramatic tone] controlam ritmo e ênfase para que as vozes IA guiem o ouvinte por cada batida.
  • Diálogo de Múltiplos Personagens – Escreva linhas sobrepostas e conversas rápidas com [interrupting], [overlapping], ou mudanças de tom. Um modelo, muitas vozes — conversa natural em uma única tomada.
  • Controle de Entrega – Ajuste fino de ritmo e ênfase. Tags como [pause], [rushed], ou [drawn out] dão precisão sobre o tempo, transformando texto simples em performance.
  • Emulação de Acento – Mude de região rapidamente —[American accent], [British accent], [Southern US accent] e mais — para uma fala culturalmente rica sem trocas de modelo.

Explore artigos da equipe ElevenLabs

Product
ElevenLabs Agent Testing

Introducing Tests for ElevenLabs Agents

Ensure reliability and compliance with ElevenLabs Agents Testing. Run structured simulations for tool calls, human transfers, workflows, and guardrails. Integrate into CI/CD and ship agents with confidence.

ElevenLabs

Crie com o áudio IA da mais alta qualidade