
Eleven v3 Audio Tags: Dando consciência situacional ao áudio com IA
Aprimore a fala com IA usando Eleven v3 Audio Tags. Controle tom, emoção e ritmo para conversas naturais. Adicione consciência situacional ao seu texto para fala.
Apresentando o Eleven v3 (alpha)
Experimente o v3As audio tags da ElevenLabs controlam a emoção, ritmo e efeitos sonoros da voz IA.
Com o lançamento do Eleven v3, a criação de áudio se tornou uma habilidade essencial. Em vez de digitar ou colar as palavras que você quer que a voz IA diga, agora você pode usar uma nova capacidade — Audio Tags — para controlar tudo, desde a emoção até a entrega.
Eleven v3 é uma versão alfa de prévia de pesquisa do novo modelo. Requer mais engenharia de prompt do que os modelos anteriores — mas as gerações são impressionantes.
As Audio Tags ElevenLabs são palavras entre colchetes que o novo modelo Eleven v3 pode interpretar e usar para direcionar a ação audível. Podem ser desde [excited], [whispers] e [sighs] até [gunshot], [clapping] e [explosion].
As Audio Tags permitem que você molde como as vozes IA soam, incluindo sinais não verbais como tom, pausas e ritmo. Seja criando audiolivros imersivos, personagens interativos ou mídia orientada por diálogos, essas ferramentas simples no nível do script oferecem controle preciso sobre emoção e entrega.
Você pode colocar Audio Tags em qualquer lugar do seu script para moldar a entrega em tempo real. Também pode usar combinações de tags dentro de um script ou até mesmo em uma frase. As tags se dividem em categorias principais:
Essas tags podem ajudar você a definir o tom emocional da voz — seja sombrio, intenso ou animado. Por exemplo, você pode usar uma ou uma combinação de [sad], [angry], [happily] e [sorrowful].
Essas são mais sobre o tom e a performance. Você pode usar essas tags para ajustar o volume e a energia para cenas que precisam de contenção ou força. Exemplos incluem: [whispers], [shouts] e até [x accent].
A fala natural verdadeira inclui reações. Por exemplo, você pode usar isso para adicionar realismo incorporando momentos naturais e não roteirizados na fala. Por exemplo: [laughs], [clears throat] e [sighs].
Por trás desses recursos está a nova arquitetura do v3. O modelo entende o contexto do texto em um nível mais profundo, o que significa que pode seguir pistas emocionais, mudanças de tom e transições de falante de forma mais natural. Combinado com as Audio Tags, isso desbloqueia uma expressividade maior do que era possível anteriormente no TTS.
Agora você também pode criar diálogos com vários falantes que parecem espontâneos — lidando com interrupções, mudanças de humor e nuances de conversação com mínimo de prompts.
Os Professional Voice Clones (PVCs) atualmente não estão totalmente otimizados para o Eleven v3, resultando em uma qualidade de clone potencialmente inferior em comparação com modelos anteriores. Durante esta fase de prévia de pesquisa, é melhor encontrar um Instant Voice Clone (IVC) ou uma voz projetada para seu projeto se você precisar usar os recursos do v3. A otimização de PVC para v3 está chegando em breve.
Eleven v3 está disponível na interface da ElevenLabs, e estamos oferecendo 80% de desconto até o final de junho. A API pública para Eleven v3 (alfa) está chegando em breve. Para acesso antecipado, por favor entre em contato com vendas. Seja você um experimentador ou esteja implantando em escala, agora é a hora de explorar o que é possível.
Criar fala IA que atua — não apenas lê — depende de dominar as Audio Tags. Produzimos sete guias concisos e práticos que mostram como tags como [WHISPER]
, [LAUGHS SOFTLY]
, ou [French accent]
permitem que você molde contexto, emoção, ritmo e até diálogos de múltiplos personagens com um único modelo.
[WHISPER]
, [SHOUTING]
, e [SIGH]
permitem que o Eleven v3 reaja ao momento — aumentando a tensão, suavizando avisos ou pausando para suspense.[pirate voice]
a [French accent]
, as tags transformam a narração em interpretação de papéis. Mude de persona no meio da linha e dirija performances completas de personagens sem trocar de modelo.[sigh]
, [excited]
, ou [tired]
direcionam sentimentos momento a momento, adicionando tensão, alívio ou humor — sem necessidade de regravação.[pause]
, [awe]
, ou [dramatic tone]
controlam ritmo e ênfase para que as vozes IA guiem o ouvinte por cada batida.[interrupting]
, [overlapping]
, ou mudanças de tom. Um modelo, muitas vozes — conversa natural em uma única tomada.[pause]
, [rushed]
, ou [drawn out]
dão precisão sobre o tempo, transformando texto simples em performance.[American accent]
, [British accent]
, [Southern US accent]
e mais — para uma fala culturalmente rica sem trocas de modelo.Aprimore a fala com IA usando Eleven v3 Audio Tags. Controle tom, emoção e ritmo para conversas naturais. Adicione consciência situacional ao seu texto para fala.
Learn how ElevenLabs and Cartesia compare based on features, price, voice quality and more.