
Eleven v3 Audio Tags: Expressando contexto emocional na fala
- Categoria
- Recursos
- Data
Como desenvolvemos sistemas de IA que se comunicam em tempo real — explicando as decisões técnicas sobre alternância de fala, latência, entrega expressiva e os modelos que já lançamos.
Estamos trabalhando nessa categoria há anos. Neste post, mostramos o que já lançamos e as decisões de pesquisa e produto por trás disso.
Nosso produto principal - ElevenAgents com Conversacional v3
Modo Expressivo — Mark — Atendimento de Empréstimo Pessoal (Pânico) — launch asset.mp4
O que é preciso para um modelo de interação funcionar
Três fatores precisam funcionar juntos para que um sistema de interação seja eficiente e proporcione conversas naturais e envolventes:
O que já lançamos
Eleven v3 Conversacional.Nossa versão conversacional do v3, lançada no ElevenAgents em fevereiro de 2026 com troca de turnos integrada. O modelo de troca de turnos é ativado por padrão quando o v3 Conversacional é escolhido como modelo de TTS.
Troca de turnos especulativa.Um recurso separado do v3 Conversacional que antecipa a geração de resposta do LLM durante períodos de silêncio do usuário, reduzindo a latência percebida.
Flash v2.5.Nosso modelo de Transformar Texto em Áudio mais rápido, feito para uso em tempo real com baixa latência, com inferência em cerca de 75ms.*
Scribe v2.Nosso modelo de Speech to Text com precisão líder no setor.
Modo Expressivo do ElevenAgents.Permite que agentes usem tags expressivas como [risos], [sussurra], [suspiro] e [devagar] para controlar a entrega no contexto.
Modo Expressivo do ElevenAgents.Permite que agentes usem tags expressivas como [risos], [sussurros], [suspiros] e [devagar] para controlar a entrega no contexto.
Para onde estamos indo
Muitas conversas com IA ainda parecem consultas. Conversas reais não são assim. Nosso trabalho é diminuir essa distância.




