
Eleven v3 Audio Tags: Expresando contexto emocional en el habla
- Categoría
- Recursos
- Fecha
Cómo creamos sistemas de IA que se comunican en tiempo real: explicamos las decisiones técnicas sobre turnos de palabra, latencia, entonación y los modelos que hemos lanzado.
Llevamos años trabajando para llegar a esta categoría. En este post te contamos lo que hemos lanzado y las decisiones de investigación y producto que hay detrás.
Nuestro producto estrella: ElevenAgents con v3 Conversacional
Modo Expresivo - Mark - Préstamo Personal Entrante (Pánico) - recurso de lanzamiento.mp4
Qué hace falta para que funcione un modelo de interacción
Tres elementos tienen que funcionar juntos para que un sistema de interacción cree conversaciones naturales y fluidas:
Algunas de las novedades que hemos lanzado
Eleven v3 Conversacional. Nuestra versión conversacional de v3, lanzada en ElevenAgents en febrero de 2026 con gestión de turnos integrada. El modelo de turnos está activado por defecto al elegir v3 Conversacional como modelo de TTS.
Gestión de turnos especulativa. Una función aparte en v3 Conversacional que anticipa la generación de respuestas del LLM durante los silencios del usuario, reduciendo la latencia percibida.
Flash v2.5. Nuestro modelo de Texto a Voz más rápido, pensado para uso en tiempo real con baja latencia, genera audio en unos 75 ms.*
Scribe v2. Nuestro modelo de Voz a Texto con precisión líder en el sector.
Modo Expresivo de ElevenAgents. Permite a los agentes usar etiquetas expresivas como [ríe], [susurra], [suspira] y [lento] para controlar la entonación en cada contexto.
Modo Expresivo de ElevenAgents. Permite a los agentes usar etiquetas expresivas como [ríe], [susurra], [suspira] y [lento] para controlar la entonación en contexto.
Hacia dónde vamos
Muchas conversaciones con IA siguen pareciendo consultas. Las conversaciones reales no son así. Nuestro trabajo es cerrar esa distancia.




