
How we scaled our customer interview process with ElevenLabs Agents
We used ElevenLabs Agents to interview over 230 users of our ElevenReader app in 24 Hours.
Nuestro modelo de streaming Texto a Voz de ultra baja latencia, optimizado para casos de uso de agentes, ya está disponible en la Plataforma de Agents.
Esta semana, presentamos
Scribe v2 Realtime transcribes speech in under 150ms with state-of-the-art accuracy, enabling agents to respond as naturally as humans do in conversation.
La mayoría de los sistemas de Texto a Voz funcionan bien en entornos de prueba limpios, pero tienen dificultades cuando se enfrentan a la realidad: fondos ruidosos, acentos diversos o identificadores como nombres, correos electrónicos e identificaciones.
Scribe v2 Realtime fue entrenado para manejar exactamente estos desafíos.
En pruebas internas con cientos de muestras de conversaciones en inglés desafiantes, con mala calidad de audio, acentos diversos y palabras de relleno, Scribe v2 Realtime capturó la intención del usuario con más precisión que cualquier modelo ASR en tiempo real competidor.
A continuación, algunos ejemplos del mundo real donde probamos la precisión de transcripción de Scribe v2 Realtime en diferentes entornos.
Como empresa global con una gran cantidad de agentes desplegados en español, portugués, hindi y muchos otros idiomas, era crucial que Scribe v2 Realtime mantuviera un rendimiento de última generación en todas las regiones.
En el benchmark multilingüe FLEURS, que mide la precisión en 30 idiomas, Scribe v2 Realtime logró la tasa de error de palabras (WER) más baja de cualquier modelo ASR de baja latencia.
Esto permite a las empresas lanzar agentes multilingües que responden de manera instantánea y precisa, sin comprometer la velocidad o la precisión.
Scribe v2 Realtime está completamente integrado en ElevenLabs Agents y se puede habilitar en la sección de configuración avanzada.


We used ElevenLabs Agents to interview over 230 users of our ElevenReader app in 24 Hours.

Enabling cinematic storytelling with Text to Speech and Music
Desarrollado por ElevenLabs Agentes