
Cancer Steals Voices. ElevenLabs Gives Them Back.
ElevenLabs Partners with Lary's Speakeasy to Support the Laryngectomy Community
Descubre cómo probar y mejorar agentes de conversación IA de manera efectiva usando criterios de evaluación robustos y simulaciones de conversación.
Cuando los agentes de conversación están en vivo, ¿cómo los monitoreas a gran escala? ¿Cómo detectas cuando no se comportan como se espera? Y una vez que has hecho cambios, ¿cómo los pruebas?
Estas preguntas dieron forma a nuestro trabajo en El, nuestro asistente de documentación impulsado por Conversational AI. A medida que El evolucionó, creamos un sistema para monitorear, evaluar, y probar agentes, basado en criterios de evaluación y simulaciones de conversación.
Mejorar cualquier agente comienza con entender cómo se comporta en el mundo real. Eso significó refinar nuestros criterios de evaluación y asegurarnos de que fueran lo suficientemente precisos y fiables para monitorear el rendimiento del agente. Definimos una conversación fallida como aquella en la que el agente da información incorrecta o no ayuda al usuario a alcanzar su objetivo.
Si Interacción falla, la conversación en sí no es válida. Si cualquier otro criterio falla, investigamos más a fondo. La investigación guía cómo mejoramos el agente. A veces se trata de refinar el uso de herramientas o el tiempo. Otras veces, es añadir límites para prevenir acciones no soportadas.
Una vez que hemos identificado qué mejorar, el siguiente paso es probar. Ahí es donde entra nuestra API de Simulación de Conversación entra en acción. Simula escenarios realistas de usuario, tanto de principio a fin como en segmentos específicos, y evalúa automáticamente los resultados usando los mismos criterios que aplicamos en producción. Soporta la simulación de herramientas y la evaluación personalizada, lo que lo hace lo suficientemente flexible para probar comportamientos específicos.
Escenarios claros y enfocados nos permiten controlar lo que se está probando en el LLM, asegurando cobertura para casos límite, uso de herramientas y lógica de respaldo.
La pieza final es automatización. Usamos las APIs abiertas de ElevenLabs para conectarnos con nuestro flujo de GitHub DevOps integrando la evaluación y simulación en nuestra pipeline de CI/CD. Cada actualización se prueba automáticamente antes de su implementación. Esto previene regresiones y nos da retroalimentación rápida sobre el rendimiento en el mundo real.
Este proceso transformó cómo construimos y mantenemos El. Hemos creado un ciclo de retroalimentación que conecta el uso real con una evaluación estructurada, pruebas específicas y validación automatizada, permitiéndonos implementar mejoras más rápido y con mayor confianza.
Y es un marco que ahora podemos aplicar a cualquier agente que construyamos.
ElevenLabs Partners with Lary's Speakeasy to Support the Laryngectomy Community
Many business phone systems rely on interactive voice response (IVR) menus. Until now, these systems created a barrier for AI agents, limiting automation in key workflows.
Desarrollado por ElevenLabs Conversational AI