
Dubbing made simpler, sharper, and faster at PERSO.ai
ESTsoft and ElevenLabs partner to bring natural voiceovers and frame-accurate lip-sync to global video localization.
Présentation de Eleven v3 Alpha
Essayez v3Découvrez comment tester et améliorer efficacement les agents IA conversationnels en utilisant des critères d'évaluation robustes et des simulations de conversation.
Quand les agents conversationnels sont en ligne, comment les surveiller à grande échelle ? Comment détecter quand ils ne se comportent pas comme prévu ? Et une fois que vous avez apporté des modifications, comment les tester ?
Ces questions ont façonné notre travail sur Alexis — notre assistant de documentation propulsé par Conversational AI. Au fur et à mesure qu'Alexis évoluait, nous avons construit un système pour surveiller, évaluer, et tester les agents, basé sur des critères d'évaluation et des simulations de conversation.
Améliorer un agent commence par comprendre comment il se comporte sur le terrain. Cela signifiait affiner nos critères d'évaluation — s'assurer qu'ils étaient suffisamment précis et fiables pour surveiller la performance de l'agent. Nous définissons une conversation échouée comme celle où l'agent donne des informations incorrectes ou n'aide pas l'utilisateur à atteindre son objectif.
Si l'Interaction échoue, la conversation elle-même n'est pas valide. Si d'autres critères échouent, nous enquêtons davantage. L'enquête guide comment nous améliorons l'agent. Parfois, il s'agit de peaufiner l'utilisation des outils ou le timing. D'autres fois, il s'agit d'ajouter des garde-fous pour éviter des actions non prises en charge.
Une fois que nous avons identifié ce qu'il faut améliorer, l'étape suivante est le test. C'est là que notre API de simulation de conversation intervient. Elle simule des scénarios utilisateurs réalistes — à la fois de bout en bout et dans des segments ciblés — et évalue automatiquement les résultats en utilisant les mêmes critères que nous appliquons en production. Elle prend en charge la simulation d'outils et l'évaluation personnalisée, ce qui la rend suffisamment flexible pour tester des comportements spécifiques.
Des scénarios clairs et ciblés nous permettent de contrôler ce sur quoi le LLM est testé — assurant une couverture pour les cas limites, l'utilisation des outils et la logique de secours.
La dernière pièce est l'automatisation. Nous avons utilisé les API ouvertes d'ElevenLabs pour nous connecter à notre flux DevOps GitHub — intégrant l'évaluation et la simulation dans notre pipeline CI/CD. Chaque mise à jour est automatiquement testée avant le déploiement. Cela prévient les régressions et nous donne un retour rapide sur la performance en conditions réelles.
Ce processus a transformé notre façon de construire et de maintenir Alexis. Nous avons créé un cycle de rétroaction qui relie l'utilisation réelle à une évaluation structurée, des tests ciblés et une validation automatisée — nous permettant de livrer des améliorations plus rapidement et avec plus de confiance.
Et c'est un cadre que nous pouvons maintenant appliquer à tout agent que nous construisons.
ESTsoft and ElevenLabs partner to bring natural voiceovers and frame-accurate lip-sync to global video localization.
To celebrate 1 million agents created, build the best agent you can in 2 hours and compete for $20k+ in prizes.