
Maven AGI brings advanced Voice AI to customer support with ElevenLabs
Delivering a complete customer engagement solution by adding voice support
Descubra como testar e melhorar efetivamente agentes de conversação com IA usando critérios de avaliação robustos e simulações de conversa.
Quando agentes de conversação entram em operação, como você os monitora em escala? Como detectar quando não estão se comportando como esperado? E uma vez feitas as mudanças, como testá-los?
Essas perguntas moldaram nosso trabalho no Alexis, nossa assistente de documentação movida por Conversational AI. Conforme El evoluiu, construímos um sistema para monitoramento, avaliar e testar agentes, baseado em critérios de avaliação e simulações de conversa.
Melhorar qualquer agente começa com o entendimento de como ele se comporta na prática. Isso significou refinar nossos critérios de avaliação e garantir que fossem precisos e confiáveis o suficiente para monitorar o desempenho do agente. Definimos uma conversa falha como aquela em que o agente fornece informações incorretas ou não ajuda o usuário a alcançar seu objetivo.
Se Interação falhar, a conversa em si não é válida. Se qualquer outro critério falhar, investigamos mais a fundo. A investigação orienta como melhorar o agente. Às vezes, é sobre refinar o uso de ferramentas ou o timing. Outras vezes, é adicionar limites para prevenir ações não suportadas.
Uma vez que identificamos o que melhorar, o próximo passo é testar. É aí que entra nossa API de Simulação de Conversa entra em ação. Ele simula cenários realistas de usuários - tanto de ponta a ponta quanto em segmentos específicos - e avalia automaticamente os resultados usando os mesmos critérios que aplicamos em produção. Suporta simulação de ferramentas e avaliação personalizada, tornando-o flexível o suficiente para testar comportamentos específicos.
Cenários claros e focados nos permitem controlar o que o LLM está sendo testado, garantindo cobertura para casos extremos, uso de ferramentas e lógica de fallback.
A peça final é automação. Usamos as APIs abertas da ElevenLabs para conectar com nosso fluxo DevOps no GitHub, incorporando avaliação e simulação em nosso pipeline de CI/CD. Cada atualização é testada automaticamente antes da implantação. Isso previne regressões e nos dá feedback rápido sobre o desempenho no mundo real.
Esse processo transformou a forma como construímos e mantemos a Alexis. Criamos um ciclo de feedback que conecta o uso real com avaliação estruturada, testes direcionados e validação automatizada, permitindo-nos implementar melhorias mais rapidamente e com maior confiança.
E é uma estrutura que agora podemos aplicar a qualquer agente que construirmos.
Delivering a complete customer engagement solution by adding voice support
Get $1,500+ in free credits on AI tools that help you study, create, and build faster
Desenvolvido por ElevenLabs Conversational AI