Apresentando o Eleven v3 (alpha)

Experimente o v3

Testando Agentes de Conversação com IA

Descubra como testar e melhorar efetivamente agentes de conversação com IA usando critérios de avaliação robustos e simulações de conversa.

Abstract

Quando agentes de conversação entram em operação, como você os monitora em escala? Como detectar quando não estão se comportando como esperado? E uma vez feitas as mudanças, como testá-los?

Essas perguntas moldaram nosso trabalho no Alexis — nosso assistente de documentação movido por Conversational AI. À medida que Alexis evoluiu, criamos um sistema para monitorar, avaliar e testar agentes, baseado em critérios de avaliação e simulações de conversa.

Estabelecendo a Base: Critérios de Avaliação Confiáveis

Melhorar qualquer agente começa com o entendimento de como ele se comporta no mundo real. Isso significou refinar nossos critérios de avaliação — garantindo que fossem precisos e confiáveis o suficiente para monitorar o desempenho do agente. Definimos uma conversa falha como aquela em que o agente fornece informações incorretas ou não ajuda o usuário a alcançar seu objetivo.

Flow chart

Desenvolvemos os seguintes Critérios de Avaliação:

  • Interação: esta é uma conversa válida, o usuário fez perguntas relevantes, a conversa fez sentido?
  • Interação positiva: o usuário saiu satisfeito ou ficou confuso ou frustrado?
  • Entendendo a causa raiz: o agente identificou corretamente o problema subjacente do usuário?
  • Resolvendo a dúvida do usuário: o agente resolveu o problema do usuário ou forneceu um método de suporte alternativo?
  • Alucinação: o agente inventou informações que não estão na base de conhecimento?

Se Interação falhar, a conversa em si não é válida. Se qualquer outro critério falhar, investigamos mais a fundo. A investigação orienta como melhorar o agente. Às vezes, é sobre refinar o uso de ferramentas ou o timing. Outras vezes, é adicionar limites para prevenir ações não suportadas.

Iterando com Confiança: API de Simulação de Conversa

Uma vez que identificamos o que melhorar, o próximo passo é testar. É aí que entra nossa API de Simulação de Conversa. Ela simula cenários realistas de usuários — tanto de ponta a ponta quanto em segmentos específicos — e avalia automaticamente os resultados usando os mesmos critérios que aplicamos em produção. Ela suporta simulação de ferramentas e avaliação personalizada, tornando-se flexível o suficiente para testar comportamentos específicos.

Usamos duas abordagens:

  • Simulações completas — Testar conversas inteiras do início ao fim.
  • Simulações parciais — Começar no meio da conversa para validar pontos de decisão ou subfluxos. Este é nosso método preferido para testes unitários, permitindo iteração rápida e depuração direcionada.

Cenários claros e focados nos permitem controlar o que o LLM está sendo testado — garantindo cobertura para casos extremos, uso de ferramentas e lógica de fallback.

Automatizando para Escala: Incorporando Testes em CI/CD

A peça final é automação. Usamos as APIs abertas da ElevenLabs para conectar com nosso fluxo DevOps do GitHub — incorporando avaliação e simulação em nosso pipeline de CI/CD. Cada atualização é testada automaticamente antes da implantação. Isso previne regressões e nos dá feedback rápido sobre o desempenho no mundo real.

Resultados: Um Alexis Mais Forte e Inteligente

Esse processo transformou a forma como construímos e mantemos o Alexis. Criamos um ciclo de feedback que conecta o uso real com avaliação estruturada, testes direcionados e validação automatizada — permitindo que façamos melhorias mais rapidamente e com maior confiança.

E é uma estrutura que agora podemos aplicar a qualquer agente que construirmos.

Explore artigos da equipe ElevenLabs

ElevenLabs

Create with the highest quality AI Audio

Get started free

Já tem uma conta? Log in