Testando Agentes de Conversação com IA

Descubra como testar e melhorar efetivamente agentes de conversação com IA usando critérios de avaliação robustos e simulações de conversa.

Abstract

Quando agentes de conversação entram em operação, como você os monitora em escala? Como detectar quando não estão se comportando como esperado? E uma vez feitas as mudanças, como testá-los?

Essas perguntas moldaram nosso trabalho no Alexis, nossa assistente de documentação movida por Conversational AI. Conforme El evoluiu, construímos um sistema para monitoramento, avaliar e testar agentes, baseado em critérios de avaliação e simulações de conversa.

Estabelecendo a Base: Critérios de Avaliação Confiáveis

Melhorar qualquer agente começa com o entendimento de como ele se comporta na prática. Isso significou refinar nossos critérios de avaliação e garantir que fossem precisos e confiáveis o suficiente para monitorar o desempenho do agente. Definimos uma conversa falha como aquela em que o agente fornece informações incorretas ou não ajuda o usuário a alcançar seu objetivo.

Flow chart

Desenvolvemos os seguintes Critérios de Avaliação:

  • Interação: esta é uma conversa válida, o usuário fez perguntas relevantes, a conversa fez sentido?
  • Interação positiva: o usuário saiu satisfeito ou ficou confuso ou frustrado?
  • Entendendo a causa raiz: o agente identificou corretamente o problema subjacente do usuário?
  • Resolvendo a dúvida do usuário: o agente resolveu o problema do usuário ou forneceu um método de suporte alternativo?
  • Alucinação: o agente inventou informações que não estão na base de conhecimento?

Se Interação falhar, a conversa em si não é válida. Se qualquer outro critério falhar, investigamos mais a fundo. A investigação orienta como melhorar o agente. Às vezes, é sobre refinar o uso de ferramentas ou o timing. Outras vezes, é adicionar limites para prevenir ações não suportadas.

Iterando com Confiança: API de Simulação de Conversa

Uma vez que identificamos o que melhorar, o próximo passo é testar. É aí que entra nossa API de Simulação de Conversa entra em ação. Ele simula cenários realistas de usuários - tanto de ponta a ponta quanto em segmentos específicos - e avalia automaticamente os resultados usando os mesmos critérios que aplicamos em produção. Suporta simulação de ferramentas e avaliação personalizada, tornando-o flexível o suficiente para testar comportamentos específicos.

Usamos duas abordagens:

  • Simulações completas: Teste conversas inteiras do início ao fim.
  • Simulações parciais: Comece no meio da conversa para validar pontos de decisão ou subfluxos. Este é nosso método preferido para testes unitários, permitindo iteração rápida e depuração direcionada.

Cenários claros e focados nos permitem controlar o que o LLM está sendo testado, garantindo cobertura para casos extremos, uso de ferramentas e lógica de fallback.

Automatizando para Escala: Incorporando Testes em CI/CD

A peça final é automação. Usamos as APIs abertas da ElevenLabs para conectar com nosso fluxo DevOps no GitHub, incorporando avaliação e simulação em nosso pipeline de CI/CD. Cada atualização é testada automaticamente antes da implantação. Isso previne regressões e nos dá feedback rápido sobre o desempenho no mundo real.

Resultados: Um El mais Forte e Inteligente

Esse processo transformou a forma como construímos e mantemos a Alexis. Criamos um ciclo de feedback que conecta o uso real com avaliação estruturada, testes direcionados e validação automatizada, permitindo-nos implementar melhorias mais rapidamente e com maior confiança.

E é uma estrutura que agora podemos aplicar a qualquer agente que construirmos.

Explore artigos da equipe ElevenLabs

Customer stories
burda-verlag

Burda - Strategic Partnership for Audio AI and Voice Agent Solutions

BurdaVerlag is partnering with ElevenLabs to integrate its advanced AI audio and voice agent technology into the AISSIST platform. This will provide powerful tools for text-to-speech, transcription, and more, streamlining workflows for media and publishing professionals.

Product
ElevenLabs Agent Testing

Introducing Tests for ElevenLabs Agents

Ensure reliability and compliance with ElevenLabs Agents Testing. Run structured simulations for tool calls, human transfers, workflows, and guardrails. Integrate into CI/CD and ship agents with confidence.

ElevenLabs

Crie com o áudio IA da mais alta qualidade