Salta al contenuto

Testare gli agenti conversazionali IA

Scopri come testare e migliorare efficacemente gli agenti conversazionali IA usando criteri di valutazione solidi e simulazioni di conversazione.

Abstract

Quando gli agenti vocali conversazionali vanno online, come li monitori su larga scala? Come ti accorgi se non si comportano come previsto? E una volta apportate delle modifiche, come li testi?

Queste domande hanno guidato il nostro lavoro su El, il nostro assistente alla documentazione basato su IA conversazionale. Con l’evoluzione di El, abbiamo creato un sistema per monitorare, valutare e testare gli agenti, basato su criteri di valutazione e simulazioni di conversazione.

Le basi: criteri di valutazione affidabili

Migliorare un agente parte dalla comprensione di come si comporta nel mondo reale. Questo significa affinare i criteri di valutazione e assicurarsi che siano abbastanza precisi e affidabili per monitorarne le prestazioni. Definiamo una conversazione fallita quando l’agente fornisce informazioni errate o non aiuta l’utente a raggiungere il proprio obiettivo.

Flow chart

Abbiamo sviluppato i seguenti criteri di valutazione:

  • Interazione: la conversazione è valida, l’utente ha fatto domande pertinenti, la conversazione aveva senso?
  • Interazione positiva: l’utente è rimasto soddisfatto o si è sentito confuso o frustrato?
  • Comprendere la causa principale: l’agente ha identificato correttamente il problema di fondo dell’utente?
  • Risolvere la richiesta dell’utente: l’agente ha risolto il problema dell’utente o ha fornito un supporto alternativo?
  • Allucinazione: l’agente ha inventato informazioni che non sono presenti nella knowledge base?

Se Interazione fallisce, la conversazione stessa non è valida. Se fallisce uno degli altri criteri, approfondiamo l’analisi. L’indagine ci guida su come migliorare l’agente. A volte si tratta di affinare l’uso degli strumenti o la tempistica. Altre volte, di aggiungere limiti per evitare azioni non supportate.

Iterare con sicurezza: Conversation Simulation API

Una volta individuato cosa migliorare, il passo successivo è il test. Qui entra in gioco la nostra API di simulazione conversazionale. Simula scenari realistici con l’utente, sia end-to-end che su segmenti specifici, e valuta automaticamente i risultati usando gli stessi criteri che applichiamo in produzione. Supporta il mocking degli strumenti e valutazioni personalizzate, così puoi testare comportamenti specifici in modo flessibile.

Usiamo due approcci:

  • Simulazioni complete: testa intere conversazioni dall’inizio alla fine.
  • Simulazioni parziali: parti da metà conversazione per validare punti decisionali o sotto-flussi. Questo è il nostro metodo preferito per i test unitari, perché permette iterazioni rapide e debug mirati.

Scenari chiari e mirati ci permettono di controllare cosa viene testato sull’LLM, garantendo copertura per casi limite, uso degli strumenti e logiche di fallback.

Automatizzare su larga scala: test integrati in CI/CD

L’ultimo tassello è l’automazione. Abbiamo usato le API aperte di ElevenLabs per collegarci al nostro flusso DevOps su GitHub, integrando valutazione e simulazione nella pipeline CI/CD. Ogni aggiornamento viene testato automaticamente prima del rilascio. Questo previene regressioni e ci dà feedback rapido sulle prestazioni reali.

Risultati: un El più forte e intelligente

Questo processo ha trasformato il modo in cui sviluppiamo e manteniamo El. Abbiamo creato un ciclo di feedback che collega l’uso reale a valutazioni strutturate, test mirati e validazione automatica, così possiamo rilasciare miglioramenti più velocemente e con maggiore sicurezza.

Ed è un framework che ora possiamo applicare a qualsiasi agente che sviluppiamo.

Scopri gli articoli del team ElevenLabs

Crea con l'audio IA della massima qualità