Möt Eleven Music. Skapa den perfekta låten för varje ögonblick.

Läs mer

Testa Conversational AI-agenter

Upptäck hur du effektivt testar och förbättrar conversational AI-agenter med robusta utvärderingskriterier och konversationssimuleringar.

Abstract

När konversationsagenter går live, hur övervakar du dem i stor skala? Hur upptäcker du när de inte beter sig som de ska? Och när du har gjort ändringar, hur testar du dem?

Dessa frågor formade vårt arbete med Alexis, vår dokumentationsassistent driven av Conversational AI. När El utvecklades byggde vi ett system för övervakning, utvärdera och testa agenter, baserat på utvärderingskriterier och konversationssimuleringar.

Lägga grunden: Tillförlitliga utvärderingskriterier

För att förbättra en agent måste vi först förstå hur den beter sig i verkligheten. Det innebar att vi förfinade våra utvärderingskriterier och säkerställde att de var tillräckligt exakta och pålitliga för att övervaka agentens prestanda. Vi definierar ett misslyckat samtal som ett där agenten antingen ger felaktig information eller inte hjälper användaren att nå sitt mål.

Flow chart

Vi utvecklade följande utvärderingskriterier:

  • Interaktion: är detta en giltig konversation, ställde användaren relevanta frågor, var konversationen logisk?
  • Positiv interaktion: gick användaren därifrån nöjd, eller var de förvirrade eller frustrerade?
  • Förstå grundorsaken: identifierade agenten korrekt användarens underliggande problem?
  • Lösa användarens fråga: löste agenten användarens problem eller erbjöd en alternativ supportmetod?
  • Hallucination: hallucinerade agenten information som inte finns i kunskapsbasen?

Om Interaktion misslyckas, är konversationen i sig inte giltig. Om något annat kriterium misslyckas, undersöker vi vidare. Undersökningen vägleder hur vi förbättrar agenten. Ibland handlar det om att förfina verktygsanvändning eller timing. Andra gånger handlar det om att lägga till skyddsåtgärder för att förhindra icke-stödda åtgärder.

Iterera med självförtroende: Conversation Simulation API

När vi har identifierat vad som ska förbättras, är nästa steg att testa. Det är där vår Conversation Simulation API kommer in. Det simulerar realistiska användarscenarier - både från början till slut och i riktade segment - och utvärderar automatiskt resultaten med samma kriterier som vi använder i produktion. Det stöder verktygsmockning och anpassad utvärdering, vilket gör det flexibelt nog att testa specifika beteenden.

Vi använder två tillvägagångssätt:

  • Fullständiga simuleringar: Testa hela samtal från början till slut.
  • Delvisa simuleringar: Börja mitt i samtalet för att validera beslutspunkter eller del-flöden. Detta är vår favoritmetod för enhetstestning, vilket möjliggör snabb iteration och riktad felsökning.

Tydliga, fokuserade scenarier låter oss kontrollera vad LLM testas på, vilket säkerställer täckning för kantfall, verktygsanvändning och reservlogik.

Automatisering för skala: Inbäddning av tester i CI/CD

Den sista delen är automatisering. Vi använde ElevenLabs’ öppna API:er för att ansluta till vårt GitHub DevOps-flöde genom att integrera utvärdering och simulering i vår CI/CD-pipeline. Varje uppdatering testas automatiskt innan distribution. Detta förhindrar regressioner och ger oss snabb feedback på verklig prestanda.

Resultat: En starkare, smartare El

Denna process förändrade hur vi bygger och underhåller Alexis. Vi har skapat en feedbackloop som kopplar verklig användning med strukturerad utvärdering, riktad testning och automatiserad validering, vilket gör att vi kan leverera förbättringar snabbare och med större säkerhet.

Och det är en ram vi nu kan tillämpa på vilken agent vi än bygger.

Utforska artiklar av ElevenLabs-teamet

Resources
screenshot of website

AI Student Pack

Get $1,500+ in free credits on AI tools that help you study, create, and build faster

ElevenLabs

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in