Entdecken Sie Eleven Music. Erstellen Sie den perfekten Song für jeden Moment.

Mehr erfahren

Testen von Conversational-KI-Agenten

Erfahren Sie, wie Sie Conversational-KI-Agenten effektiv testen und verbessern können, indem Sie robuste Bewertungskriterien und Gesprächssimulationen nutzen.

Abstract

Wenn Konversationsagenten live gehen, wie überwachen Sie sie in großem Maßstab? Wie erkennen Sie, wenn sie nicht wie beabsichtigt funktionieren? Und nachdem Sie Änderungen vorgenommen haben, wie testen Sie diese?

Diese Fragen prägten unsere Arbeit an El, unser Dokumentationsassistent, betrieben von Conversational AI. Mit der Weiterentwicklung von El haben wir ein System zur Überwachung aufgebaut, Bewertung und Testen von Agenten auf, basierend auf Bewertungskriterien und Konversationssimulationen.

Die Grundlage legen: Zuverlässige Bewertungskriterien

Die Verbesserung eines Agenten beginnt damit, zu verstehen, wie er sich in der Praxis verhält. Das bedeutete, unsere Bewertungskriterien zu verfeinern und sicherzustellen, dass sie genau und zuverlässig genug sind, um die Leistung des Agenten zu überwachen. Wir definieren ein fehlgeschlagenes Gespräch als eines, bei dem der Agent entweder falsche Informationen gibt oder dem Benutzer nicht hilft, sein Ziel zu erreichen.

Flow chart

Wir haben die folgenden Bewertungskriterien entwickelt:

  • Interaktion: Ist dies ein gültiges Gespräch, hat der Benutzer relevante Fragen gestellt, ergab das Gespräch Sinn?
  • Positive Interaktion: War der Benutzer zufrieden oder war er verwirrt oder frustriert?
  • Ursache verstehen: Hat der Agent das zugrunde liegende Problem des Benutzers korrekt identifiziert?
  • Anfrage des Benutzers lösen: Hat der Agent das Problem des Benutzers gelöst oder eine alternative Unterstützungsmethode angeboten?
  • Halluzination: Hat der Agent Informationen erfunden, die nicht in der Wissensdatenbank enthalten sind?

Wenn Interaktion fehlschlägt, ist das Gespräch selbst ungültig. Wenn andere Kriterien fehlschlagen, untersuchen wir weiter. Die Untersuchung leitet, wie wir den Agenten verbessern. Manchmal geht es darum, die Nutzung von Tools oder das Timing zu verfeinern. Andere Male geht es darum, Schutzmaßnahmen hinzuzufügen, um nicht unterstützte Aktionen zu verhindern.

Iterieren mit Vertrauen: Conversation Simulation API

Sobald wir identifiziert haben, was verbessert werden muss, ist der nächste Schritt das Testen. Hier kommt unsere Conversation Simulation API kommt ins Spiel. Es simuliert realistische Benutzerszenarien - sowohl end-to-end als auch in gezielten Segmenten - und bewertet die Ergebnisse automatisch anhand der gleichen Kriterien, die wir in der Produktion anwenden. Es unterstützt Tool-Mocking und benutzerdefinierte Bewertungen, was es flexibel genug macht, um spezifische Verhaltensweisen zu testen.

Wir verwenden zwei Ansätze:

  • Vollständige Simulationen: Testen Sie ganze Gespräche von Anfang bis Ende.
  • Teilweise Simulationen: Beginnen Sie mitten im Gespräch, um Entscheidungspunkte oder Teilabläufe zu validieren. Dies ist unsere bevorzugte Methode für Unit-Tests, die schnelle Iterationen und gezieltes Debugging ermöglicht.

Klare, fokussierte Szenarien ermöglichen es uns, zu kontrollieren, worauf das LLM getestet wird, und stellen sicher, dass Randfälle, Tool-Nutzung und Fallback-Logik abgedeckt sind.

Automatisierung für Skalierung: Tests in CI/CD einbetten

Das letzte Element ist Automatisierung. Wir haben die offenen APIs von ElevenLabs genutzt, um uns mit unserem GitHub DevOps-Flow zu verbinden, indem wir Bewertung und Simulation in unsere CI/CD-Pipeline eingebettet haben. Jede Aktualisierung wird automatisch vor der Bereitstellung getestet. Dies verhindert Regressionen und gibt uns schnelles Feedback zur Leistung in der realen Welt.

Ergebnisse: Ein stärkeres, intelligenteres El

Dieser Prozess hat unsere Art, El zu entwickeln und zu pflegen, verändert. Wir haben einen Feedback-Loop geschaffen, der reale Nutzung mit strukturierter Bewertung, gezielten Tests und automatisierter Validierung verbindet, sodass wir Verbesserungen schneller und mit größerem Vertrauen umsetzen können.

Und es ist ein Rahmen, den wir jetzt auf jeden Agenten anwenden können, den wir entwickeln.

Entdecken Sie Artikel des ElevenLabs-Teams

ElevenLabs

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden