Einführung von Eleven v3 Alpha

v3 ausprobieren

Testen von Conversational-KI-Agenten

Erfahren Sie, wie Sie Conversational-KI-Agenten effektiv testen und verbessern können, indem Sie robuste Bewertungskriterien und Gesprächssimulationen nutzen.

Abstract

Wenn Konversationsagenten live gehen, wie überwachen Sie sie in großem Maßstab? Wie erkennen Sie, wenn sie nicht wie beabsichtigt funktionieren? Und nachdem Sie Änderungen vorgenommen haben, wie testen Sie diese?

Diese Fragen prägten unsere Arbeit an Alexis — unserem Dokumentationsassistenten, der von Conversational AI betrieben wird. Während sich Alexis weiterentwickelte, bauten wir ein System zur Überwachung, Bewertung und Testen von Agenten auf, basierend auf Bewertungskriterien und Konversationssimulationen.

Die Grundlage legen: Zuverlässige Bewertungskriterien

Die Verbesserung eines Agenten beginnt mit dem Verständnis seines Verhaltens in der Praxis. Das bedeutete, unsere Bewertungskriterien zu verfeinern — sicherzustellen, dass sie genau und zuverlässig genug sind, um die Leistung des Agenten zu überwachen. Wir definieren ein fehlgeschlagenes Gespräch als eines, bei dem der Agent entweder falsche Informationen gibt oder dem Benutzer nicht hilft, sein Ziel zu erreichen.

Flow chart

Wir haben die folgenden Bewertungskriterien entwickelt:

  • Interaktion: Ist dies ein gültiges Gespräch, hat der Benutzer relevante Fragen gestellt, ergab das Gespräch Sinn?
  • Positive Interaktion: War der Benutzer zufrieden oder war er verwirrt oder frustriert?
  • Ursache verstehen: Hat der Agent das zugrunde liegende Problem des Benutzers korrekt identifiziert?
  • Anfrage des Benutzers lösen: Hat der Agent das Problem des Benutzers gelöst oder eine alternative Unterstützungsmethode angeboten?
  • Halluzination: Hat der Agent Informationen erfunden, die nicht in der Wissensdatenbank enthalten sind?

Wenn Interaktion fehlschlägt, ist das Gespräch selbst ungültig. Wenn andere Kriterien fehlschlagen, untersuchen wir weiter. Die Untersuchung leitet, wie wir den Agenten verbessern. Manchmal geht es darum, die Nutzung von Tools oder das Timing zu verfeinern. Andere Male geht es darum, Schutzmaßnahmen hinzuzufügen, um nicht unterstützte Aktionen zu verhindern.

Iterieren mit Vertrauen: Conversation Simulation API

Sobald wir identifiziert haben, was verbessert werden muss, ist der nächste Schritt das Testen. Hier kommt unsere Conversation Simulation API ins Spiel. Sie simuliert realistische Benutzerszenarien — sowohl end-to-end als auch in gezielten Segmenten — und bewertet die Ergebnisse automatisch mit denselben Kriterien, die wir in der Produktion anwenden. Sie unterstützt Tool-Mocking und benutzerdefinierte Bewertungen, was sie flexibel genug macht, um spezifische Verhaltensweisen zu testen.

Wir verwenden zwei Ansätze:

  • Vollständige Simulationen — Testen Sie ganze Gespräche von Anfang bis Ende.
  • Teilweise Simulationen — Starten Sie mitten im Gespräch, um Entscheidungspunkte oder Teilflüsse zu validieren. Dies ist unsere bevorzugte Methode für Unit-Tests, die schnelle Iterationen und gezieltes Debugging ermöglichen.

Klare, fokussierte Szenarien ermöglichen es uns, zu kontrollieren, worauf das LLM getestet wird — und stellen sicher, dass Randfälle, Tool-Nutzung und Fallback-Logik abgedeckt sind.

Automatisierung für Skalierung: Tests in CI/CD einbetten

Das letzte Element ist Automatisierung. Wir haben die offenen APIs von ElevenLabs genutzt, um uns mit unserem GitHub DevOps-Flow zu verbinden — und die Bewertung und Simulation in unsere CI/CD-Pipeline eingebettet. Jede Aktualisierung wird automatisch vor der Bereitstellung getestet. Dies verhindert Regressionen und gibt uns schnelles Feedback zur Leistung in der realen Welt.

Ergebnisse: Ein stärkerer, intelligenterer Alexis

Dieser Prozess hat unsere Art und Weise, wie wir Alexis entwickeln und pflegen, verändert. Wir haben einen Feedback-Loop geschaffen, der reale Nutzung mit strukturierter Bewertung, gezieltem Testen und automatisierter Validierung verbindet — was es uns ermöglicht, Verbesserungen schneller und mit größerem Vertrauen zu liefern.

Und es ist ein Rahmen, den wir jetzt auf jeden Agenten anwenden können, den wir entwickeln.

Mehr entdecken

ElevenLabs

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden