
VoiceDrop scales personalized outreach with ElevenLabs' voice cloning
Driving 5x higher callback rates with personalized ringless voicemails
Erfahren Sie, wie Sie Conversational-KI-Agenten effektiv testen und verbessern können, indem Sie robuste Bewertungskriterien und Gesprächssimulationen nutzen.
Wenn Konversationsagenten live gehen, wie überwachen Sie sie in großem Maßstab? Wie erkennen Sie, wenn sie nicht wie beabsichtigt funktionieren? Und nachdem Sie Änderungen vorgenommen haben, wie testen Sie diese?
Diese Fragen prägten unsere Arbeit an El, unser Dokumentationsassistent, betrieben von Conversational AI. Mit der Weiterentwicklung von El haben wir ein System zur Überwachung aufgebaut, Bewertung und Testen von Agenten auf, basierend auf Bewertungskriterien und Konversationssimulationen.
Die Verbesserung eines Agenten beginnt damit, zu verstehen, wie er sich in der Praxis verhält. Das bedeutete, unsere Bewertungskriterien zu verfeinern und sicherzustellen, dass sie genau und zuverlässig genug sind, um die Leistung des Agenten zu überwachen. Wir definieren ein fehlgeschlagenes Gespräch als eines, bei dem der Agent entweder falsche Informationen gibt oder dem Benutzer nicht hilft, sein Ziel zu erreichen.
Wenn Interaktion fehlschlägt, ist das Gespräch selbst ungültig. Wenn andere Kriterien fehlschlagen, untersuchen wir weiter. Die Untersuchung leitet, wie wir den Agenten verbessern. Manchmal geht es darum, die Nutzung von Tools oder das Timing zu verfeinern. Andere Male geht es darum, Schutzmaßnahmen hinzuzufügen, um nicht unterstützte Aktionen zu verhindern.
Sobald wir identifiziert haben, was verbessert werden muss, ist der nächste Schritt das Testen. Hier kommt unsere Conversation Simulation API kommt ins Spiel. Es simuliert realistische Benutzerszenarien - sowohl end-to-end als auch in gezielten Segmenten - und bewertet die Ergebnisse automatisch anhand der gleichen Kriterien, die wir in der Produktion anwenden. Es unterstützt Tool-Mocking und benutzerdefinierte Bewertungen, was es flexibel genug macht, um spezifische Verhaltensweisen zu testen.
Klare, fokussierte Szenarien ermöglichen es uns, zu kontrollieren, worauf das LLM getestet wird, und stellen sicher, dass Randfälle, Tool-Nutzung und Fallback-Logik abgedeckt sind.
Das letzte Element ist Automatisierung. Wir haben die offenen APIs von ElevenLabs genutzt, um uns mit unserem GitHub DevOps-Flow zu verbinden, indem wir Bewertung und Simulation in unsere CI/CD-Pipeline eingebettet haben. Jede Aktualisierung wird automatisch vor der Bereitstellung getestet. Dies verhindert Regressionen und gibt uns schnelles Feedback zur Leistung in der realen Welt.
Dieser Prozess hat unsere Art, El zu entwickeln und zu pflegen, verändert. Wir haben einen Feedback-Loop geschaffen, der reale Nutzung mit strukturierter Bewertung, gezielten Tests und automatisierter Validierung verbindet, sodass wir Verbesserungen schneller und mit größerem Vertrauen umsetzen können.
Und es ist ein Rahmen, den wir jetzt auf jeden Agenten anwenden können, den wir entwickeln.
Driving 5x higher callback rates with personalized ringless voicemails
Eleven v3 (alpha), the most expressive text to speech model, is now available in the API for every developer.
Bereitgestellt von ElevenLabs Konversationelle KI