
Eleven v3 Audio Tags: Emulating accents with precision
Seamlessly switch accents mid-sentence with Eleven v3 Audio Tags. Emulate American, British, French, and more for dynamic, culturally rich AI speech.
Einführung von Eleven v3 Alpha
v3 ausprobierenErfahren Sie, wie Sie Conversational-KI-Agenten effektiv testen und verbessern können, indem Sie robuste Bewertungskriterien und Gesprächssimulationen nutzen.
Wenn Konversationsagenten live gehen, wie überwachen Sie sie in großem Maßstab? Wie erkennen Sie, wenn sie nicht wie beabsichtigt funktionieren? Und nachdem Sie Änderungen vorgenommen haben, wie testen Sie diese?
Diese Fragen prägten unsere Arbeit an Alexis — unserem Dokumentationsassistenten, der von Conversational AI betrieben wird. Während sich Alexis weiterentwickelte, bauten wir ein System zur Überwachung, Bewertung und Testen von Agenten auf, basierend auf Bewertungskriterien und Konversationssimulationen.
Die Verbesserung eines Agenten beginnt mit dem Verständnis seines Verhaltens in der Praxis. Das bedeutete, unsere Bewertungskriterien zu verfeinern — sicherzustellen, dass sie genau und zuverlässig genug sind, um die Leistung des Agenten zu überwachen. Wir definieren ein fehlgeschlagenes Gespräch als eines, bei dem der Agent entweder falsche Informationen gibt oder dem Benutzer nicht hilft, sein Ziel zu erreichen.
Wenn Interaktion fehlschlägt, ist das Gespräch selbst ungültig. Wenn andere Kriterien fehlschlagen, untersuchen wir weiter. Die Untersuchung leitet, wie wir den Agenten verbessern. Manchmal geht es darum, die Nutzung von Tools oder das Timing zu verfeinern. Andere Male geht es darum, Schutzmaßnahmen hinzuzufügen, um nicht unterstützte Aktionen zu verhindern.
Sobald wir identifiziert haben, was verbessert werden muss, ist der nächste Schritt das Testen. Hier kommt unsere Conversation Simulation API ins Spiel. Sie simuliert realistische Benutzerszenarien — sowohl end-to-end als auch in gezielten Segmenten — und bewertet die Ergebnisse automatisch mit denselben Kriterien, die wir in der Produktion anwenden. Sie unterstützt Tool-Mocking und benutzerdefinierte Bewertungen, was sie flexibel genug macht, um spezifische Verhaltensweisen zu testen.
Klare, fokussierte Szenarien ermöglichen es uns, zu kontrollieren, worauf das LLM getestet wird — und stellen sicher, dass Randfälle, Tool-Nutzung und Fallback-Logik abgedeckt sind.
Das letzte Element ist Automatisierung. Wir haben die offenen APIs von ElevenLabs genutzt, um uns mit unserem GitHub DevOps-Flow zu verbinden — und die Bewertung und Simulation in unsere CI/CD-Pipeline eingebettet. Jede Aktualisierung wird automatisch vor der Bereitstellung getestet. Dies verhindert Regressionen und gibt uns schnelles Feedback zur Leistung in der realen Welt.
Dieser Prozess hat unsere Art und Weise, wie wir Alexis entwickeln und pflegen, verändert. Wir haben einen Feedback-Loop geschaffen, der reale Nutzung mit strukturierter Bewertung, gezieltem Testen und automatisierter Validierung verbindet — was es uns ermöglicht, Verbesserungen schneller und mit größerem Vertrauen zu liefern.
Und es ist ein Rahmen, den wir jetzt auf jeden Agenten anwenden können, den wir entwickeln.
Seamlessly switch accents mid-sentence with Eleven v3 Audio Tags. Emulate American, British, French, and more for dynamic, culturally rich AI speech.
Fine-grained control over timing, rhythm, and emphasis with Eleven v3 Audio Tags. Transform flat delivery into dynamic, performative content.