
Top-Strategien, um sich als Synchronsprecher zu vermarkten
- Kategorie
- Ressourcen
- Datum
Ein Framework für die Einführung und Skalierung von Enterprise-Voice-Agents, die Kundenanliegen lösen statt nur abzuwimmeln – basierend auf realen Implementierungen.
In den meisten Unternehmen werden punktuelle Lösungen im Support-Bereich seit Langem an der Reduzierung von Anrufen gemessen. Das bedeutet, das Anrufvolumen zu senken und direkte Kontakte mit Mitarbeitenden zu minimieren. Doch weniger Kontakte bedeuten nicht automatisch gelöste Anliegen – genau in dieser Lücke leidet das Kundenerlebnis. Um diese Lücke zu schließen, brauchen Support-Teams nicht nur Zugriff auf Daten, sondern auch auf die Systeme, um direkt zu handeln. So können Mitarbeitende Rückerstattungen bearbeiten, Kundinnen und Kunden durch den Kaufprozess führen und bei Bedarf mit vollständigem Kontext an einen Menschen übergeben. Unternehmen können so Kundenanfragen effizienter bearbeiten, die Belastung für Support-Teams senken und gleichzeitig das Erlebnis für beide Seiten verbessern.aktuellen Implementierung bei Revolut, einem Fintech-Unternehmen mit 70 Millionen Kunden weltweit, führte dies zu einer achtfach schnelleren Problemlösung und einer Erfolgsquote von 99,7 % bei Anrufen.
Veränderungen in dieser Größenordnung müssen schrittweise erfolgen, eng an die Unternehmensmission gebunden und durch starke Führung unterstützt. Auf technischer Ebene birgt das Arbeiten in unstrukturierten Umgebungen Risiken, die sorgfältig gesteuert werden müssen. Wenn ein Agent im CRM agieren, Bestellungen im Kassensystem ändern oder Fälle eskalieren kann, ist das Governance-Modell genauso wichtig wie das Modell selbst. Die Frage ist dann nicht mehr, ob Agents echte Aufgaben übernehmen können, sondern welche Mechanismen nötig sind, um sie sicher und wiederholt einzusetzen.
In diesem Beitrag teilen wir unsere Erfahrungen dazu, was Agents erfolgreich macht – vom ersten Einsatz bis zur Skalierung im gesamten Kundenservice eines Unternehmens.
Bevor wir tiefer in den Aufbau von Agents einsteigen, lohnt sich ein Vergleich zwischen der Einführung von Voice Agents und klassischer Software, wie sie Unternehmen seit Jahrzehnten betreiben. Aus dieser Perspektive lassen sich Agents in zwei Komponenten gliedern: klassische Software und den zentralen Orchestrator.
Software:

Software: Beobachtbarkeit und Steuerung

Core Orchestrator

Kern-Orchestrator-Komponenten sind naturgemäß schwerer vorherzusagen, bestimmen aber maßgeblich die Laufzeitleistung des Agents – sowohl hinsichtlich Antwortqualität als auch wahrgenommener Latenz. Anders als klassische Software arbeiten diese Komponenten mit natürlicher Sprache und Audio, wobei der Eingaberaum praktisch unbegrenzt ist und kleine Änderungen in Formulierung, Kontext, Hintergrundgeräuschen oder Nutzerverhalten zu deutlich unterschiedlichen Ergebnissen führen können. Konventionelle Tests reichen hier nicht aus: Ein Agent kann hunderte Testfälle bestehen und dennoch in der Produktion auf unvorhersehbare Weise scheitern.Versionierung, A/B-Tests, Telefonie und First-Message-Konfiguration. Diese Komponenten verhalten sich nach der Einführung weitgehend stabil und sind dadurch sehr vorhersehbar. Mit soliden Engineering-Praktiken können Unternehmen diese Features schnell ausbauen und ihre Performance anhand von Metriken, Traces und Logs genau überwachen. Latenzverbesserungen in dieser Schicht folgen bekannten Mustern: Caching, Connection Pooling, Infrastruktur-Skalierung und Protokolloptimierung sind bewährte Hebel mit klaren Ergebnissen.
Auch die Latenz in dieser Schicht ist weniger vorhersehbar, da sie von Modell-Inferenzzeiten, auditiven Artefakten, Tool-Call-Ketten und der inhärenten Variabilität generativer Systeme beeinflusst wird. Das Management dieser Komponenten erfordert eine andere Herangehensweise – mit Evaluationsframeworks, Produktionsmonitoring und der Bereitschaft, kontinuierlich anhand echter Gesprächsdaten zu iterieren, statt sich nur auf Annahmen vor dem Rollout zu verlassen.
Dieser Unterschied prägt die Herangehensweise bei der Einführung: Starten Sie mit organisatorisch relevanten, aber risikoarmen Anwendungsfällen und skalieren Sie gezielt, sobald das Vertrauen in das System wächst.
Release-Zyklus
Für Teams, die Voice Agents einführen, ist die Auswahl der richtigen Pfadfinder eine der wichtigsten frühen Entscheidungen – und sie hängt weniger von der Technik ab, als viele erwarten. Teams, die früh Erfolge erzielen und nicht in endlosen POCs stecken bleiben, haben meist eines gemeinsam: Sie können folgende Fragen klar beantworten.
Grundlagen für den initialen Build
In der Umsetzungsphase können Teams auf Methoden zurückgreifen, die fast so alt sind wie Software selbst. Test Driven Development (TDD) liefert das Gerüst, um Agents während des Builds an den Kernmetriken auszurichten.

Mit einem ersten Testsatz beginnt die Agent-Entwicklung beim Systemprompt. Hier werden Regeln, Tonalität und Vorgehen des Agents festgelegt: Was soll er tun, was nicht, und wie verhält er sich an den Rändern seiner Rolle? Ein gut gestalteter Systemprompt ist ebenso strukturiert wie inhaltlich klar. Klare Abschnitte, zusammengehörige Anweisungen und der Verzicht auf bedingte Formulierungen machen einen spürbaren Unterschied in der Konsistenz des Agentenverhaltens. In dieser Phase greifen wir oft auf den Prompting-Guide zurück.Agent-Tests, die wiederholt spezifische Verhaltensweisen prüfen, die der Agent zeigen soll. Die Erfolgskriterien werden am besten durch die Analyse echter menschlicher Anrufe abgeleitet. Die Tests werden schrittweise aufgebaut: Zunächst mit erwarteten Verhaltensweisen, dann erweitert um neue und um Edge Cases.
Parallel zum Systemprompt werden die Kernkomponenten des Agents konfiguriert: das LLM, das Text-to-Speech (TTS)-Modell und die Stimme. Die Auswahl des LLM ist meist ein Trade-off zwischen Latenz und Performance – schnellere Modelle verzichten oft auf etwas Reasoning, und umgekehrt. Beim TTS hängt die Wahl davon ab, was der Use Case am meisten verlangt: ausdrucksstarke Wiedergabe, geringe Latenz oder Mehrsprachigkeit. Die Stimme ist jedoch ebenso eine Markenentscheidung wie eine technische. Sie prägt, wie ein Unternehmen bei jedem Anruf wahrgenommen wird, und ist damit eine der wenigen Konfigurationsentscheidungen, die genauso zu Brand- und Marketingteams gehören wie zu den Entwicklern. Die Stimmauswahl kann daher parallel zum Rest des Entwicklungsprozesses erfolgen und wird nicht zum Engpass. ElevenAgents bietet Zugang zu über 10.000 Stimmen, und falls keine passt, können Teams eigene Stimmen klonen oder erstellen.
Darüber hinaus lassen sich Agents optional mit einer Wissensdatenbank,
Mit diesen Grundlagen ist der Agent bereit für den Praxistest.Wissensdatenbank,Toolsund Kanal-Konfigurationen erweitert werden. Jede Erweiterung bringt neue Fähigkeiten, aber auch neue Testflächen. Ob Telefonie-Integration, Zugriff auf externe Datenbanken oder Handlungen im Namen des Kunden – diese Entscheidungen sollten vor der Ausweitung gegen die Erfolgskriterien geprüft werden. Werden Tools hinzugefügt, geben Systemprompt und Toolbeschreibung klare Anweisungen, wann und wie sie genutzt werden, damit der Agent sie konsistent und im richtigen Kontext einsetzt.
Auf dem Weg zur Produktionsreife
In der Praxis stellen die meisten Teams fest, dass eine kleine Zahl wiederkehrender Fehlerquellen für die Mehrheit der Probleme verantwortlich ist. Am häufigsten sind Prompt-Mehrdeutigkeiten, bei denen der Agent widersprüchliche oder unklare Anweisungen erhält und sich unvorhersehbar verhält; Tool-Fehlbedienung, bei der Tools im falschen Kontext genutzt oder nicht genutzt werden; und Eskalations-Drift, bei der der Agent zu früh eskaliert oder Gespräche zu lange hält. Jede dieser Ursachen lässt sich auf Prompt-Ebene beheben – durch Präzisierung der Anweisung, ein explizites Beispiel oder Anpassung des Eskalationsschwellwerts. Das Risiko besteht darin, sie vor dem Go-Live nicht zu erkennen.
Der häufigste Fehler ist, eine bestandene Testsuite als Garantie zu sehen statt als Signal. Eine Suite, die nur den Happy Path abdeckt, wird leicht bestanden und sagt wenig aus. Abdeckung von Ablehnungen, Gesprächswechseln, mehrdeutigen Eingaben und Tool-lastigen Interaktionen verleiht den Ergebnissen Gewicht. Ebenso übersehen Teams, die auf Simulationstests verzichten und nur Turn-Level-Tests nutzen, Fehler, die erst im vollständigen Gespräch auftreten – etwa Kontextverlust oder Fehler, die sich im Verlauf aufschaukeln. Sobald wiederkehrende Fehlerquellen behoben sind und der Agent auch seltene Edge Cases souverän, wenn auch nicht perfekt, behandelt, nimmt der Mehrwert weiterer Iterationen im Staging ab. Dann liefern echte Gespräche die wertvolleren Signale.
Go-Live bedeutet nicht, dass die Iteration endet. Es verschiebt den Lernfokus von synthetischen Tests zu Produktions-Transkripten. Die Bewertungskriterien, die den Go-Live definiert haben, werden zum Maßstab für die Live-Performance – und der Zyklus beginnt von vorn.
Feedback-Loops, Evaluation und der richtige Zeitpunkt zum Stoppen
Die wichtigste Disziplin in dieser Phase ist, Änderungen zu validieren statt sie als gegeben anzunehmen. Ein Fix, der ein Problem löst, kann unbemerkt ein anderes verursachen. ElevenAgents unterstützt Versionierung, sodass Teams neue Iterationen zunächst mit einem kleinen Nutzeranteil testen können, bevor sie breit ausgerollt werden. So lässt sich sicherstellen, dass Verbesserungen tatsächlich zu besseren Ergebnissen führen und nicht nur Fehler verschieben.
Was schiefgehen kannVersionierung, sodass Teams neue Iterationen zunächst mit einem kleinen Nutzeranteil testen können, bevor sie breit ausgerollt werden. So lässt sich sicherstellen, dass Verbesserungen tatsächlich Verbesserungen sind – und nicht nur das Fehlerbild verschieben.
Der folgenschwerste Fehler in dieser Phase ist, auf gestaffelte Rollouts zu verzichten und Änderungen direkt an alle Nutzer auszurollen. Ohne gestaffelte Rollouts fehlt die Möglichkeit, die Auswirkungen einzelner Änderungen zu isolieren – und bei großem Volumen ist es nahezu unmöglich, die Ursachen für Verbesserungen oder Rückschritte in den Plattformmetriken zu erkennen. Die gesamte Nutzerbasis als Testumgebung zu nutzen, ist nicht nur riskant, sondern nimmt die nötige Transparenz für fundierte Entscheidungen.
Neben der Rollout-Strategie gibt es zwei weitere Fehlerquellen. Erstens: Überreaktion auf aktuelle Fehler. Wenn ein prominentes Gespräch schiefgeht, besteht die Versuchung, sofort und breit zu patchen – aber reaktive Prompt-Änderungen ohne vollständigen Testlauf führen oft zu Rückschritten bei zuvor stabilen Verhaltensweisen. Jede Änderung, auch kleine, sollte als neue Iteration behandelt und getestet werden. Zweitens: Evaluation Drift. Mit der Zeit kann das Team unbewusst die Anforderungen für bestandene Tests senken, besonders unter Zeitdruck. Die zu Beginn definierten Bewertungskriterien sollten der Anker bleiben. Wenn sie zu streng erscheinen, ist eine bewusste Anpassung sinnvoll – nicht das schleichende Absenken der Standards.
Skalieren mit Vertrauen
Mehr Traffic ist eine Vertrauensentscheidung, keine Frage des Timings. Das Signal zur Skalierung ist, wenn der Agent die Bewertungskriterien konsistent über mehrere Testläufe erfüllt, die Plattformmetriken stabil sind und gestaffelte Rollouts keine signifikanten Rückschritte gegenüber der Kontrollgruppe zeigen.
Eine häufige Frage ist, wie viel Traffic für belastbare Aussagen nötig ist. Batches mit weniger als 100 Anrufen pro Branch sind zu variabel für eine zuverlässige Bewertung. Eine 60%-Erfolgsquote bei 25 Anrufen und bei 100 Anrufen bedeuten ein sehr unterschiedliches Vertrauensniveau. Neben der Anzahl sollte das Batch auch groß genug sein, um die gesamte Bandbreite realistischer Eingaben abzudecken – inklusive Edge Cases, seltener Intentionen und Fehler, die erst bei Volumen auftreten.
Mehr Traffic verstärkt sowohl das, was funktioniert, als auch das, was nicht funktioniert. Zu skalieren, bevor Kernfehlerquellen behoben sind, schafft Supportaufwände, die schwer rückgängig zu machen sind.
Wiederholen und verfeinern
Zu wissen, wann man aufhören sollte, ist genauso wichtig wie zu wissen, was zu beheben ist. Iteration bringt abnehmenden Mehrwert, und das richtige Signal für eine Pause ist, wenn der Agent die zu Beginn definierten Bewertungskriterien konsistent erfüllt. Ab diesem Punkt überwiegt das Risiko weiterer Änderungen den Nutzen.
Wie „konsistente Erfüllung der Kriterien“ aussieht, hängt vom Kontext ab. Teams mit eingeschränktem Datenzugang oder unvollständigen Integrationen erreichen oft Eskalationsraten um 50 %, bis diese Hürden gelöst sind. Wo der Datenzugang stark ist, liegen die besten Deployments meist bei über 80 % Task Completion und unter 20 % Eskalation. Wichtiger als jede einzelne Zahl ist die Stabilität: Konsistente Leistung über mehrere Wochen Produktions-Traffic ohne signifikante Rückschritte in den Testläufen ist das eigentliche Signal. Wenn der Mehrwert der nächsten Iteration geringer ist als das Risiko eines Rückschritts, ist es Zeit zu stoppen.
Das bedeutet nicht, dass die Arbeit abgeschlossen ist. Bei neuen Anforderungen beginnt der Prozess von vorn. Die Scoping-Fragen aus dem ersten Build bleiben auch beim zweiten relevant. Der Unterschied: Teams, die in die zweite Runde gehen, haben bereits eine Testsuite, eine Bewertungsbasis und operative Erfahrung – ein Vorteil, den der erste Zyklus erst aufbauen musste. Dieser kumulierte Vorteil trennt Unternehmen, die nachhaltigen Nutzen aus Voice Agents ziehen, von denen, die in Proof-of-Concepts steckenbleiben.
Fazit
ElevenAgents ist auf diese Realität ausgelegt. Agent-Testing, Gesprächsanalyse und gestaffelte Rollouts sind das Fundament, das aus einem Proof-of-Concept ein System macht, das Kundenprobleme tatsächlich löst – nicht nur abwehrt. Diese Lücke zu schließen, lohnt sich.
ElevenAgents ist auf diese Realität ausgelegt. Agent-Tests, Gesprächsanalyse und gestaffelte Rollouts sind das Fundament, das aus einem Proof-of-Concept ein System macht, das Kundenanliegen wirklich löst – nicht nur abwehrt. Das ist die Lücke, die es zu schließen gilt.



