
Die Orchestrierungs-Engine von ElevenAgent im Detail
Ein Blick hinter die Kulissen, wie ElevenAgents Kontext, Tools und Workflows steuert, um Echtzeit-Gespräche auf Enterprise-Niveau zu ermöglichen.
Eine Übersicht über die fünf Voice-Agent-Architekturen und die Abwägungen zwischen Vertrauen, Anpassbarkeit und Gesprächsqualität.
ElevenAgents werden von einer speziell für Echtzeit-Gespräche entwickelten Orchestrierungs-Engine mit niedriger Latenz betrieben, die weniger als 100 ms Verzögerung verursacht. Diese Architektur vereint die Forschung von ElevenLabs mit fortschrittlichen LLMs führender Anbieter wie OpenAI, Google und Anthropic sowie ausgewählten Open-Source-Modellen, die von ElevenLabs gehostet werden. Durch den Einsatz mehrerer Modelle in verschiedenen Phasen der Antwortpipeline sorgt der Agent für reaktionsschnelle und kontextbewusste Gespräche. Indem die Stärken der einzelnen Modelle dynamisch kombiniert werden, erreichen wir zuverlässige und skalierbare Leistung für verschiedenste Enterprise-Aufgaben und Gesprächsszenarien – bei optimalem Verhältnis von Intelligenz, Geschwindigkeit und Kosten.
Die Architektur des Agents bestimmt, wie zuverlässig er im Einsatz arbeitet, wie gut er sich an spezifische Geschäftsanforderungen anpassen lässt und wie natürlich er im Gespräch klingt. Eine fusionierte Architektur wie das Realtime-Modell von OpenAI kann in kurzen Dialogen sehr lebensecht wirken. Doch wenn Teams Compliance-Vorgaben durchsetzen, Fehler analysieren oder ein stärkeres LLM integrieren möchten, sobald es verfügbar ist, bietet ein einziges fused Netzwerk kaum Flexibilität.
Dieser Artikel stellt die fünf Hauptarchitekturen vor, zeigt ihre Stärken und Schwächen und erläutert, wie wir die Basis für Agents in kritischen Workflows sehen.Tools und eine Wissensdatenbank. Unabhängige Agenten sind sinnvoll, wenn der Anwendungsfall keine strikte Abfolge von Schritten erfordert oder wenn Wissenssilos zwischen Agenten vermieden werden sollen. Wissenssilos entstehen, wenn bestimmte Tools, Dokumente oder Kontextinformationen nur einzelnen Subagenten zur Verfügung stehen. Das ist bei Multi-Agent-Workflows inhärent und führt zu einem Kompromiss zwischen Flexibilität und Determinismus.
Worauf Teams bei der Wahl einer Architektur achten
Neben Faktoren wie Parallelität, Integrationen und Stimmqualität lassen sich die oben genannten Dimensionen am direktesten durch die Architektur des Agenten beeinflussen. Erfolgreiche Teams passen ihre Architektur gezielt an, um diese Dimensionen für ihren Anwendungsfall zu optimieren.

Kaskadierte Architekturen bestehen aus einer Kette spezialisierter Komponenten: , einem Large Language Model, und Text to Speech. Jede Stufe kann unabhängig optimiert, getestet und aktualisiert werden.früheren Beitrag beschrieben haben. So gelingt eine zuverlässige Dokumentenabfrage auch dann, wenn die letzte Nutzereingabe eine Rückfrage, eine Bestätigung oder keine explizite Frage enthält.
Ist der Agent im Produktivbetrieb vertrauenswürdig?
Die Abwägungen zwischen kaskadierten und fused Architekturen Mit jedem weiteren Tool steigt auch die Komplexität für das Modell, die richtige Reihenfolge der Tools zu wählen. Im Agent Builder beschreibt die Tool-Beschreibung, was das Tool macht und welche Felder es zurückgibt. Diese Informationen nutzt das Sprachmodell, um den Kontext der Anwendung zu verstehen. Die konkreten Bedingungen für den Einsatz des Tools werden im System-Prompt des Agenten definiert. Zum Beispiel:
Durch dieses Design können fusionierte Architekturen Prosodie effektiver erhalten und wiedergeben, da das Modell Aussprache und Intonation direkt verarbeitet. Allerdings sind fusionierte Modelle schwieriger zu testen und zu steuern, da Zwischenstände nicht sichtbar sind. Sie setzen zudem meist auf leichtere LLM-Kerne, was die Logik- und Tool-Nutzung im Vergleich zu kaskadierten Ansätzen einschränkt, die mit den leistungsstärksten Modellen kombiniert werden können.Prompting Guide. Innerhalb dieses Rahmens lassen sich verschiedene Tool-Typen definieren, insbesondere:
Ein häufiger Kritikpunkt an kaskadierten Architekturen ist der Verlust prosodischer Merkmale. Sprache wird zu Text reduziert, und Intonation, Rhythmus und Emotionen müssen auf der Ausgabeseite rekonstruiert werden. Diese Merkmale lassen sich teilweise durch explizite Modellierung zurückgewinnen, werden aber nicht so natürlich erfasst wie bei fused Ansätzen. Andere Aspekte wie Latenz und Turn-Taking lassen sich in beiden Ansätzen meist auf vergleichbare Werte optimieren.dynamische Variable gespeichert werden. Diese Informationen werden als einfache Schlüssel-Wert-Paare abgelegt, die mithilfe vordefinierter Zuordnungen aus der Tool-Antwort extrahiert werden. Einmal gesetzt, können diese Variablen über den System-Prompt, zukünftige Tool-Parameter und Workflow-Bedingungen wieder in den Agenten einfließen. Dieser Feedback-Loop verleiht Agenten eine Art Arbeitsgedächtnis, das sich mit jeder Interaktion weiterentwickelt.
1. Basis-Kaskadiert
Fused Architekturen verfolgen einen grundsätzlich anderen Ansatz. Erkennung, Reasoning und Generierung erfolgen in einem einzigen multimodalen Netzwerk. Audio kommt rein, Audio geht raus – ohne überprüfbare Zwischenschritte.
Die fünf ArchitekturenDatenerfassung und Bewertungskriterien ins Spiel. Die Datenerfassung ermöglicht es, strukturierte Informationen aus dem Gesprächsprotokoll für Analysen und Auswertungen zu extrahieren. Oft werden diese Daten in das Enterprise Data Lakehouse exportiert, um Berichte oder Anreicherungs-Workflows zu unterstützen. Beispielsweise kann ein Sales Development Agent automatisch Kontaktdaten aus einem Gespräch extrahieren, um einen Lead im CRM-System zu erstellen oder zu aktualisieren. Bewertungskriterien legen fest, ob ein Gespräch als erfolgreich gilt. Werden alle Kriterien erfüllt, wird das Gespräch als erfolgreich markiert, andernfalls als nicht erfolgreich. So wird sichergestellt, dass Gespräche stets die definierten Qualitäts- und Integritätsstandards erfüllen und schnelles Feedback möglich ist. Nach Abschluss eines Gesprächs und Auslösen des Post-Call-Webhooks verarbeitet der Agent das finale Protokoll – inklusive Tool-Ausführungen und Metadaten – zusammen mit allen konfigurierten Datenerfassungs- und Bewertungspunkten in einem LLM. Das Modell nutzt diesen kombinierten Prompt, um zu prüfen, ob jedes Bewertungskriterium erfüllt ist, und um die gewünschten Datenpunkte für die weitere Analyse zu extrahieren. Da das LLM diese Konfigurationen direkt als Teil des Prompts interpretiert, ist eine klare und konsistente Formatierung entscheidend, damit das Modell sie korrekt versteht und anwendet. Wir empfehlen daher folgende Best Practices für die Formulierung von Bewertungskriterien und Datenerfassungsbeschreibungen.
1. Basis-Kaskadiert
Audio wird transkribiert, das LLM generiert eine Textantwort, und TTS spricht diese aus. Jede Stufe arbeitet mit Klartext, sodass Sie alles einsehen, testen und steuern können.
Beispielanwendungen:
Das ist der Ansatz hinter
Kundensupport bieten eine visuelle Oberfläche zur Gestaltung komplexer Gesprächsabläufe. Am Ende entsteht ein logisches Objekt, das vom Orchestrator genutzt wird, um mehrere Subagenten, Tools und Übergaben unter einer unabhängigen Agentenkennung zu steuern. Workflows bringen zusätzliche Komponenten mit sich, die über die bereits für unabhängige Agenten beschriebenen hinausgehen, insbesondere wie:
Die Architektur behält alle Vorteile der Basis-Kaskade: volle Transparenz, Guardrails auf Textebene, Austauschbarkeit der Komponenten, Domänenanpassung und Zugriff auf die stärksten Reasoning- und Tool-Modelle. Hinzu kommen deutlich bessere Prosodie, Latenz und Turn-Taking. Teams können ein neues LLM sofort integrieren oder STT für medizinische Begriffe anpassen, ohne andere Komponenten neu zu bauen.

Auf dieser gemeinsamen Basis führen Workflows spezialisierte Subagenten ein, die innerhalb eines gerichteten Graphen agieren. Jeder Subagent erhält ein eng umrissenes Ziel und ergänzt die Basiskonfiguration um zusätzliche Prompt-Anweisungen, Tools und Wissensquellen, die nur für seine Rolle relevant sind. Anstatt das gesamte Gesprächs-Setup neu zu definieren, erweitern Subagenten die Intention des Basisagenten durch Prompt-Komposition und gezielte Kontext-Erweiterung. Während der Gesprächsverlauf über Subagenten-Wechsel hinweg erhalten bleibt, arbeitet jeder Subagent mit einer bewusst eingeschränkten System-Sicht. Wissensdatenbanken und Tools werden selektiv freigegeben, um klare Silos zu schaffen und Überschneidungen zu verhindern. Zur Verstärkung dieser Isolation wird das Orchestrator-Objekt bei jedem Übergang neu aufgebaut, als wäre es ein unabhängiger Agent. So bleibt der Prompt-Zustand, die Konfiguration und die verfügbaren Fähigkeiten des aktiven Subagenten vollständig deterministisch. Dieses Design ermöglicht es Workflows, globale Konsistenz mit lokaler Spezialisierung zu verbinden – für vorhersehbares Verhalten, klare Verantwortlichkeiten und präzise Steuerung von Kontext, Wissen und Aktionen in jeder Phase der Interaktion.
3. Hybrid Kaskadiert und Fused
Bei manchen Architekturen werden akustische Merkmale (Aussprache, Emotion, Tonfall) direkt aus der Eingangssprache als Embeddings ins LLM eingespeist, statt zuerst in Text umzuwandeln. TTS bleibt modular.
Dadurch erhält das LLM mehr Informationen darüber,
Beispielanwendungen:
4. Sequenziell Fused
Ein einziges multimodales Modell übernimmt Erkennung, Reasoning und Generierung in einem Durchgang, jeweils für eine Gesprächsrunde. Diese Architektur steckt hinter Modellen wie der Realtime API von OpenAI.
Allerdings sind Guardrails ohne Textebene kaum durchsetzbar, Zwischenoutputs zur Fehleranalyse fehlen, und die Flexibilität, ein besseres LLM zu integrieren oder STT für die eigene Domäne zu optimieren, ist begrenzt. Die Reasoning-Kerne sind meist leichter als die stärksten LLMs, sodass komplexe Tool-Nutzung und mehrstufige Aufgaben leiden. Bei komplexen Anforderungen reicht Prosodie allein nicht aus.
Beispielanwendungen:
5. Duplex Fusioniert
Unser Forward Deployed Engineering Team arbeitet eng mit Kunden zusammen, um sicherzustellen, dass diese Fähigkeiten sich im Gleichschritt mit realen Einsätzen weiterentwickeln. Die nächste Generation von Agenten wird noch mehr Transparenz, Determinismus und Anpassungsfähigkeit bieten – ohne Kompromisse bei der niedrigen Latenz, die Echtzeit-Gespräche möglich macht.

Ein Blick hinter die Kulissen, wie ElevenAgents Kontext, Tools und Workflows steuert, um Echtzeit-Gespräche auf Enterprise-Niveau zu ermöglichen.

Ausdrucksstärkere Voice Agents für echte Kundengespräche.