Interaktionsmodelle für natürliche menschliche KI-Kommunikation

Zuletzt aktualisiert 12. Mai 2026 • 2 Minuten Lesezeit

Wie wir KI-Systeme entwickeln, die in Echtzeit kommunizieren – mit Einblicken in technische Entscheidungen zu Gesprächsführung, Latenz und ausdrucksstarker Wiedergabe sowie den Modellen, die wir bereitgestellt haben.

Wir arbeiten seit Jahren auf diese Kategorie hin. Dieser Beitrag zeigt, was wir entwickelt haben, und erläutert die zugrunde liegenden Forschungs- und Produktentscheidungen.

Unser Flaggschiffprodukt – ElevenAgents mit v3 Conversational

Expressive Mode – Mark – Persönlicher Kredit Inbound (Panik) – Launch-Asset.mp4

Drei Faktoren müssen zusammenkommen, damit ein Interaktionssystem zuverlässig funktioniert und natürliche, ansprechende Interaktionen ermöglicht:

Drei Faktoren müssen zusammenspielen, damit ein Interaktionssystem zuverlässig funktioniert und natürliche, ansprechende Interaktionen ermöglicht:

*Bezieht sich nur auf die Inferenzzeit des Modells. Die tatsächliche End-to-End-Latenz hängt unter anderem von Standort und verwendetem Endpunkt ab.

Antwort in unter einer Sekunde.ElevenAgents sind für Antwortzeiten unter 100 ms in internen Benchmarks optimiert, mit unter 200 ms als Ziel für Telefonie-Integrationen. Flash v2.5, unser schnellstes Text to Speech-Modell, erreicht etwa 75 ms Inferenzzeit.*
Gesprächsführung, die Unterbrechungen verarbeitet.Um vorschnelle Unterbrechungen zu vermeiden, braucht es ein System, das sowohl Pausen als auch den Gesprächsinhalt berücksichtigt.
Ausdrucksstarke, natürliche Wiedergabe.Das Modell muss mit passendem Tonfall, Tempo und Emotion auf die jeweilige Situation reagieren.

Einige unserer bisherigen Entwicklungen

Was wir bereits umgesetzt haben

Spekulatives Turn-Taking.Eine separate Funktion in v3 Conversational, die während Nutzerpausen die LLM-Antwortgenerierung vorab startet und so die wahrgenommene Latenz reduziert.

Flash v2.5.Unser schnellstes Text to Speech-Modell für Echtzeitanwendungen mit niedriger Latenz, etwa 75 ms Inferenzzeit.*

Scribe v2.Unser Speech to Text-Modell mit branchenführender Genauigkeit.

ElevenAgents Expressive Mode.Ermöglicht Agenten den Einsatz von ausdrucksstarken Tags wie [lacht], [flüstert], [seufzt] und [langsam], um die Wiedergabe im Kontext zu steuern.

ElevenAgents Expressive Mode.Ermöglicht Agenten die Nutzung von ausdrucksstarken Tags wie [lacht], [flüstert], [seufzt] und [langsam], um die Wiedergabe im Kontext zu steuern.

Wohin die Entwicklung geht