
Vorstellung von Eleven Turbo v2.5
Hochwertige, latenzarme Text-to-Speech in 32 Sprachen
Vergleich zweier aktueller Produktveröffentlichungen, um die beste Lösung für Ihren Anwendungsfall zu finden
Aktualisiert am 18. Oktober 2024
Im letzten Monat gab es zwei wichtige Produktveröffentlichungen im Bereich Konversations-KI: unsere Orchestrierungsplattform für Konversations-KI und die Realtime API von OpenAIAPI. Wir haben diesen Beitrag erstellt, um Ihnen die Unterscheidung der beiden Produkte zu erleichtern und die passende Lösung für Ihren Anwendungsfall zu finden.
Beide Produkte unterstützen Sie dabei, Echtzeit-konversationelle Sprachagenten. ElevenLabs Konversations-KI ermöglicht dies über eine Orchestrierungsplattform, die aus gesprochener Sprache per Sprache zu Text ein Transkript erstellt, dieses zusammen mit einer individuellen Wissensdatenbank an ein LLM Ihrer Wahl sendet und die Antwort des LLM anschließend per Text zu Sprache vertont. Es handelt sich um eine End-to-End-Lösung inklusive Monitoring und Analysen vergangener Anrufe. Bald werden auch ein Test-Framework und Telefon-Integrationen verfügbar sein.
| Feature | ElevenLabs Conv AI | OpenAI Realtime |
|---|---|---|
| Total Number of Voices | 3k+ | 6 |
| LLMs Supported | Bring your own server or choose from any leading provider | OpenAI models only |
| Call tracking and analytics | Yes, built-in dashboard | No, must build using API |
| Latency | 1-3 seconds depending on network latency and size of knowledge base | Likely faster due to no transcription step |
| Price | 8.8 cents per minute on business, with discounts for high volume (+LLM cost) | ~15 cents per minute (6 cents per minute input, 24 cents per minute output) |
| Voice Cloning | Yes, bring your own voice with a PVC | No voice cloning |
| API Access | Yes, all plans | Yes, all plans |
Wenn unsere Konversations-KI Sprache in Text umwandelt, gehen dabei Informationen wie Emotion, Tonfall und Aussprache verloren. Da die Realtime API von OpenAI direkt von Sprache zu Sprache arbeitet, bleibt dieser Kontext erhalten. Das ist besonders vorteilhaft für Anwendungsfälle wie das Korrigieren der Aussprache beim Sprachenlernen oder das Erkennen und Reagieren auf Emotionen in der Therapie.
Bei der Nutzung der Realtime API verwenden Sie die Infrastruktur von OpenAI für das gesamte Gespräch. Es ist nicht möglich, ein anderes LLM zu integrieren oder ein eigenes zu verwenden, da die Realtime API ausschließlich Audio als Eingabe und Ausgabe akzeptiert.
Mit unserer Konversations-KI-Plattform können Sie das LLM jederzeit wechseln (auch OpenAI-Modelle sind möglich). Da Anbieter wie Anthropic, OpenAI, Google, NVIDIA und andere ständig leistungsfähigere LLMs entwickeln, können Sie jederzeit auf den aktuellen Stand der Technik umsteigen.
Unternehmen, die ein eigenes, speziell angepasstes LLM aus Leistungs- oder Datenschutzgründen einsetzen, können dieses mit der Konversations-KI-Plattform von ElevenLabs integrieren – mit der Realtime API von OpenAI ist das nicht möglich.
Bei der Bewertung eines Modells hinsichtlich Latenz sind zwei Faktoren entscheidend:
(1) Ist die durchschnittliche Latenz niedrig genug für ein nahtloses Nutzererlebnis?
(2) Wie stark schwankt die Latenz und wie sieht das Nutzererlebnis bei P90- und P99-Latenz aus?
Ein möglicher Vorteil der OpenAI Realtime API ist, dass sie den Zwischenschritt der Umwandlung von Sprache in Text überspringt und dadurch insgesamt eine geringere Latenz aufweist.
Ein Nachteil ist jedoch die eingeschränkte Flexibilität. In unseren Tests der letzten Wochen war 40-mini zunächst das LLM mit der geringsten Latenz für unsere Konversations-KI-Plattform. Diese Woche hat sich die Latenz mehr als verdoppelt, sodass unsere Nutzer auf Gemini Flash 1.5 gewechselt sind. Mit der Realtime API ist ein solcher Wechsel zu einem schnelleren LLM nicht möglich.
Beachten Sie außerdem, dass die End-to-End-Latenz Ihrer Konversations-KI-Anwendung nicht nur vom Anbieter abhängt, sondern auch von der Größe der Wissensdatenbank des Agenten und Ihren Netzwerkbedingungen.
Die Realtime API von OpenAI bietet derzeit 6 Stimmen zur Auswahl. Unsere Stimmbibliothek umfasst über 3.000 Stimmen. Mit Professional Voice Cloning können Sie zudem Ihre eigene Stimme auf unserer Plattform nutzen. Die Realtime API erlaubt es nicht, eine Stimme zu wählen, die einzigartig für Ihre Marke oder Ihren Content ist.
Bei der Realtime API kostet die Audioeingabe 100 $ pro 1 Mio. Tokens, die Audioausgabe 200 $ pro 1 Mio. Tokens. Das entspricht etwa 0,06 $ pro Minute Audioeingabe und 0,24 $ pro Minute Audioausgabe.
ElevenLabs Konversations-KI bietet im kostenlosen Tarif 15 Minuten zum Einstieg. Der Business-Tarif umfasst 13.750 Minuten Konversations-KI (0,08 $ pro Minute), zusätzliche Minuten werden ebenfalls mit 0,08 $ abgerechnet. Bei höheren Volumina gibt es deutlich günstigere Konditionen.
Am Ende jedes Gesprächs sendet die Realtime API JSON-formatierte Events mit Text- und Audioausschnitten, darunter das Transkript, Aufzeichnungen des Gesprächs und etwaige Funktionsaufrufe. Sie müssen diese Informationen selbst auslesen, verarbeiten, auswerten und für Ihr Team bereitstellen.
Unsere Plattform bietet integrierte Funktionen zur Auswertung des Gesprächserfolgs, zur Extraktion strukturierter Daten und zur Anzeige dieser Informationen zusammen mit Transkript, Zusammenfassung und Aufnahme im Dashboard für Ihr Team.

Hochwertige, latenzarme Text-to-Speech in 32 Sprachen

Reducing time to ticket resolution by 8x with multilingual conversational agents.