Direkt zum Inhalt

Vergleich: ElevenLabs Konversations-KI und OpenAI Realtime API

Vergleich zweier aktueller Produktveröffentlichungen, um die beste Lösung für Ihren Anwendungsfall zu finden

Aktualisiert am 18. Oktober 2024

Im letzten Monat gab es zwei wichtige Produktveröffentlichungen im Bereich Konversations-KI: unsere Orchestrierungsplattform für Konversations-KI und die Realtime API von OpenAIAPI. Wir haben diesen Beitrag erstellt, um Ihnen die Unterscheidung der beiden Produkte zu erleichtern und die passende Lösung für Ihren Anwendungsfall zu finden.

Überblick

Beide Produkte unterstützen Sie dabei, Echtzeit-konversationelle Sprachagenten. ElevenLabs Konversations-KI ermöglicht dies über eine Orchestrierungsplattform, die aus gesprochener Sprache per Sprache zu Text ein Transkript erstellt, dieses zusammen mit einer individuellen Wissensdatenbank an ein LLM Ihrer Wahl sendet und die Antwort des LLM anschließend per Text zu Sprache vertont. Es handelt sich um eine End-to-End-Lösung inklusive Monitoring und Analysen vergangener Anrufe. Bald werden auch ein Test-Framework und Telefon-Integrationen verfügbar sein.

OpenAI's Realtime API is built on a different architecture whereby the model takes audio (speech) as input and provides audio (speech) directly as the output. There is no step by which audio is converted into a written transcript and passed to an LLM, which likely provides latency gains. It’s only available via API and is not an end to end platform. 
FeatureElevenLabs Conv AIOpenAI Realtime
Total Number of Voices3k+6
LLMs SupportedBring your own server or choose from any leading providerOpenAI models only
Call tracking and analyticsYes, built-in dashboardNo, must build using API
Latency1-3 seconds depending on network latency and size of knowledge baseLikely faster due to no transcription step
Price8.8 cents per minute on business, with discounts for high volume (+LLM cost) ~15 cents per minute (6 cents per minute input, 24 cents per minute output)
Voice CloningYes, bring your own voice with a PVCNo voice cloning
API AccessYes, all plansYes, all plans

Vergleich der Funktionen

Erkennung von Emotion und Aussprache

Wenn unsere Konversations-KI Sprache in Text umwandelt, gehen dabei Informationen wie Emotion, Tonfall und Aussprache verloren. Da die Realtime API von OpenAI direkt von Sprache zu Sprache arbeitet, bleibt dieser Kontext erhalten. Das ist besonders vorteilhaft für Anwendungsfälle wie das Korrigieren der Aussprache beim Sprachenlernen oder das Erkennen und Reagieren auf Emotionen in der Therapie.

Flexibilität

Bei der Nutzung der Realtime API verwenden Sie die Infrastruktur von OpenAI für das gesamte Gespräch. Es ist nicht möglich, ein anderes LLM zu integrieren oder ein eigenes zu verwenden, da die Realtime API ausschließlich Audio als Eingabe und Ausgabe akzeptiert.

Mit unserer Konversations-KI-Plattform können Sie das LLM jederzeit wechseln (auch OpenAI-Modelle sind möglich). Da Anbieter wie Anthropic, OpenAI, Google, NVIDIA und andere ständig leistungsfähigere LLMs entwickeln, können Sie jederzeit auf den aktuellen Stand der Technik umsteigen.

Unternehmen, die ein eigenes, speziell angepasstes LLM aus Leistungs- oder Datenschutzgründen einsetzen, können dieses mit der Konversations-KI-Plattform von ElevenLabs integrieren – mit der Realtime API von OpenAI ist das nicht möglich.

Latenz

Bei der Bewertung eines Modells hinsichtlich Latenz sind zwei Faktoren entscheidend:

(1) Ist die durchschnittliche Latenz niedrig genug für ein nahtloses Nutzererlebnis?

(2) Wie stark schwankt die Latenz und wie sieht das Nutzererlebnis bei P90- und P99-Latenz aus?

Ein möglicher Vorteil der OpenAI Realtime API ist, dass sie den Zwischenschritt der Umwandlung von Sprache in Text überspringt und dadurch insgesamt eine geringere Latenz aufweist.

Ein Nachteil ist jedoch die eingeschränkte Flexibilität. In unseren Tests der letzten Wochen war 40-mini zunächst das LLM mit der geringsten Latenz für unsere Konversations-KI-Plattform. Diese Woche hat sich die Latenz mehr als verdoppelt, sodass unsere Nutzer auf Gemini Flash 1.5 gewechselt sind. Mit der Realtime API ist ein solcher Wechsel zu einem schnelleren LLM nicht möglich.

Beachten Sie außerdem, dass die End-to-End-Latenz Ihrer Konversations-KI-Anwendung nicht nur vom Anbieter abhängt, sondern auch von der Größe der Wissensdatenbank des Agenten und Ihren Netzwerkbedingungen.

Stimmenauswahl

Die Realtime API von OpenAI bietet derzeit 6 Stimmen zur Auswahl. Unsere Stimmbibliothek umfasst über 3.000 Stimmen. Mit Professional Voice Cloning können Sie zudem Ihre eigene Stimme auf unserer Plattform nutzen. Die Realtime API erlaubt es nicht, eine Stimme zu wählen, die einzigartig für Ihre Marke oder Ihren Content ist.

Preis

Bei der Realtime API kostet die Audioeingabe 100 $ pro 1 Mio. Tokens, die Audioausgabe 200 $ pro 1 Mio. Tokens. Das entspricht etwa 0,06 $ pro Minute Audioeingabe und 0,24 $ pro Minute Audioausgabe.

ElevenLabs Konversations-KI bietet im kostenlosen Tarif 15 Minuten zum Einstieg. Der Business-Tarif umfasst 13.750 Minuten Konversations-KI (0,08 $ pro Minute), zusätzliche Minuten werden ebenfalls mit 0,08 $ abgerechnet. Bei höheren Volumina gibt es deutlich günstigere Konditionen.

Weitere Plattformfunktionen

Am Ende jedes Gesprächs sendet die Realtime API JSON-formatierte Events mit Text- und Audioausschnitten, darunter das Transkript, Aufzeichnungen des Gesprächs und etwaige Funktionsaufrufe. Sie müssen diese Informationen selbst auslesen, verarbeiten, auswerten und für Ihr Team bereitstellen.

Unsere Plattform bietet integrierte Funktionen zur Auswertung des Gesprächserfolgs, zur Extraktion strukturierter Daten und zur Anzeige dieser Informationen zusammen mit Transkript, Zusammenfassung und Aufnahme im Dashboard für Ihr Team.

Entdecken Sie Artikel des ElevenLabs-Teams

ElevenLabs

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden