Vergleich zwischen ElevenLabs Conversational AI und OpenAI Realtime API

21. Okt. 2024 • 5 Minuten Lesezeit

Vergleichen Sie zwei aktuelle Produkteinführungen, um das beste Produkt für Ihren Anwendungsfall zu finden

Aktualisiert am 18. Oktober 2024

Im letzten Monat gab es in der Welt der Conversational AI zwei wichtige Produkteinführungen – unsere Conversational AI-Orchestrierungsplattform und die Echtzeit-API von OpenAI. Wir haben diesen Beitrag zusammengestellt, um Ihnen bei der Unterscheidung zwischen den beiden zu helfen und herauszufinden, was für Ihren Anwendungsfall am besten geeignet ist.

Überblick

Beide Produkte sind darauf ausgelegt, Sie bei der Erstellung von Echtzeit-Sprachagenten für Konversationen zu unterstützen. Konversations-KI von ElevenLabs macht dies durch eine Orchestrierungsplattform möglich, die mithilfe von „Speech to Text“ ein Transkript der Sprache erstellt, dieses Transkript zusammen mit einer benutzerdefinierten Wissensdatenbank an einen LLM Ihrer Wahl sendet und dann die LLM-Antwort mithilfe von „Text to Speech“ ausspricht. Es handelt sich um eine End-to-End-Lösung, die die Überwachung und Analyse vergangener Anrufe umfasst und in Kürze ein Test-Framework und Telefonintegrationen bieten wird.

Die Echtzeit-API von OpenAI basiert auf einer anderen Architektur, bei der das Modell Audio (Sprache) als Eingabe verwendet und Audio (Sprache) direkt als Ausgabe bereitstellt. Es gibt keinen Schritt, mit dem Audio in ein schriftliches Transkript umgewandelt und an ein LLM übergeben wird, was wahrscheinlich zu Latenzgewinnen führt. Es ist nur über die API verfügbar und ist keine End-to-End-Plattform.

Funktion	ElevenLabs Conv AI	OpenAI Realtime
Gesamtzahl der Stimmen	3.000+	6
LLMs werden unterstützt	Bringen Sie Ihren eigenen Server mit oder wählen Sie einen von einem führenden Anbieter	Nur OpenAI-Modelle
Anrufverfolgung und -analyse	Ja, integriertes Dashboard	Nein, muss mithilfe der API erstellt werden
Latenz	1–3 Sekunden, abhängig von der Netzwerklatenz und der Größe der Wissensdatenbank	Wahrscheinlich schneller, da kein Transkriptionsschritt erforderlich ist
Preis	10 Cent pro Minute für Unternehmen, nur 2-3 Cent pro Minute für Unternehmen mit hohem Volumen (+LLM-Kosten)	~15 Cent pro Minute [6 Cent pro Minute Eingabe, 24 Cent pro Minute Ausgabe]
Stimmklonierung	Ja, bringen Sie Ihre eigene Stimme mit einem PVC mit	Keine Stimmklonierung
API-Zugriff	Ja, alle Pläne	Ja, alle Pläne

So schneiden sie ab

Emotionen und Aussprache verstehen

Wenn unsere Konversations-KI Sprache in Text umwandelt, gehen einige Informationen verloren, darunter Emotionen, Tonfall und Aussprache der Sprache. Da die Echtzeit-API von OpenAI direkt von Sprache zu Sprache übergeht, geht kein Kontext verloren. Dadurch eignet es sich besser für bestimmte Anwendungsfälle, etwa die Korrektur der Aussprache beim Erlernen einer neuen Sprache oder das Erkennen und Reagieren auf Emotionen in der Therapie.

Flexibilität

Wenn Sie die Echtzeit-API verwenden, nutzen Sie die Infrastruktur von OpenAI für das vollständige Konversationserlebnis. Es ist nicht möglich, das LLM eines anderen Unternehmens zu integrieren oder Ihr eigenes mitzubringen, da die Echtzeit-API nur Audio als Eingabe akzeptiert und Audio als Ausgabe zurückgibt.

Mit unserer Conversational-AI-Plattform können Sie das LLM, das Ihrem Modell zugrunde liegt, jederzeit ändern (auch bei der Verwendung von OpenAI-Modellen). Während Anthropic, OpenAI, Google, NVIDIA und andere sich im Rennen um das leistungsstärkste LLM gegenseitig übertrumpfen, können Sie jederzeit aktualisieren, sodass Sie immer die modernste Technologie verwenden.

Und für Unternehmen, die aus Leistungs- oder Datenschutzgründen ihr eigenes, intern fein abgestimmtes LLM entwickelt haben, besteht die Möglichkeit, dieses in die Conversational AI-Plattform von ElevenLab zu integrieren, jedoch nicht in die Realtime API von OpenAI.

Latenz

Bei der Bewertung eines Modells hinsichtlich der Latenz sind zwei wichtige Faktoren zu berücksichtigen

(1) Ist die durchschnittliche Latenz niedrig genug, um ein nahtloses Benutzererlebnis zu schaffen?

(2) Wie stark schwankt die Latenz und wie sieht das Benutzererlebnis bei Latenzen von P90 und P99 aus?

Ein potenzieller Vorteil der OpenAI Realtime API besteht darin, dass sie wahrscheinlich insgesamt eine geringere Latenz aufweist, da der Zwischenschritt der Umwandlung von Sprache in Text entfällt.

Ein potenzieller Nachteil betrifft jedoch die Flexibilität, die wir zuvor besprochen haben. Bei unseren Tests der letzten Wochen war 40-mini zunächst das LLM mit der niedrigsten Latenz, das mit unserer Conversational-AI-Plattform gekoppelt werden konnte. Diese Woche hat sich die Latenz mehr als verdoppelt, was unsere Benutzer dazu veranlasst hat, auf Gemini Flash 1.5 umzusteigen. Mit der Echtzeit-API ist eine Rotation auf ein schnelleres LLM nicht möglich.

Beachten Sie auch, dass die End-to-End-Latenz für Ihre Conversational AI-Anwendung nicht nur von Ihrem Anbieter, sondern auch von der Größe der Wissensdatenbank Ihres Agenten und Ihren Netzwerkbedingungen abhängt.

Sprachoptionen

Die Echtzeit-API von OpenAI verfügt derzeit über 6 Sprachoptionen. Unsere Stimmenbibliothek umfasst über 3.000 Stimmen. Sie können auch Professional Voice Cloning verwenden, um Ihre eigene benutzerdefinierte Stimme auf unserer Plattform zu verwenden. Dies bedeutet, dass Sie mit der Echtzeit-API keine Stimme auswählen können, die zu Ihrer Marke oder Ihrem Inhalt passt.

Preis

In der Echtzeit-API beträgt der Preis für die Audioeingabe 100 US-Dollar pro 1 Million Token und für die Ausgabe 200 US-Dollar pro 1 Million Token. Dies entspricht ungefähr 0,06 US-Dollar pro Minute Audioeingabe und 0,24 US-Dollar pro Minute Audioausgabe.

ElevenLabs Conversational AI kostet 1.000 Credits pro Minute (+ LLM-Kosten), also 10 Cent pro Minute (+LLM-Kosten) in unserem Business-Plan und nur wenige Cent pro Minute für Enterprise-Kunden mit hohem Anrufvolumen.

Zusätzliche Plattformfunktionen

Am Ende jedes Anrufs sendet die Echtzeit-API JSON-formatierte Ereignisse, die Text- und Audioblöcke enthalten, darunter das Transkript und die Aufzeichnungen des Anrufs sowie aller getätigten Funktionsaufrufe. Es liegt an Ihnen, diese Informationen auf eine Weise zu lesen, zu verarbeiten, darüber zu berichten und anzuzeigen, die für Ihr Team nützlich ist.

Unsere Plattform verfügt über integrierte Funktionen zur Auswertung des Anruferfolgs, zum Extrahieren strukturierter Daten und zur Anzeige dieser Daten zusammen mit dem Transkript, der Zusammenfassung und der Aufzeichnung in unserem Dashboard, damit Ihr Team sie überprüfen kann.

Entdecken Sie Artikel des ElevenLabs-Teams

Forschung

Einführung von Turbo v2.5

Hochwertige Text-to-Speech-Übersetzung mit geringer Latenz in 32 Sprachen

Forschung

Forschung

Aussprache der Turbo v2-Zahlen

Unser schnellstes Modell hat jetzt eine verbesserte Aussprache von Zahlen

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden