
Einführung von Turbo v2.5
Hochwertige Text-to-Speech-Übersetzung mit geringer Latenz in 32 Sprachen
Vergleichen Sie zwei aktuelle Produkteinführungen, um das beste Produkt für Ihren Anwendungsfall zu finden
Aktualisiert am 18. Oktober 2024
Im letzten Monat gab es in der Welt der Conversational AI zwei wichtige Produkteinführungen – unsere Conversational AI-Orchestrierungsplattform und die Echtzeit-API von OpenAI. Wir haben diesen Beitrag zusammengestellt, um Ihnen bei der Unterscheidung zwischen den beiden zu helfen und herauszufinden, was für Ihren Anwendungsfall am besten geeignet ist.
Beide Produkte sind darauf ausgelegt, Sie bei der Erstellung von Echtzeit-Sprachagenten für Konversationen zu unterstützen. Konversations-KI von ElevenLabs macht dies durch eine Orchestrierungsplattform möglich, die mithilfe von „Speech to Text“ ein Transkript der Sprache erstellt, dieses Transkript zusammen mit einer benutzerdefinierten Wissensdatenbank an einen LLM Ihrer Wahl sendet und dann die LLM-Antwort mithilfe von „Text to Speech“ ausspricht. Es handelt sich um eine End-to-End-Lösung, die die Überwachung und Analyse vergangener Anrufe umfasst und in Kürze ein Test-Framework und Telefonintegrationen bieten wird.
Funktion | ElevenLabs Conv AI | OpenAI Realtime |
---|---|---|
Gesamtzahl der Stimmen | 3.000+ | 6 |
LLMs werden unterstützt | Bringen Sie Ihren eigenen Server mit oder wählen Sie einen von einem führenden Anbieter | Nur OpenAI-Modelle |
Anrufverfolgung und -analyse | Ja, integriertes Dashboard | Nein, muss mithilfe der API erstellt werden |
Latenz | 1–3 Sekunden, abhängig von der Netzwerklatenz und der Größe der Wissensdatenbank | Wahrscheinlich schneller, da kein Transkriptionsschritt erforderlich ist |
Preis | 10 Cent pro Minute für Unternehmen, nur 2-3 Cent pro Minute für Unternehmen mit hohem Volumen (+LLM-Kosten) | ~15 Cent pro Minute [6 Cent pro Minute Eingabe, 24 Cent pro Minute Ausgabe] |
Stimmklonierung | Ja, bringen Sie Ihre eigene Stimme mit einem PVC mit | Keine Stimmklonierung |
API-Zugriff | Ja, alle Pläne | Ja, alle Pläne |
Wenn unsere Konversations-KI Sprache in Text umwandelt, gehen einige Informationen verloren, darunter Emotionen, Tonfall und Aussprache der Sprache. Da die Echtzeit-API von OpenAI direkt von Sprache zu Sprache übergeht, geht kein Kontext verloren. Dadurch eignet es sich besser für bestimmte Anwendungsfälle, etwa die Korrektur der Aussprache beim Erlernen einer neuen Sprache oder das Erkennen und Reagieren auf Emotionen in der Therapie.
Wenn Sie die Echtzeit-API verwenden, nutzen Sie die Infrastruktur von OpenAI für das vollständige Konversationserlebnis. Es ist nicht möglich, das LLM eines anderen Unternehmens zu integrieren oder Ihr eigenes mitzubringen, da die Echtzeit-API nur Audio als Eingabe akzeptiert und Audio als Ausgabe zurückgibt.
Mit unserer Conversational-AI-Plattform können Sie das LLM, das Ihrem Modell zugrunde liegt, jederzeit ändern (auch bei der Verwendung von OpenAI-Modellen). Während Anthropic, OpenAI, Google, NVIDIA und andere sich im Rennen um das leistungsstärkste LLM gegenseitig übertrumpfen, können Sie jederzeit aktualisieren, sodass Sie immer die modernste Technologie verwenden.
Und für Unternehmen, die aus Leistungs- oder Datenschutzgründen ihr eigenes, intern fein abgestimmtes LLM entwickelt haben, besteht die Möglichkeit, dieses in die Conversational AI-Plattform von ElevenLab zu integrieren, jedoch nicht in die Realtime API von OpenAI.
Bei der Bewertung eines Modells hinsichtlich der Latenz sind zwei wichtige Faktoren zu berücksichtigen
(1) Ist die durchschnittliche Latenz niedrig genug, um ein nahtloses Benutzererlebnis zu schaffen?
(2) Wie stark schwankt die Latenz und wie sieht das Benutzererlebnis bei Latenzen von P90 und P99 aus?
Ein potenzieller Vorteil der OpenAI Realtime API besteht darin, dass sie wahrscheinlich insgesamt eine geringere Latenz aufweist, da der Zwischenschritt der Umwandlung von Sprache in Text entfällt.
Ein potenzieller Nachteil betrifft jedoch die Flexibilität, die wir zuvor besprochen haben. Bei unseren Tests der letzten Wochen war 40-mini zunächst das LLM mit der niedrigsten Latenz, das mit unserer Conversational-AI-Plattform gekoppelt werden konnte. Diese Woche hat sich die Latenz mehr als verdoppelt, was unsere Benutzer dazu veranlasst hat, auf Gemini Flash 1.5 umzusteigen. Mit der Echtzeit-API ist eine Rotation auf ein schnelleres LLM nicht möglich.
Beachten Sie auch, dass die End-to-End-Latenz für Ihre Conversational AI-Anwendung nicht nur von Ihrem Anbieter, sondern auch von der Größe der Wissensdatenbank Ihres Agenten und Ihren Netzwerkbedingungen abhängt.
Die Echtzeit-API von OpenAI verfügt derzeit über 6 Sprachoptionen. Unsere Stimmenbibliothek umfasst über 3.000 Stimmen. Sie können auch Professional Voice Cloning verwenden, um Ihre eigene benutzerdefinierte Stimme auf unserer Plattform zu verwenden. Dies bedeutet, dass Sie mit der Echtzeit-API keine Stimme auswählen können, die zu Ihrer Marke oder Ihrem Inhalt passt.
In der Echtzeit-API beträgt der Preis für die Audioeingabe 100 US-Dollar pro 1 Million Token und für die Ausgabe 200 US-Dollar pro 1 Million Token. Dies entspricht ungefähr 0,06 US-Dollar pro Minute Audioeingabe und 0,24 US-Dollar pro Minute Audioausgabe.
ElevenLabs Conversational AI kostet 1.000 Credits pro Minute (+ LLM-Kosten), also 10 Cent pro Minute (+LLM-Kosten) in unserem Business-Plan und nur wenige Cent pro Minute für Enterprise-Kunden mit hohem Anrufvolumen.
Am Ende jedes Anrufs sendet die Echtzeit-API JSON-formatierte Ereignisse, die Text- und Audioblöcke enthalten, darunter das Transkript und die Aufzeichnungen des Anrufs sowie aller getätigten Funktionsaufrufe. Es liegt an Ihnen, diese Informationen auf eine Weise zu lesen, zu verarbeiten, darüber zu berichten und anzuzeigen, die für Ihr Team nützlich ist.
Unsere Plattform verfügt über integrierte Funktionen zur Auswertung des Anruferfolgs, zum Extrahieren strukturierter Daten und zur Anzeige dieser Daten zusammen mit dem Transkript, der Zusammenfassung und der Aufzeichnung in unserem Dashboard, damit Ihr Team sie überprüfen kann.
Hochwertige Text-to-Speech-Übersetzung mit geringer Latenz in 32 Sprachen
Unser schnellstes Modell hat jetzt eine verbesserte Aussprache von Zahlen