Pomiń

Porównanie ElevenLabs Conversational AI i OpenAI Realtime API

Porównujemy dwa nowe produkty, żeby pomóc ci wybrać najlepszy do twoich potrzeb

Aktualizacja: 18 października 2024

W ostatnim miesiącu pojawiły się dwa ważne produkty w świecie Conversational AI – nasza platforma do zarządzania Conversational AI i OpenAI RealtimeAPI. Przygotowaliśmy ten wpis, żeby łatwiej było ci odróżnić te produkty i wybrać ten, który lepiej się sprawdzi.

Przegląd

Oba produkty pomagają tworzyć agentów głosowych działających w czasie rzeczywistym,agentów głosowych do rozmów. ElevenLabs Conversational AI umożliwia to dzięki platformie, która zamienia mowę na tekst (Speech to Text), przesyła transkrypcję do wybranego LLM razem z twoją bazą wiedzy, a potem odtwarza odpowiedź LLM za pomocą Text to Speech. To rozwiązanie end-to-end z monitoringiem i analizą rozmów, a wkrótce także z narzędziami do testowania i integracją z telefonią.

OpenAI's Realtime API is built on a different architecture whereby the model takes audio (speech) as input and provides audio (speech) directly as the output. There is no step by which audio is converted into a written transcript and passed to an LLM, which likely provides latency gains. It’s only available via API and is not an end to end platform. 
FeatureElevenLabs Conv AIOpenAI Realtime
Total Number of Voices3k+6
LLMs SupportedBring your own server or choose from any leading providerOpenAI models only
Call tracking and analyticsYes, built-in dashboardNo, must build using API
Latency1-3 seconds depending on network latency and size of knowledge baseLikely faster due to no transcription step
Price8.8 cents per minute on business, with discounts for high volume (+LLM cost) ~15 cents per minute (6 cents per minute input, 24 cents per minute output)
Voice CloningYes, bring your own voice with a PVCNo voice cloning
API AccessYes, all plansYes, all plans

Porównanie możliwości

Rozpoznawanie emocji i wymowy

Gdy nasze Conversational AI zamienia mowę na tekst, część informacji znika – na przykład emocje, ton czy wymowa. OpenAI Realtime API działa bezpośrednio na mowie, więc nie traci kontekstu. To sprawia, że lepiej sprawdzi się np. do nauki wymowy w nowym języku albo rozpoznawania emocji w terapii.

Elastyczność

Korzystając z Realtime API, używasz całej infrastruktury OpenAI. Nie da się podłączyć innego LLM ani własnego modelu, bo Realtime API przyjmuje tylko dźwięk i zwraca dźwięk.

W naszej platformie Conversational AI możesz w każdej chwili zmienić LLM, który napędza twojego agenta (w tym na modele OpenAI). Gdy Anthropic, OpenAI, Google, NVIDIA i inni wprowadzają coraz lepsze modele, możesz je aktualizować i zawsze korzystać z najnowszych rozwiązań.

Firmy, które mają własny, dostrojony LLM (np. ze względu na wydajność lub prywatność), mogą go zintegrować z ElevenLabs Conversational AI, ale nie z OpenAI Realtime API.

Opóźnienia

Przy ocenie modelu pod kątem opóźnień liczą się dwa czynniki:

(1) Czy średnie opóźnienie jest na tyle niskie, żeby rozmowa była płynna?

(2) Jak bardzo opóźnienie się zmienia i jak wygląda doświadczenie użytkownika przy P90 i P99?

Zaletą OpenAI Realtime API jest to, że pomija etap zamiany mowy na tekst, więc opóźnienie może być niższe.

Minusem jest mniejsza elastyczność. W naszych testach przez kilka tygodni 40-mini miał najniższe opóźnienia z naszą platformą Conversational AI. W tym tygodniu opóźnienie się podwoiło, więc użytkownicy przeszli na Gemini Flash 1.5. W Realtime API nie da się przełączyć na szybszy LLM.

Pamiętaj też, że końcowe opóźnienie w twojej aplikacji Conversational AI zależy nie tylko od dostawcy, ale też od wielkości bazy wiedzy agenta i warunków sieciowych.

Wybór głosu

OpenAI Realtime API ma obecnie 6 głosów. Nasza biblioteka to ponad 3 000 głosów. Możesz też użyć Professional Voice Cloning, żeby dodać własny głos. W Realtime API nie wybierzesz głosu pasującego do twojej marki czy treści.

Cena

W Realtime API wejście audio kosztuje 100$ za 1 mln tokenów, a wyjście 200$ za 1 mln tokenów. To ok. 0,06$ za minutę wejścia i 0,24$ za minutę wyjścia.

ElevenLabs Conversational AI daje 15 minut na start w darmowym planie. Plan Business to 13 750 minut Conversational AI (0,08$ za minutę), kolejne minuty też po 0,08$, a przy większych ilościach ceny są jeszcze niższe.

Dodatkowe funkcje platformy

Po każdej rozmowie Realtime API wysyła zdarzenia w formacie JSON z tekstem i fragmentami audio – transkrypcją, nagraniem i informacjami o wykonanych akcjach. Sam musisz je odczytać, przetworzyć i pokazać zespołowi w przydatnej formie.

Nasza platforma ma wbudowane narzędzia do oceny rozmów, wyciągania danych i prezentowania ich razem z transkrypcją, podsumowaniem i nagraniem w naszym panelu – wszystko do wglądu twojego zespołu.

Przeglądaj artykuły zespołu ElevenLabs

ElevenLabs

Twórz z najwyższą jakością dźwięku AI