Porównanie ElevenLabs Conversational AI i OpenAI Realtime API

Porównanie dwóch ostatnio wprowadzonych na rynek produktów, które pomoże Ci wybrać najlepszy produkt do Twojego przypadku użycia

Zaktualizowano 18 października 2024 r.

W zeszłym miesiącu miały miejsce dwie duże premiery produktów w dziedzinie sztucznej inteligencji konwersacyjnej — nasza platforma do koordynacji sztucznej inteligencji konwersacyjnej oraz interfejs API w czasie rzeczywistym firmy OpenAI. Napisaliśmy ten post, aby pomóc Ci odróżnić te dwa rozwiązania i ustalić, które z nich sprawdzi się najlepiej w Twoim przypadku.

Przegląd

Oba produkty zostały zaprojektowane z myślą o tworzeniu asystentów głosowych prowadzących konwersacje w czasie rzeczywistym. ElevenLabs Konwersacyjna sztuczna inteligencja umożliwia to za pomocą platformy orkiestracyjnej, która tworzy transkrypt mowy za pomocą funkcji Speech to Text, wysyła ten transkrypt do wybranego przez Ciebie LLM wraz z niestandardową bazą wiedzy, a następnie odtwarza odpowiedź LLM za pomocą funkcji Text to Speech. Jest to kompleksowe rozwiązanie obejmujące monitorowanie i analizę poprzednich połączeń, a wkrótce także strukturę testową oraz integrację z telefonami. 

Interfejs API czasu rzeczywistego OpenAI został zbudowany na innej architekturze, w której model przyjmuje dźwięk (mowę) jako dane wejściowe i dostarcza dźwięk (mowę) bezpośrednio jako dane wyjściowe. Nie ma żadnego etapu, w którym dźwięk byłby konwertowany na zapis pisemny i przekazywany do LLM, co prawdopodobnie zapewniałoby korzyści w zakresie opóźnienia. Dostęp do niego jest możliwy wyłącznie za pośrednictwem interfejsu API i nie jest to kompleksowa platforma. 
FunkcjaElevenLabs Conv AIOpenAI Realtime
Łączna liczba głosów3 tys.+6
Obsługiwane LLMPrzynieś własny serwer lub wybierz spośród dowolnego wiodącego dostawcyTylko modele OpenAI
Śledzenie połączeń i analizaTak, wbudowany panelNie, należy utworzyć przy użyciu interfejsu API
Opóźnienie1-3 sekundy w zależności od opóźnienia sieci i rozmiaru bazy wiedzyPrawdopodobnie szybsze ze względu na brak etapu transkrypcji
Cena10 centów za minutę w firmie, zaledwie 2-3 centy za minutę w przedsiębiorstwie z dużą liczbą operacji (+koszt LLM) ~15 centów za minutę [6 centów za minutę wejścia, 24 centy za minutę wyjścia]
Klonowanie głosuTak, przynieś własny głos z PVCBrak klonowania głosu
Dostęp do APITak, wszystkie planyTak, wszystkie plany

Jak się układają

Zrozumienie emocji i wymowy

Kiedy nasza sztuczna inteligencja konwersacyjna zamienia mowę na tekst, część informacji zostaje utracona, w tym emocje, ton i wymowa wypowiedzi. Ponieważ interfejs API OpenAI Realtime przekazuje mowę bezpośrednio do innej mowy, nie dochodzi do utraty żadnego kontekstu. Dzięki temu narzędzie to lepiej sprawdza się w pewnych sytuacjach, na przykład przy korygowaniu czyjejś wymowy podczas nauki nowego języka lub przy rozpoznawaniu i reagowaniu na emocje podczas terapii.

Elastyczność

Korzystając z Realtime API, korzystasz z infrastruktury OpenAI, aby zapewnić sobie pełne doświadczenie konwersacyjne. Nie jest możliwe zintegrowanie programu LLM innej firmy ani wprowadzenie własnego, ponieważ interfejs API w czasie rzeczywistym przyjmuje tylko dane audio jako dane wejściowe i zwraca je jako dane wyjściowe.

Dzięki naszej platformie Conversational AI możesz w każdej chwili zmienić model LLM, na którym opiera się Twój model (również przy użyciu modeli OpenAI). Podczas gdy Anthropic, OpenAI, Google, NVIDIA i inni nieustannie prześcigają się w wyścigu o najwydajniejsze oprogramowanie LLM, możesz dokonać aktualizacji w dowolnym momencie, aby zawsze korzystać z najnowocześniejszej technologii.

Firmy, które opracowały własny, precyzyjnie dostrojony system LLM, ze względu na wydajność lub prywatność, mogą zintegrować go z platformą Conversational AI firmy ElevenLab, ale nie z interfejsem API Realtime firmy OpenAI.

Utajenie

Oceniając dowolny model pod kątem opóźnienia, należy wziąć pod uwagę dwa ważne czynniki

(1) Czy średnie opóźnienie jest wystarczająco niskie, aby zapewnić użytkownikowi płynne działanie?

(2) Jak bardzo waha się opóźnienie i jak wyglądają doświadczenia użytkownika w przypadku opóźnień P90 i P99?

Jedną z potencjalnych zalet interfejsu API OpenAI Realtime jest to, że eliminuje on pośredni etap zamiany mowy na tekst, co prawdopodobnie przełoży się na mniejsze opóźnienie.

Istnieje jednak potencjalna wada związana z elastycznością, o której mówiliśmy wcześniej. Podczas testów przeprowadzonych w ciągu ostatnich kilku tygodni początkowo 40-mini było systemem LLM o najniższym opóźnieniu, który można było sparować z naszą platformą Conversational AI. W tym tygodniu opóźnienie wzrosło ponad dwukrotnie, co skłoniło naszych użytkowników do przejścia na Gemini Flash 1.5. Dzięki interfejsowi API Realtime nie jest możliwe przejście na szybszy LLM.

Należy pamiętać, że całkowite opóźnienie w przypadku aplikacji wykorzystującej sztuczną inteligencję konwersacyjną zależy nie tylko od dostawcy, ale także od rozmiaru bazy wiedzy agenta i warunków sieciowych.

Opcje głosowe

Obecnie API Realtime firmy OpenAI oferuje 6 opcji głosowych. Nasza biblioteka głosów zawiera ponad 3000 głosów. Możesz również skorzystać z funkcji Professional Voice Cloning, aby używać własnego głosu na naszej platformie.  Oznacza to, że API Realtime nie pozwoli Ci wybrać głosu charakterystycznego dla Twojej marki lub treści.

Cena

W interfejsie API czasu rzeczywistego cena wejścia audio wynosi 100 USD za 1 mln tokenów, a cena wyjścia wynosi 200 USD za 1 mln tokenów. Kwota ta stanowi około 0,06 USD za minutę dźwięku wejściowego i 0,24 USD za minutę dźwięku wyjściowego. 

Koszt rozwiązania ElevenLabs Conversational AI wynosi 1 tys. kredytów za minutę (+ koszty LLM), co w naszym planie biznesowym oznacza 10 centów za minutę (+ koszty LLM), a w przypadku klientów korporacyjnych obsługujących dużą liczbę połączeń koszt ten wynosi zaledwie kilka centów za minutę.

Dodatkowe funkcje platformy

Pod koniec każdego wywołania interfejs API czasu rzeczywistego wysyła zdarzenia w formacie JSON zawierające fragmenty tekstu i dźwięku, w tym transkrypcję i nagrania wywołania oraz wszelkich wykonanych wywołań funkcjonalnych. Od Ciebie zależy, czy przeczytasz, przetworzysz, zgłosisz i przedstawisz te informacje w sposób, który będzie przydatny dla Twojego zespołu.

Nasza platforma ma wbudowaną funkcjonalność umożliwiającą ocenę powodzenia połączenia, wyodrębnianie danych strukturalnych i wyświetlanie ich wraz z transkrypcją, podsumowaniem i nagraniem na naszym pulpicie nawigacyjnym, aby Twój zespół mógł je przejrzeć.

Odkryj więcej

ElevenLabs

Twórz przy użyciu technologii audio AI zapewniającej najwyższą jakość