![](/_next/image?url=https%3A%2F%2Feleven-public-cdn.elevenlabs.io%2Fpayloadcms%2F5ac7tpry7ou-Screenshot%202024-07-19%20at%201.42.00%C3%A2%C2%AFPM.webp&w=3840&q=95)
Przedstawiamy Turbo v2.5
Wysokiej jakości, nisko opóźniona zamiana tekstu na mowę w 32 językach
Porównanie dwóch ostatnio wprowadzonych na rynek produktów, które pomoże Ci wybrać najlepszy produkt do Twojego przypadku użycia
Zaktualizowano 18 października 2024 r.
W zeszłym miesiącu miały miejsce dwie duże premiery produktów w dziedzinie sztucznej inteligencji konwersacyjnej — nasza platforma do koordynacji sztucznej inteligencji konwersacyjnej oraz interfejs API w czasie rzeczywistym firmy OpenAI. Napisaliśmy ten post, aby pomóc Ci odróżnić te dwa rozwiązania i ustalić, które z nich sprawdzi się najlepiej w Twoim przypadku.
Oba produkty zostały zaprojektowane z myślą o tworzeniu asystentów głosowych prowadzących konwersacje w czasie rzeczywistym. ElevenLabs Konwersacyjna sztuczna inteligencja umożliwia to za pomocą platformy orkiestracyjnej, która tworzy transkrypt mowy za pomocą funkcji Speech to Text, wysyła ten transkrypt do wybranego przez Ciebie LLM wraz z niestandardową bazą wiedzy, a następnie odtwarza odpowiedź LLM za pomocą funkcji Text to Speech. Jest to kompleksowe rozwiązanie obejmujące monitorowanie i analizę poprzednich połączeń, a wkrótce także strukturę testową oraz integrację z telefonami.
Funkcja | ElevenLabs Conv AI | OpenAI Realtime |
---|---|---|
Łączna liczba głosów | 3 tys.+ | 6 |
Obsługiwane LLM | Przynieś własny serwer lub wybierz spośród dowolnego wiodącego dostawcy | Tylko modele OpenAI |
Śledzenie połączeń i analiza | Tak, wbudowany panel | Nie, należy utworzyć przy użyciu interfejsu API |
Opóźnienie | 1-3 sekundy w zależności od opóźnienia sieci i rozmiaru bazy wiedzy | Prawdopodobnie szybsze ze względu na brak etapu transkrypcji |
Cena | 10 centów za minutę w firmie, zaledwie 2-3 centy za minutę w przedsiębiorstwie z dużą liczbą operacji (+koszt LLM) | ~15 centów za minutę [6 centów za minutę wejścia, 24 centy za minutę wyjścia] |
Klonowanie głosu | Tak, przynieś własny głos z PVC | Brak klonowania głosu |
Dostęp do API | Tak, wszystkie plany | Tak, wszystkie plany |
Kiedy nasza sztuczna inteligencja konwersacyjna zamienia mowę na tekst, część informacji zostaje utracona, w tym emocje, ton i wymowa wypowiedzi. Ponieważ interfejs API OpenAI Realtime przekazuje mowę bezpośrednio do innej mowy, nie dochodzi do utraty żadnego kontekstu. Dzięki temu narzędzie to lepiej sprawdza się w pewnych sytuacjach, na przykład przy korygowaniu czyjejś wymowy podczas nauki nowego języka lub przy rozpoznawaniu i reagowaniu na emocje podczas terapii.
Korzystając z Realtime API, korzystasz z infrastruktury OpenAI, aby zapewnić sobie pełne doświadczenie konwersacyjne. Nie jest możliwe zintegrowanie programu LLM innej firmy ani wprowadzenie własnego, ponieważ interfejs API w czasie rzeczywistym przyjmuje tylko dane audio jako dane wejściowe i zwraca je jako dane wyjściowe.
Dzięki naszej platformie Conversational AI możesz w każdej chwili zmienić model LLM, na którym opiera się Twój model (również przy użyciu modeli OpenAI). Podczas gdy Anthropic, OpenAI, Google, NVIDIA i inni nieustannie prześcigają się w wyścigu o najwydajniejsze oprogramowanie LLM, możesz dokonać aktualizacji w dowolnym momencie, aby zawsze korzystać z najnowocześniejszej technologii.
Firmy, które opracowały własny, precyzyjnie dostrojony system LLM, ze względu na wydajność lub prywatność, mogą zintegrować go z platformą Conversational AI firmy ElevenLab, ale nie z interfejsem API Realtime firmy OpenAI.
Oceniając dowolny model pod kątem opóźnienia, należy wziąć pod uwagę dwa ważne czynniki
(1) Czy średnie opóźnienie jest wystarczająco niskie, aby zapewnić użytkownikowi płynne działanie?
(2) Jak bardzo waha się opóźnienie i jak wyglądają doświadczenia użytkownika w przypadku opóźnień P90 i P99?
Jedną z potencjalnych zalet interfejsu API OpenAI Realtime jest to, że eliminuje on pośredni etap zamiany mowy na tekst, co prawdopodobnie przełoży się na mniejsze opóźnienie.
Istnieje jednak potencjalna wada związana z elastycznością, o której mówiliśmy wcześniej. Podczas testów przeprowadzonych w ciągu ostatnich kilku tygodni początkowo 40-mini było systemem LLM o najniższym opóźnieniu, który można było sparować z naszą platformą Conversational AI. W tym tygodniu opóźnienie wzrosło ponad dwukrotnie, co skłoniło naszych użytkowników do przejścia na Gemini Flash 1.5. Dzięki interfejsowi API Realtime nie jest możliwe przejście na szybszy LLM.
Należy pamiętać, że całkowite opóźnienie w przypadku aplikacji wykorzystującej sztuczną inteligencję konwersacyjną zależy nie tylko od dostawcy, ale także od rozmiaru bazy wiedzy agenta i warunków sieciowych.
Obecnie API Realtime firmy OpenAI oferuje 6 opcji głosowych. Nasza biblioteka głosów zawiera ponad 3000 głosów. Możesz również skorzystać z funkcji Professional Voice Cloning, aby używać własnego głosu na naszej platformie. Oznacza to, że API Realtime nie pozwoli Ci wybrać głosu charakterystycznego dla Twojej marki lub treści.
W interfejsie API czasu rzeczywistego cena wejścia audio wynosi 100 USD za 1 mln tokenów, a cena wyjścia wynosi 200 USD za 1 mln tokenów. Kwota ta stanowi około 0,06 USD za minutę dźwięku wejściowego i 0,24 USD za minutę dźwięku wyjściowego.
Koszt rozwiązania ElevenLabs Conversational AI wynosi 1 tys. kredytów za minutę (+ koszty LLM), co w naszym planie biznesowym oznacza 10 centów za minutę (+ koszty LLM), a w przypadku klientów korporacyjnych obsługujących dużą liczbę połączeń koszt ten wynosi zaledwie kilka centów za minutę.
Pod koniec każdego wywołania interfejs API czasu rzeczywistego wysyła zdarzenia w formacie JSON zawierające fragmenty tekstu i dźwięku, w tym transkrypcję i nagrania wywołania oraz wszelkich wykonanych wywołań funkcjonalnych. Od Ciebie zależy, czy przeczytasz, przetworzysz, zgłosisz i przedstawisz te informacje w sposób, który będzie przydatny dla Twojego zespołu.
Nasza platforma ma wbudowaną funkcjonalność umożliwiającą ocenę powodzenia połączenia, wyodrębnianie danych strukturalnych i wyświetlanie ich wraz z transkrypcją, podsumowaniem i nagraniem na naszym pulpicie nawigacyjnym, aby Twój zespół mógł je przejrzeć.
Wysokiej jakości, nisko opóźniona zamiana tekstu na mowę w 32 językach
Nasz najszybszy model ma teraz ulepszoną wymowę liczb