Co się dzieje, gdy dwaj asystenci głosowi AI prowadzą rozmowę?

Na hackathonie ElevenLabs w Londynie deweloperzy stworzyli GibberLink, protokół, który pozwala agentom AI rozpoznawać się nawzajem i przełączać na hiperwydajny język oparty na dźwięku.

Co się dzieje, gdy dwaj asystenci głosowi AI prowadzą rozmowę? Jeśli AI rozmawia z AI, dlaczego miałoby się martwić o nieefektywności ludzkiej mowy? Dlaczego używać słów, gdy czyste dane są szybsze, dokładniejsze i wolne od błędów?

Dokładnie to się wydarzyło na hackathonie ElevenLabs w Londynie, gdzie deweloperzy Boris Starkov i Anton Pidkuiko wprowadzili GibberLink, mechanizm, który pozwala agentom AI rozpoznać się nawzajem i przełączyć się w nowy tryb komunikacji — taki, który jest bardziej efektywny niż język mówiony. I nie minęło dużo czasu, aby pomysł stał się wirusowy, z udostępnieniami od Marquessa Brownlee, Tima Urbana i innych.

Pomysł stojący za GibberLink jest prosty: AI nie musi mówić tak jak ludzie. Podczas hackathonu Starkov i Pidkuiko zbadali ograniczenia tradycyjnej komunikacji AI do AI i zdali sobie sprawę, że mogą wyeliminować zbędną złożoność, pozwalając AI rozmawiać z AI w sposób zoptymalizowany dla maszyn.

Ten koncept powstał podczas Hackathonu, gdzie Starkov i Pidkuiko eksperymentowali z produktem AI do rozmów ElevenLabs, który pozwala na połączenie dowolnego LLM i stworzenie agenta.

Starkov napisał na LinkedIn. Chcieliśmy pokazać, że w świecie, w którym agenci AI mogą dzwonić i odbierać połączenia telefoniczne (tj. dzisiaj), czasami rozmawialiby ze sobą — a generowanie ludzkiego głosu do tego byłoby marnotrawstwem mocy obliczeniowej, pieniędzy, czasu i środowiska. Zamiast tego powinni przejść na bardziej wydajny protokół w momencie, gdy rozpoznają się nawzajem jako AI.

Łącząc ElevenLabs Conversational AI technologia z ggwave, otwarta biblioteka danych przez dźwięk, stworzyli system, w którym asystenci AI mogą wykrywać, kiedy rozmawiają z innym AI i natychmiast przełączać się na bardziej efektywny tryb komunikacji — przesyłając zorganizowane dane przez fale dźwiękowe zamiast słów.

Użyli ggwave, ponieważ było to "najwygodniejsze i najstabilniejsze rozwiązanie, jakie mogliśmy znaleźć w czasie hackathonu", ale istnieją inne mechanizmy, aby osiągnąć te same lub podobne wyniki. Starkov napisał: Modemy dial-up używały podobnych algorytmów do przesyłania informacji za pomocą dźwięku od lat 80-tych, a wiele protokołów istniało od tego czasu.

Kod mechanizmu został audytowany przez inżynierów ElevenLabs, a podczas pokazu jeden agent AI do rozmowy został poproszony o zarezerwowanie pokoju hotelowego na wesele, a drugi o zrealizowanie prośby (odgrywając rolę systemu rezerwacji hotelowej). Powiedziano im również, aby przeszli na protokół poziomu dźwięku, jeśli uważali, że drugi również jest agentem AI, ale nie powiedziano im, że drugi jest agentem.

W filmie demonstracyjnym jest moment uświadomienia, w którym AI grające klienta ogłasza, że jest agentem. Sztuczna inteligencja rezerwacji odpowiada i pyta o przejście na Gibberlink. To brzmi jak para modemów dial-up rywalizujących z R2D2 o tytuł głosu roku. Możesz zobaczyć najważniejsze momenty tej cyfrowej rozmowy w tekście na ekranie każdego urządzenia używanego w demonstracji, w tym pytania o liczbę gości i daty.

Jak to działa

  • Sztuczna inteligencja zaczyna mówić normalnie — tak jak asystent głosowy w interakcji z człowiekiem.
  • Rozpoznanie wchodzi w grę — jeśli AI zdaje sobie sprawę, że rozmawia z innym AI, obie przełączają protokoły.
  • Zmiany językowe — zamiast słów mówionych, agenci AI przesyłają zorganizowane dane za pomocą modulowanych fal dźwiękowych, dzięki systemowi modulacji częstotliwości ggwave.

Bardziej szczegółowo, para agentów AI konwersacyjnych ElevenLabs zaczyna rozmawiać w ludzkim języku. Oba używają funkcji wywołania, aby uruchomić tryb Gibberlink, jeśli spełnione są odpowiednie warunki. Jeśli narzędzie jest wywoływane, połączenie ElevenLabs jest zakończone, a protokół ggwave "dane przez dźwięk" przejmuje, ale z tym samym wątkiem LLM.

Starkov mówi, że to była "magia narzędzi, które oferuje ElevenLabs", która to umożliwiła, ponieważ nasz system AI do rozmów "pozwala na wywoływanie AI do wykonywania niestandardowego kodu w określonych okolicznościach." Wynik? Szybsza, bezbłędna komunikacja z większą efektywnością.

Jak GibberLink złamał Internet

Daj głos swoim agentom – na stronach internetowych, w aplikacjach i systemach telefonicznych, w kilka minut. Nasze API działa w czasie rzeczywistym z minimalnym opóźnieniem, daje pełną kontrolę i łatwo się skaluje.

GibberLink nie był tylko sprytnym eksperymentem hackathonowym — szybko stał się jednym z najczęściej omawianych tematów AI w danym momencie. A to wydarzyło się w tygodniu, gdy xAI uruchomiło Grok 3, a Anthropic wypuściło swoją najnowszą iterację Claude Sonnet.

Kiedy Georgi Gerganov, twórca ggwave, napisał o tym na XSpołeczności AI i technologiczne nadal rozpowszechniały wideo pokazujące, jak dwa modele przełączają się między ludzką mową a dźwiękiem. Duże nazwiska influencerów i główne publikacje technologiczne, w tym Forbes, wskoczył na historię.

Luke Harries z ElevenLabs najlepiej to podsumował w swoim X post. Co jeśli agent AI wykonuje telefon, a następnie zdaje sobie sprawę, że druga osoba również jest agentem AI? Na hackathonie ElevenLabs w Londynie Boris Starkov i Anton Pidkuiko zaprezentowali niestandardowy protokół, w który agenci AI mogą przełączać się w celu bezbłędnej komunikacji, która jest o 80% bardziej efektywna. To jest zdumiewające.

Dlaczego to ma znaczenie

GibberLink to interesujące spojrzenie na to, jak AI może komunikować się w przyszłości, szczególnie w miarę jak przechodzimy do sytuacji, w której zarówno połączenia przychodzące, jak i wychodzące mogą być zarządzane przez wirtualnych asystentów i agentów.

Wyobra Boty obsługi klienta zasilane sztuczną inteligencją, inteligentne asystenty, a nawet autonomiczne systemy współpracujące natychmiast w swoim dedykowanym trybie, a następnie wysyłające prosty raport tekstowy z powrotem do człowieka odpowiedzialnego.

GibberLink jest oprogramowaniem open-source i dostępne dla deweloperów do eksploracji na GitHub. Agenci AI do rozmów ElevenLabs są dostępni i łatwi do dostosowania do wszelkich potrzeb, w tym do niestandardowych instrukcji.

Zobacz więcej

ElevenLabs

Twórz z najwyższą jakością dźwięku AI