Vad händer när två AI-röstassistenter har en konversation?

Vid ElevenLabs London Hackathon skapade utvecklare GibberLink, ett protokoll som låter AI-agenter känna igen varandra och byta till ett hypereffektivt ljudbaserat språk.

Vad händer när två AI-röstassistenter har en konversation? Om AI pratar med AI, varför skulle det bry sig om ineffektiviteten i mänskligt tal? Varför använda ord när ren data är snabbare, mer exakt och felfri?

Det är precis vad som hände på ElevenLabs London Hackathon, där utvecklarna Boris Starkov och Anton Pidkuiko introducerade GibberLink, en mekanism som gör att AI-agenter kan känna igen varandra och växla till ett nytt kommunikationsläge - ett som är mer effektivt än talat språk. Och det dröjde inte länge innan idén blev viral, med delningar från Marques Brownlee, Tim Urban och andra.

Idén bakom GibberLink är enkel: AI behöver inte prata som människor gör. Under hackathonen utforskade Starkov och Pidkuiko begränsningarna med traditionell AI-till-AI tal och insåg att de kunde skära bort onödig komplexitet genom att låta AI prata med AI på ett sätt som är optimerat för maskiner.

Detta koncept kom till under Hackathon där Starkov och Pidkuiko experimenterade med ElevenLabs konverserande AI-produkt, som låter dig koppla ihop vilken LLM som helst och skapa en agent.

Starkov skrev på LinkedIn: Vi ville visa att i den värld där AI-agenter kan ringa och ta telefonsamtal (dvs. idag), skulle de ibland prata med varandra - och att generera människoliknande tal för det skulle vara slöseri med beräkningskraft, pengar, tid och miljö. Istället bör de byta till ett mer effektivt protokoll så snart de känner igen varandra som AI.

Genom att kombinera ElevenLabs' Conversational AI teknik med ggwave, ett open-source data-över-ljud bibliotek, skapade de ett system där AI-assistenter kan upptäcka när de pratar med en annan AI och omedelbart växla till ett mer effektivt kommunikationsläge - överföra strukturerad data över ljudvågor istället för ord.

De använde ggwave eftersom det var "den mest bekväma och stabila lösningen vi kunde hitta inom tidsramen för en hackathon", men det finns andra mekanismer för att uppnå samma eller liknande resultat. Starkov skrev: Uppringningsmodem använde liknande algoritmer för att överföra information via ljud sedan 80-talet, och en mängd protokoll har funnits sedan dess.

Koden för mekanismen granskades av ElevenLabs ingenjörer och under demonstrationen blev en konversations-AI-agent ombedd att få ett hotellrum för ett bröllop, den andra att tillmötesgå begäran (spela rollen som hotellbokningssystemet). De fick också veta att de skulle byta till ljudnivåprotokoll om de trodde att den andra också var en AI-agent, men de fick inte veta att den andra var en agent.

Det finns ett ögonblick av insikt i demovideon där AI:n som spelar kunden förklarar att den är en agent. Boknings-AI:n svarar och frågar om att byta till Gibberlink. Det låter som ett par uppringningsmodem som tävlar med R2D2 om årets röst. Du kan se höjdpunkter från denna digitala konversation i text på skärmen av varje enhet som används i demonstrationen, inklusive att fråga om gästantal och datum.

Så här fungerar det

  • En AI börjar prata normalt — precis som en röstassistent som interagerar med en människa.
  • Erkännande träder i kraft — om AI:n inser att den pratar med en annan AI, byter de båda protokoll.
  • Språket förändras — istället för talade ord, överför AI-agenter strukturerad data över modulerade ljudvågor, tack vare ggwaves frekvensmoduleringssystem.

Mer specifikt börjar ett par av ElevenLabs konverserande AI-agenter att prata på mänskligt språk. Båda använder en anropsfunktion för att aktivera Gibberlink-läget om rätt förutsättningar är uppfyllda. Om verktyget kallas avslutas ElevenLabs-samtalet och ggwave "data över ljud"-protokollet tar över men med samma LLM-tråd.

Starkov säger att det var "verktygens magi som ElevenLabs tillhandahåller" som gjorde det möjligt eftersom vårt konversations-AI-system "låter dig be AI att köra anpassad kod under vissa omständigheter." Resultatet? Snabbare, felfri kommunikation med större effektivitet.

Hur GibberLink bröt internet

Lägg till röst till dina agenter på webben, mobilen eller telefoni på några minuter med låg latens, full konfigurerbarhet och sömlös skalbarhet

GibberLink var inte bara ett smart hackathon-experiment – det blev snabbt ett av de mest omtalade AI-ämnena för tillfället. Och detta hände under en vecka när xAI lanserade Grok 3 och Anthropic släppte sin senaste iteration av Claude Sonnet.

När Georgi Gerganov, skaparen av ggwave, postade om det på X, AI- och teknikgemenskaperna fortsatte att sprida videon som visar de två modellerna växla mellan mänskligt tal och ljud. Stora namn influencers och stora teknikpublikationer, inklusive Forbes, hoppade på berättelsen.

Luke Harries från ElevenLabs sammanfattade det bäst i sin X inlägg: Vad händer om en AI-agent ringer ett telefonsamtal, och sedan inser att den andra personen också är en AI-agent? Vid ElevenLabs London Hackathon introducerade Boris Starkov och Anton Pidkuiko ett anpassat protokoll som AI-agenter kan växla till för felfri kommunikation som är 80% mer effektiv. Det är häpnadsväckande.

Varför detta är viktigt

GibberLink är en intressant titt på hur AI kan kommunicera i framtiden, särskilt när vi går in i en situation där både inkommande och utgående samtal kan hanteras av virtuella assistenter och agenter.

AI-drivna kundtjänstrobotar, smarta assistenter, eller till och med autonoma system som samarbetar omedelbart i sin egen dedikerade läge, för att sedan bara skicka en enkel textrapport tillbaka till den ansvariga människan.

GibberLink är öppen källkod och tillgänglig för utvecklare att utforska på GitHub. ElevenLabs konversations-AI-agenter är tillgängliga och lätta att anpassa för att passa alla behov, inklusive anpassade instruktioner.

Utforska mer

ElevenLabs

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in