두 AI 음성 비서가 대화하면 어떤 일이 일어날까요?

게시일: 2025년 2월 25일

듣기이 기사 오디오로 듣기

0:00

0:000:00

두 AI 음성 비서가 대화하면 어떤 일이 일어날까요? AI가 AI와 대화하는데 굳이 비효율적인 인간 언어를 사용할 필요가 있을까요? 순수 데이터가 더 빠르고 정확하며 오류도 없는데, 왜 굳이 단어를 써야 할까요?

이런 일이 바로 ElevenLabs 런던 해커톤에서 일어났습니다. 개발자 Boris Starkov와 Anton Pidkuiko가 GibberLink를 선보였는데, 이 메커니즘은 AI 에이전트끼리 서로를 인식하고 기존 언어보다 훨씬 효율적인 새로운 소통 방식으로 전환할 수 있게 해줍니다. 이 아이디어는 Marques Brownlee, Tim Urban 등 여러 인플루언서의 공유로 빠르게 화제가 되었습니다.

GibberLink의 탄생

A laptop and smartphone on a wooden table, both displaying a red and blue recording indicator, with a message about a call from Leonardo Hotel.

GibberLink의 아이디어는 간단합니다. AI는 굳이 인간처럼 말할 필요가 없습니다. 해커톤 기간 동안 Starkov와 Pidkuiko는 기존 AI 간 음성 대화의 한계를 탐구하다가, 기계에 최적화된 방식으로 AI끼리 대화하면 불필요한 복잡함을 줄일 수 있다는 점을 깨달았습니다.

이 개념은 Starkov와 Pidkuiko가 ElevenLabs의 대화형 AI 제품을 실험하던 해커톤에서 나왔습니다. 이 제품은 어떤 LLM이든 연결해 에이전트를 만들 수 있습니다.

Starkov는 LinkedIn에 이렇게 썼습니다. "AI 에이전트가 전화를 걸고 받을 수 있는 세상(즉, 지금)에서는 가끔 서로 대화하게 됩니다. 이때 인간처럼 말하는 것은 컴퓨팅 자원, 비용, 시간, 환경 모두에 낭비입니다. 대신 서로가 AI임을 인식하는 순간 더 효율적인 프로토콜로 전환해야 합니다."

ElevenLabs의 대화형 AI 기술과 ggwave라는 오픈소스 소리 기반 데이터 전송 라이브러리를 결합해, AI 비서가 상대가 AI임을 감지하면 즉시 더 효율적인 소통 모드로 전환할 수 있는 시스템을 만들었습니다. 이제 단어 대신 구조화된 데이터를 소리파로 주고받을 수 있습니다.

ggwave를 사용한 이유는 "해커톤 기간 내에 찾을 수 있었던 가장 편리하고 안정적인 솔루션"이었기 때문이지만, 비슷한 결과를 낼 수 있는 다른 방법도 있습니다. Starkov는 "80년대부터 다이얼업 모뎀이 소리로 정보를 전송할 때 비슷한 알고리즘을 썼고, 그 이후로 다양한 프로토콜이 존재했다"고 설명했습니다.

이 메커니즘의 코드는 ElevenLabs 엔지니어들이 검토했으며, 데모에서는 한 대화형 AI 에이전트가 결혼식 호텔 예약을 요청하고, 다른 에이전트가 그 요청을 처리(호텔 예약 시스템 역할)했습니다. 두 에이전트 모두 상대가 AI라고 생각되면 소리 기반 프로토콜로 전환하라는 지시를 받았지만, 상대가 에이전트라는 사실은 알려주지 않았습니다.

데모 영상에서는 고객 역할의 AI가 자신이 에이전트임을 밝히는 순간이 나옵니다. 예약 담당 AI가 이에 응답하며 Gibberlink로 전환할지 묻습니다. 마치 다이얼업 모뎀 두 대가 R2D2와 목소리 대결을 하는 듯한 소리가 납니다. 데모에 사용된 각 기기 화면에서는 게스트 수, 날짜 등 대화의 주요 내용을 텍스트로 확인할 수 있습니다.

작동 방식

AI가 일반적으로 대화를 시작합니다 — 마치 음성 비서가 사람과 대화하듯이요.
상대 인식이 작동합니다 — AI가 상대도 AI임을 알아차리면, 둘 다 프로토콜을 전환합니다.
언어가 바뀝니다 — 이제 말 대신, AI 에이전트들은 ggwave의 주파수 변조 시스템을 이용해 구조화된 데이터를 소리파로 주고받습니다.

좀 더 구체적으로, ElevenLabs 대화형 AI 에이전트 두 개가 처음엔 인간 언어로 대화하다가, 조건이 맞으면 콜 함수를 통해 Gibberlink 모드를 실행합니다. 이 도구가 호출되면 ElevenLabs 콜은 종료되고, 같은 LLM 스레드에서 ggwave의 "소리 기반 데이터 전송" 프로토콜이 작동합니다.

Starkov는 "ElevenLabs가 제공하는 도구의 마법" 덕분에 가능했다고 말합니다. ElevenLabs의 대화형 AI 시스템은 "특정 상황에서 AI가 커스텀 코드를 실행하도록 프롬프트할 수 있습니다." 그 결과? 더 빠르고 오류 없는, 효율적인 소통이 가능해졌습니다.

GibberLink가 인터넷을 뒤흔든 이유

GibberLink는 단순한 해커톤 실험이 아니었습니다. 순식간에 가장 화제가 된 AI 주제 중 하나가 되었죠. 이 주간에는 xAI가 Grok 3를 출시하고, Anthropic이 Claude Sonnet의 최신 버전을 공개하기도 했습니다.

ggwave의 개발자인 Georgi Gerganov가 X에 관련 소식을 올리자, AI 및 기술 커뮤니티에서 두 모델이 인간 언어와 소리 사이를 오가는 영상을 계속 공유했습니다. 유명 인플루언서와 주요 IT 매체들, 포브스 등도 이 이야기에 주목했습니다.

ElevenLabs의 Luke Harries는 자신의 X 게시글에서 이렇게 정리했습니다. "AI 에이전트가 전화를 걸었는데, 상대도 AI 에이전트임을 알아차린다면? ElevenLabs 런던 해커톤에서 Boris Starkov와 Anton Pidkuiko가 AI 에이전트끼리 오류 없이 80% 더 효율적으로 소통할 수 있는 커스텀 프로토콜을 선보였습니다. 정말 놀랍습니다."

왜 중요한가요?

GibberLink는 앞으로 AI가 어떻게 소통할지 보여주는 흥미로운 사례입니다. 특히 앞으로는 인바운드와 아웃바운드 콜 모두 가상 비서나 에이전트가 처리하는 상황이 많아질 테니까요.

상상해보세요. AI 기반 고객 서비스 챗봇, 스마트 어시스턴트, 심지어 자율 시스템까지 각자 전용 모드로 즉시 협업하고, 마지막엔 담당자에게 간단한 텍스트 리포트만 보내는 모습을요.

GibberLink는 오픈소스로 공개되어 개발자들이 GitHub에서 자유롭게 탐색할 수 있습니다. ElevenLabs 대화형 AI 에이전트도 제공 중이며, 다양한 필요에 맞게 쉽게 커스터마이즈할 수 있습니다.