2つのAI音声アシスタントが会話したらどうなる？

最終更新日 2025年2月25日 • 2 分で読めます

ElevenLabsロンドンハッカソンで、デベロッパーたちがGibberLinkというプロトコルを開発しました。これによりAIエージェント同士が互いを認識し、超効率的な音声ベースの言語に切り替えることができます。

A laptop and a smartphone on a wooden surface, both displaying incoming video call screens with a red and blue circle, respectively.

A laptop and a smartphone both displaying an incoming call screen with "End conversation" options, on a wooden surface.

2つのAI音声アシスタントが会話したらどうなるでしょう？AI同士が話すなら、人間の言葉の非効率さにこだわる必要はありません。純粋なデータの方が速く、正確で、ミスもありませんよね？

まさにそれがElevenLabsロンドンハッカソンで起こりました。デベロッパーのBoris StarkovさんとAnton PidkuikoさんがGibberLinkを発表しました。これはAIエージェント同士が互いを認識し、従来の会話よりも効率的な新しいコミュニケーションモードに切り替える仕組みです。このアイデアはすぐに話題となり、Marques BrownleeさんやTim Urbanさんなどにもシェアされました。

GibberLink誕生のきっかけ

A laptop and smartphone on a wooden table, both displaying a red and blue recording indicator, with a message about a call from Leonardo Hotel.

GibberLinkの発想はシンプルです。AIは人間のように話す必要がありません。ハッカソン中、StarkovさんとPidkuikoさんは従来のAI同士の会話の限界を探り、AI同士が機械に最適化された方法で話せば、余計な複雑さを省けると気づきました。

このコンセプトは、StarkovさんとPidkuikoさんがElevenLabsの会話型AIプロダクトを使って実験していたハッカソンで生まれました。このプロダクトでは、どんなLLMでも接続してエージェントを作成できます。

StarkovさんはLinkedInでこう書いています：「AIエージェントが電話をかけたり受けたりできる世界（つまり今）では、時々AI同士が会話することもあります。そのために人間のような音声を生成するのは、計算資源もお金も時間も環境も無駄です。AI同士だと認識した瞬間、より効率的なプロトコルに切り替えるべきです。」

ElevenLabsの会話型AI技術とggwave（オープンソースのデータ音声伝送ライブラリ）を組み合わせることで、AIアシスタントが相手もAIだと気づいた瞬間、すぐにより効率的な通信モードに切り替えられるシステムを作りました。言葉の代わりに、構造化データを音波でやり取りします。

ggwaveを使った理由は「ハッカソンの短期間で見つけた中で最も便利で安定したソリューションだった」からですが、同じような結果を得られる他の仕組みもあります。Starkovさんは「80年代からダイヤルアップモデムが音声で情報を送るために似たアルゴリズムを使っていましたし、当時から多くのプロトコルが存在していました」と述べています。

この仕組みのコードはElevenLabsのエンジニアが監査し、デモでは1つの会話型AIエージェントが結婚式用のホテル予約を依頼し、もう1つがそのリクエストに対応する（ホテル予約システム役）という流れでした。どちらも相手がAIエージェントだと判断した場合は音声レベルのプロトコルに切り替えるよう指示されていましたが、相手がエージェントだとは伝えられていませんでした。

デモ動画では、顧客役のAIが自分がエージェントであることを宣言する場面があります。予約側のAIが反応し、Gibberlinkへの切り替えについて尋ねます。まるでダイヤルアップモデムとR2D2が「今年の声」争いをしているような音です。このデジタル会話のハイライトは、デモで使われた各デバイスの画面にテキストで表示され、ゲスト数や日程の確認なども含まれています。

仕組み

AIが通常通り話し始めます ― 人間とやり取りする音声アシスタントのように。
認識が働くと― AIが相手もAIだと気づくと、両者がプロトコルを切り替えます。
言語が変化 ― 話し言葉の代わりに、AIエージェント同士がggwaveの周波数変調システムを使って構造化データを音波で送信します。

具体的には、ElevenLabsの会話型AIエージェント2体が人間の言葉で会話を始めます。条件が合えば、どちらもコール機能でGibberlinkモードを起動します。ツールが呼び出されるとElevenLabsの通話は終了し、同じLLMスレッドのままggwaveの「データ音声伝送」プロトコルに切り替わります。

Starkovさんは「ElevenLabsのツールの魔法」のおかげで実現できたと語っています。会話型AIシステムは「特定の条件下でAIにカスタムコードを実行させることができる」からです。その結果、より速く、ミスのない効率的なコミュニケーションが可能になりました。

GibberLinkがネットで話題になった理由

GibberLinkは単なるハッカソンの面白い実験ではなく、瞬く間に話題のAIトピックとなりました。この週にはxAIがGrok 3をリリースし、AnthropicもClaude Sonnetの最新版を発表したばかりでした。

ggwaveの開発者Georgi GerganovさんがXで投稿したところ、AIやテックコミュニティで2つのモデルが人間の言葉と音声を切り替える動画がさらに拡散されました。有名インフルエンサーや大手テックメディア、Forbesなどもこの話題に飛びつきました。

ElevenLabsのLuke Harriesさんは自身のX投稿でこうまとめています：「もしAIエージェントが電話をかけて、相手もAIエージェントだと気づいたら？ElevenLabsロンドンハッカソンでBoris StarkovさんとAnton Pidkuikoさんが、AIエージェント同士が80％効率的に、ミスなくやり取りできるカスタムプロトコルを発表しました。まさに衝撃的です。」

なぜ重要なのか

GibberLinkは、今後AIがどのようにコミュニケーションするかを考える上で興味深い事例です。今後は着信も発信もバーチャルアシスタントやエージェントが担当する時代になるかもしれません。

想像してみてください。AI搭載のカスタマーサービスボットやスマートアシスタント、さらには自律型システムが、それぞれ専用モードですぐに連携し、人間の担当者にはシンプルなテキストレポートだけを送る――そんな未来です。

GibberLinkはオープンソースで、デベロッパーがGitHubで自由に試せます。ElevenLabsの会話型AIエージェントも提供されており、カスタム指示などニーズに合わせて簡単にカスタマイズできます。

ElevenLabsチームによる記事をもっと見る

A person looking at a large digital screen displaying green data visualizations and graphs.

テキスト読み上げ機能を使用した会話型 AI チャットボットを構築するためのベストプラクティス

今日のユーザーは、自然な発音、文脈の理解、人間のような会話で応答する会話型AIを期待しています。

Customer Stories

Tutore deploys conversational agents for corporate language training using ElevenLabs

90% of Tutore’s placement interviews are now conducted by AI agents, accelerating onboarding and reducing costs

最高品質のAIオーディオで創造する

営業に連絡サインアップ

2つのAI音声アシスタントが会話したらどうなる？

GibberLink誕生のきっかけ

仕組み

ElevenLabsチームによる記事をもっと見る

テキスト読み上げ機能を使用した会話型 AI チャットボットを構築するためのベスト プラクティス

Tutore deploys conversational agents for corporate language training using ElevenLabs

テキスト読み上げ機能を使用した会話型 AI チャットボットを構築するためのベストプラクティス