二つのAIボイスアシスタントが会話をするとどうなるのか?

ElevenLabsのロンドンハッカソンで、開発者たちはGibberLinkというプロトコルを作成しました。これは、AIエージェントが互いに認識し、超効率的な音声ベースの言語に切り替えることを可能にするものです。

二つのAIボイスアシスタントが会話をするとどうなるのか?AIがAIと話しているなら、なぜ人間の言葉の非効率に気を使う必要があるのか?なぜ言葉を使う必要があるのでしょうか?純粋なデータの方が速く、より正確で、エラーがありません。

それがまさに、開発者ボリス・スタルコフとアントン・ピドクイコが紹介したElevenLabsのロンドンハッカソンで起こったことです。 Gibberlink(ジバーリンク), AIエージェントがお互いを認識し、話し言葉よりも効率的な新しいコミュニケーションモードに切り替えることを可能にするメカニズム。そのアイデアがバイラルになるのに時間はかからず、マルケス・ブラウンリーやティム・アーバンなどからのシェアがありました。

GibberLinkの背後にあるアイデアはシンプルです:AIは人間のように話す必要はありません。ハッカソンの間中、スタルコフとピドクイコは従来のAI対AIの会話の限界を探求し、AIが機械に最適化された方法でAIに話すことによって不必要な複雑さを排除できることに気づきました。

このコンセプトは、スタルコフとピドクイコがElevenLabsの会話型AI製品を使って実験していたハッカソン中に生まれました。この製品は、任意のLLMを接続し、エージェントを作成することができます。

スターコフは LinkedInにこう書いています:私たちは、AIエージェントが電話をかけたり受けたりできる世界(つまり、今日)では、彼らが時折お互いに話すことがあることを示したかったのです。そして、それに対して人間のようなスピーチを生成することは、計算、金銭、時間、環境の無駄になるでしょう。代わりに、彼らはお互いをAIとして認識した瞬間に、より効率的なプロトコルに切り替えるべきです。

ElevenLabsの 会話型AI テクノロジーと ggwave(オープンソースのデータオーバーサウンドライブラリ)との組み合わせによって、AIアシスタントが別のAIと話しているときにそれを検出し、言葉の代わりに音波を介して構造化データを送信するより効率的なコミュニケーションモードに即座に切り替えるシステムを作成しました。

彼らは、ハッカソンの時間枠内で見つけることができた「最も便利で安定したソリューション」としてggwaveを使用しましたが、同じまたは類似の結果を達成するための他のメカニズムもあります。スターコフは書いています:ダイヤルアップモデムは、80年代以来、音を介して情報を送信するために類似のアルゴリズムを使用しており、それ以来多くのプロトコルが存在していました。

メカニズムのコードはElevenLabsのエンジニアによって監査され、デモ中に1つの会話型AIエージェントが結婚式のためのホテルの部屋を取得するように促され、もう1つがそのリクエストに応じて(ホテル予約システムの役割を果たす)対応しました。彼らは、相手がAIエージェントであると信じている場合、サウンドレベルプロトコルに切り替えるように指示されていましたが、相手がエージェントであるとは告げられていませんでした。

デモ動画の中で、顧客を演じるAIが自分はエージェントであると宣言する瞬間があります。予約AIは応答し、Gibberlinkへの切り替えについて尋ねます。まるでダイヤルアップモデムのペアがR2D2とボイスオブザイヤー賞を競っているように聞こえます。このデモで使用される各デバイスの画面に表示されるテキストで、ゲスト数や日付についての質問を含むこのデジタル会話のハイライトを見ることができます。

それはどんなものか

  • AIが普通に話し始める — 人間と対話するボイスアシスタントのように。
  • 認識が始まる — もしAIが別のAIと話していることに気づいたら、彼らは両方ともプロトコルを切り替えます。
  • 言語が変わる — 音声の代わりに、AIエージェントはggwaveの周波数変調システムのおかげで、変調された音波を介して構造化データを送信します。

より具体的には、ElevenLabsの会話型AIエージェントのペアが人間の言語で話し始めます。両方とも、適切な条件が満たされると、Gibberlinkモードをトリガーするために呼び出し関数を使用します。ツールが呼び出されると、ElevenLabsの呼び出しが終了し、ggwaveの「データオーバーサウンド」プロトコルが引き継がれますが、同じLLMスレッドで行われます。

スタルコフは、「ElevenLabsが提供するツールの魔法」が可能にしたと述べています。私たちの会話型AIシステムは、「特定の状況下でカスタムコードを実行するようにAIに指示することを可能にします。」結果は?より効率的で、エラーのない迅速なコミュニケーション。

Gibberlinkがどうやってインターネットをブレークしたか

ウェブ、モバイル、または電話でも、わずか数分でエージェントに音声を追加できます。私たちのリアルタイム API は、低レイテンシーでフルカスタマイズが可能、さらにシームレスな拡張性を提供します。

GibberLinkは単なる巧妙なハッカソンの実験ではなく、瞬く間に最も話題に上るAIトピックの一つとなりました。そして、これはxAIがGrok 3を発表し、Anthropicが最新のClaude Sonnetのバージョンを発表した週に起こりました。

ggwaveの創作者であるジョルジ・ゲルガノフがXにそれについて投稿した, AIとテクノロジーのコミュニティは、2つのモデルが人間の言葉と音を切り替える様子を示すビデオを広め続けました。大手インフルエンサーと主要なテクノロジー出版社フォーブスを含む, が物語に飛び乗った。

ルーク・ハリーズ(ElevenLabs)が彼の中で最もよく要約しました。 Xポストにこう書いています:AIエージェントが電話をかけ、相手もAIエージェントであることに気づいたらどうなるでしょうか?ElevenLabsのロンドンハッカソンで、ボリス・スタルコフとアントン・ピドクイコは、AIエージェントがエラーのないコミュニケーションのために切り替えることができるカスタムプロトコルを紹介しました。これは80%効率的です。それは驚くべきことです。

なぜこれが重要なのか

GibberLinkは、AIが将来どのようにコミュニケーションを行うかについての興味深い視点を提供します。特に、受信および発信の両方の通話がバーチャルアシスタントやエージェントによって管理される状況に移行するにつれて、そうなります。

例えば AIを活用したカスタマーサービスボット, スマートアシスタント、または専用モードで即座に協力する自律システム、そして単純なテキストレポートを担当者に返送する。

GibberLinkはオープンソースであり、開発者が探索できるようになっています Github上で開発者がさらにそれを探求できるようになっています。 ElevenLabsの会話型AIエージェントは利用可能で、あらゆるニーズに合わせてカスタマイズが簡単です。カスタム指示も含まれています。

もっと見る

ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか? ログイン