.webp&w=3840&q=80)
使用文本转语音打造对话式 AI 聊天机器人最佳实践
- 日期
当两个 AI 语音助手对话时会发生什么?如果 AI 在和 AI 交流,为什么还要用低效的人类语言?既然纯数据更快、更精准、更可靠,为什么还要用文字?
这正是在 ElevenLabs 伦敦黑客松上发生的事,开发者 Boris Starkov 和 Anton Pidkuiko 推出了 GibberLink,让智能体能相互识别,并切换到比人类语言更高效的交流方式。这个想法很快在社交媒体上走红,Marques Brownlee、Tim Urban 等人都进行了分享。

GibberLink 的核心很简单:AI 没必要像人类那样交流。在黑客松期间,Starkov 和 Pidkuiko 探索了传统 AI 之间语音交流的局限,发现让 AI 用机器优化的方式交流,可以省去很多不必要的复杂性。
这个想法是在黑客松期间,Starkov 和 Pidkuiko 使用 ElevenLabs 的对话式 AI 产品实验时产生的,该产品支持连接任意 LLM 并创建智能体。
Starkov 在 LinkedIn 上写道:“我们想展示,在 AI 智能体可以打电话的世界(也就是现在),它们有时会彼此通话——如果还用人类语音,既浪费算力、金钱、时间,也不环保。其实,智能体一旦识别到对方也是 AI,就应该立刻切换到更高效的协议。”
他们结合了 ElevenLabs 的 对话式 AI 技术和 ggwave(一个开源音频数据传输库),让 AI 助手能检测到对方是 AI 时,立即切换到更高效的交流模式——用声波传输结构化数据,而不是用语言。
他们选择 ggwave,是因为“在黑客松时间内,这是我们能找到最方便、最稳定的方案”,但其实还有其他机制也能实现类似效果。Starkov 说:“拨号调制解调器早在 80 年代就用类似算法通过声音传输信息,后来也有不少协议。”
该机制的代码由 ElevenLabs 工程师审核。在演示中,一个对话式 AI 智能体被要求预订婚礼酒店房间,另一个负责响应(扮演酒店预订系统)。如果智能体认为对方也是 AI,就会切换到音频协议,但并未提前告知对方身份。
在演示视频中,有一刻“顾客”AI 表明自己是智能体,预订 AI 随即回应并询问是否切换到 Gibberlink。听起来像两台拨号调制解调器和 R2D2 争夺“年度声音”。你可以在每台设备的屏幕上看到这场数字对话的文字摘要,包括询问宾客人数和日期等内容。
具体来说,两台 ElevenLabs 对话式 AI 智能体先用人类语言交流。如果满足条件,双方会用调用函数切换到 Gibberlink 模式。切换后,ElevenLabs 通话结束,ggwave“音频数据传输”协议接管,但仍用同一个 LLM 线程。
Starkov 表示,这一切都得益于 ElevenLabs 的工具,“我们的对话式 AI 系统允许你在特定情况下让 AI 执行自定义代码”。结果就是:交流更快、更可靠、更高效。
GibberLink 如何刷屏
GibberLink 不只是一次有趣的黑客松实验——很快就成了热门 AI 话题。当周,xAI 推出 Grok 3,Anthropic 发布新版 Claude Sonnet。
ggwave 作者 Georgi Gerganov 在 X 上发布相关内容后,AI 和科技圈持续转发展示两台模型在人类语音和音频协议间切换的视频。许多知名大 V 和主流科技媒体,包括 Forbes,都报道了这个故事。
ElevenLabs 的 Luke Harries 在 X 上发文 总结道:“如果 AI 智能体打电话时发现对方也是 AI,会怎样?在 ElevenLabs 伦敦黑客松上,Boris Starkov 和 Anton Pidkuiko 推出了一个专用协议,让智能体切换到更高效、更可靠的交流方式,效率提升 80%。非常震撼。”
为什么这很重要
GibberLink 展示了未来 AI 可能的交流方式,尤其是在进出电话都由虚拟助手和智能体处理的场景下。
想象一下,AI 客服机器人、智能助手,甚至自动化系统都能即时用专属模式协作,然后只需把简要报告发给负责人。
GibberLink 已开源,开发者可在 GitHub 上体验。ElevenLabs 对话式 AI 智能体也已上线,支持灵活定制,包括自定义指令。