.webp&w=3840&q=80)
如何用 ElevenLabs、Gemini 和 VEO 2 搭建文本转广告生成器
- 分类
- ElevenAPI
- 日期
KUBI 是一款与 ElevenLabs 对话式 AI 协作的咖啡师。以下是它的工作方式。
KUBI 是 第二空间 的对话机器人咖啡师和前台,这是一家位于台湾高雄的下一代 24 小时共享办公空间。由于空间运营全自动化,KUBI 作为会员的第一接触点,必须带来独特且友好的体验。因此 Second Space 选择了 ElevenLabs 的 对话式 AI,为会员带来有趣且难忘的互动。下面来看看 KUBI 的实际表现。
KUBI 采用多感官架构,模拟类人的互动体验。系统基于微服务架构,各专用服务并行运行,通过实时事件流通信。这些服务负责多项任务,包括通过实时 AI 推理进行人脸和物体识别、摄像头检测杯子和安全校验、小票打印、门禁安全人脸识别,以及精准控制牛奶和咖啡豆分配。
以下是部分并行运行的服务:
为什么采用微服务?很简单——可以独立管理、轻松扩展,并为每项任务选用最合适的工具。
所有微服务由一个中心服务协调,名字很有趣,叫做 “BigBoy”。它本质上是一个大型非阻塞事件处理器:
什么是场景?
可以把场景理解为机器人 动作事件的非阻塞编译器。动作事件通常是事件链的最后一步,会带来实际效果,比如动作或语音。例如,问候场景可能会触发:
LLM 事件生成:部分动作事件由 LLM 自动生成,比如 自动跟随 会根据上下文从预设动作列表中选出最佳动作。而 自动动图 则用 LLM 生成最合适的标签,用于在 Giphy 获取 GIF,随后和语句一起显示在 KUBI 的“脸”上。
动作事件同步:这些事件会经过调度器,确保语音、表情和动作同步。这样 KUBI 的语音和动作始终匹配。
有趣的是,场景还能监听 动作事件,并动态触发新的 动作事件。例如:
BigBoy 能实时掌握所有动态,真的很酷吧?
大部分服务本地部署,并封装在 docker 容器中。容器内生命周期由 Supervisor 进程管理。错误日志汇总到 Sentry,并推送到自定义管理后台,实时监控服务和传感器状态及延迟报告。有趣的是,Flutter App 有 90% 都是 AI 自动生成的。
Second Space 为 KUBI 设定了非常独特的个性——融合了死侍、Portal 游戏里的 Wheatley 和 Apex 英雄的 Pathfinder。他们只用 设计声音 15 分钟,就完成了带有情感和停顿的人性化声音。
ElevenLabs 通过两大核心 API 支持 KUBI 的语音能力:
当用户说 “Hey KUBI!” 时,ElevenLabs 的对话式 AI 能在 200 ms 内响应,互动体验非常自然。
通过 WebSocket 连接 ElevenLabs 对话式 AI,KUBI 可调用函数,例如:
通过 ElevenLabs 管理后台可轻松切换不同 LLM 模型,帮助 Second Space 优化理解和准确率。我们发现不同模型对工具意图的识别效果不同。目前他们用 Gemini 2.0 Flash 作为对话式 AI 核心模型,ChatGPT 4o 用于静态语音生成。
Second Space 最早在 2023 年 1 月的 GitHub 提交中就引用了 ElevenLabs——甚至早于多语言模型发布。他们很早就认可 ElevenLabs 对品质的专注,并提前搭建了支持多语言的架构。现在,进入日本、韩国等新市场只需“切换开关”,无需额外开发。
微服务、实时事件和 ElevenLabs 强大的语音技术,让 KUBI 真正“活”了起来,每一次咖啡和有趣互动都能带来惊喜。
.webp&w=3840&q=80)
.webp&w=3840&q=80)
.webp&w=3840&q=80)
