
ElevenLabs 现已成为 Kiro Power
- 分类
- ElevenAPI
- 日期
Vibe Draw 将 ElevenLabs 的语音 AI 与 FLUX Kontext 结合,实现语音驱动的图像创作。
语音交互正在改变我们与 AI 的沟通方式。如果只需开口描述,就能生成一张图片,会怎样?
这正是我用周末时间开发 Vibe Draw 的初衷。它是一款以语音为主的创意工具,将 ElevenLabs 的语音 AI 与 Black Forest Labs 的 FLUX Kontext 结合,把语音提示转为图像。
FLUX Kontext 是新一代图像模型。与传统文本转图像系统不同,Kontext 既能生成,也能编辑图像。它可以根据提示生成新图像,修改已有图像,甚至将多张参考图合成为一张。
虽然 GPT-4o 和 Gemini 2 Flash 等模型具备多模态能力,但 FLUX Kontext 专为高质量视觉编辑设计。测试中,我只需描述变化,就能修改特定文字或移动物体。
于是我想到:“为什么不用语音来做这些?”而 ElevenLabs 强大的语音技术正是理想基础。
.webp&w=3840&q=95)
要构建语音驱动的图像系统,需要解决五个核心问题:
Vibe Draw 完全在本地运行,集成以下组件:
这种方式让原型更轻量,但正式上线时建议通过服务端代理请求以保证安全。
Vibe Draw 使用 ElevenLabs 的 文本转语音 API,专为对话响应优化:
为增加多样性,语音回复会从预设模板中随机选择:
语音回复重叠会破坏对话体验。Vibe Draw 通过音频队列系统解决:
每条消息播放完毕后才会触发下一条。
系统通过关键词和上下文判断用户提示是新建图像还是编辑:
这样只有在已有图像且上下文明确时才会执行编辑。

Kontext 支持两种模式:生成和编辑。
有些提示涉及超出编辑 API 能力的变更。检测到时,系统会提供备用方案:
UI 反馈帮助用户了解系统状态:
自然对话需要自然的节奏:
为保持上下文,会话数据会被存储:
为保证响应速度:
对话式界面带来更多可能:
开发 Vibe Draw 总结出语音优先工具的几个核心原则:
Vibe Draw 展示了对话式语音 AI 与视觉创意结合的可能。ElevenLabs 的自然语音合成与 FLUX Kontext 的图像 API 结合,带来全新创作方式——无需点击,无需滑块,只需说话即可。
当创作变得像描述一样简单,想象与实现之间的障碍就被消除了。
完整源码已 发布在 GitHub。运行方法:



