
ElevenLabs, 이제 Kiro Power로 제공
- 카테고리
- ElevenAPI
- 날짜
Vibe Draw는 ElevenLabs의 음성 AI와 FLUX Kontext를 결합해 음성으로 이미지를 생성할 수 있습니다.
음성 인터페이스는 AI와 소통하는 방식을 바꾸고 있습니다. 이미지를 만드는 일이 말로 설명하는 것만큼 쉬워진다면 어떨까요?
이런 생각에서 주말 프로젝트로 Vibe Draw를 만들게 됐습니다. 음성을 우선으로 하는 창작 도구로, ElevenLabs의 음성 AI와 Black Forest Labs의 FLUX Kontext를 결합해 음성 프롬프트를 이미지로 바꿉니다.
FLUX Kontext는 새로운 이미지 모델입니다. 기존 텍스트-이미지 시스템과 달리, Kontext는 생성과 편집 모두를 지원합니다. 프롬프트로 새로운 이미지를 만들거나 기존 이미지를 수정하고, 여러 참고 이미지를 하나로 합칠 수도 있습니다.
GPT-4o, Gemini 2 Flash 같은 모델도 멀티모달 기능을 제공하지만, FLUX Kontext는 고품질 시각적 편집에 특화되어 있습니다. 테스트에서는 스타일이 있는 텍스트의 개별 글자를 바꾸거나, 오브젝트 위치를 바꾸는 것도 설명만으로 가능했습니다.
그래서 생각했습니다. “이걸 음성으로 해보면 어떨까?” 그리고 ElevenLabs의 강력한 음성 기술만큼 좋은 기반도 없죠.
.webp&w=3840&q=95)
음성 기반 이미지 시스템을 만들기 위해서는 다섯 가지 핵심 문제를 해결해야 했습니다:
Vibe Draw는 완전히 클라이언트에서 동작하며 다음과 같은 구성요소를 통합합니다:
이 방식은 프로토타입을 가볍게 유지하지만, 실제 서비스에서는 보안을 위해 서버에서 요청을 중계하는 것이 좋습니다.
Vibe Draw는 ElevenLabs의 텍스트 음성 변환(TTS) API를 사용해 대화형 응답을 제공합니다:
다양성을 위해, 음성 응답은 미리 정의된 템플릿 중에서 무작위로 선택됩니다:
음성 응답이 겹치면 대화의 몰입감이 깨집니다. Vibe Draw는 오디오 큐 시스템으로 이를 해결합니다:
각 메시지는 완전히 재생된 후 다음 메시지가 시작됩니다.
시스템은 키워드와 맥락을 감지해 사용자의 프롬프트가 새 이미지 요청인지, 편집 요청인지 판단합니다:
이 방식으로 기존 이미지가 있을 때만 편집이 적용되고, 맥락이 명확할 때만 동작합니다.

Kontext는 생성과 편집, 두 가지 모드를 지원합니다.
일부 프롬프트는 편집 API의 한계를 넘는 변화를 요구할 수 있습니다. 이럴 때 시스템은 대체 방법을 제안합니다:
UI 피드백으로 사용자가 시스템 상태를 쉽게 파악할 수 있습니다:
자연스러운 대화에는 자연스러운 타이밍이 필요합니다:
맥락 유지를 위해 세션 데이터를 저장합니다:
빠른 응답성을 위해:
대화형 UI로 새로운 가능성이 열립니다:
Vibe Draw를 만들면서 음성 기반 도구의 핵심 원칙을 발견했습니다:
Vibe Draw는 대화형 음성 AI와 시각적 창의성이 만났을 때 어떤 일이 일어나는지 보여줍니다. ElevenLabs의 자연스러운 음성 합성과 FLUX Kontext의 이미지 API가 결합해 클릭이나 슬라이더 없이, 오직 말로 새로운 창작 방식을 만듭니다.
설명만큼 쉽게 창작할 수 있다면, 상상과 실현 사이의 장벽이 사라집니다.
전체 소스 코드는 GitHub에서 확인할 수 있습니다. 직접 실행하려면:



