
ElevenLabs ya es un Kiro Power
- Categoría
- ElevenAPI
- Fecha
Vibe Draw combina la voz IA de ElevenLabs con FLUX Kontext para la creación de imágenes impulsada por voz.
Las interfaces de voz están cambiando cómo nos comunicamos con la IA. ¿Y si crear una imagen fuera tan fácil como describirla en voz alta?
Esa es la idea que me llevó a crear Vibe Draw como un proyecto de fin de semana. Es una herramienta creativa centrada en la voz que combina la voz IA de ElevenLabs con FLUX Kontext de Black Forest Labs para convertir prompts hablados en imágenes.
FLUX Kontext representa una nueva clase de modelo de imagen. A diferencia de los sistemas tradicionales de texto a imagen, Kontext maneja tanto la generación como la edición. Puede crear nuevas imágenes a partir de prompts, modificar las existentes e incluso fusionar múltiples imágenes de referencia en una sola salida.
Mientras que modelos como GPT-4o y Gemini 2 Flash ofrecen capacidades multimodales, FLUX Kontext está diseñado específicamente para la manipulación visual de alta calidad. En las pruebas, pude cambiar letras individuales en texto estilizado o reposicionar un objeto, solo describiendo el cambio.
Entonces pensé: “¿Por qué no hacer esto con la voz?” ¿Y qué mejor base que la potente tecnología de voz de ElevenLabs?
.webp&w=3840&q=95)
Construir un sistema de imágenes impulsado por voz requirió resolver cinco problemas clave:
Vibe Draw funciona completamente del lado del cliente e integra los siguientes componentes:
Este enfoque mantiene el prototipo ligero, pero las implementaciones en producción deberían gestionar las solicitudes del lado del servidor por seguridad.
Vibe Draw utiliza la
Para crear variedad, las respuestas de voz se seleccionan aleatoriamente de plantillas predefinidas:
Las respuestas de voz superpuestas rompen la ilusión de conversación. Vibe Draw resuelve esto con un sistema de cola de audio:
Cada mensaje se reproduce completamente antes de activar el siguiente.
El sistema utiliza detección de palabras clave y contexto para decidir si un prompt del usuario es una nueva solicitud de imagen o una edición:
Este enfoque asegura que las ediciones solo se apliquen cuando hay una imagen existente y el contexto lo deja claro.

Kontext admite dos modos: generación y edición.
Algunos prompts implican cambios que superan los límites de la API de edición. Cuando se detecta, el sistema ofrece una alternativa:
La retroalimentación de la interfaz ayuda a los usuarios a seguir el estado del sistema:
La conversación natural requiere una sincronización natural:
Para preservar el contexto, se almacenan los datos de la sesión:
Para asegurar la capacidad de respuesta:
Las interfaces conversacionales abren la puerta a nuevas capacidades:
Construir Vibe Draw reveló varios principios fundamentales para herramientas centradas en la voz:
Vibe Draw muestra lo que sucede cuando la voz IA conversacional se encuentra con la creatividad visual. La síntesis de voz natural de ElevenLabs y las APIs de imagen de FLUX Kontext se combinan para crear una nueva forma de crear: sin clics, sin deslizadores, solo voz.
Cuando crear es tan fácil como describir, eliminamos las barreras entre la imaginación y la ejecución.
El código fuente completo está disponible en GitHub. Para ejecutar tu propia versión:



