Creando Vibe Draw: combinando ElevenLabs con FLUX Kontext para crear imágenes con voz

Escrito por: Ryan Morrison
Publicado: 3 jun 2025
Última actualización: 5 jul 2026

EscucharEscucha este artículo

0:00

0:000:00

Las interfaces de voz están cambiando cómo nos comunicamos con la IA. ¿Y si crear una imagen fuera tan fácil como describirla en voz alta?

Esa es la idea que me llevó a crear Vibe Draw como un proyecto de fin de semana. Es una herramienta creativa centrada en la voz que combina la voz IA de ElevenLabs con FLUX Kontext de Black Forest Labs para convertir prompts hablados en imágenes.

FLUX Kontext representa una nueva clase de modelo de imagen. A diferencia de los sistemas tradicionales de texto a imagen, Kontext maneja tanto la generación como la edición. Puede crear nuevas imágenes a partir de prompts, modificar las existentes e incluso fusionar múltiples imágenes de referencia en una sola salida.

Mientras que modelos como GPT-4o y Gemini 2 Flash ofrecen capacidades multimodales, FLUX Kontext está diseñado específicamente para la manipulación visual de alta calidad. En las pruebas, pude cambiar letras individuales en texto estilizado o reposicionar un objeto, solo describiendo el cambio.

Entonces pensé: “¿Por qué no hacer esto con la voz?” ¿Y qué mejor base que la potente tecnología de voz de ElevenLabs?

El desafío técnico

Construir un sistema de imágenes impulsado por voz requirió resolver cinco problemas clave:

Comprensión del lenguaje natural — Diferenciar entre nueva creación y ediciones
Conciencia contextual — Mantener la continuidad en las interacciones
Gestión de audio — Evitar respuestas superpuestas y gestionar colas
Generación visual — Transiciones fluidas entre generación y edición
Experiencia del usuario — Hacer que las interacciones avanzadas con IA se sientan intuitivas

Visión general de la arquitectura

Vibe Draw funciona completamente del lado del cliente e integra los siguientes componentes:

Web Speech API para reconocimiento de voz
ElevenLabs para respuestas de voz
API de FLUX Kontext para generación y edición de imágenes
Detección de intención personalizada para comprender la entrada del usuario

Este enfoque mantiene el prototipo ligero, pero las implementaciones en producción deberían gestionar las solicitudes del lado del servidor por seguridad.

Implementando Voz con ElevenLabs

Vibe Draw utiliza la

const voiceSettings = {
    model_id: "eleven_turbo_v2",
    voice_settings: {
        stability: 0.5,
        similarity_boost: 0.75
    }
};

Para crear variedad, las respuestas de voz se seleccionan aleatoriamente de plantillas predefinidas:

const responses = {
    generating: [
        "Ooh, I love that idea! Let me bring it to life...",
        "That sounds awesome! Creating it now...",
        "Great description! Working on it..."
    ],
    editing: [
        "Got it! Let me tweak that for you...",
        "Sure thing! Making those changes...",
        "No problem! Adjusting it now..."
    ]
};

function getRandomResponse(type) {
    const options = responses[type];
    return options[Math.floor(Math.random() * options.length)];
}

Gestión de la reproducción de audio

Las respuestas de voz superpuestas rompen la ilusión de conversación. Vibe Draw resuelve esto con un sistema de cola de audio:

let audioQueue = [];
let isPlayingAudio = false;

async function queueAudioResponse(text) {
    audioQueue.push(text);
    if (!isPlayingAudio) {
        playNextAudio();
    }
}

Cada mensaje se reproduce completamente antes de activar el siguiente.

Detección de intención y gestión de contexto

El sistema utiliza detección de palabras clave y contexto para decidir si un prompt del usuario es una nueva solicitud de imagen o una edición:

const editKeywords = [ ... ];
const contextualEditPhrases = [ ... ];

if (currentImage && (hasEditKeyword || hasContextClue)) {
    await handleEditRequest(text);
} else {
    await handleGenerateRequest(text);
}

Este enfoque asegura que las ediciones solo se apliquen cuando hay una imagen existente y el contexto lo deja claro.

Generación de imágenes con FLUX Kontext

Kontext admite dos modos: generación y edición.

Generación (

const response = await fetch('https://fal.run/fal-ai/flux-pro/kontext/text-to-image', {
    ...
    body: JSON.stringify({
        prompt: enhancedPrompt,
        guidance_scale: 3.5,
        num_images: 1,
        safety_tolerance: "2",
        output_format: "jpeg"
    })
});

Edición (transformación contextual)

const response = await fetch('https://fal.run/fal-ai/flux-pro/kontext', {
    ...
    body: JSON.stringify({
        prompt: instruction,
        image_url: currentImage,
        guidance_scale: 3.5,
        num_images: 1
    })
});

Manejo de transformaciones complejas

Algunos prompts implican cambios que superan los límites de la API de edición. Cuando se detecta, el sistema ofrece una alternativa:

if (hasSignificantChange) {
    try {
        const enhanced = instruction + ", maintain composition but apply requested changes";
        await editImage(enhanced);
    } catch {
        queueAudioResponse("That's quite a transformation! Would you like me to create a fresh image instead?");
    }
}

Optimizando la experiencia

Retroalimentación progresiva

La retroalimentación de la interfaz ayuda a los usuarios a seguir el estado del sistema:

function updateUI(state) {
    switch(state) {
        case 'listening': ...
        case 'processing': ...
        case 'generating': ...
        case 'ready': ...
    }
}

Sincronización inteligente

La conversación natural requiere una sincronización natural:

if (Math.random() > 0.7) {
    setTimeout(() => {
        queueAudioResponse("Want me to change anything about it?");
    }, 3000);
}

Estado de la sesión

Para preservar el contexto, se almacenan los datos de la sesión:

const saveState = () => { ... };
const restoreState = () => { ... };

Consideraciones de rendimiento

Para asegurar la capacidad de respuesta:

Carga diferida — Solo inicializar las APIs cuando sea necesario
Eliminación de rebotes — Limitar las solicitudes de API por interacción
Manejo de errores — Recuperarse de manera elegante de los tiempos de espera o fallos
Limpieza de recursos — Eliminar correctamente objetos de audio y oyentes de eventos

¿Qué sigue?

Las interfaces conversacionales abren la puerta a nuevas capacidades:

Entrada multimodal — “Haz que se parezca más a esta foto.”
Sesiones colaborativas — Varios usuarios contribuyendo a un solo diseño
Memoria de estilo — El sistema aprende tu estética con el tiempo
Transmisión en tiempo real — Transmitir actualizaciones de imagen mientras el usuario habla e integrar IA conversacional para permitir el habla transmitida.

Puntos clave

Construir Vibe Draw reveló varios principios fundamentales para herramientas centradas en la voz:

El contexto lo es todo — Rastrear el estado hace que las interacciones se sientan coherentes
La sincronización añade personalidad — Ritmar las respuestas hace que la IA se sienta receptiva
Las alternativas mantienen el impulso — Cuando la generación falla, ofrece alternativas
La variedad lo mantiene fresco — Repetir la misma frase rompe la inmersión

Conclusión

Vibe Draw muestra lo que sucede cuando la voz IA conversacional se encuentra con la creatividad visual. La síntesis de voz natural de ElevenLabs y las APIs de imagen de FLUX Kontext se combinan para crear una nueva forma de crear: sin clics, sin deslizadores, solo voz.

Cuando crear es tan fácil como describir, eliminamos las barreras entre la imaginación y la ejecución.

Pruébalo tú mismo

El código fuente completo está disponible en GitHub. Para ejecutar tu propia versión:

Clona el repositorio
Añade tu clave API de ElevenLabs
Añade tu clave API de FAL.ai
Abre vibe-draw-v2.html en un navegador moderno
Haz clic en el micrófono y empieza a crear

¿Interesado en construir tu propia experiencia centrada en la voz? Explora Conversational AI de ElevenLabsElevenLabs Conversational AI o contáctanoscontáctanos.