Créer Vibe Draw : combiner ElevenLabs avec FLUX Kontext pour la création d'images par la voix

Rédigé par: Ryan Morrison
Publié: 3 juin 2025
Dernière mise à jour: 5 juil. 2026

ÉcouterÉcouter cet article

0:00

0:000:00

Les interfaces vocales changent notre façon de communiquer avec l'IA. Et si créer une image était aussi simple que de la décrire à voix haute ?

C'est l'idée qui m'a conduit à créer Vibe Draw comme projet de week-end. C'est un outil créatif axé sur la voix qui associe la voix IA d'ElevenLabs avec le FLUX Kontext de Black Forest Labs pour transformer des instructions vocales en images.

FLUX Kontext représente une nouvelle classe de modèle d'image. Contrairement aux systèmes traditionnels de texte à image, Kontext gère à la fois la génération et l'édition. Il peut créer de nouvelles images à partir d'instructions, modifier des images existantes et même fusionner plusieurs images de référence en une seule sortie.

Alors que des modèles comme GPT-4o et Gemini 2 Flash offrent des capacités multimodales, FLUX Kontext est spécialement conçu pour la manipulation visuelle de haute qualité. Lors des tests, j'ai pu changer des lettres individuelles dans un texte stylisé ou repositionner un objet — simplement en décrivant le changement.

C'est là que j'ai pensé : « Pourquoi ne pas faire cela avec la voix ? » Et quelle meilleure base que la puissante technologie vocale d'ElevenLabs ?

Le défi technique

Construire un système d'image piloté par la voix nécessitait de résoudre cinq problèmes clés :

Compréhension du langage naturel — Différencier la création nouvelle des modifications
Conscience contextuelle — Maintenir la continuité à travers les interactions
Gestion audio — Éviter les réponses qui se chevauchent et gérer les files d'attente
Génération visuelle — Transitions fluides entre génération et édition
Expérience utilisateur — Rendre les interactions avancées avec l'IA intuitives

Aperçu de l'architecture

Vibe Draw fonctionne entièrement côté client et intègre les composants suivants :

API Web Speech pour la reconnaissance vocale
ElevenLabs pour les réponses vocales
API FLUX Kontext pour la génération et l'édition d'images
Détection d'intention personnalisée pour comprendre les entrées utilisateur

Cette approche garde le prototype léger, mais les déploiements en production devraient faire transiter les requêtes côté serveur pour la sécurité.

Implémenter la voix avec ElevenLabs

Vibe Draw utilise l’API

const voiceSettings = {
    model_id: "eleven_turbo_v2",
    voice_settings: {
        stability: 0.5,
        similarity_boost: 0.75
    }
};

Pour créer de la variété, les réponses vocales sont sélectionnées aléatoirement à partir de modèles prédéfinis :

const responses = {
    generating: [
        "Ooh, I love that idea! Let me bring it to life...",
        "That sounds awesome! Creating it now...",
        "Great description! Working on it..."
    ],
    editing: [
        "Got it! Let me tweak that for you...",
        "Sure thing! Making those changes...",
        "No problem! Adjusting it now..."
    ]
};

function getRandomResponse(type) {
    const options = responses[type];
    return options[Math.floor(Math.random() * options.length)];
}

Gestion de la lecture audio

Les réponses vocales qui se chevauchent brisent l'illusion de conversation. Vibe Draw résout cela avec un système de file d'attente audio :

let audioQueue = [];
let isPlayingAudio = false;

async function queueAudioResponse(text) {
    audioQueue.push(text);
    if (!isPlayingAudio) {
        playNextAudio();
    }
}

Chaque message est lu entièrement avant de déclencher le suivant.

Détection d'intention et gestion du contexte

Le système utilise la détection de mots-clés et de contexte pour décider si une demande utilisateur est une nouvelle requête d'image ou une modification :

const editKeywords = [ ... ];
const contextualEditPhrases = [ ... ];

if (currentImage && (hasEditKeyword || hasContextClue)) {
    await handleEditRequest(text);
} else {
    await handleGenerateRequest(text);
}

Cette approche garantit que les modifications ne sont appliquées que lorsqu'il y a une image existante et que le contexte est clair.

Génération d'images avec FLUX Kontext

Kontext prend en charge deux modes : génération et édition.

Génération (

const response = await fetch('https://fal.run/fal-ai/flux-pro/kontext/text-to-image', {
    ...
    body: JSON.stringify({
        prompt: enhancedPrompt,
        guidance_scale: 3.5,
        num_images: 1,
        safety_tolerance: "2",
        output_format: "jpeg"
    })
});

Édition (transformation contextuelle)

const response = await fetch('https://fal.run/fal-ai/flux-pro/kontext', {
    ...
    body: JSON.stringify({
        prompt: instruction,
        image_url: currentImage,
        guidance_scale: 3.5,
        num_images: 1
    })
});

Gérer les transformations complexes

Certaines instructions impliquent des changements qui dépassent les limites de l'API d'édition. Lorsqu'ils sont détectés, le système propose une solution de repli :

if (hasSignificantChange) {
    try {
        const enhanced = instruction + ", maintain composition but apply requested changes";
        await editImage(enhanced);
    } catch {
        queueAudioResponse("That's quite a transformation! Would you like me to create a fresh image instead?");
    }
}

Optimiser l'expérience

Retour d'information progressif

Les retours d'interface aident les utilisateurs à suivre l'état du système :

function updateUI(state) {
    switch(state) {
        case 'listening': ...
        case 'processing': ...
        case 'generating': ...
        case 'ready': ...
    }
}

Timing intelligent

Une conversation naturelle nécessite un timing naturel :

if (Math.random() > 0.7) {
    setTimeout(() => {
        queueAudioResponse("Want me to change anything about it?");
    }, 3000);
}

État de la session

Pour préserver le contexte, les données de session sont stockées :

const saveState = () => { ... };
const restoreState = () => { ... };

Considérations de performance

Pour assurer la réactivité :

Chargement différé — Initialiser les API uniquement lorsque nécessaire
Débouncing — Limiter les requêtes API par interaction
Gestion des erreurs — Récupérer gracieusement des délais d'attente ou des échecs
Nettoyage des ressources — Éliminer correctement les objets audio et les écouteurs d'événements

Et après

Les interfaces conversationnelles ouvrent la porte à de nouvelles capacités :

Entrée multimodale — « Faites-le ressembler davantage à cette photo. »
Sessions collaboratives — Plusieurs utilisateurs contribuant à un seul design
Mémoire de style — Le système apprend votre esthétique au fil du temps
Streaming en temps réel — Diffuser les mises à jour d'image au fur et à mesure que l'utilisateur parle et intégrer l'IA conversationnelle pour permettre un flux vocal.

Points clés

La création de Vibe Draw a révélé plusieurs principes fondamentaux pour les outils axés sur la voix :

Le contexte est essentiel — Suivre l'état rend les interactions cohérentes
Le timing ajoute de la personnalité — Rythmer les réponses rend l'IA réactive
Les solutions de repli maintiennent l'élan — Lorsque la génération échoue, proposer des alternatives
La variété garde l'expérience fraîche — Répéter la même phrase brise l'immersion

Conclusion

Vibe Draw montre ce qui se passe lorsque la voix IA conversationnelle rencontre la créativité visuelle. La synthèse vocale naturelle d'ElevenLabs et les API d'image de FLUX Kontext se combinent pour créer une nouvelle façon de créer—sans clics, sans curseurs—juste la parole.

Quand créer est aussi simple que décrire, nous supprimons les barrières entre l'imagination et l'exécution.

Essayez par vous-même

Le code source complet est disponible sur GitHub. Pour exécuter votre propre version :

Clonez le dépôt
Ajoutez votre clé API ElevenLabs
Ajoutez votre clé API FAL.ai
Ouvrez vibe-draw-v2.html dans un navigateur moderne
Cliquez sur le microphone et commencez à créer

Intéressé par la création de votre propre expérience axée sur la voix ? Explorez Conversational AI ElevenLabsElevenLabs Conversational AI ou contactez-nouscontactez-nous.