
ElevenLabs est maintenant une Kiro Power
- Catégorie
- ElevenAPI
- Date
Vibe Draw combine la voix IA d'ElevenLabs avec FLUX Kontext pour la création d'images par la voix.
Les interfaces vocales changent notre façon de communiquer avec l'IA. Et si créer une image était aussi simple que de la décrire à voix haute ?
C'est l'idée qui m'a conduit à créer Vibe Draw comme projet de week-end. C'est un outil créatif axé sur la voix qui associe la voix IA d'ElevenLabs avec le FLUX Kontext de Black Forest Labs pour transformer des instructions vocales en images.
FLUX Kontext représente une nouvelle classe de modèle d'image. Contrairement aux systèmes traditionnels de texte à image, Kontext gère à la fois la génération et l'édition. Il peut créer de nouvelles images à partir d'instructions, modifier des images existantes et même fusionner plusieurs images de référence en une seule sortie.
Alors que des modèles comme GPT-4o et Gemini 2 Flash offrent des capacités multimodales, FLUX Kontext est spécialement conçu pour la manipulation visuelle de haute qualité. Lors des tests, j'ai pu changer des lettres individuelles dans un texte stylisé ou repositionner un objet — simplement en décrivant le changement.
C'est là que j'ai pensé : « Pourquoi ne pas faire cela avec la voix ? » Et quelle meilleure base que la puissante technologie vocale d'ElevenLabs ?
.webp&w=3840&q=95)
Construire un système d'image piloté par la voix nécessitait de résoudre cinq problèmes clés :
Vibe Draw fonctionne entièrement côté client et intègre les composants suivants :
Cette approche garde le prototype léger, mais les déploiements en production devraient faire transiter les requêtes côté serveur pour la sécurité.
Vibe Draw utilise l’API
Pour créer de la variété, les réponses vocales sont sélectionnées aléatoirement à partir de modèles prédéfinis :
Les réponses vocales qui se chevauchent brisent l'illusion de conversation. Vibe Draw résout cela avec un système de file d'attente audio :
Chaque message est lu entièrement avant de déclencher le suivant.
Le système utilise la détection de mots-clés et de contexte pour décider si une demande utilisateur est une nouvelle requête d'image ou une modification :
Cette approche garantit que les modifications ne sont appliquées que lorsqu'il y a une image existante et que le contexte est clair.

Kontext prend en charge deux modes : génération et édition.
Certaines instructions impliquent des changements qui dépassent les limites de l'API d'édition. Lorsqu'ils sont détectés, le système propose une solution de repli :
Les retours d'interface aident les utilisateurs à suivre l'état du système :
Une conversation naturelle nécessite un timing naturel :
Pour préserver le contexte, les données de session sont stockées :
Pour assurer la réactivité :
Les interfaces conversationnelles ouvrent la porte à de nouvelles capacités :
La création de Vibe Draw a révélé plusieurs principes fondamentaux pour les outils axés sur la voix :
Vibe Draw montre ce qui se passe lorsque la voix IA conversationnelle rencontre la créativité visuelle. La synthèse vocale naturelle d'ElevenLabs et les API d'image de FLUX Kontext se combinent pour créer une nouvelle façon de créer—sans clics, sans curseurs—juste la parole.
Quand créer est aussi simple que décrire, nous supprimons les barrières entre l'imagination et l'exécution.
Le code source complet est disponible sur GitHub. Pour exécuter votre propre version :



