Les interfaces vocales changent notre façon de communiquer avec l'IA. Et si créer une image était aussi simple que de la décrire à voix haute ?
C'est l'idée qui m'a conduit à créer Vibe Draw comme projet de week-end. C'est un outil créatif axé sur la voix qui associe la voix IA d'ElevenLabs avec le FLUX Kontext de Black Forest Labs pour transformer des instructions vocales en images.
FLUX Kontext représente une nouvelle classe de modèle d'image. Contrairement aux systèmes traditionnels de texte à image, Kontext gère à la fois la génération et l'édition. Il peut créer de nouvelles images à partir d'instructions, modifier des images existantes et même fusionner plusieurs images de référence en une seule sortie.
Alors que des modèles comme GPT-4o et Gemini 2 Flash offrent des capacités multimodales, FLUX Kontext est spécialement conçu pour la manipulation visuelle de haute qualité. Lors des tests, j'ai pu changer des lettres individuelles dans un texte stylisé ou repositionner un objet — simplement en décrivant le changement.
C'est là que j'ai pensé : « Pourquoi ne pas faire cela avec la voix ? » Et quelle meilleure base que la puissante technologie vocale d'ElevenLabs ?