Sprachschnittstellen verändern, wie wir mit KI kommunizieren. Was wäre, wenn das Erstellen eines Bildes so einfach wäre, wie es laut zu beschreiben?
Das ist die Idee, die mich dazu brachte, Vibe Draw als Wochenendprojekt zu entwickeln. Es ist ein sprachgesteuertes Kreativwerkzeug, das ElevenLabs’ Voice AI mit FLUX Kontext von Black Forest Labs kombiniert, um gesprochene Eingaben in Bilder zu verwandeln.
FLUX Kontext repräsentiert eine neue Klasse von Bildmodellen. Im Gegensatz zu traditionellen Text-zu-Bild-Systemen beherrscht Kontext sowohl die Erstellung als auch die Bearbeitung. Es kann neue Bilder aus Eingaben erstellen, bestehende ändern und sogar mehrere Referenzbilder zu einem einzigen Ergebnis zusammenführen.
Während Modelle wie GPT-4o und Gemini 2 Flash multimodale Fähigkeiten bieten, ist FLUX Kontext speziell für hochwertige visuelle Manipulationen entwickelt. In Tests konnte ich einzelne Buchstaben in stilisiertem Text ändern oder ein Objekt neu positionieren – nur durch Beschreibung der Änderung.
Da dachte ich: „Warum nicht mit Sprache?“ Und was wäre eine bessere Grundlage als die leistungsstarke Sprachtechnologie von ElevenLabs?