
ElevenLabs ist jetzt als Kiro Power verfügbar
- Kategorie
- ElevenAPI
- Datum
Vibe Draw kombiniert die Voice-KI von ElevenLabs mit FLUX Kontext für sprachgesteuerte Bilderstellung.
Sprachschnittstellen verändern, wie wir mit KI kommunizieren. Was wäre, wenn das Erstellen eines Bildes so einfach wäre, wie es laut zu beschreiben?
Das ist die Idee, die mich dazu brachte, Vibe Draw als Wochenendprojekt zu entwickeln. Es ist ein sprachgesteuertes Kreativwerkzeug, das ElevenLabs’ Voice-KI mit FLUX Kontext von Black Forest Labs kombiniert, um gesprochene Eingaben in Bilder zu verwandeln.
FLUX-Kontext repräsentiert eine neue Klasse von Bildmodellen. Im Gegensatz zu traditionellen Text-zu-Bild-Systemen beherrscht Kontext sowohl die Erstellung als auch die Bearbeitung. Es kann neue Bilder aus Eingaben erstellen, bestehende ändern und sogar mehrere Referenzbilder zu einem einzigen Ergebnis zusammenführen.
Während Modelle wie GPT-4o und Gemini 2 Flash multimodale Fähigkeiten bieten, ist FLUX Kontext speziell für hochwertige visuelle Manipulationen entwickelt. In Tests konnte ich einzelne Buchstaben in stilisiertem Text ändern oder ein Objekt neu positionieren – nur durch Beschreibung der Änderung.
Da dachte ich: „Warum nicht mit Sprache?“ Und was wäre eine bessere Grundlage als die leistungsstarke Sprachtechnologie von ElevenLabs?
.webp&w=3840&q=95)
Der Aufbau eines sprachgesteuerten Bildsystems erforderte die Lösung von fünf Schlüsselproblemen:
Vibe Draw läuft vollständig clientseitig und integriert folgende Komponenten:
Dieser Ansatz hält den Prototyp leichtgewichtig, aber für Produktionseinsätze sollten Anfragen serverseitig weitergeleitet werden, um Sicherheit zu gewährleisten.
Vibe Draw nutzt die
Um Vielfalt zu schaffen, werden Sprachantworten zufällig aus vordefinierten Vorlagen ausgewählt:
Überlappende Sprachantworten zerstören die Illusion eines Gesprächs. Vibe Draw löst dies mit einem Audio-Warteschlangensystem:
Jede Nachricht wird vollständig abgespielt, bevor die nächste ausgelöst wird.
Das System verwendet Schlüsselwort- und Kontexterkennung, um zu entscheiden, ob eine Benutzereingabe eine neue Bildanfrage oder eine Bearbeitung ist:
Dieser Ansatz stellt sicher, dass Bearbeitungen nur angewendet werden, wenn ein bestehendes Bild vorhanden ist und der Kontext dies klar macht.

Kontext unterstützt zwei Modi: Generierung und Bearbeitung.
Einige Eingaben implizieren Änderungen, die die Grenzen der Bearbeitungs-API überschreiten. Bei Erkennung bietet das System eine Alternative:
UI-Feedback hilft Benutzern, den Status des Systems zu verfolgen:
Natürliche Konversation erfordert natürliches Timing:
Um den Kontext zu bewahren, werden Sitzungsdaten gespeichert:
Um Reaktionsfähigkeit sicherzustellen:
Konversationelle Benutzeroberflächen eröffnen neue Möglichkeiten:
Beim Aufbau von Vibe Draw wurden mehrere Kernprinzipien für sprachgesteuerte Werkzeuge deutlich:
Vibe Draw zeigt, was passiert, wenn konversationelle Sprach-KI auf visuelle Kreativität trifft. Die natürliche Sprachsynthese von ElevenLabs und die Bild-APIs von FLUX Kontext schaffen eine neue Art des Schaffens – ohne Klicks, ohne Schieberegler – nur Sprache.
Wenn das Erstellen so einfach ist wie das Beschreiben, beseitigen wir die Barrieren zwischen Vorstellungskraft und Ausführung.
Der vollständige Quellcode ist auf GitHub verfügbar. Um Ihre eigene Version auszuführen:



