Röstgränssnitt förändrar hur vi kommunicerar med AI. Tänk om det var lika enkelt att skapa en bild som att beskriva den högt?
Det var idén som ledde till att jag skapade Vibe Draw som ett helgprojekt. Det är ett röstförst kreativt verktyg som parar ihop ElevenLabs’ röst-AI med Black Forest Labs’ FLUX Kontext för att omvandla talade kommandon till bilder.
FLUX Kontext representerar en ny klass av bildmodell. Till skillnad från traditionella text-till-bild-system hanterar Kontext både generering och redigering. Den kan skapa nya bilder från kommandon, ändra befintliga och till och med slå samman flera referensbilder till en enda utgång.
Medan modeller som GPT-4o och Gemini 2 Flash erbjuder multimodala funktioner, är FLUX Kontext specialbyggd för högkvalitativ visuell manipulation. Under tester kunde jag ändra enskilda bokstäver i stiliserad text eller flytta ett objekt — bara genom att beskriva ändringen.
Det var då jag tänkte: “Varför inte göra detta med röst?” Och vilken bättre grund än ElevenLabs’ kraftfulla röstteknologi?