
ElevenLabs è ora una Kiro Power
- Categoria
- ElevenAPI
- Data
Vibe Draw unisce la voce IA di ElevenLabs con FLUX Kontext per creare immagini usando la voce.
Le interfacce vocali stanno cambiando il modo in cui comunichiamo con l’IA. E se creare un’immagine fosse facile come descriverla a voce?
Da questa idea è nato Vibe Draw, un progetto nato in un weekend. È uno strumento creativo pensato per la voce che unisce la voce IA di ElevenLabs con FLUX Kontext di Black Forest Labs per trasformare comandi vocali in immagini.
FLUX Kontext rappresenta una nuova generazione di modelli per le immagini. A differenza dei classici sistemi text-to-image, Kontext gestisce sia la generazione che la modifica. Puoi creare nuove immagini da un prompt, modificare quelle esistenti e persino unire più immagini di riferimento in un unico risultato.
Modelli come GPT-4o e Gemini 2 Flash offrono capacità multimodali, ma FLUX Kontext è progettato apposta per la manipolazione visiva di alta qualità. Nei test, sono riuscito a cambiare singole lettere in un testo stilizzato o a spostare un oggetto — semplicemente descrivendo la modifica.
A quel punto ho pensato: “Perché non farlo con la voce?” E quale base migliore della tecnologia vocale di ElevenLabs?
.webp&w=3840&q=95)
Creare un sistema di immagini guidato dalla voce ha richiesto di risolvere cinque problemi chiave:
Vibe Draw funziona interamente lato client e integra questi componenti:
Questo approccio mantiene il prototipo leggero, ma per la produzione è meglio gestire le richieste lato server per maggiore sicurezza.
Vibe Draw usa l’API text-to-speech di ElevenLabs, ottimizzata per risposte conversazionali:
Per creare varietà, le risposte vocali vengono scelte casualmente da modelli predefiniti:
Le risposte vocali sovrapposte rompono l’effetto conversazione. Vibe Draw risolve con un sistema di code audio:
Ogni messaggio viene riprodotto per intero prima di passare al successivo.
Il sistema usa parole chiave e rilevamento del contesto per capire se il prompt dell’utente è una nuova richiesta di immagine o una modifica:
Così le modifiche vengono applicate solo se c’è già un’immagine e il contesto è chiaro.

Kontext supporta due modalità: generazione e modifica.
Alcuni prompt richiedono cambiamenti oltre i limiti dell’API di modifica. In questi casi, il sistema propone un’alternativa:
Il feedback dell’interfaccia aiuta l’utente a seguire lo stato del sistema:
Una conversazione naturale richiede tempi naturali:
Per mantenere il contesto, i dati della sessione vengono salvati:
Per garantire reattività:
Le interfacce conversazionali aprono nuove possibilità:
Sviluppare Vibe Draw ha evidenziato alcuni principi chiave per gli strumenti vocali:
Vibe Draw mostra cosa succede quando la voce IA conversazionale incontra la creatività visiva. La sintesi vocale naturale di ElevenLabs e le API di immagini di FLUX Kontext si uniscono per creare un nuovo modo di lavorare: niente click, niente slider — solo la voce.
Quando creare è facile quanto descrivere, spariscono le barriere tra immaginazione ed esecuzione.
Il codice sorgente completo è disponibile su GitHub. Per provare la tua versione:



