
ElevenLabs agora é um Kiro Power
- Categoria
- ElevenAPI
- Data
Vibe Draw combina a voz IA da ElevenLabs com o FLUX Kontext para criação de imagens por voz.
Interfaces de voz estão mudando como nos comunicamos com IA. E se criar uma imagem fosse tão fácil quanto descrevê-la em voz alta?
Essa é a ideia que me levou a criar o Vibe Draw como um projeto de fim de semana. É uma ferramenta criativa que prioriza a voz e combina a Voz IA da ElevenLabs com o FLUX Kontext da Black Forest Labs para transformar comandos falados em imagens.
FLUX Kontext representa uma nova classe de modelo de imagem. Diferente dos sistemas tradicionais de texto para imagem, o Kontext lida tanto com geração quanto com edição. Ele pode criar novas imagens a partir de comandos, modificar imagens existentes e até mesmo mesclar várias imagens de referência em uma única saída.
Enquanto modelos como GPT-4o e Gemini 2 Flash oferecem capacidades multimodais, o FLUX Kontext é feito sob medida para manipulação visual de alta qualidade. Nos testes, pude mudar letras individuais em texto estilizado ou reposicionar um objeto — apenas descrevendo a mudança.
Foi quando pensei: “Por que não fazer isso com voz?” E que melhor base do que a poderosa tecnologia de voz da ElevenLabs?
.webp&w=3840&q=95)
Construir um sistema de imagem por voz exigiu resolver cinco problemas principais:
Vibe Draw roda totalmente no lado do cliente e integra os seguintes componentes:
Essa abordagem mantém o protótipo leve, mas implantações em produção devem fazer proxy das solicitações no lado do servidor para segurança.
O Vibe Draw usa a
Para criar variedade, as respostas de voz são selecionadas aleatoriamente a partir de modelos pré-definidos:
Respostas de voz sobrepostas quebram a ilusão de conversa. Vibe Draw resolve isso com um sistema de fila de áudio:
Cada mensagem toca completamente antes de acionar a próxima.
O sistema usa detecção de palavras-chave e contexto para decidir se um comando do usuário é um novo pedido de imagem ou uma edição:
Essa abordagem garante que edições sejam aplicadas apenas quando há uma imagem existente e o contexto deixa claro.

Kontext suporta dois modos: geração e edição.
Alguns comandos implicam mudanças que excedem os limites da API de edição. Quando detectado, o sistema oferece uma alternativa:
O feedback da interface ajuda os usuários a acompanhar o estado do sistema:
Conversas naturais exigem tempo natural:
Para preservar o contexto, os dados da sessão são armazenados:
Para garantir a responsividade:
Interfaces conversacionais abrem a porta para novas capacidades:
Construir o Vibe Draw revelou vários princípios fundamentais para ferramentas que priorizam a voz:
Vibe Draw mostra o que acontece quando a voz IA conversacional encontra a criatividade visual. A síntese de fala natural da ElevenLabs e as APIs de imagem do FLUX Kontext se combinam para criar uma nova forma de criar—sem cliques, sem sliders—apenas fala.
Quando criar é tão fácil quanto descrever, removemos as barreiras entre imaginação e execução.
O código-fonte completo está disponível no GitHub. Para rodar sua própria versão:



