Passei duas décadas criando conteúdo — de jornalismo a vídeos de produtos. A IA possibilita desbloquear novos fluxos de trabalho criativos. Com a interseção de codificação de vibrações e geração de vídeo cada vez mais realista, me perguntei se poderia criar uma ferramenta que pegasse um prompt simples e fizesse um anúncio de 20 segundos.
O conceito era simples: digitar uma ideia de produto e receber um comercial de 30 segundos totalmente produzido com visuais gerados por IA, locução e efeitos sonoros. Aqui está como eu construí usando ElevenLabs TTS e APIs de SFX, Gemini do Google, e VEO 2 do Google para geração de vídeo. No momento da criação, o VEO 3 ainda não havia sido lançado.
A versão final foi criada quase completamente com o impressionante Claude 4 Opus da Anthropic, embora ao longo de alguns dias, pois continuei atingindo o limite de taxa.
Seleção de stack: Node.js, Express, React e Claude 4 Opus
A commercial for "finding places to eat lunch in a park"
Escolhi Node.js com Express para o backend e React para o frontend. O Node lida com atualizações em tempo real à medida que os vídeos são gerados, enquanto a arquitetura baseada em componentes do React facilita o gerenciamento e a extensão da interface de múltiplas etapas.
Escrevo código de forma intermitente desde a infância — começando com uma caneta robô na escola primária. Mas sempre fui mais um pensador de produtos do que um engenheiro em tempo integral. Ferramentas como Claude 4 Opus mudaram isso. Com os prompts certos, pude avançar rapidamente, implementar recursos corretamente e focar na lógica do produto em vez de código repetitivo.
Não se trata de terceirizar a criatividade para a IA — é sobre construir de forma mais inteligente com as ferramentas certas.
Assistente de oito etapas: Do prompt ao anúncio finalizado
Criar um comercial para um novo produto ou serviço, mesmo que tenha apenas 20 segundos, envolve várias etapas complexas, então dividi em oito fases distintas:
Informações do Produto
Geração de Roteiro
Criação de Vídeo
Sound Effects
Montagem de Vídeo
Locução
Vídeo Final
Postagens Sociais
Cada etapa se baseia na anterior, criando um fluxo que transforma uma ideia simples em um comercial completo. Em cada estágio, o usuário tem controle total para alterar qualquer elemento ou regenerar qualquer parte do texto, vídeo ou áudio.
A commercial for "Epoch" matching
Refinando ideias com Gemini Flash
O primeiro desafio era que a maioria das pessoas não começa com ideias de produto totalmente formadas. Elas podem digitar algo vago como "algo para produtividade". É aí que entra o Gemini.
Usei o modelo Gemini 2.0 Flash do Google para transformar ideias vagas em conceitos de produto concretos. A engenharia de prompts aqui foi crucial – eu precisava que o Gemini fosse específico e concreto, não vago e genérico. Em vez de aceitar "algo para fitness", o sistema transforma em algo como "FitPulse AI: Uma pulseira inteligente que usa biometria avançada para criar micro-treinos personalizados ao longo do seu dia."
1
"""Enhance a product idea using Gemini"""
2
3
prompt = f"""
4
Enhancethis product idea to make it more compelling:
5
6
Original idea:{idea}
7
Target mood:{mood}
8
Target audience:{audience}
9
10
Make it:
11
1.Clear and specific about the value proposition
12
2.Appeal to {audience}
13
3.Match the {mood.lower()} tone
14
4.Be memorable and marketable
15
16
Keep it to 2-3 sentences.
17
"""
Gerando roteiros não genéricos com Gemini
Em seguida, veio a geração de roteiros. Novamente usando o Gemini, estruturei a saída como quatro cenas de 5 segundos, cada uma com três componentes:
O roteiro da locução
Um prompt de geração de vídeo
Uma descrição de efeitos sonoros
O segredo era fazer o Gemini entender o humor e o público. Um comercial "peculiar" para millennials precisa de uma linguagem diferente de um "profissional" para clientes empresariais.
Passei um tempo considerável refinando os prompts para evitar a linguagem genérica de IA e criar roteiros que parecessem adaptados a cada produto.
1
"""Generate a 4-scene commercial script"""
2
3
prompt = f"""
4
Create a 30-second commercial script with exactly 4 scenes.
5
6
Product:{product_name}
7
Audience:{target_audience}
8
KeyMessage:{key_message}
9
Mood:{mood}
10
11
Return a JSON array with4 scenes, each with:
12
- number:1-4
13
- duration:5
14
- script:What the voiceover says
15
- videoPrompt:Visual description for video generation
Usei a API hospedada da FAL.ai para o modelo VEO 2 do Google. O prompt de vídeo de cada cena é enviado para a FAL.ai, que retorna um clipe de vídeo de 5 segundos. Esta foi uma das integrações mais complicadas – lidando com tempos de geração longos, gerenciando limites de API e fornecendo feedback aos usuários enquanto esperam.
Inicialmente, planejei usar o Google AI Studio ou o Vertex AI para a API do Veo 2, pois isso significaria usar a mesma chave de API do Gemini, mas não consegui fazer o Veo 2 funcionar na minha conta.
Implementei um sistema de gerenciamento de estado que salva vídeos gerados localmente, para que os usuários não precisem regenerar conteúdo caro se navegarem para longe e voltarem. Quando você está atingindo limites de taxa no Claude, a última coisa que deseja é perder seus vídeos gerados porque atualizou a página.
O conteúdo de vídeo para um clipe de 20 segundos, assumindo que não haja recortes ou regenerações, custou cerca de $10.
Usando ElevenLabs para efeitos sonoros e locução
Foi aqui que fiquei criativo com as APIs da ElevenLabs. Embora a ElevenLabs seja conhecida principalmente pela geração de voz, também temos uma API de efeitos sonoros que é muito impressionante. Veja o incrível Soundboard como exemplo de casos de uso potenciais.
Usei para gerar quatro variações de efeitos sonoros para cada cena – animado, energético, calmo e dramático. Os usuários podem pré-visualizar cada opção e selecionar o que se encaixa em sua visão.
Com quatro clipes de vídeo e quatro trilhas de efeitos sonoros, eu precisava combiná-los. Isso significava mergulhar fundo no FFmpeg, o canivete suíço do processamento de vídeo. O backend executa comandos FFmpeg para:
Misturar efeitos sonoros com cada clipe de vídeo
Concatenar todos os clipes em um único vídeo
Adicionar a trilha de locução ao vídeo final
Acertar os comandos do FFmpeg exigiu um grande esforço de depuração. A mixagem de áudio, em particular, requer atenção cuidadosa aos níveis e ao tempo. Aprendi que o áudio de fundo deve ser reduzido a cerca de 30% do volume quando misturado com a locução – qualquer valor maior compete por atenção, qualquer valor menor e ele praticamente não está lá.
Locução: Onde a ElevenLabs realmente brilha
Para a locução, integrei a API de texto para fala da ElevenLabs para oferecer aos usuários uma seleção de vozes. O sistema gera um roteiro de locução coerente a partir de todos os roteiros de cena e, em seguida, envia para a ElevenLabs com configurações de voz otimizadas:
1
const voiceSettings ={
2
stability:0.75,
3
similarity_boost:0.75,
4
style:0.0,
5
use_speaker_boost:true
6
};
7
Essas configurações fornecem uma narração clara e profissional que funciona bem para comerciais. Após experimentar diferentes configurações, descobri que esse equilíbrio oferece consistência sem soar robótico.
Tratamento de erros resiliente e experiência do usuário
Construir com várias APIs de IA significa lidar com vários modos de falha. Limites de taxa, erros de tempo limite, respostas malformadas – todos acontecem. Especialmente quando você está depurando às 2 da manhã e o VEO 2 decide retornar algo inesperado.
Implementei um tratamento de erros abrangente com opções de fallback:
Se o Gemini falhar, o sistema fornece roteiros de fallback inteligentes
Se a geração de vídeo falhar, vídeos de espaço reservado estão disponíveis
Se a geração de som falhar, trilhas de áudio básicas são usadas
O objetivo era garantir que os usuários pudessem sempre completar seu comercial, mesmo que alguns serviços de IA estivessem tendo um dia ruim.
Considerações de desempenho
A commercial for "Globetrotter Grocer"
Gerar um comercial envolve várias chamadas de API de IA que podem levar vários minutos. Para melhorar a experiência, eu:
Processo vídeos em paralelo sempre que possível
Mostro indicadores de progresso em tempo real
Salvo conteúdo gerado caro localmente
Permito que os usuários regenerem componentes individuais
Também implementei um sistema de persistência de estado. Se alguém fechar o navegador no meio da geração, pode retornar e continuar de onde parou. Isso não estava no meu plano original, mas depois de perder meu próprio progresso algumas vezes durante os testes, tornou-se uma prioridade.
Principais lições e o que vem a seguir
Construir esta ferramenta revelou três lições principais.
Primeiro, o design de prompts é crítico. A qualidade da saída de qualquer modelo de IA depende muito de como você estrutura a entrada. Passei tanto tempo refinando prompts quanto escrevendo código.
Segundo, a experiência do usuário supera a complexidade técnica. Os usuários não se importam com quantos serviços de IA estão envolvidos — eles se importam que a ferramenta funcione. Indicadores de progresso, tratamento de erros e ciclos de feedback rápidos fazem toda a diferença.
Terceiro, assistentes de IA como Claude aceleram o desenvolvimento. Concentrei-me na lógica do produto enquanto delegava o código repetitivo e a sintaxe ao modelo. Não se trata de pular etapas — é sobre construir de forma mais inteligente.
O que começou como um projeto de fim de semana se transformou em uma ferramenta real e extensível. Equipes de marketing podem usá-la para prototipagem, startups para vídeos de apresentação e criadores para conteúdo patrocinado.
O sistema é flexível por design. Você pode mudar estilos de vídeo ajustando os prompts do VEO 2, modificar comprimentos de cena para diferentes formatos ou adicionar música via FFmpeg.
A verdadeira oportunidade está em orquestrar múltiplos sistemas de IA. Nenhum modelo único pode gerar um comercial completo — mas combinados, Gemini, VEO 2 e ElevenLabs podem produzir algo muito mais poderoso do que qualquer um deles sozinho.
Não se trata de a IA substituir criadores. É sobre dar aos criadores melhores ferramentas. Após 20 anos em conteúdo, vi muitas mudanças — mas essa mudança parece fundamental.
BurdaVerlag is partnering with ElevenLabs to integrate its advanced AI audio and voice agent technology into the AISSIST platform. This will provide powerful tools for text-to-speech, transcription, and more, streamlining workflows for media and publishing professionals.
Ensure reliability and compliance with ElevenLabs Agents Testing. Run structured simulations for tool calls, human transfers, workflows, and guardrails. Integrate into CI/CD and ship agents with confidence.