Black Friday

Como construí um gerador de texto para comerciais usando ElevenLabs, Gemini e VEO 2

Última atualização 16 de out. de 2025 • 12 minutos de leitura

A man with glasses and a beard looking to the side in a room with bookshelves.

Como criei uma ferramenta completa com IA que transforma ideias iniciais em anúncios de vídeo prontos.

Passei duas décadas criando conteúdo — de jornalismo a vídeos de produtos. A IA possibilita desbloquear novos fluxos de trabalho criativos. Com a interseção de codificação de vibrações e geração de vídeo cada vez mais realista, me perguntei se poderia criar uma ferramenta que pegasse um prompt simples e fizesse um anúncio de 20 segundos.

O conceito era simples: digitar uma ideia de produto e receber um comercial de 30 segundos totalmente produzido com visuais gerados por IA, locução e efeitos sonoros. Aqui está como eu construí usando ElevenLabs TTS e APIs de SFX, Gemini do Google, e VEO 2 do Google para geração de vídeo. No momento da criação, o VEO 3 ainda não havia sido lançado.

A versão final foi criada quase completamente com o impressionante Claude 4 Opus da Anthropic, embora ao longo de alguns dias, pois continuei atingindo o limite de taxa.

Seleção de stack: Node.js, Express, React e Claude 4 Opus

A commercial for "finding places to eat lunch in a park"

Escolhi Node.js com Express para o backend e React para o frontend. O Node lida com atualizações em tempo real à medida que os vídeos são gerados, enquanto a arquitetura baseada em componentes do React facilita o gerenciamento e a extensão da interface de múltiplas etapas.

Escrevo código de forma intermitente desde a infância — começando com uma caneta robô na escola primária. Mas sempre fui mais um pensador de produtos do que um engenheiro em tempo integral. Ferramentas como Claude 4 Opus mudaram isso. Com os prompts certos, pude avançar rapidamente, implementar recursos corretamente e focar na lógica do produto em vez de código repetitivo.

Não se trata de terceirizar a criatividade para a IA — é sobre construir de forma mais inteligente com as ferramentas certas.

Assistente de oito etapas: Do prompt ao anúncio finalizado

Criar um comercial para um novo produto ou serviço, mesmo que tenha apenas 20 segundos, envolve várias etapas complexas, então dividi em oito fases distintas:

Informações do Produto
Geração de Roteiro
Criação de Vídeo
Sound Effects
Montagem de Vídeo
Locução
Vídeo Final
Postagens Sociais

Cada etapa se baseia na anterior, criando um fluxo que transforma uma ideia simples em um comercial completo. Em cada estágio, o usuário tem controle total para alterar qualquer elemento ou regenerar qualquer parte do texto, vídeo ou áudio.

A commercial for "Epoch" matching

Refinando ideias com Gemini Flash

O primeiro desafio era que a maioria das pessoas não começa com ideias de produto totalmente formadas. Elas podem digitar algo vago como "algo para produtividade". É aí que entra o Gemini.

Usei o modelo Gemini 2.0 Flash do Google para transformar ideias vagas em conceitos de produto concretos. A engenharia de prompts aqui foi crucial – eu precisava que o Gemini fosse específico e concreto, não vago e genérico. Em vez de aceitar "algo para fitness", o sistema transforma em algo como "FitPulse AI: Uma pulseira inteligente que usa biometria avançada para criar micro-treinos personalizados ao longo do seu dia."

1"""Enhance a product idea using Gemini"""
      
      prompt = f"""
      Enhance this product idea to make it more compelling:
      
      Original idea: {idea}
      Target mood: {mood}
      Target audience: {audience}
      
      Make it:
      1. Clear and specific about the value proposition
      2. Appeal to {audience}
      3. Match the {mood.lower()} tone
      4. Be memorable and marketable
      
      Keep it to 2-3 sentences.
      """

Gerando roteiros não genéricos com Gemini

Em seguida, veio a geração de roteiros. Novamente usando o Gemini, estruturei a saída como quatro cenas de 5 segundos, cada uma com três componentes:

O roteiro da locução
Um prompt de geração de vídeo
Uma descrição de efeitos sonoros

O segredo era fazer o Gemini entender o humor e o público. Um comercial "peculiar" para millennials precisa de uma linguagem diferente de um "profissional" para clientes empresariais.

Passei um tempo considerável refinando os prompts para evitar a linguagem genérica de IA e criar roteiros que parecessem adaptados a cada produto.

   """Generate a 4-scene commercial script"""
      
      prompt = f"""
      Create a 30-second commercial script with exactly 4 scenes.
      
      Product: {product_name}
      Audience: {target_audience}
      Key Message: {key_message}
      Mood: {mood}
      
      Return a JSON array with 4 scenes, each with:
      - number: 1-4
      - duration: 5
      - script: What the voiceover says
      - videoPrompt: Visual description for video generation
      - sfxPrompt: Sound effects description
      
      Example format:
      [{{"number": 1, "duration": 5, "script": "...", "videoPrompt": "...", "sfxPrompt": "..."}}]
      """
21

Criando cenas de 5s com VEO 2

Usei a API hospedada da FAL.ai para o modelo VEO 2 do Google. O prompt de vídeo de cada cena é enviado para a FAL.ai, que retorna um clipe de vídeo de 5 segundos. Esta foi uma das integrações mais complicadas – lidando com tempos de geração longos, gerenciando limites de API e fornecendo feedback aos usuários enquanto esperam.

Inicialmente, planejei usar o Google AI Studio ou o Vertex AI para a API do Veo 2, pois isso significaria usar a mesma chave de API do Gemini, mas não consegui fazer o Veo 2 funcionar na minha conta.

Implementei um sistema de gerenciamento de estado que salva vídeos gerados localmente, para que os usuários não precisem regenerar conteúdo caro se navegarem para longe e voltarem. Quando você está atingindo limites de taxa no Claude, a última coisa que deseja é perder seus vídeos gerados porque atualizou a página.

O conteúdo de vídeo para um clipe de 20 segundos, assumindo que não haja recortes ou regenerações, custou cerca de $10.

Usando ElevenLabs para efeitos sonoros e locução

Foi aqui que fiquei criativo com as APIs da ElevenLabs. Embora a ElevenLabs seja conhecida principalmente pela geração de voz, também temos uma API de efeitos sonoros que é muito impressionante. Veja o incrível Mesa de Som como exemplo de casos de uso potenciais.

Usei para gerar quatro variações de efeitos sonoros para cada cena – animado, energético, calmo e dramático. Os usuários podem pré-visualizar cada opção e selecionar o que se encaixa em sua visão.

1const response = await elevenLabs.soundGeneration({
2  text: modifiedPrompt,
3  duration_seconds: duration,
4  prompt_influence: 0.3
5});
6

Montando vídeos finais com FFmpeg

Com quatro clipes de vídeo e quatro trilhas de efeitos sonoros, eu precisava combiná-los. Isso significava mergulhar fundo no FFmpeg, o canivete suíço do processamento de vídeo. O backend executa comandos FFmpeg para:

Misturar efeitos sonoros com cada clipe de vídeo
Concatenar todos os clipes em um único vídeo
Adicionar a trilha de locução ao vídeo final

Acertar os comandos do FFmpeg exigiu um grande esforço de depuração. A mixagem de áudio, em particular, requer atenção cuidadosa aos níveis e ao tempo. Aprendi que o áudio de fundo deve ser reduzido a cerca de 30% do volume quando misturado com a locução – qualquer valor maior compete por atenção, qualquer valor menor e ele praticamente não está lá.

Locução: Onde a ElevenLabs realmente brilha

Para a locução, integrei a API de texto para fala da ElevenLabs para oferecer aos usuários uma seleção de vozes. O sistema gera um roteiro de locução coerente a partir de todos os roteiros de cena e, em seguida, envia para a ElevenLabs com configurações de voz otimizadas:

1const voiceSettings = {
2  stability: 0.75,
3  similarity_boost: 0.75,
4  style: 0.0,
5  use_speaker_boost: true
6};
7

Essas configurações fornecem uma narração clara e profissional que funciona bem para comerciais. Após experimentar diferentes configurações, descobri que esse equilíbrio oferece consistência sem soar robótico.

Tratamento de erros resiliente e experiência do usuário

Construir com várias APIs de IA significa lidar com vários modos de falha. Limites de taxa, erros de tempo limite, respostas malformadas – todos acontecem. Especialmente quando você está depurando às 2 da manhã e o VEO 2 decide retornar algo inesperado.

Implementei um tratamento de erros abrangente com opções de fallback:

Se o Gemini falhar, o sistema fornece roteiros de fallback inteligentes
Se a geração de vídeo falhar, vídeos de espaço reservado estão disponíveis
Se a geração de som falhar, trilhas de áudio básicas são usadas

O objetivo era garantir que os usuários pudessem sempre completar seu comercial, mesmo que alguns serviços de IA estivessem tendo um dia ruim.

Considerações de desempenho

A commercial for "Globetrotter Grocer"

Gerar um comercial envolve várias chamadas de API de IA que podem levar vários minutos. Para melhorar a experiência, eu:

Processo vídeos em paralelo sempre que possível
Mostro indicadores de progresso em tempo real
Salvo conteúdo gerado caro localmente
Permito que os usuários regenerem componentes individuais

Também implementei um sistema de persistência de estado. Se alguém fechar o navegador no meio da geração, pode retornar e continuar de onde parou. Isso não estava no meu plano original, mas depois de perder meu próprio progresso algumas vezes durante os testes, tornou-se uma prioridade.

Principais lições e o que vem a seguir

Construir esta ferramenta revelou três lições principais.

Primeiro, o design de prompts é crítico. A qualidade da saída de qualquer modelo de IA depende muito de como você estrutura a entrada. Passei tanto tempo refinando prompts quanto escrevendo código.

Segundo, a experiência do usuário supera a complexidade técnica. Os usuários não se importam com quantos serviços de IA estão envolvidos — eles se importam que a ferramenta funcione. Indicadores de progresso, tratamento de erros e ciclos de feedback rápidos fazem toda a diferença.

Terceiro, assistentes de IA como Claude aceleram o desenvolvimento. Concentrei-me na lógica do produto enquanto delegava o código repetitivo e a sintaxe ao modelo. Não se trata de pular etapas — é sobre construir de forma mais inteligente.

O que começou como um projeto de fim de semana se transformou em uma ferramenta real e extensível. Equipes de marketing podem usá-la para prototipagem, startups para vídeos de apresentação e criadores para conteúdo patrocinado.

O sistema é flexível por design. Você pode mudar estilos de vídeo ajustando os prompts do VEO 2, modificar comprimentos de cena para diferentes formatos ou adicionar música via FFmpeg.

A verdadeira oportunidade está em orquestrar múltiplos sistemas de IA. Nenhum modelo único pode gerar um comercial completo — mas combinados, Gemini, VEO 2 e ElevenLabs podem produzir algo muito mais poderoso do que qualquer um deles sozinho.

Não se trata de a IA substituir criadores. É sobre dar aos criadores melhores ferramentas. Após 20 anos em conteúdo, vi muitas mudanças — mas essa mudança parece fundamental.

Se você quiser explorar como a tecnologia da ElevenLabs pode ajudar a oferecer novas abordagens para conteúdo e mídia entre em contato com nossa equipe de vendas.

Explore artigos da equipe ElevenLabs

Impact

Impact

Yvonne Johnson at the 11/11 ElevenLabs Summit

An authentic voice for change

Customer stories

Dust adds multilingual voice to AI-driven enterprise workflows using ElevenLabs

Expanding access and productivity with voice-first AI

Crie com o áudio IA da mais alta qualidade

Comece agora - é grátis

Já tem uma conta? Entrar

Desenvolvido por ElevenLabs Agentes

1	"""Enhance a product idea using Gemini"""
2
3	prompt = f"""
4	Enhance this product idea to make it more compelling:
5
6	Original idea: {idea}
7	Target mood: {mood}
8	Target audience: {audience}
9
10	Make it:
11	1. Clear and specific about the value proposition
12	2. Appeal to {audience}
13	3. Match the {mood.lower()} tone
14	4. Be memorable and marketable
15
16	Keep it to 2-3 sentences.
17	"""

1	"""Generate a 4-scene commercial script"""
2
3	prompt = f"""
4	Create a 30-second commercial script with exactly 4 scenes.
5
6	Product: {product_name}
7	Audience: {target_audience}
8	Key Message: {key_message}
9	Mood: {mood}
10
11	Return a JSON array with 4 scenes, each with:
12	- number: 1-4
13	- duration: 5
14	- script: What the voiceover says
15	- videoPrompt: Visual description for video generation
16	- sfxPrompt: Sound effects description
17
18	Example format:
19	[{{"number": 1, "duration": 5, "script": "...", "videoPrompt": "...", "sfxPrompt": "..."}}]
20	"""
21

1	const response = await elevenLabs.soundGeneration({
2	text: modifiedPrompt,
3	duration_seconds: duration,
4	prompt_influence: 0.3
5	});
6

1	const voiceSettings = {
2	stability: 0.75,
3	similarity_boost: 0.75,
4	style: 0.0,
5	use_speaker_boost: true
6	};
7