
ElevenLabs vs. Cartesia (June 2025)
Learn how ElevenLabs and Cartesia compare based on features, price, voice quality and more.
Apresentando o Eleven v3 (alpha)
Experimente o v3Como criei uma ferramenta completa com IA que transforma ideias iniciais em anúncios de vídeo prontos.
Passei duas décadas criando conteúdo — de jornalismo a vídeos de produtos. A IA possibilita desbloquear novos fluxos de trabalho criativos. Com a interseção de codificação de vibrações e geração de vídeo cada vez mais realista, me perguntei se poderia criar uma ferramenta que pegasse um prompt simples e fizesse um anúncio de 20 segundos.
O conceito era simples: digitar uma ideia de produto e receber um comercial de 30 segundos totalmente produzido com visuais gerados por IA, locução e efeitos sonoros. Aqui está como eu construí usando ElevenLabs TTS e APIs de SFX, Gemini do Google, e VEO 2 do Google para geração de vídeo. No momento da criação, o VEO 3 ainda não havia sido lançado.
A versão final foi criada quase completamente com o impressionante Claude 4 Opus da Anthropic, embora ao longo de alguns dias, pois continuei atingindo o limite de taxa.unknown node
Escolhi Node.js com Express para o backend e React para o frontend. O Node lida com atualizações em tempo real à medida que os vídeos são gerados, enquanto a arquitetura baseada em componentes do React facilita o gerenciamento e a extensão da interface de múltiplas etapas.
Escrevo código de forma intermitente desde a infância — começando com uma caneta robô na escola primária. Mas sempre fui mais um pensador de produtos do que um engenheiro em tempo integral. Ferramentas como Claude 4 Opus mudaram isso. Com os prompts certos, pude avançar rapidamente, implementar recursos corretamente e focar na lógica do produto em vez de código repetitivo.
Não se trata de terceirizar a criatividade para a IA — é sobre construir de forma mais inteligente com as ferramentas certas.
Criar um comercial para um novo produto ou serviço, mesmo que tenha apenas 20 segundos, envolve várias etapas complexas, então dividi em oito fases distintas:
Cada etapa se baseia na anterior, criando um fluxo que transforma uma ideia simples em um comercial completo. Em cada estágio, o usuário tem controle total para alterar qualquer elemento ou regenerar qualquer parte do texto, vídeo ou áudio.
O primeiro desafio era que a maioria das pessoas não começa com ideias de produto totalmente formadas. Elas podem digitar algo vago como "algo para produtividade". É aí que entra o Gemini.
Usei o modelo Gemini 2.0 Flash do Google para transformar ideias vagas em conceitos de produto concretos. A engenharia de prompts aqui foi crucial – eu precisava que o Gemini fosse específico e concreto, não vago e genérico. Em vez de aceitar "algo para fitness", o sistema transforma em algo como "FitPulse AI: Uma pulseira inteligente que usa biometria avançada para criar micro-treinos personalizados ao longo do seu dia."
1 | """Enhance a product idea using Gemini""" |
2 | |
3 | prompt = f""" |
4 | Enhance this product idea to make it more compelling: |
5 | |
6 | Original idea: {idea} |
7 | Target mood: {mood} |
8 | Target audience: {audience} |
9 | |
10 | Make it: |
11 | 1. Clear and specific about the value proposition |
12 | 2. Appeal to {audience} |
13 | 3. Match the {mood.lower()} tone |
14 | 4. Be memorable and marketable |
15 | |
16 | Keep it to 2-3 sentences. |
17 | """ |
Em seguida, veio a geração de roteiros. Novamente usando o Gemini, estruturei a saída como quatro cenas de 5 segundos, cada uma com três componentes:
O segredo era fazer o Gemini entender o humor e o público. Um comercial "peculiar" para millennials precisa de uma linguagem diferente de um "profissional" para clientes empresariais.
Passei um tempo considerável refinando os prompts para evitar a linguagem genérica de IA e criar roteiros que parecessem adaptados a cada produto.
1 | """Generate a 4-scene commercial script""" |
2 | |
3 | prompt = f""" |
4 | Create a 30-second commercial script with exactly 4 scenes. |
5 | |
6 | Product: {product_name} |
7 | Audience: {target_audience} |
8 | Key Message: {key_message} |
9 | Mood: {mood} |
10 | |
11 | Return a JSON array with 4 scenes, each with: |
12 | - number: 1-4 |
13 | - duration: 5 |
14 | - script: What the voiceover says |
15 | - videoPrompt: Visual description for video generation |
16 | - sfxPrompt: Sound effects description |
17 | |
18 | Example format: |
19 | [{{"number": 1, "duration": 5, "script": "...", "videoPrompt": "...", "sfxPrompt": "..."}}] |
20 | """ |
21 |
Usei a API hospedada da FAL.ai para o modelo VEO 2 do Google. O prompt de vídeo de cada cena é enviado para a FAL.ai, que retorna um clipe de vídeo de 5 segundos. Esta foi uma das integrações mais complicadas – lidando com tempos de geração longos, gerenciando limites de API e fornecendo feedback aos usuários enquanto esperam.
Inicialmente, planejei usar o Google AI Studio ou o Vertex AI para a API do Veo 2, pois isso significaria usar a mesma chave de API do Gemini, mas não consegui fazer o Veo 2 funcionar na minha conta.
Implementei um sistema de gerenciamento de estado que salva vídeos gerados localmente, para que os usuários não precisem regenerar conteúdo caro se navegarem para longe e voltarem. Quando você está atingindo limites de taxa no Claude, a última coisa que deseja é perder seus vídeos gerados porque atualizou a página.
O conteúdo de vídeo para um clipe de 20 segundos, assumindo que não haja recortes ou regenerações, custou cerca de $10.
Foi aqui que fiquei criativo com as APIs da ElevenLabs. Embora a ElevenLabs seja conhecida principalmente pela geração de voz, também temos uma API de efeitos sonoros que é muito impressionante. Veja o incrível Soundboard como exemplo de casos de uso potenciais.
Usei para gerar quatro variações de efeitos sonoros para cada cena – animado, energético, calmo e dramático. Os usuários podem pré-visualizar cada opção e selecionar o que se encaixa em sua visão.
1 | const response = await elevenLabs.soundGeneration({ |
2 | text: modifiedPrompt, |
3 | duration_seconds: duration, |
4 | prompt_influence: 0.3 |
5 | }); |
6 |
Com quatro clipes de vídeo e quatro trilhas de efeitos sonoros, eu precisava combiná-los. Isso significava mergulhar fundo no FFmpeg, o canivete suíço do processamento de vídeo. O backend executa comandos FFmpeg para:
Acertar os comandos do FFmpeg exigiu um grande esforço de depuração. A mixagem de áudio, em particular, requer atenção cuidadosa aos níveis e ao tempo. Aprendi que o áudio de fundo deve ser reduzido a cerca de 30% do volume quando misturado com a locução – qualquer valor maior compete por atenção, qualquer valor menor e ele praticamente não está lá.
Para a locução, integrei a API de texto para fala da ElevenLabs para oferecer aos usuários uma seleção de vozes. O sistema gera um roteiro de locução coerente a partir de todos os roteiros de cena e, em seguida, envia para a ElevenLabs com configurações de voz otimizadas:
1 | const voiceSettings = { |
2 | stability: 0.75, |
3 | similarity_boost: 0.75, |
4 | style: 0.0, |
5 | use_speaker_boost: true |
6 | }; |
7 |
Essas configurações fornecem uma narração clara e profissional que funciona bem para comerciais. Após experimentar diferentes configurações, descobri que esse equilíbrio oferece consistência sem soar robótico.
Construir com várias APIs de IA significa lidar com vários modos de falha. Limites de taxa, erros de tempo limite, respostas malformadas – todos acontecem. Especialmente quando você está depurando às 2 da manhã e o VEO 2 decide retornar algo inesperado.
Implementei um tratamento de erros abrangente com opções de fallback:
O objetivo era garantir que os usuários pudessem sempre completar seu comercial, mesmo que alguns serviços de IA estivessem tendo um dia ruim.
Gerar um comercial envolve várias chamadas de API de IA que podem levar vários minutos. Para melhorar a experiência, eu:
Também implementei um sistema de persistência de estado. Se alguém fechar o navegador no meio da geração, pode retornar e continuar de onde parou. Isso não estava no meu plano original, mas depois de perder meu próprio progresso algumas vezes durante os testes, tornou-se uma prioridade.
Construir esta ferramenta revelou três lições principais.
Primeiro, o design de prompts é crítico. A qualidade da saída de qualquer modelo de IA depende muito de como você estrutura a entrada. Passei tanto tempo refinando prompts quanto escrevendo código.
Segundo, a experiência do usuário supera a complexidade técnica. Os usuários não se importam com quantos serviços de IA estão envolvidos — eles se importam que a ferramenta funcione. Indicadores de progresso, tratamento de erros e ciclos de feedback rápidos fazem toda a diferença.
Terceiro, assistentes de IA como Claude aceleram o desenvolvimento. Concentrei-me na lógica do produto enquanto delegava o código repetitivo e a sintaxe ao modelo. Não se trata de pular etapas — é sobre construir de forma mais inteligente.
O que começou como um projeto de fim de semana se transformou em uma ferramenta real e extensível. Equipes de marketing podem usá-la para prototipagem, startups para vídeos de apresentação e criadores para conteúdo patrocinado.
O sistema é flexível por design. Você pode mudar estilos de vídeo ajustando os prompts do VEO 2, modificar comprimentos de cena para diferentes formatos ou adicionar música via FFmpeg.
A verdadeira oportunidade está em orquestrar múltiplos sistemas de IA. Nenhum modelo único pode gerar um comercial completo — mas combinados, Gemini, VEO 2 e ElevenLabs podem produzir algo muito mais poderoso do que qualquer um deles sozinho.
Não se trata de a IA substituir criadores. É sobre dar aos criadores melhores ferramentas. Após 20 anos em conteúdo, vi muitas mudanças — mas essa mudança parece fundamental.
Se você quiser explorar como a tecnologia da ElevenLabs pode ajudar a oferecer novas abordagens para conteúdo e mídia entre em contato com nossa equipe de vendas.
Learn how ElevenLabs and Cartesia compare based on features, price, voice quality and more.
Unlocking the Power of AI Voiceovers for eLearning