Apresentando o Eleven v3 (alpha)

Experimente o v3

Como dar vida aos vídeos Veo 2 com locuções e efeitos sonoros da ElevenLabs

Este artigo explora como usar locuções e efeitos sonoros da ElevenLabs para aprimorar os vídeos fotorrealistas do Veo 2 do Google, criando experiências de visualização verdadeiramente imersivas.

Neon sign spelling "VET" with reflections on a wet surface.

O Veo 2 do Google facilita mais do que nunca a geração de vídeos fotorrealistas — e agora está disponível no aplicativo web Gemini. Vídeos de oito segundos com prompts diretamente aprimorados pelo Gemini, permitindo edições fáceis.

Só os visuais não são suficientes. O som transforma uma sequência silenciosa em uma experiência totalmente imersiva, e é aí que a ElevenLabs entra. Com a ElevenLabs, gerar uma locução dinâmica AI voiceover em uma variedade de idiomas ou adicionar sound effects pode transformar um vídeo simples em uma história cativante.

Tentei fazer exatamente isso quando usei o Veo 2 do laboratório DeepMind do Google para contar a história de uma cidade que nunca dorme. Gerei 18 clipes diferentes, cada um com cerca de 5 a 8 segundos, focando em cenários urbanos. Os clipes apresentam letreiros de neon, chuva, um trem e várias cenas de rua. Para unir esses momentos fragmentados, adicionei uma locução e efeitos sonoros usando a ElevenLabs.

A person walking on a city street near a bus stop with a bus in the background.

Criando uma Locução Cativante

Uma locução bem elaborada traz estrutura e profundidade emocional ao seu vídeo. Embora possa ser o melhor gerador de vídeos para realismo, os clipes do Veo 2 muitas vezes carecem de consistência de cena ou personagem, tornando a narração o elemento unificador perfeito.

Em vez de deixar o espectador interpretar visuais fragmentados, uma locução cuidadosamente projetada oferece clareza, guiando-o pela história. Você pode começar com o roteiro da locução e depois criar clipes para combinar, ou começar com as cenas (geralmente de um storyboard) e depois escrever para as cenas. Para o vídeo da cidade, criei os prompts primeiro.

ElevenLabs' text-to-speech technology ensures professional-grade narration without the need for expensive recording setups. The flexibility to control tone, pacing, and emotion means you can fine-tune your voiceover to fit the mood of your project effortlessly. There are also thousands of voices to choose from to get exactly the right character.

Planejando Sua Narração

Antes de gerar uma locução, é importante planejar como a narração complementará seu vídeo. Se, como o meu, sua sequência do Veo 2 é uma montagem urbana cinematográfica, a locução pode estabelecer o cenário, adicionar reflexão poética ou melhorar a atmosfera.

Por exemplo, no meu vídeo, tenho uma cena de ruas iluminadas por neon e letreiros piscando. Então escrevi: "A cidade nunca dorme — mal pisca. Ela inala fumaça de escapamento e exala luz de neon, uma fera de aço e vidro pulsando com os passos de um milhão de almas inquietas." Isso une vários clipes.

Escrevendo Seu Roteiro de Locução

Depois de delinear sua narração, o próximo passo é escrever o roteiro para todo o vídeo. Um roteiro bem escrito garante que sua locução esteja alinhada com o tempo dos seus clipes. Como as cenas do Veo 2 geralmente têm de 5 a 8 segundos, sua narração deve ser concisa e bem ritmada. Um clipe de 5 segundos permite cerca de 12-15 palavras, enquanto um clipe de 8 segundos comporta aproximadamente 20-25 palavras.

O tom da sua narração deve combinar com seu vídeo — poético para visuais atmosféricos, estilo documentário para sequências informativas e cinematográfico para narrativas de alta energia. Por exemplo, uma cena em câmera lenta de vapor subindo de um bueiro pode ser narrada com, "A cidade exala, vapor se torcendo no ar frio da noite," enquanto um trem chegando à estação pode merecer, "Uma rajada de vento. O ranger do metal. Outro trem chega, como centenas antes dele."

Gerando Sua Locução com a ElevenLabs

Screenshot of a text-to-speech software interface with a paragraph of text and various settings on the right side.

Depois que seu roteiro estiver polido, é hora de gerar sua locução AI com a ElevenLabs. Vá para a página de text-to-speech no aplicativo ElevenLabs. Aqui você pode colar seu roteiro ou escrevê-lo diretamente. Você pode então selecionar uma voz à direita, bem como definir sua velocidade, estabilidade e outros recursos. Gosto de adicionar 10-20% de exagero de estilo, pois melhora a caracterização.

Um tom profundo e cinematográfico funciona bem para sequências urbanas dramáticas, enquanto uma voz suave e reflexiva melhora narrativas poéticas. Para visuais rápidos, uma entrega energética mantém o ritmo envolvente. Para meu vídeo, usei Lamar Lincoln, uma voz premium que deu um toque mais natural à história. Queria que soasse como alguém refletindo sobre algo de que gosta.

Depois de inserir seu roteiro, ajuste a velocidade e a emoção da locução para combinar com seus visuais. Um ritmo mais lento e deliberado se adapta a momentos dramáticos, enquanto um tom mais conversacional complementa uma montagem energética. Quando estiver satisfeito com o resultado, baixe o arquivo de áudio e prepare-se para sincronizá-lo com seu vídeo.

Prefiro usar apenas uma ou duas frases para ajustar a voz e, em seguida, gerar com base no roteiro completo. Embora, neste caso, o roteiro fosse apenas três parágrafos, então usar o roteiro inteiro não foi um problema. Também funcionou bem desde o início.

Sincronizando Sua Locução

Screenshot of a video editing timeline with clips, audio tracks, and visual effects on a blue background.

Sincronizar a locução AI com seus clipes do Veo 2 é um processo simples usando softwares de edição como Adobe Premiere Pro, DaVinci Resolve, Final Cut Pro ou CapCut.

  • Importe seus clipes de vídeo, adicione a locução à linha do tempo e ajuste os pontos de início e fim para alinhar com os visuais.
  • Use crossfades ou ajuste de tempo, se necessário, para garantir uma fusão perfeita entre narração e movimento.

Aprimorando com Efeitos Sonoros

A text box with a description of flickering fluorescent light and neon signs, and a button labeled "Generate Sound Effects."

Depois que a locução estiver no lugar, é hora de aprimorar seu vídeo com efeitos sonoros. Efeitos sonoros gerados por IA completam a experiência auditiva, adicionando realismo e textura. Um clipe de vídeo por si só pode ser tão real quanto algo filmado com um telefone, mas sem som, cairá naquele abismo de irrealidade que deixa a sensação de que algo está faltando.

Criando Efeitos Sonoros com a ElevenLabs

O gerador de text-to-sfx da ElevenLabs permite criar elementos de áudio personalizados, desde ruídos urbanos ambientes até sons ambientais sutis. Você pode descrever uma paisagem sonora completa com um prompt complexo ou gerar vários arquivos, cada um com um conjunto individual de sons que você então sobrepõe no seu editor de vídeo.

Para criar os efeitos sonoros, vá para o gerador de SFX da ElevenLabs. Você pode explorar uma lista de efeitos sonoros pré-feitos em nossa biblioteca ou criar um som personalizado usando o gerador de text-to-sfx. Você pode até simplificar o processo experimentando nosso vídeo-para-som experimento. Isso permite que você carregue um único clipe e ele fornecerá 4 efeitos sonoros que você pode baixar.

Se você quiser mais controle sobre os sons, vá para o gerador de efeitos sonoros. Aqui você digita um prompt e clica em gerar. Você também pode personalizar a duração do clipe de 0,5 a 22 segundos clicando no botão Configurações.

Para uma maneira mais rápida de navegar, visualizar e coletar áudio pronto, o Soundboard oferece uma interface interativa onde você pode testar e misturar efeitos sonoros na hora — sem necessidade de escrever prompts.

Criando Prompts para Efeitos Sonoros

A majestic lion with a loud and grizzly roar

Crie efeitos sonoros personalizados, trilhas instrumentais e áudio ambiente com nosso poderoso gerador de efeitos sonoros com IA.

Embora você possa dar um prompt complexo com uma explicação totalmente descritiva de toda a paisagem sonora, descobri que é melhor criar uma série de prompts e sobrepô-los. Isso permite controlar o ponto em que diferentes sons tocam com base no conteúdo do vídeo.

Um efeito sonoro bem colocado faz uma cena parecer real — passos ecoando em um beco, a buzina distante de um carro ou o gotejar rítmico da chuva na calçada. Combinar esses sons com seus visuais aumenta a imersão, tornando cada quadro mais impactante.

Se seu vídeo apresenta um letreiro de neon piscando, um leve zumbido elétrico ao fundo reforça sua presença. Se um trem do metrô freia bruscamente, adicionar atrito metal com metal aumenta a autenticidade.

Exemplos de Prompts:

  • Prompt Descritivo: "Suave tique-taque do ponteiro dos segundos de um relógio, leve farfalhar de manga de casaco ajustando, ruído urbano ambiente ao fundo — buzinas abafadas, conversa distante, ocasional piscar de letreiros de neon, leve raspagem metálica ao girar o pulso."
  • Prompts em Camadas:
    • "Suave tique-taque do ponteiro dos segundos de um relógio"
    • "Leve farfalhar de manga de casaco ajustando"
    • "Ruído urbano ambiente"

Você pode então sobrepor esses sons no seu editor de vídeo.

Depois de ter os sons sobrepostos e o volume de cada clipe ajustado para criar a saída perfeita, exporte e compartilhe seu vídeo.

Seja você criando uma montagem cinematográfica, uma reflexão poética sobre a cidade ou um curta-metragem estilo documentário, o áudio gerado por IA dá vida à sua visão. Experimente a ElevenLabs hoje e transforme seu vídeo Veo 2 em uma experiência totalmente imersiva com o poder da voz e do som.

Explore artigos da equipe ElevenLabs

ElevenLabs

Crie com o áudio IA da mais alta qualidade

Adicione locuções e efeitos sonoros da ElevenLabs aos vídeos Veo 2 | ElevenLabs