Cómo dar vida a los vídeos de Veo 2 con locuciones y efectos de sonido de ElevenLabs

Este artículo explora cómo usar las locuciones y efectos de sonido de IA de ElevenLabs para mejorar los vídeos fotorrealistas de Veo 2 de Google, creando experiencias de visualización realmente inmersivas.

Neon sign spelling "VET" with reflections on a wet surface.

Veo 2 de Google facilita más que nunca la generación de vídeos fotorrealistas, y ahora está disponible en la aplicación web Gemini. Vídeos de ocho segundos con prompts mejorados directamente por Gemini, permitiendo ediciones fáciles.

Sin embargo, las imágenes por sí solas no son suficientes. El sonido transforma una secuencia silenciosa en una experiencia completamente inmersiva, y ahí es donde entra ElevenLabs. Con ElevenLabs, generar una dinámica locución de IA en una variedad de idiomas o añadir efectos de sonido puede transformar un vídeo simple en una historia cautivadora.

Intenté hacer precisamente eso cuando usé Veo 2 del laboratorio DeepMind de Google para contar la historia de una ciudad que nunca duerme. Generé 18 clips diferentes, cada uno de entre 5 y 8 segundos, centrados en entornos urbanos. Los clips muestran letreros de neón, lluvia, un tren y varias escenas callejeras. Para unir estos momentos fragmentados, añadí una locución y efectos de sonido usando ElevenLabs.

A person walking on a city street near a bus stop with a bus in the background.

Creando una Locución Cautivadora

Una locución de IA bien elaborada aporta estructura y profundidad emocional a tu vídeo. Aunque pueda ser el mejor generador de vídeos para el realismo, los clips de Veo 2 a menudo carecen de consistencia en escenas o personajes, haciendo de la narración el elemento unificador perfecto.

En lugar de dejar que el espectador interprete visuales fragmentados, una locución cuidadosamente diseñada proporciona claridad, guiándolos a través de la historia. Puedes comenzar con el guion de la locución y luego crear clips que coincidan, o empezar con las tomas (generalmente de un storyboard) y luego escribir para las tomas. Para el vídeo de la ciudad, creé los prompts primero.

ElevenLabs' text-to-speech technology ensures professional-grade narration without the need for expensive recording setups. The flexibility to control tone, pacing, and emotion means you can fine-tune your voiceover to fit the mood of your project effortlessly. There are also thousands of voices to choose from to get exactly the right character.

Planificando Tu Narración

Antes de generar una locución, es importante planificar cómo la narración complementará tu vídeo. Si, como el mío, tu secuencia de Veo 2 es un montaje urbano cinematográfico, la locución puede establecer el escenario, añadir reflexión poética o mejorar la atmósfera.

Por ejemplo, en mi vídeo, tengo una escena de calles iluminadas con neón y letreros parpadeantes. Así que escribí: "La ciudad nunca duerme — apenas parpadea. Inhala humo de escape y exhala luz de neón, una bestia de acero y vidrio que late con los pasos de un millón de almas inquietas." Esto une varios planos.

Escribiendo Tu Locución

Una vez que hayas delineado tu narración, el siguiente paso es escribir el guion para todo el vídeo. Un guion bien escrito asegura que tu locución se alinee con el tiempo de tus clips. Dado que las escenas de Veo 2 suelen durar de 5 a 8 segundos, tu narración debe ser concisa y bien ritmada. Un clip de 5 segundos permite alrededor de 12-15 palabras, mientras que un clip de 8 segundos encaja aproximadamente 20-25 palabras.

El tono de tu narración debe coincidir con tu vídeo — poético para visuales atmosféricos, estilo documental para secuencias informativas, y cinematográfico para narraciones de alta energía. Por ejemplo, una toma en cámara lenta de vapor saliendo de una alcantarilla podría narrarse con, "La ciudad exhala, el vapor se retuerce en el aire frío de la noche," mientras que un tren entrando en una estación podría merecer, "Una ráfaga de viento. El chirrido del metal. Otro tren llega, como los cientos anteriores."

Generando Tu Locución con ElevenLabs

Screenshot of a text-to-speech software interface with a paragraph of text and various settings on the right side.

Una vez que tu guion esté pulido, es hora de generar tu locución de IA con ElevenLabs. Dirígete a la página de text-to-speech en la aplicación de ElevenLabs. Aquí puedes pegar tu guion, o escribirlo directamente. Luego puedes seleccionar una voz a la derecha, así como ajustar su velocidad, estabilidad y otras características. Me gusta añadir un 10-20% de exageración de estilo ya que mejora la caracterización.

Un tono profundo y cinematográfico funciona bien para secuencias urbanas dramáticas, mientras que una voz suave y reflexiva realza narrativas poéticas. Para visuales de ritmo rápido, una entrega enérgica mantiene el ritmo atractivo. Para mi vídeo, usé a Lamar Lincoln, una voz premium que dio un toque más natural a la historia. Quería que sonara como alguien reflexionando sobre algo que le importa.

Después de ingresar tu guion, ajusta la velocidad y emoción de la locución para que coincida con tus visuales. Un ritmo más lento y deliberado se adapta a momentos dramáticos, mientras que un tono más conversacional complementa un montaje enérgico. Una vez que estés satisfecho con el resultado, descarga el archivo de audio y prepárate para sincronizarlo con tu vídeo.

Prefiero usar solo una o dos frases para ajustar la voz, luego generar basado en el guion completo. Aunque en este caso, el guion solo tenía tres párrafos, así que usar el guion completo no fue un problema. También funcionó bien desde el principio.

Sincronizando Tu Locución

Screenshot of a video editing timeline with clips, audio tracks, and visual effects on a blue background.

Sincronizar la locución de IA con tus clips de Veo 2 es un proceso sencillo usando software de edición como Adobe Premiere Pro, DaVinci Resolve, Final Cut Pro o CapCut.

  • Importa tus clips de vídeo, añade la locución a la línea de tiempo y ajusta los puntos de inicio y fin para alinearlos con los visuales.
  • Usa fundidos cruzados o estiramiento de tiempo si es necesario para asegurar una mezcla fluida entre narración y movimiento.

Mejorando con Efectos de Sonido

A text box with a description of flickering fluorescent light and neon signs, and a button labeled "Generate Sound Effects."

Una vez que la locución está en su lugar, es hora de mejorar tu vídeo con efectos de sonido. Los efectos de sonido generados por IA completan la experiencia auditiva añadiendo realismo y textura. Un clip de vídeo por sí solo puede ser tan real como algo filmado con un teléfono, pero sin sonido, caerá en ese abismo de irrealidad que te deja sintiendo que falta algo.

Creando Efectos de Sonido con ElevenLabs

El generador de text-to-sfx de ElevenLabs te permite crear elementos de audio personalizados, desde ruido ambiental de la ciudad hasta sonidos ambientales sutiles. Puedes describir un paisaje sonoro completo con un prompt complejo, o generar múltiples archivos cada uno con un conjunto individual de sonidos que luego superpones en tu editor de vídeo.

Para crear los efectos de sonido, dirígete al generador de SFX de ElevenLabs. Puedes explorar una lista de efectos de sonido pre-hechos en nuestra biblioteca, o crear un sonido personalizado usando el generador de text-to-sfx. Incluso puedes simplificar el proceso probando nuestro experimento de video-to-sound. Esto te permite subir un solo clip y te proporcionará 4 efectos de sonido que puedes descargar.

Si quieres más control sobre los sonidos, dirígete al generador de efectos de sonido. Aquí escribes un prompt y haces clic en generar. También puedes personalizar la duración del clip entre 0.5 y 22 segundos haciendo clic en el botón de Configuración.

Para una forma más rápida de explorar, previsualizar y recopilar audio ya hecho, el Soundboard ofrece una interfaz interactiva donde puedes probar y mezclar efectos de sonido al instante, sin necesidad de escribir prompts.

Creando Prompts para Efectos de Sonido

A majestic lion with a loud and grizzly roar

Crea efectos de sonido personalizados y audio ambiental con nuestro potente generador de efectos de sonido con IA.

Aunque puedes dar un prompt complejo con una explicación completamente descriptiva de todo el paisaje sonoro, he encontrado mejor crear una serie de prompts y superponerlos. Esto te permite controlar el punto en que diferentes sonidos se reproducen según el contenido del vídeo.

Un efecto de sonido bien colocado hace que una escena se sienta real — pasos resonando en un callejón, el lejano claxon de un coche, o el goteo rítmico de la lluvia sobre el pavimento. Emparejar estos sonidos con tus visuales mejora la inmersión, haciendo que cada fotograma sea más impactante.

Si tu vídeo presenta un letrero de neón parpadeante, un leve zumbido eléctrico de fondo refuerza su presencia. Si un tren subterráneo se detiene con un chirrido, superponer fricción de metal sobre metal añade autenticidad.

Ejemplos de Prompts:

  • Prompt Descriptivo: "Suave tic-tac de la manecilla de un reloj, leve crujido de una manga de abrigo ajustándose, ruido ambiental de la ciudad de fondo — bocinas apagadas, conversación distante, parpadeo ocasional de letreros de neón, leve raspado metálico al girar la muñeca."
  • Prompts en Capas:
    • "Suave tic-tac de la manecilla de un reloj"
    • "Leve crujido de una manga de abrigo ajustándose"
    • "Ruido ambiental de la ciudad"

Luego puedes apilarlos uno sobre otro en tu editor de vídeo.

Una vez que tengas el sonido en capas y el volumen de cada clip ajustado para crear la salida perfecta, exporta y comparte tu vídeo.

Ya sea que estés creando un montaje cinematográfico, una reflexión poética de la ciudad, o un cortometraje estilo documental, el audio generado por IA da vida a tu visión. Prueba ElevenLabs hoy y transforma tu vídeo de Veo 2 en una experiencia completamente inmersiva con el poder de la voz y el sonido.

Descubre artículos del equipo de ElevenLabs

ElevenLabs

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión