Come dare vita ai video Veo 2 con voiceover ed effetti sonori di ElevenLabs

Scritto da: Ryan Morrison
Pubblicato: 7 mag 2025
Ultimo aggiornamento: 7 lug 2026

AscoltaAscolta questo articolo

0:00

0:000:00

Veo 2 di Google rende più semplice che mai generare video fotorealistici — ora disponibile anche nella web app Gemini. Video di otto secondi con prompt gestiti direttamente da Gemini, che permettono modifiche rapide.

Ma le immagini da sole non bastano. Il suono trasforma una sequenza silenziosa in un’esperienza davvero immersiva, ed è qui che entra in gioco ElevenLabs. Con ElevenLabs puoi generare un voiceover IA in diverse lingue oppure aggiungere effetti sonori e trasformare così un semplice video in una storia avvincente.

Ho provato a fare proprio questo usando Veo 2 del laboratorio DeepMind di Google per raccontare la storia di una città che non dorme mai. Ho generato 18 clip diverse, ognuna di circa 5-8 secondi, tutte ambientate in contesti urbani. Le clip mostrano insegne al neon, pioggia, un treno e varie scene di strada. Per unire questi momenti frammentati, ho aggiunto un voiceover e degli effetti sonori con ElevenLabs.

A person walking on a city street near a bus stop with a bus in the background.

Creare un voiceover coinvolgente

Un voiceover IA ben realizzato dà struttura e profondità emotiva al tuo video. Anche se Veo 2 è forse il miglior generatore di video per realismo, spesso le sue clip mancano di coerenza tra scene o personaggi: la narrazione diventa quindi l’elemento perfetto per unire tutto.

Invece di lasciare che chi guarda interpreti immagini frammentate, un voiceover studiato con cura offre chiarezza e guida lo spettatore nella storia. Puoi partire dal testo del voiceover e poi creare le clip di conseguenza, oppure partire dalle riprese (magari da uno storyboard) e scrivere il testo in base a quelle. Per il video sulla città, io ho creato prima i prompt.

ElevenLabs' text-to-speech technology ensures professional-grade narration without the need for expensive recording setups. The flexibility to control tone, pacing, and emotion means you can fine-tune your voiceover to fit the mood of your project effortlessly. There are also thousands of voices to choose from to get exactly the right character.

Pianifica la tua narrazione

Prima di generare un voiceover, è importante pensare a come la narrazione completerà il tuo video. Se, come nel mio caso, la sequenza Veo 2 è un montaggio urbano cinematografico, il voiceover può definire l’ambientazione, aggiungere riflessioni poetiche o rafforzare l’atmosfera.

Ad esempio, nel mio video c’è una scena di strade illuminate al neon e insegne che lampeggiano. Così ho scritto: "La città non dorme mai — quasi non sbatte nemmeno le palpebre. Inspira fumi di scarico ed espira luce al neon, una bestia d’acciaio e vetro che pulsa con i passi di milioni di anime irrequiete." Questo collega tra loro diverse inquadrature.

Scrivere il testo del voiceover

Dopo aver definito la narrazione, il passo successivo è scrivere il testo per tutto il video. Un copione ben scritto fa sì che il voiceover sia sincronizzato con la durata delle clip. Visto che le scene di Veo 2 durano spesso tra 5 e 8 secondi, la narrazione deve essere concisa e ben ritmata. Una clip di 5 secondi permette circa 12-15 parole, mentre una da 8 secondi ne contiene circa 20-25.

Il tono della narrazione deve rispecchiare il video: poetico per immagini suggestive, stile documentario per sequenze informative, cinematografico per storie ad alta energia. Ad esempio, una ripresa rallentata del vapore che sale da un tombino può essere narrata con: "La città espira, il vapore si attorciglia nell’aria fredda della notte"; mentre un treno che entra in stazione può richiedere: "Una raffica di vento. Il cigolio del metallo. Un altro treno arriva, come centinaia prima di lui."

Generare il voiceover con ElevenLabs

Screenshot of a text-to-speech software interface with a paragraph of text and various settings on the right side.

Quando il copione è pronto, puoi generare il voiceover IA con ElevenLabs. Vai alla pagina text-to-speech nell’app di ElevenLabs. Qui puoi incollare il testo oppure scriverlo direttamente. Puoi poi scegliere una voce a destra e regolare velocità, stabilità e altre impostazioni. Io di solito aggiungo un’esagerazione dello stile tra il 10% e il 20% perché migliora la caratterizzazione.

Un tono profondo e cinematografico funziona bene per sequenze urbane drammatiche, mentre una voce morbida e riflessiva valorizza narrazioni poetiche. Per immagini veloci, una lettura energica mantiene il ritmo coinvolgente. Per il mio video, ho usato Lamar Lincoln, una voce premium che ha dato un tocco più naturale alla storia. Volevo che sembrasse qualcuno che riflette su qualcosa a cui tiene.

Dopo aver inserito il testo, regola velocità ed emozione del voiceover in base alle immagini. Un ritmo lento e deciso si adatta ai momenti drammatici, mentre un tono più colloquiale si sposa con un montaggio energico. Quando sei soddisfatto del risultato, scarica il file audio e preparati a sincronizzarlo con il video.

Preferisco usare una o due frasi per regolare la voce, poi generare tutto il copione. In questo caso, però, il testo era solo di tre paragrafi, quindi usare tutto il copione non è stato un problema. Ha funzionato bene fin dall’inizio.

Sincronizzare il voiceover

Screenshot of a video editing timeline with clips, audio tracks, and visual effects on a blue background.

Sincronizzare il voiceover IA con le clip Veo 2 è semplice usando software di editing come Adobe Premiere Pro, DaVinci Resolve, Final Cut Pro o CapCut.

Importa le clip video, aggiungi il voiceover sulla timeline e regola i punti di inizio e fine per allinearli alle immagini.
Se serve, usa dissolvenze incrociate o time-stretching per ottenere una fusione fluida tra narrazione e immagini in movimento.

Arricchire con effetti sonori

A text box with a description of flickering fluorescent light and neon signs, and a button labeled "Generate Sound Effects."

Quando il voiceover è pronto, puoi arricchire il video con effetti sonori. Gli effetti sonori generati con l’IA completano l’esperienza uditiva aggiungendo realismo e profondità. Una clip video può sembrare reale quanto una ripresa con lo smartphone, ma senza suono rischia di cadere in quella sensazione di irrealtà che fa percepire che manca qualcosa.

Creare effetti sonori con ElevenLabs

Il generatore text-to-sfx di ElevenLabs ti permette di creare elementi audio personalizzati, dai rumori ambientali della città a suoni ambientali più delicati. Puoi descrivere un intero paesaggio sonoro con un prompt complesso, oppure generare più file con singoli suoni da sovrapporre poi nell’editor video.

Per creare gli effetti sonori, vai al generatore SFX di ElevenLabs. Puoi esplorare una lista di effetti sonori già pronti nella nostra libreria, oppure creare un suono personalizzato con il generatore text-to-sfx. Puoi anche semplificare il processo provando il nostro esperimento video in audio. Ti basta caricare una clip e riceverai 4 effetti sonori da scaricare.

Se vuoi più controllo sui suoni, vai al generatore di effetti sonori. Qui inserisci un prompt e clicchi su genera. Puoi anche personalizzare la durata della clip tra 0,5 e 22 secondi cliccando sul pulsante Impostazioni.

Per esplorare, ascoltare e raccogliere rapidamente audio già pronti, la Soundboard offre un’interfaccia interattiva dove puoi testare e mixare effetti sonori in tempo reale, senza bisogno di scrivere prompt.

Prompt per effetti sonori

Anche se puoi inserire un prompt complesso che descrive tutto il paesaggio sonoro, ho scoperto che è meglio creare una serie di prompt e sovrapporli. Così puoi controllare quando far partire i diversi suoni in base a ciò che succede nel video.

Un effetto sonoro ben posizionato rende reale una scena: passi che riecheggiano in un vicolo, il clacson lontano di un’auto, il ritmo della pioggia sull’asfalto. Abbinare questi suoni alle immagini aumenta l’immersione e dà più forza a ogni fotogramma.

Se nel video c’è un’insegna al neon che lampeggia, un leggero ronzio elettrico di sottofondo ne rafforza la presenza. Se un treno della metro si ferma bruscamente, aggiungere il suono del metallo che striscia su metallo rende tutto più autentico.

Esempi di prompt:

Prompt descrittivo: "Ticchettio leggero della lancetta dei secondi di un orologio, fruscio lieve della manica di un cappotto che si aggiusta, rumore ambientale della città sullo sfondo — clacson ovattati, conversazioni lontane, lampeggiare occasionale di insegne al neon, leggero stridio metallico mentre il polso si gira."
Prompt a strati:
- "Ticchettio leggero della lancetta dei secondi di un orologio"
- "Fruscio lieve della manica di un cappotto che si aggiusta"
- "Rumore ambientale della città"

Puoi poi sovrapporre questi suoni nell’editor video.

Quando hai stratificato i suoni e regolato il volume di ogni clip per ottenere il risultato perfetto, esporta e condividi il tuo video.

Che tu stia creando un montaggio cinematografico, una riflessione poetica sulla città o un breve documentario, l’audio generato con l’IA dà vita alla tua visione. Prova ElevenLabs e trasforma il tuo video Veo 2 in un’esperienza davvero immersiva grazie a voce ed effetti sonori.

Come dare vita ai video Veo 2 con voiceover ed effetti sonori di ElevenLabs

Creare un voiceover coinvolgente

Pianifica la tua narrazione

Scrivere il testo del voiceover

Generare il voiceover con ElevenLabs

Sincronizzare il voiceover

Arricchire con effetti sonori

Creare effetti sonori con ElevenLabs

Prompt per effetti sonori

Articoli simili

Gli effetti sonori generati dall’IA sono arrivati

Accessibilità del Text to Speech: perché la qualità della voce è importante

ElevenMusic, ElevenCreative Music ed ElevenAPI: le differenze

Generatore gratuito di messaggi vocali AI per segreteria telefonica