Come ho creato un generatore di spot pubblicitari con ElevenLabs, Gemini e VEO 2

Scritto da: Ryan Morrison
Pubblicato: 29 mag 2025
Ultimo aggiornamento: 27 mag 2026

AscoltaAscolta questo articolo

0:00

0:000:00

Da vent’anni creo contenuti — dal giornalismo ai video di prodotto. L’IA permette di sbloccare nuovi workflow creativi. Con l’incontro tra vibe coding e generazione video sempre più realistica, mi sono chiesto se fosse possibile creare uno strumento che, partendo da un semplice prompt, producesse uno spot pubblicitario di 20 secondi.

Il concetto era semplice: scrivi un’idea di prodotto anche solo abbozzata e ricevi uno spot di 30 secondi già pronto, con immagini generate dall’IA, voce fuori campo ed effetti sonori. Ecco come l’ho realizzato usando ElevenLabs Text to Speech e le API SFX, Gemini di Google e VEO 2 di Google per la generazione video. Al momento della creazione, VEO 3 non era ancora stato rilasciato.

La versione finale è stata creata quasi interamente con Claude 4 Opus di Anthropic, anche se ci sono voluti alcuni giorni perché continuavo a raggiungere il limite di richieste.

Stack scelto: Node.js, Express, React e Claude 4 Opus

A commercial for "finding places to eat lunch in a park"

Ho scelto Node.js con Express per il backend e React per il frontend. Node gestisce gli aggiornamenti in tempo reale durante la generazione dei video, mentre l’architettura a componenti di React rende semplice gestire e ampliare l’interfaccia a più step.

Scrivo codice a fasi alterne da quando ero bambino — ho iniziato con una penna robot alle elementari. Ma sono sempre stato più un product thinker che un ingegnere a tempo pieno. Strumenti come Claude 4 Opus hanno cambiato le carte in tavola: con i prompt giusti posso muovermi velocemente, implementare le funzionalità correttamente e concentrarmi sulla logica di prodotto invece che sul boilerplate.

Non si tratta di delegare la creatività all’IA, ma di costruire in modo più intelligente con gli strumenti giusti.

Wizard in otto step: dal prompt allo spot finito

Creare uno spot per un nuovo prodotto o servizio, anche se dura solo 20 secondi, richiede diversi passaggi complessi, quindi ho suddiviso il processo in otto fasi distinte:

Informazioni sul prodotto
Generazione dello script
Creazione del video
Effetti sonori
Assemblaggio video
Voce fuori campo
Video finale
Post social

Ogni step si basa sul precedente, creando una pipeline che trasforma una semplice idea in uno spot completo. In ogni fase l’utente ha il pieno controllo per modificare qualsiasi elemento o rigenerare testo, video o audio.

A commercial for "Epoch" matching

Raffinare le idee con Gemini Flash

La prima sfida era che quasi nessuno parte da un’idea di prodotto già definita. Spesso si scrive qualcosa di vago come "qualcosa per la produttività". Qui entra in gioco Gemini.

Ho usato il modello Gemini 2.0 Flash di Google per trasformare idee grezze in concetti di prodotto concreti. L’ingegnerizzazione del prompt qui era fondamentale: Gemini doveva essere specifico e concreto, non vago e generico. Invece di accettare "qualcosa per il fitness", il sistema lo trasforma in qualcosa come "FitPulse IA: un braccialetto intelligente che usa biometria avanzata per creare micro-allenamenti personalizzati durante la giornata."

"""Enhance a product idea using Gemini"""
        
        prompt = f"""
        Enhance this product idea to make it more compelling:
        
        Original idea: {idea}
        Target mood: {mood}
        Target audience: {audience}
        
        Make it:
        1. Clear and specific about the value proposition
        2. Appeal to {audience}
        3. Match the {mood.lower()} tone
        4. Be memorable and marketable
        
        Keep it to 2-3 sentences.
        """

Generare script non generici con Gemini

Poi sono passato alla generazione dello script. Sempre con Gemini, ho strutturato l’output in quattro scene da 5 secondi, ognuna con tre componenti:

Script della voce fuori campo
Prompt per la generazione video
Descrizione degli effetti sonori

La chiave era far capire a Gemini il mood e il pubblico di riferimento. Uno spot "ironico" per i millennial richiede un linguaggio diverso rispetto a uno "professionale" per clienti enterprise.

Ho dedicato molto tempo a perfezionare i prompt per evitare testi generici da IA e ottenere script su misura per ogni prodotto.

     """Generate a 4-scene commercial script"""
        
        prompt = f"""
        Create a 30-second commercial script with exactly 4 scenes.
        
        Product: {product_name}
        Audience: {target_audience}
        Key Message: {key_message}
        Mood: {mood}
        
        Return a JSON array with 4 scenes, each with:
        - number: 1-4
        - duration: 5
        - script: What the voiceover says
        - videoPrompt: Visual description for video generation
        - sfxPrompt: Sound effects description
        
        Example format:
        [{{"number": 1, "duration": 5, "script": "...", "videoPrompt": "...", "sfxPrompt": "..."}}]
        """

Creare scene da 5 secondi con VEO 2

Ho usato l’API hosted di FAL.ai per il modello VEO 2 di Google. Il prompt video di ogni scena viene inviato a FAL.ai, che restituisce una clip video di 5 secondi. Questa è stata una delle integrazioni più complesse: ho dovuto gestire tempi di generazione lunghi, limiti API e fornire feedback agli utenti durante l’attesa.

Avevo inizialmente pensato di usare Google AI Studio o Vertex AI per l’API di Veo 2, così avrei potuto usare la stessa API key di Gemini, ma non sono riuscito a far funzionare Veo 2 sul mio account.

Ho implementato un sistema di gestione dello stato che salva i video generati in locale, così gli utenti non devono rigenerare contenuti costosi se escono e poi tornano. Quando raggiungi i limiti di Claude, l’ultima cosa che vuoi è perdere i video generati solo perché hai aggiornato la pagina.

Il costo dei contenuti video per una clip di 20 secondi, senza rigenerazioni o modifiche, è stato di circa 10 $.

Usare ElevenLabs per effetti sonori e voce fuori campo

Qui mi sono sbizzarrito con le API di ElevenLabs. Anche se ElevenLabs è conosciuta soprattutto per la generazione vocale, abbiamo anche un’API per effetti sonori davvero notevole. Guarda l’incredibile esempio di Soundboard per scoprire le possibili applicazioni.

L’ho usata per generare quattro varianti di effetti sonori per ogni scena: energico, vivace, rilassato e drammatico. Gli utenti possono ascoltare l’anteprima di ogni opzione e scegliere quella che meglio si adatta alla loro idea.

const response = await elevenLabs.soundGeneration({
  text: modifiedPrompt,
  duration_seconds: duration,
  prompt_influence: 0.3
});

Assemblare i video finali con FFmpeg

Con quattro clip video e quattro tracce di effetti sonori, dovevo combinarle. Questo mi ha portato a lavorare a fondo con FFmpeg, il coltellino svizzero dell’editing video. Il backend esegue comandi FFmpeg per:

Mixare gli effetti sonori con ogni clip video
Unire tutte le clip in un unico video
Aggiungere la voce fuori campo al video finale

Perfezionare i comandi FFmpeg ha richiesto parecchio debug. Il mix audio, in particolare, va curato nei livelli e nei tempi. Ho imparato che l’audio di sottofondo va abbassato a circa il 30% del volume quando si mixa con la voce fuori campo: più alto rischia di coprire la voce, più basso praticamente non si sente.

Voce fuori campo: dove ElevenLabs dà il meglio

Per la voce fuori campo ho integrato la API text-to-speech di ElevenLabs per offrire agli utenti una selezione di voci. Il sistema genera uno script unico e coerente a partire dagli script delle scene, poi lo invia a ElevenLabs con impostazioni vocali ottimizzate:

const voiceSettings = {
  stability: 0.75,
  similarity_boost: 0.75,
  style: 0.0,
  use_speaker_boost: true
};

Queste impostazioni garantiscono una narrazione chiara e professionale, perfetta per gli spot. Dopo vari esperimenti, ho trovato che questo equilibrio offre coerenza senza sembrare artificiale.

Gestione degli errori e user experience

Lavorare con più API IA significa affrontare diversi tipi di errori: limiti di richieste, timeout, risposte malformate... Succede tutto, soprattutto quando fai debug alle 2 di notte e VEO 2 restituisce qualcosa di inaspettato.

Ho implementato una gestione degli errori completa con opzioni di fallback:

Se Gemini fallisce, il sistema propone script alternativi intelligenti
Se la generazione video fallisce, sono disponibili video segnaposto
Se la generazione audio fallisce, vengono usate tracce base

L’obiettivo era permettere agli utenti di completare sempre il loro spot, anche se qualche servizio IA non funziona al meglio.

Considerazioni sulle performance

A commercial for "Globetrotter Grocer"

Generare uno spot richiede molte chiamate API IA che possono durare diversi minuti. Per migliorare l’esperienza ho:

Processato i video in parallelo dove possibile
Mostrato indicatori di avanzamento in tempo reale
Salvato in locale i contenuti generati più costosi
Permesso agli utenti di rigenerare singoli componenti

Ho anche implementato un sistema di persistenza dello stato. Se qualcuno chiude il browser durante la generazione, può tornare e riprendere da dove aveva lasciato. Non era previsto all’inizio, ma dopo aver perso io stesso i progressi durante i test, è diventato prioritario.

Cosa ho imparato e cosa succede ora

Costruire questo strumento mi ha insegnato tre cose fondamentali.

Primo: la progettazione dei prompt è fondamentale. La qualità dell’output di qualsiasi modello IA dipende molto da come si imposta l’input. Ho passato tanto tempo a perfezionare i prompt quanto a scrivere codice.

Secondo: l’esperienza utente conta più della complessità tecnica. Agli utenti non interessa quante IA ci sono dietro — vogliono che lo strumento funzioni. Indicatori di avanzamento, gestione degli errori e feedback rapido fanno la differenza.

Terzo: assistenti IA come Claude accelerano lo sviluppo. Mi sono concentrato sulla logica di prodotto, lasciando al modello il boilerplate e la sintassi. Non si tratta di saltare passaggi, ma di costruire in modo più intelligente.

Quello che era nato come un progetto da weekend è diventato uno strumento vero ed estendibile. I team marketing possono usarlo per prototipi, le startup per video pitch, i creator per contenuti sponsorizzati.

Il sistema è flessibile per natura. Puoi cambiare lo stile dei video modificando i prompt di VEO 2, regolare la durata delle scene per diversi formati o aggiungere

La vera opportunità sta nell’orchestrare più sistemi IA insieme. Nessun modello da solo può generare uno spot completo, ma insieme, Gemini, VEO 2 ed ElevenLabs possono creare qualcosa di molto più potente di quanto farebbero separatamente.

Non si tratta di sostituire i creatori con l’IA, ma di offrire loro strumenti migliori. Dopo 20 anni nei contenuti, ho visto tanti cambiamenti — ma questa svolta è davvero fondamentale.

Se vuoi scoprire come la tecnologia ElevenLabs può aiutarti a trovare nuovi modi di creare contenuti e media, contatta il nostro team commerciale.