.webp&w=3840&q=80)
Come dare vita ai video Veo 2 con voiceover ed effetti sonori di ElevenLabs
- Categoria
- Prodotto
- Data
Fotografa una statua. Scopri chi sono i personaggi rappresentati. Poi parla con loro in tempo reale: ogni personaggio risponde con una voce distinta e adatta all’epoca.
È quello che puoi creare con le API Voice Design e Agent di ElevenLabs. In questo articolo ti mostriamo l’architettura di una web app mobile che unisce computer vision e generazione vocale per trasformare i monumenti pubblici in esperienze interattive. Puoi replicare tutto con le API e gli esempi di codice qui sotto.
Tutta l’app qui sotto è stata creata da un unico prompt, testato con successo inCursore con Claude Opus 4.5 (high) partendo da un progetto NextJS vuoto. Se vuoi andare direttamente al sodo e costruire la tua versione, incolla questo nel tuo editor:
Puoi anche usare le Competenze degli agenti ElevenLabs invece di consultare la documentazione. Sono basate sulle docs e possono dare risultati ancora migliori.
Il resto di questo articolo spiega nel dettaglio cosa produce quel prompt.
La pipeline ha cinque fasi:
Quando un utente fotografa una statua, l’immagine viene inviata a un modello OpenAI con capacità di visione. Un prompt strutturato estrae nome dell’opera, luogo, artista, data e – cosa fondamentale – una descrizione dettagliata della voce per ogni personaggio. Il prompt include il formato JSON di output atteso:
Per una foto della statua di Boudica sul Westminster Bridge a Londra, la risposta sarà simile a questa:
La qualità della descrizione vocale determina direttamente la qualità della voce generata. La guida ai prompt di Voice Design lo spiega nel dettaglio, ma gli elementi chiave da includere sono: indicazione della qualità audio ("Qualità audio perfetta."), età e genere, tono/timbro (profondo, risonante, roca), accento preciso ("forte accento celtico britannico" invece di "britannico"), e ritmo. Più la descrizione è dettagliata, più il risultato sarà accurato – "una newyorkese stanca sui 60 anni con senso dell’umorismo asciutto" funziona molto meglio di "voce femminile anziana".
Alcuni consigli dalla guida: usa "forte" invece di "marcato" per descrivere l’accento, evita termini vaghi come "straniero" e, per personaggi storici o di fantasia, puoi suggerire accenti reali come ispirazione (es. "un’antica regina celtica con forte accento britannico, regale e autorevole").
L’ API Voice Design genera nuove voci sintetiche da descrizioni testuali – non servono campioni vocali né clonazione. È perfetta per personaggi storici di cui non esistono registrazioni.
Il processo si divide in due passaggi.
Il parametro text è importante. Un testo di esempio più lungo e adatto al personaggio (oltre 50 parole) dà risultati più stabili – scegli un dialogo coerente con il personaggio invece di un saluto generico. La guida ai prompt di Voice Design approfondisce questo aspetto.
Dopo aver generato le anteprime, selezionane una e crea la voce definitiva:
Per statue con più personaggi, la creazione delle voci avviene in parallelo. Le voci di cinque personaggi vengono generate in circa lo stesso tempo di una sola:
Una volta create le voci, il passo successivo è configurare unAgente ElevenLabs che possa cambiare voce in tempo reale a seconda del personaggio.
L’array supportedVoices indica all’agente quali voci sono disponibili. La piattaforma Agents gestisce il cambio voce in automatico: quando la risposta dell’LLM indica che sta parlando un altro personaggio, il motore TTS assegna quella parte alla voce corretta.
Per far sembrare che più personaggi interagiscano davvero – e non solo rispondano in sequenza – serve progettare il prompt con attenzione:
L’ultimo passaggio è la connessione del client. Gli ElevenLabs Agents supportano WebRTC per conversazioni vocali a bassa latenza – molto più rapido rispetto alle connessioni via WebSocket, il che rende più naturale il cambio di turno nella conversazione.
L’hook useConversation gestisce acquisizione audio, streaming, rilevamento dell’attività vocale e riproduzione.
Per chi vuole più contesto storico prima di iniziare la conversazione, puoi aggiungere una modalità di ricerca avanzata usando lo strumento di ricerca web di OpenAI:
Questo progetto dimostra che, combinando diverse modalità di IA – testo, ricerca, visione e audio – puoi creare esperienze che collegano mondo digitale e reale. C’è ancora molto potenziale nei multi-modal agent che ci piacerebbe vedere esplorato di più per l’educazione, il lavoro e il tempo libero.
Le API usate in questo progetto –Progettazione vocale,ElevenAgents e OpenAI – sono tutte disponibili già da oggi.
.webp&w=3840&q=80)


.webp&w=3840&q=80)