Parla con una statua: crea un'app multi-modale con ElevenAgents
- Scritto da
- Joe Reeve
- Pubblicato
- Ultimo aggiornamento
AscoltaAscolta questo articolo
Fotografa una statua. Scopri chi sono i personaggi rappresentati. Poi parla con loro in tempo reale: ogni personaggio risponde con una voce distinta e adatta all’epoca.
È quello che puoi creare con le API Voice Design e Agent di ElevenLabs. In questo articolo ti mostriamo l’architettura di una web app mobile che unisce computer vision e generazione vocale per trasformare i monumenti pubblici in esperienze interattive. Puoi replicare tutto con le API e gli esempi di codice qui sotto.
Salta il tutorial: creala con un solo prompt
Tutta l’app qui sotto è stata creata da un unico prompt, testato con successo inCursore con Claude Opus 4.5 (high) partendo da un progetto NextJS vuoto. Se vuoi andare direttamente al sodo e costruire la tua versione, incolla questo nel tuo editor:
Puoi anche usare le Competenze degli agenti ElevenLabs invece di consultare la documentazione. Sono basate sulle docs e possono dare risultati ancora migliori.
Il resto di questo articolo spiega nel dettaglio cosa produce quel prompt.
Come funziona
La pipeline ha cinque fasi:
- Scatta una foto
- Identifica l’opera e i personaggi (OpenAI)
- Ricerca la storia (OpenAI)
- Genera voci uniche per ogni personaggio (ElevenAPI)
- Avvia una conversazione vocale in tempo reale tramite WebRTC (ElevenAgents)
Identificare la statua con la visione artificiale
Quando un utente fotografa una statua, l’immagine viene inviata a un modello OpenAI con capacità di visione. Un prompt strutturato estrae nome dell’opera, luogo, artista, data e – cosa fondamentale – una descrizione dettagliata della voce per ogni personaggio. Il prompt include il formato JSON di output atteso:
Per una foto della statua di Boudica sul Westminster Bridge a Londra, la risposta sarà simile a questa:
Scrivere descrizioni vocali efficaci
La qualità della descrizione vocale determina direttamente la qualità della voce generata. La guida ai prompt di Voice Design lo spiega nel dettaglio, ma gli elementi chiave da includere sono: indicazione della qualità audio ("Qualità audio perfetta."), età e genere, tono/timbro (profondo, risonante, roca), accento preciso ("forte accento celtico britannico" invece di "britannico"), e ritmo. Più la descrizione è dettagliata, più il risultato sarà accurato – "una newyorkese stanca sui 60 anni con senso dell’umorismo asciutto" funziona molto meglio di "voce femminile anziana".
Alcuni consigli dalla guida: usa "forte" invece di "marcato" per descrivere l’accento, evita termini vaghi come "straniero" e, per personaggi storici o di fantasia, puoi suggerire accenti reali come ispirazione (es. "un’antica regina celtica con forte accento britannico, regale e autorevole").
Crea voci per i tuoi personaggi con
L’ API Voice Design genera nuove voci sintetiche da descrizioni testuali – non servono campioni vocali né clonazione. È perfetta per personaggi storici di cui non esistono registrazioni.
Il processo si divide in due passaggi.
Genera le anteprime
Il parametro text è importante. Un testo di esempio più lungo e adatto al personaggio (oltre 50 parole) dà risultati più stabili – scegli un dialogo coerente con il personaggio invece di un saluto generico. La guida ai prompt di Voice Design approfondisce questo aspetto.
Salva la voce
Dopo aver generato le anteprime, selezionane una e crea la voce definitiva:
Per statue con più personaggi, la creazione delle voci avviene in parallelo. Le voci di cinque personaggi vengono generate in circa lo stesso tempo di una sola:
Creare un agente ElevenLabs multi-voce
Una volta create le voci, il passo successivo è configurare unAgente ElevenLabs che possa cambiare voce in tempo reale a seconda del personaggio.
Cambio voce multi-personaggio
L’array supportedVoices indica all’agente quali voci sono disponibili. La piattaforma Agents gestisce il cambio voce in automatico: quando la risposta dell’LLM indica che sta parlando un altro personaggio, il motore TTS assegna quella parte alla voce corretta.
Prompt engineering per conversazioni di gruppo
Per far sembrare che più personaggi interagiscano davvero – e non solo rispondano in sequenza – serve progettare il prompt con attenzione:
Voce in tempo reale via WebRTC
L’ultimo passaggio è la connessione del client. Gli ElevenLabs Agents supportano WebRTC per conversazioni vocali a bassa latenza – molto più rapido rispetto alle connessioni via WebSocket, il che rende più naturale il cambio di turno nella conversazione.
Lato server: ottieni un token di conversazione
Lato client: avvia la sessione
L’hook useConversation gestisce acquisizione audio, streaming, rilevamento dell’attività vocale e riproduzione.
Aggiungere profondità alla ricerca con la ricerca web
Per chi vuole più contesto storico prima di iniziare la conversazione, puoi aggiungere una modalità di ricerca avanzata usando lo strumento di ricerca web di OpenAI:
Cosa abbiamo imparato
Questo progetto dimostra che, combinando diverse modalità di IA – testo, ricerca, visione e audio – puoi creare esperienze che collegano mondo digitale e reale. C’è ancora molto potenziale nei multi-modal agent che ci piacerebbe vedere esplorato di più per l’educazione, il lavoro e il tempo libero.
Inizia a creare
Le API usate in questo progetto –Progettazione vocale,ElevenAgents e OpenAI – sono tutte disponibili già da oggi.



.webp&w=3840&q=80)
