La strada verso il doppiaggio in tempo reale

Pubblicato: 2 nov 2023
Ultimo aggiornamento: 7 lug 2026

AscoltaAscolta questo articolo

0:00

0:000:00

Per alcuni, il doppiaggio in tempo reale fa pensare al Babelfish della Guida galattica per autostoppisti.

Il Babelfish “si nutre di energia cerebrale, assorbe frequenze inconsce ed emette una matrice di frequenze consce verso i centri del linguaggio del cervello.” In pratica, significa che se ne metti uno nell’orecchio, ogni volta che qualcuno ti parla in qualsiasi lingua, lo sentirai subito come se stesse parlando nella tua lingua madre (e non sentirai affatto l’audio originale).

Finché non saremo in grado di leggere le onde cerebrali, dobbiamo ascoltare le parole di chi parla e tradurle nella nostra lingua di destinazione. Cercare di tradurre ogni parola, man mano che viene pronunciata, presenta delle vere sfide.

Immagina di voler tradurre dall’inglese allo spagnolo. L’oratore inizia con “The”. In spagnolo, “The” si traduce con “El” per i nomi maschili e “La” per quelli femminili. Quindi non possiamo tradurre “The” con certezza finché non sentiamo il resto.

Immagina che la frase continui con “The running water”. Ora abbiamo abbastanza informazioni per tradurre le prime tre parole con “El agua corriente”. Se la frase prosegue con “The running water is too cold for swimming”, siamo a posto.

Ma se invece continua con “The running water buffalo…” dobbiamo tornare indietro.

Per insistere sul punto, se la frase prosegue con “The running water buffalo protected her calf”, avremmo dovuto iniziare la frase con “La búfala” invece di “El búfalo”.

Queste frasi “a giardino”, cioè quelle che iniziano in modo tale da portare l’ascoltatore a un’interpretazione iniziale sbagliata, esistono in molte lingue.

Per alcuni casi d’uso, potresti accettare di dover tornare indietro dopo aver iniziato a doppiare troppo in fretta. In altri, puoi scegliere di aggiungere latenza per ottenere maggiore precisione. Dato che una certa latenza è sempre presente in tutti i

I migliori casi d’uso per il doppiaggio in tempo reale

Le applicazioni commerciali più efficaci del doppiaggio in tempo reale sono quelle in cui

C’è un pubblico globale
Si tratta di contenuti live
È accettabile avere un po’ di ritardo nella trasmissione

Sport

Secondo Forbes nel 2019 la NBA ha incassato 500 milioni di dollari dai diritti TV internazionali. La NFL ora organizza partite in Brasile, Inghilterra, Germania e Messico, considerando l’espansione internazionale come una delle principali fonti di ricavo per il futuro.

E anche se la maggior parte degli eventi sportivi è pensata per essere seguita dal vivo, le persone sono già abituate a un po’ di latenza, anche senza rendersene conto. Il tempo che passa tra la ripresa allo stadio e la trasmissione sullo schermo di casa può variare da 5 secondi a qualche minuto.

Di solito ci sono diversi operatori audio e video sul posto che trasmettono le riprese a una struttura di produzione. Qui si alternano le inquadrature, si mixa l’audio, si aggiungono grafiche e commenti. A volte viene inserito anche un ritardo aggiuntivo per monitorare e censurare eventuali parolacce o contenuti imprevisti.

Il feed principale della produzione viene inviato alla rete di trasmissione, che aggiunge il proprio branding e la pubblicità, distribuendo poi il contenuto alle reti locali. Infine, i fornitori dell’ultimo miglio condividono il contenuto con gli spettatori tramite cavi, satellite e servizi di streaming.

Molti produttori affermano che sarebbe accettabile aggiungere fino a 20 secondi di latenza in più per il doppiaggio. Questo ritardo aggiuntivo è ampiamente compensato dal fatto che gli spettatori possono ascoltare nella propria lingua.

Le aziende sportive puntano soprattutto a offrire un prodotto di qualità e credono che la chiave sia catturare efficacemente l’emozione e il tempismo dei commentatori. “Tira, segna!” deve essere trasmesso con entusiasmo.

I nostri modelli di clonazione vocale, alla base del nostro servizio di doppiaggio, riescono a riprodurre l’emozione e l’intonazione dell’oratore originale. A differenza della traduzione, avere più contesto non porta sempre a un risultato migliore. Tuttavia, non siamo ancora al livello emotivo di un telecronista di calcio spagnolo!

Ogni clone vocale è una media dei suoi input. Se unisci una frase detta in modo piatto come “Devono essere più aggressivi, mancano solo due minuti.” con “Tira, segna!”, il clone risultante avrà un’intonazione media tra le due.

Oggi possiamo superare questo limite utilizzando contesti più brevi per la

Notiziari

Come per gli eventi sportivi “live”, anche i notiziari passano attraverso una pipeline di produzione che aggiunge ritardi. Dalle nostre conversazioni con le aziende media, trasmettere l’emozione (pur essendo importante) è meno critico e spesso più semplice, perché i giornalisti hanno uno stile molto costante. È però fondamentale che la traduzione sia accurata e sfumata.

Oltre al rischio di errori nel servizio di traduzione automatica, alcuni concetti non hanno una traduzione diretta. Ecco un esempio:

"La comunità si è riunita per una giornata di commemorazione, dove i sopravvissuti hanno condiviso le loro storie e gli anziani hanno recitato preghiere tradizionali per la guarigione."

Spagnolo: "La comunidad se reunió para un día conmemorativo, donde los sobrevivientes compartieron sus historias y los ancianos realizaron oraciones tradicionales para la sanación."

Anche se tecnicamente corretta, la parola "survivors" rispetto a "sobrevivientes" ha un peso diverso nei contesti di traumi storici: in inglese spesso implica resilienza e dignità, mentre "sobrevivientes" può sottolineare la condizione di vittima. Allo stesso modo, "performed prayers" rispetto a "realizaron oraciones" cambia nel tono di riverenza: "performed" riconosce il valore cerimoniale, mentre "realizaron" può sembrare più procedurale.

Bonus - La strada verso il doppiaggio conversazionale

Per permettere una conversazione naturale tra persone che non parlano la stessa lingua, serve una traduzione quasi istantanea.

Usando le probabilità di previsione del prossimo token dei LLM, hai un modello in tempo reale della probabilità di come proseguirà una frase.

_{Fonte immagine - Hugging Face "How to generate text"}

Se affiniamo questo modello di previsione del prossimo token su un singolo oratore, possiamo capire abbastanza bene dove sta andando. Con queste informazioni, possiamo “barare” anticipando la traduzione e la generazione vocale quando abbiamo un’alta certezza su come proseguirà la frase.

Ti interessa questo argomento e vuoi lavorare con noi sul futuro dell’audio IA? Scopri le posizioni aperte qui.

La strada verso il doppiaggio in tempo reale

I migliori casi d’uso per il doppiaggio in tempo reale

Sport

Notiziari

Bonus - La strada verso il doppiaggio conversazionale

Articoli simili

La prima IA che sa ridere

Questa voce non esiste - Voce generativa IA

Scopri Scribe

Scopri Flash