Salta al contenuto

La strada verso il doppiaggio in tempo reale

I migliori casi d’uso e le sfide pratiche per l’adozione

Real-time Dubbing

Per alcuni, il doppiaggio in tempo reale fa pensare al Babelfish della Guida galattica per autostoppisti.

Il Babelfish “si nutre di energia cerebrale, assorbe frequenze inconsce ed emette una matrice di frequenze consce verso i centri del linguaggio del cervello.” In pratica, significa che se ne metti uno nell’orecchio, ogni volta che qualcuno ti parla in qualsiasi lingua, lo sentirai subito come se stesse parlando nella tua lingua madre (e non sentirai affatto l’audio originale).

Finché non saremo in grado di leggere le onde cerebrali, dobbiamo ascoltare le parole di chi parla e tradurle nella nostra lingua di destinazione. Cercare di tradurre ogni parola, man mano che viene pronunciata, presenta delle vere sfide.

Immagina di voler tradurre dall’inglese allo spagnolo. L’oratore inizia con “The”. In spagnolo, “The” si traduce con “El” per i nomi maschili e “La” per quelli femminili. Quindi non possiamo tradurre “The” con certezza finché non sentiamo il resto.

Realtime Dubbing Diagram 1

Immagina che la frase continui con “The running water”. Ora abbiamo abbastanza informazioni per tradurre le prime tre parole con “El agua corriente”. Se la frase prosegue con “The running water is too cold for swimming”, siamo a posto.

Real-time dubbing diagram 2

Ma se invece continua con “The running water buffalo…” dobbiamo tornare indietro.

Real-time dubbing diagram 3

Per insistere sul punto, se la frase prosegue con “The running water buffalo protected her calf”, avremmo dovuto iniziare la frase con “La búfala” invece di “El búfalo”.

Queste frasi “a giardino”, cioè quelle che iniziano in modo tale da portare l’ascoltatore a un’interpretazione iniziale sbagliata, esistono in molte lingue.

Per alcuni casi d’uso, potresti accettare di dover tornare indietro dopo aver iniziato il doppiaggio troppo in fretta. In altri, puoi scegliere di aggiungere latenza per maggiore precisione. Dato che un po’ di latenza è sempre presente in ogni caso di doppiaggio, definiamo il doppiaggio “in tempo reale” come un servizio che ti permette di trasmettere audio in streaming continuo e ricevere il contenuto tradotto.

Translation Pipeline

I migliori casi d’uso per il doppiaggio in tempo reale

Le applicazioni commerciali più efficaci del doppiaggio in tempo reale sono quelle in cui

  • C’è un pubblico globale
  • Si tratta di contenuti live
  • È accettabile avere un po’ di ritardo nella trasmissione

Sport

Secondo Forbes nel 2019 la NBA ha incassato 500 milioni di dollari dai diritti TV internazionali. La NFL ora organizza partite in Brasile, Inghilterra, Germania e Messico, considerando l’espansione internazionale come una delle principali fonti di ricavo per il futuro.

E anche se la maggior parte degli eventi sportivi è pensata per essere seguita dal vivo, le persone sono già abituate a un po’ di latenza, anche senza rendersene conto. Il tempo che passa tra la ripresa allo stadio e la trasmissione sullo schermo di casa può variare da 5 secondi a qualche minuto.

Di solito ci sono diversi operatori audio e video sul posto che trasmettono le riprese a una struttura di produzione. Qui si alternano le inquadrature, si mixa l’audio, si aggiungono grafiche e commenti. A volte viene inserito anche un ritardo aggiuntivo per monitorare e censurare eventuali parolacce o contenuti imprevisti.

Il feed principale della produzione viene inviato alla rete di trasmissione, che aggiunge il proprio branding e la pubblicità, distribuendo poi il contenuto alle reti locali. Infine, i fornitori dell’ultimo miglio condividono il contenuto con gli spettatori tramite cavi, satellite e servizi di streaming.

Broadcast latency

Molti produttori affermano che sarebbe accettabile aggiungere fino a 20 secondi di latenza in più per il doppiaggio. Questo ritardo aggiuntivo è ampiamente compensato dal fatto che gli spettatori possono ascoltare nella propria lingua.

Le aziende sportive puntano soprattutto a offrire un prodotto di qualità e credono che la chiave sia catturare efficacemente l’emozione e il tempismo dei commentatori. “Tira, segna!” deve essere trasmesso con entusiasmo.

I nostri modelli di clonazione vocale, alla base del nostro servizio di doppiaggio, riescono a riprodurre l’emozione e l’intonazione dell’oratore originale. A differenza della traduzione, avere più contesto non porta sempre a un risultato migliore. Tuttavia, non siamo ancora al livello emotivo di un telecronista di calcio spagnolo!

Ogni clone vocale è una media dei suoi input. Se unisci una frase detta in modo piatto come “Devono essere più aggressivi, mancano solo due minuti.” con “Tira, segna!”, il clone risultante avrà un’intonazione media tra le due.

Dubbing Studio Soccer Announcer

Oggi possiamo superare questo limite usando contesti più brevi per la clonazione vocale rispetto alla traduzione della trascrizione. In futuro, pensiamo di ottenere risultati migliori fornendo ulteriore contesto (come immagini e video) al nostro modello di doppiaggio, oppure creando una “trascrizione emotiva” dell’oratore originale da usare per guidare la resa audio doppiata.

Notiziari

Come per gli eventi sportivi “live”, anche i notiziari passano attraverso una pipeline di produzione che aggiunge ritardi. Dalle nostre conversazioni con le aziende media, trasmettere l’emozione (pur essendo importante) è meno critico e spesso più semplice, perché i giornalisti hanno uno stile molto costante. È però fondamentale che la traduzione sia accurata e sfumata.

Oltre al rischio di errori nel servizio di traduzione automatica, alcuni concetti non hanno una traduzione diretta. Ecco un esempio:

"La comunità si è riunita per una giornata di commemorazione, dove i sopravvissuti hanno condiviso le loro storie e gli anziani hanno recitato preghiere tradizionali per la guarigione."

Spagnolo: "La comunidad se reunió para un día conmemorativo, donde los sobrevivientes compartieron sus historias y los ancianos realizaron oraciones tradicionales para la sanación."

Anche se tecnicamente corretta, la parola "survivors" rispetto a "sobrevivientes" ha un peso diverso nei contesti di traumi storici: in inglese spesso implica resilienza e dignità, mentre "sobrevivientes" può sottolineare la condizione di vittima. Allo stesso modo, "performed prayers" rispetto a "realizaron oraciones" cambia nel tono di riverenza: "performed" riconosce il valore cerimoniale, mentre "realizaron" può sembrare più procedurale.

Bonus - La strada verso il doppiaggio conversazionale

Per permettere una conversazione naturale tra persone che non parlano la stessa lingua, serve una traduzione quasi istantanea.

Usando le probabilità di previsione del prossimo token dei LLM, hai un modello in tempo reale della probabilità di come proseguirà una frase.

LLM Probabilities - Hugging Face

Fonte immagine - Hugging Face "How to generate text"

Se affiniamo questo modello di previsione del prossimo token su un singolo oratore, possiamo capire abbastanza bene dove sta andando. Con queste informazioni, possiamo “barare” anticipando la traduzione e la generazione vocale quando abbiamo un’alta certezza su come proseguirà la frase.

Ti interessa questo argomento e vuoi lavorare con noi sul futuro dell’audio IA? Scopri le posizioni aperte qui.

Scopri gli articoli del team ElevenLabs

Crea con l'audio IA della massima qualità