Salta al contenuto

Conversione Vocale

Pubblicato
Ultimo aggiornamento

AscoltaAscolta questo articolo

Cos'è la conversione vocale?

La conversione vocale ti permette di trasformare la voce di una persona in quella di un'altra. Utilizza un processo chiamato clonazione vocale per codificare la voce di destinazione – cioè la voce in cui vuoi convertire – e generare lo stesso messaggio pronunciato in modo che rispecchi l’identità del nuovo speaker, ma mantenga l’intonazione originale.

Utilizzi

Le tecnologie di conversione e clonazione vocale di alta qualità possono rivoluzionare il modo in cui i contenuti vengono prodotti, distribuiti e fruiti in diversi settori. Permettono di ottimizzare tempi e costi di produzione e offrono a chi mette a disposizione la propria voce per addestrare gli algoritmi la possibilità di guadagnare compensi passivi.

  • Nel cinema, gli attori potrebbero condividere i propri database vocali con i produttori per creare tracce audio senza dover viaggiare sul set o in studio;
  • le battute sbagliate potrebbero essere reincise in modo molto più efficace in post-produzione;
  • la tecnologia può essere usata anche per riprodurre fedelmente le voci di personaggi storici in scenari di finzione o per riportare in vita attori scomparsi;
  • nello sviluppo di videogiochi la tecnologia è altrettanto utile: correggere battute o semplicemente sperimentare può avvenire subito, senza che l’attore sia fisicamente presente per la registrazione;
  • in medicina, pazienti che hanno perso la capacità di parlare, ad esempio dopo un trattamento per il tumore alla gola, possono tornare a comunicare con la propria voce;
  • gli assistenti virtuali potrebbero diventare personalizzati, perché chi li usa a casa troverebbe più naturale interagire, ad esempio, con la voce di una persona cara invece che con quella di uno sconosciuto;
  • allo stesso tempo, il settore pubblicitario potrebbe trarre vantaggio dall’introduzione di voci sintetiche che suonano reali quanto quelle umane, evitando però problemi legati a diritti e royalties. Se invece serve proprio una voce riconoscibile, anche in questo caso i produttori possono usare la tecnologia per clonare consensualmente la voce di un attore senza doverlo coinvolgere in lunghe sessioni di registrazione;
  • i settori di audiolibri e podcast sono solo due esempi di mercati in crescita dove la clonazione e la conversione vocale permettono di ottimizzare la produzione e l’editing di contenuti immersivi.

Conversione Vocale ElevenLabs

Anche se sviluppiamo software di conversione vocale in ElevenLabs come parte dei nostri strumenti, la nostra ricerca su clonazione e sintesi vocale alimenta soprattutto lo sviluppo del nostro prodotto principale, che prevediamo di lanciare all’inizio del prossimo anno: uno strumento di doppiaggio automatico che mantiene l’identità della voce originale.

Il nostro obiettivo è rendere tutti i contenuti parlati accessibili in più lingue mantenendo la voce originale dello speaker, con un semplice clic. Immagina un video educativo su YouTube in inglese. Se qualcuno parla solo spagnolo (ma sarebbe interessato all’argomento se solo conoscesse la lingua), questo è un problema. I sottotitoli sono una soluzione, ma il nostro scopo è offrire un modo molto più immersivo e coinvolgente di fruire i contenuti. Vogliamo poter generare quella stessa persona che parla lo stesso messaggio in spagnolo naturale, anche se in realtà non lo conosce.

La clonazione vocale ci permette di preservare la loro identità – il timbro della loro voce. La usiamo per generare nuove frasi in un’altra lingua, così da far sembrare che sia sempre la stessa persona a parlare.

La conversione vocale entra in gioco perché vogliamo mantenere emozioni, intenzioni e stile di espressione per un’esperienza davvero immersiva. Alleniamo modelli multilingue robusti che ci permettono di analizzare le frasi nella lingua di partenza e trasferirle nella lingua di destinazione con la giusta intonazione.

Processo

Per convertire la voce di una persona in quella di un’altra, cioè il parlato di origine in quello di destinazione, serve un algoritmo che esprima il contenuto del parlato di origine con le caratteristiche del parlato di destinazione. Un buon esempio è quello delle app di face-swapping, che ti permettono di mescolare il tuo volto con quello di qualcun altro per creare una foto unica.

Il procedimento consiste nel prendere l’immagine di un volto e mappare le sue caratteristiche. I punti nell’esempio qui sotto fanno proprio questo: sono i limiti entro cui vengono inseriti i tratti dell’altro volto.

Nella conversione vocale, serve un modo per far sì che l’algoritmo codifichi le proprietà del parlato di destinazione. L’algoritmo viene addestrato su un insieme di dati che contiene molti esempi di quel parlato. Scompone questi campioni fino al livello fondamentale – gli “atomi” del parlato, per così dire. Il parlato è composto da frasi. Le frasi sono fatte di parole. Le parole sono formate da fonemi, che segnano le caratteristiche del parlato di destinazione. È su questo livello che lavora l’algoritmo.

Il trucco nella conversione vocale è riprodurre il contenuto del parlato di origine usando i fonemi del parlato di destinazione. Ma qui c’è un compromesso, proprio come nell’esempio del face-swapping: più marcatori usi per mappare le caratteristiche di un volto, più vincoli imponi al volto che inserisci. Meno marcatori, meno vincoli. Lo stesso vale per la conversione vocale. Più diamo preferenza al parlato di destinazione, più rischiamo di perdere la sincronizzazione con quello di origine. Ma se non diamo abbastanza preferenza, rischiamo di perdere ciò che rende caratteristico quel parlato. Ad esempio, se dovessimo riprodurre la registrazione di qualcuno che urla arrabbiato con la voce di Morgan Freeman, avremmo dei problemi. Se diamo troppa importanza alle emozioni del parlato di origine, perdiamo l’impressione che sia davvero Morgan Freeman a parlare. Se invece diamo troppo peso al suo stile, perdiamo la carica emotiva del parlato di origine.

Etica

Le questioni etiche legate alla clonazione vocale meritano attenzione, perché il rischio di un uso improprio della tecnologia preoccupa sempre più persone. Nel 2020, deepfake audio sono stati usati da truffatori che si sono finti CEO al telefono per autorizzare un bonifico da 35 milioni di dollari. Una tecnologia che può far sembrare in modo convincente che qualcuno abbia detto qualcosa che in realtà non ha detto, fa naturalmente temere usi per disinformare, diffamare o commettere frodi. Allo stesso modo, la conversione vocale solleva domande importanti sul diritto d’autore se permette di sfruttare contenuti generati senza il consenso dei proprietari della voce.

In ElevenLabs sentiamo la responsabilità di fare il possibile per evitare che la nostra tecnologia venga usata per scopi illeciti e di implementare misure di sicurezza per proteggerne l’uso:

  • collaboriamo solo con clienti che rispettano i nostri Termini, che vietano l’uso malevolo della tecnologia per disinformare, diffamare, commettere frodi o per qualsiasi altro scopo illegale o dannoso;
  • i contenuti video sintetici prodotti da ElevenLabs includono un watermark chiaro che indica che sono generati da IA. I contenuti audio hanno una descrizione file esplicita. Quando usiamo voci riconoscibili, lo facciamo solo a scopo dimostrativo e in contesti che non generano conflitti di interesse;
  • allo stesso tempo, ci impegniamo a supportare i proprietari delle voci e i loro licenziatari nel rivendicare i propri diritti.
  • Se hai idee su come migliorare il nostro approccio, faccelo sapere a ethics@elevenlabs.io

Crediamo che la paura degli abusi non debba essere il fattore dominante nel nostro atteggiamento verso le nuove tecnologie. Piuttosto, dobbiamo assicurarci che vengano introdotte misure di sicurezza adeguate già in fase di sviluppo, per ridurre al minimo i rischi e sfruttare al meglio le potenzialità che la tecnologia offre alla comunità.

Futuro

La conversione e la clonazione vocale promettono di rivoluzionare cinema, televisione, creazione di contenuti, sviluppo di videogiochi, podcast, audiolibri e pubblicità. Ma le applicazioni vanno oltre il mondo commerciale, con possibili usi in medicina, istruzione e comunicazione.

La clonazione vocale sta aprendo la strada a un futuro in cui qualsiasi contenuto potrà essere generato in qualsiasi lingua e voce, raggiungendo milioni di persone in tutto il mondo e creando una nuova economia. Il nostro obiettivo in ElevenLabs è contribuire a rendere possibile questo futuro.

Articoli simili

Crea con l'audio IA della massima qualità