Questa voce non esiste - Voce generativa IA
- Pubblicato
AscoltaAscolta questo articolo
Ultimamente sembra che tutti parlino di IA generativa. Modelli di deep learning come ChatGPT, Stable Diffusion, DALL-E e Midjourney hanno attirato molta attenzione nel mondo tech e non solo. Molti li considerano tra le innovazioni più importanti dell’IA degli ultimi anni. Che tu sia d’accordo o meno, la sensazione generale è che sia arrivato qualcosa di davvero potente. Nel 2023 sentiremo parlare di modelli che ti aiutano a disegnare o creare video. Proprio come ci si chiede qual è lo smartphone più nuovo, presto ci chiederemo qual è il foundation model più avanzato. Eppure, in mezzo a tutto questo entusiasmo, secondo noi c’è un’area dei media generativi ancora troppo sottovalutata: la voce IA. Ed è proprio qui che vogliamo diventare leader. In ElevenLabs sfruttiamo ogni giorno il potenziale delle tecniche di deep learning per alimentare i nostri strumenti di text-to-speech e di clonazione vocale. E ora stiamo anche lanciando il nostro modello generativo che ti permette di creare voci sintetiche completamente nuove da zero.
Generatore di voci - crea una voce
Ogni giorno i nostri utenti usano la piattaforma per dare vita ai loro personaggi, che si tratti di audiolibri, giochi o fan fiction. Ci siamo resi conto che il nostro attuale catalogo di speaker è troppo limitato perché tutti possano trovare la voce giusta per i propri contenuti, mantenendo comunque l’esclusività. La nostra soluzione è stata permetterti di creare voci sintetiche completamente nuove.
Abbiamo avuto un’idea su come procedere analizzando i metodi che già usiamo per la sintesi vocale e la clonazione della voce. Entrambi i processi richiedono un modo per codificare le caratteristiche di una voce specifica. Gli speaker embedding sono ciò che trasporta questa identità: rappresentano la voce di un parlante come un vettore. Ci siamo accorti che potevamo campionare dalla distribuzione degli speaker embedding addestrando un modello dedicato, così da poter creare un numero infinito di nuove voci.
Visto che i nostri utenti cercano soprattutto caratteristiche vocali specifiche, era necessario aggiungere un certo grado di controllo al processo. Abbiamo ampliato il modello con una funzione di conditioning per generare voci in base alle loro caratteristiche. Ora puoi impostare alcuni parametri di base che definiscono l’identità della nuova voce: genere, età, accento, tono e stile di parlato. In altre parole, ogni volta che clicchi su ‘genera’, anche scegliendo gli stessi parametri di base, ottieni una voce completamente nuova che prima non esisteva.
Ecco alcuni esempi di voci che puoi creare in questo modo:
'Crea Voce' sarà disponibile sulla nostra piattaforma da febbraio, all’interno di Voice Lab.
A cosa serve?
I nostri strumenti già oggi producono parlato naturale quanto quello umano e ci aspettiamo che le applicazioni delle voci artificiali cresceranno ancora. Molte di queste nuove applicazioni, come la registrazione audio per testate giornalistiche o spot pubblicitari, richiederanno che una voce sia associata e riconoscibile per un brand o un caso d’uso specifico, senza essere usata altrove. Altri casi d’uso, come lo storytelling e i videogiochi, puntano invece su flessibilità e libertà di sperimentare fin dalle prime fasi di sviluppo. Così, invece di creare un enorme catalogo di speaker virtuali, abbiamo scelto di lasciare a te la scelta delle voci più adatte ai tuoi progetti.
Gli autori di libri ora non solo possono trasformare facilmente le loro opere in audio, ma mantengono anche il controllo artistico sulla narrazione personalizzata. Questo offre al pubblico nuovi modi di interagire con le pubblicazioni e aumenta di molto il numero di libri che potremo ascoltare.
Le testate giornalistiche si stanno sempre più aprendo all’audio e scegliere voci distintive per rappresentare le proprie pubblicazioni è fondamentale: molti ascoltatori danno valore anche alla forma, non solo al contenuto. Allo stesso tempo, ora gli editori possono essere certi che una voce rappresenti solo loro.
Gli sviluppatori di videogiochi possono finalmente dare voce a una moltitudine di NPC che altrimenti resterebbero muti, con tutti gli strumenti necessari a portata di mano. Non solo possono risparmiare senza rinunciare alla qualità, ma possono anche creare voci uniche per i mondi virtuali che realizzano.
I creativi della pubblicità hanno bisogno di voiceover adatti a campagne specifiche, quindi poter creare narrazioni su misura già dalle prime fasi di sviluppo è un grande vantaggio. Ora possono sperimentare subito con più voci e stili di interpretazione, senza dover coinvolgere altre risorse.
Dai creator che producono ogni tipo di contenuto audio e video, ai manager aziendali che vogliono dare voce alle comunicazioni interne, oggi le possibilità di creare audio coinvolgente, unico e su misura per ogni esigenza sono infinite.
IA etica
Così come la clonazione vocale solleva timori per possibili abusi, sempre più persone temono che la diffusione dell’IA possa mettere a rischio il lavoro dei professionisti. In ElevenLabs immaginiamo un futuro in cui i doppiatori potranno concedere in licenza la propria voce per addestrare modelli vocali destinati a usi specifici, in cambio di un compenso. Clienti e studi continueranno a scegliere voci professionali per i loro progetti e l’IA servirà semplicemente a velocizzare i tempi e offrire più libertà di sperimentare e definire la direzione già nelle prime fasi di sviluppo. La tecnologia cambierà il modo in cui si crea e si registra l’audio parlato, ma il fatto che i doppiatori non debbano più essere presenti fisicamente a ogni sessione darà loro la possibilità di partecipare a più progetti contemporaneamente e di rendere la propria voce davvero immortale.
In più, siamo entusiasti perché tanti libri, notizie, giochi indipendenti e altri contenuti che autori e sviluppatori non avrebbero potuto permettersi di registrare, ora saranno accessibili anche in formato audio. Questo aumento di accessibilità permette di raggiungere un pubblico più ampio in ogni settore.
In ElevenLabs ci impegniamo a rispettare i diritti di proprietà intellettuale e a implementare tutte le misure necessarie per prevenire abusi della nostra tecnologia:
- Collaboriamo solo con clienti che rispettano i nostri Termini, che vietano qualsiasi uso illecito o dannoso della nostra tecnologia;
- Stiamo lavorando per inserire un watermark su tutti gli audio generati dal nostro modello, così da poterli sempre ricondurre a noi;
- Quando usiamo voci riconoscibili, lo facciamo solo a scopo dimostrativo e in contesti che non creano conflitti di interesse;
- Allo stesso tempo, vogliamo supportare i proprietari delle voci e i loro licenziatari nel tutelare i propri diritti: tutte le violazioni note saranno esaminate e gestite.
Guardando avanti - migliora la tua voce
In futuro vogliamo unire le capacità dei nostri modelli di generazione e clonazione vocale per permetterti di migliorare la tua voce. Potrai clonare la tua voce e modificarla come preferisci. Se pensi che il tuo stile di parlato sia un po’ monotono, potrai aggiungere varietà. Se non ami essere registrato, potrai rendere l’audio più naturale. Chiunque abbia bisogno di produrre audio con la propria voce, per una presentazione registrata o un messaggio audio, potrà farlo con i nostri strumenti, con un semplice clic.
Buon anno nuovo
Alla fine del 2022 vogliamo ringraziare i nostri beta-user per la partecipazione e i feedback. Molte delle funzionalità che stiamo sviluppando nascono proprio dai vostri suggerimenti. Siamo felicissimi di avervi a bordo e vi auguriamo un buon anno nuovo.
ElevenLabs Beta
Vai qui per iscriverti alla nostra piattaforma beta e provarla tu stesso. La stiamo migliorando continuamente e ogni suggerimento degli utenti per noi è prezioso in questa fase iniziale.




