Salta al contenuto

La prima IA che sa ridere

Il nostro modello esprime emozioni come nessun altro

A black and white cartoon-style drawing of a smiling face with a wide, toothy grin and closed, happy eyes.

Nel nostro ultimo articolo abbiamo presentato alcuni esempi di contenuti lunghi generati dal nostro strumento di sintesi vocale e abbiamo spiegato brevemente come il design unico del nostro modello gli permette di produrre parlato naturale e ben ritmato. Oggi ti mostriamo che è anche più ricco di emozioni e più attento al contesto di qualsiasi altro. Questo lo rende non solo piacevole da ascoltare, ma anche perfetto per applicazioni che vanno dalla lettura di libri e videogiochi fino alla pubblicità.

Emozioni

Le due grandi qualità del nostro modello – fluidità e intonazione corretta – derivano dalla grande quantità di dati su cui è stato addestrato (oltre 500.000 ore!), ma il vero punto chiave è come apprende da questi dati, grazie alla sua struttura. Alla base, è progettato per capire le emozioni presenti nel testo e decidere se chi parla deve sembrare felice, arrabbiato, triste o neutro. Ecco alcuni esempi:

Tutte le differenze di intonazione e tono dipendono solo dal testo: nient’altro ha influenzato il risultato. La punteggiatura e il significato delle parole sono fondamentali per decidere come pronunciare una frase, ma nota anche come, quando chi parla è felice per una vittoria, il modello riesce a produrre suoni che non fanno parte del parlato normale, come la risata (presto pubblicheremo una raccolta delle diverse risate che la nostra IA sa fare!). Allo stesso modo, esagera la reazione quando chi parla trova qualcosa di esilarante – è ‘trooooppo divertente’.

Contesto

Ma conoscere il significato delle singole parole non basta. Il nostro modello è altrettanto sensibile al contesto più ampio di ogni frase: valuta se qualcosa ha senso in base a come si collega al testo precedente e successivo. Questa visione d’insieme gli permette di intonare correttamente anche passaggi lunghi, mantenendo un filo emotivo che attraversa più frasi, come abbiamo mostrato nel nostro articolo precedente con contenuti più estesi. Inoltre, lo aiuta a evitare errori logici. Ad esempio, alcune parole si scrivono allo stesso modo ma hanno significati diversi, come ‘read’ al presente e al passato o ‘minute’ che può indicare un’unità di tempo o qualcosa di piccolo. Scegliere il significato giusto dipende dal contesto:

Scritto vs. parlato

Poiché progettiamo la nostra piattaforma per rispondere alle esigenze di contenuti lunghi, il nostro modello deve anche capire che simboli, abbreviazioni e alcune convenzioni tipiche della scrittura vanno pronunciate in modo specifico o non letterale. Ad esempio, deve sapere che FBI, TNT e ATM si pronunciano diversamente da UNESCO o NASA. Allo stesso modo, $3tr va bene nello scritto, ma quando viene letto ad alta voce deve diventare ‘tre trilioni di dollari’.

Intervento umano

Riconoscere queste sfumature è fondamentale, perché il nostro obiettivo è ridurre al minimo la necessità di intervento umano nel processo di generazione. Dopotutto, non promuoviamo la capacità del nostro strumento di creare un audiolibro in pochi minuti per poi costringere qualcuno ad ascoltare tutto l’audio e riscrivere il testo. Anche se aggiorniamo continuamente le regole del nostro modello sulla pronuncia, può sempre capitare che qualcosa lo confonda. Per questo stiamo sviluppando un sistema che segnala le incertezze, così potrai vedere subito quali parti del testo hanno creato problemi e insegnargli come dovrebbero essere pronunciate.

Applicazioni infinite

Tutte le funzionalità che ti abbiamo mostrato sono passi avanti per rendere il nostro software lo strumento di sintesi vocale IA più versatile.

Gli editori di notizie hanno già scoperto che aumentare la presenza audio è un ottimo modo per fidelizzare gli abbonati. Il vantaggio di aggiungere la lettura audio a ogni articolo è che le persone possono ascoltare mentre fanno altro. Chi lo fa spesso si affida a doppiatori professionisti, con costi elevati e non tutti gli articoli vengono coperti. Oppure usano i propri giornalisti per leggere le notizie, ma questo richiede tempo e quindi è comunque costoso. Chi invece usa la sintesi vocale per dare voce ai propri contenuti risparmia, ma spesso a scapito della qualità. Ora, con ElevenLabs, non devi più scegliere: puoi avere il meglio di entrambi i mondi.

Oppure immagina di generare audiolibri con voci fuori campo diverse e coinvolgenti per ogni personaggio, in pochi minuti. Questo non solo offre nuovi modi di vivere i libri, ma rende anche più accessibili i contenuti a chi ha difficoltà di apprendimento.

Pensa alle possibilità che si aprono ora per gli sviluppatori di videogiochi che non devono più chiedersi se un personaggio sia abbastanza importante da giustificare i costi, spesso elevati, di un doppiatore reale. Ora tutti gli NPC possono avere una propria voce e personalità.

Le agenzie pubblicitarie e i produttori possono sperimentare liberamente e adattare le voci fuori campo al tono di qualsiasi campagna, che sia per un canale sportivo o per un marchio di orologi di lusso. La voce di qualsiasi attore può essere concessa in licenza per la clonazione, così le modifiche si applicano subito e senza la presenza fisica dell’attore. Oppure, scegliendo una voce completamente sintetica, gli inserzionisti non devono preoccuparsi di pagare diritti aggiuntivi.

Gli assistenti virtuali possono diventare più realistici sia perché la clonazione vocale permette loro di parlare con una voce familiare per l’utente, sia perché questa nuova profondità espressiva li rende più naturali nelle interazioni.

ElevenLabs Beta

Vai qui per iscriverti alla nostra piattaforma beta e provarla tu stesso. La miglioriamo continuamente e ogni tuo feedback è prezioso per noi in questa fase iniziale. Buon divertimento!

Scopri gli articoli del team ElevenLabs

Crea con l'audio IA della massima qualità