Presentiamo Eleven Multilingual v1: il nostro nuovo modello di sintesi vocale

Pubblicato: 27 apr 2023

AscoltaAscolta questo articolo

0:00

0:000:00

Oggi siamo entusiasti di lanciare Eleven Multilingual v1, il nostro modello avanzato di sintesi vocale che supporta sette nuove lingue: Francese, Tedesco, Hindi, Italiano, Polacco, Portoghese, e Spagnolo. Basandoci sulle ricerche che hanno dato vita a Eleven Monolingual v1, il nostro attuale approccio di deep learning sfrutta più dati, maggiore potenza di calcolo e tecniche innovative in un modello sempre più sofisticato, capace di cogliere le sfumature del testo e offrire una resa vocale ricca di emozioni. Questo progresso amplia le possibilità creative per creator, sviluppatori di videogiochi ed editori, e apre la strada all’uso dei media generativi per creare contenuti più localizzati, accessibili e originali.

Il nuovo modello è disponibile in tutti i piani di abbonamento e puoi provarlo subito sulla nostra piattaforma Beta.

Per usarlo, selezionalo dal nuovo menu a tendina all’interno del pannello di sintesi vocale.

Panoramica della ricerca

Come il suo predecessore, anche il nuovo modello si basa interamente sulle nostre ricerche interne. Mantiene tutti i punti di forza che hanno reso Eleven Monolingual v1 uno strumento eccellente per lo storytelling, come la capacità di adattare la resa in base al contesto e di trasmettere intenzioni ed emozioni in modo estremamente realistico. Queste funzionalità sono ora estese anche alle nuove lingue supportate grazie all’addestramento su dati multilingue.

Una caratteristica importante del modello è la capacità di riconoscere testi multilingue e pronunciarli correttamente. Ora puoi generare parlato in più lingue con un unico prompt mantenendo le caratteristiche uniche della voce di ogni speaker. Per risultati ottimali, ti consigliamo di usare un prompt in una sola lingua. Anche se il modello già gestisce più lingue contemporaneamente in modo soddisfacente, sono previsti ulteriori miglioramenti.

Il nuovo modello è compatibile con le altre funzionalità di VoiceLab include cioè

Detto questo, il modello presenta alcune limitazioni note: numeri, acronimi e parole straniere a volte vengono pronunciati in inglese anche se inseriti in un prompt in un’altra lingua. Ad esempio, il numero "11" o la parola “radio” scritti in un prompt in spagnolo potrebbero essere pronunciati come in inglese. Ti consigliamo di scrivere per esteso acronimi e numeri nella lingua di destinazione mentre lavoriamo a miglioramenti.

Democratizzazione della voce

Abbiamo fondato ElevenLabs con il sogno di rendere tutti i contenuti accessibili a chiunque, in qualsiasi lingua e con qualsiasi voce. I membri del nostro team provengono da tutta Europa, Asia e Stati Uniti. Man mano che il nostro team e il mondo diventano sempre più multilingue, siamo ancora più uniti nella visione di rendere le voci IA di qualità umana disponibili in ogni lingua.

L’ultima versione del nostro modello Text to Speech (TTS) è solo il primo passo verso la realizzazione di questa visione. Con l’arrivo di voci IA di qualità umana, utenti e aziende possono ora creare e personalizzare contenuti audio in base alle proprie esigenze, priorità e preferenze. Questo ha già dimostrato di poter offrire nuove opportunità a creator, piccole imprese e artisti indipendenti. Grazie all’audio IA, puoi sviluppare esperienze sonore di alta qualità che competono con quelle prodotte da organizzazioni più grandi e con più risorse.

Questi vantaggi ora si estendono anche ad applicazioni multilingue, multiculturali ed educative, permettendo a utenti, aziende e istituzioni di produrre audio autentico che coinvolge un pubblico più ampio. Offrendo una vasta gamma di voci, accenti e lingue, l’IA aiuta a colmare le distanze culturali e promuove la comprensione globale. In ElevenLabs crediamo che questa nuova accessibilità favorisca creatività, innovazione e diversità.

I creator che vogliono coinvolgere pubblici diversi ora hanno gli strumenti per colmare le distanze culturali e promuovere l’inclusività.

Gli sviluppatori di videogiochi e gli editori possono creare esperienze immersive e localizzate per un pubblico internazionale, superando le barriere linguistiche e connettendosi con giocatori e ascoltatori per massimizzare coinvolgimento ed efficienza, senza perdere in qualità o precisione.

Le istituzioni educative ora possono produrre contenuti audio per diversi utenti nelle lingue di destinazione, migliorando la comprensione e anche la pronuncia, oltre a rispondere a diversi stili di insegnamento e bisogni di apprendimento.

Gli istituti per l’accessibilità possono ora aiutare ancora di più le persone con disabilità visive o difficoltà di apprendimento, offrendo loro la possibilità di convertire facilmente risorse meno accessibili in un formato più adatto alle loro esigenze, sia nei contenuti che nella forma.

Non vediamo l’ora di scoprire come creator e sviluppatori, oggi e in futuro, sapranno superare i limiti del possibile!

Presentiamo Eleven Multilingual v1: il nostro nuovo modello di sintesi vocale

Panoramica della ricerca

Democratizzazione della voce

Articoli simili

La strada verso il doppiaggio in tempo reale

ElevenLabs esce dalla Beta e lancia Eleven Multilingual v2: un modello IA per la sintesi vocale in quasi 30 lingue

ElevenLabs esce dalla beta e lancia Eleven Multilingual v2, il modello AI di base per la voce in 30 lingue

ElevenLabs esce dalla fase «beta» e lancia Eleven Multilingual v2, un modello di conversazione IA in 30 lingue