Salta al contenuto

Eleven v3 è ora disponibile per tutti

Scritto da
Joe Reeve
Pubblicato

AscoltaAscolta questo articolo

Eleven v3, il nostro modello più avanzato di Text to Speech, è uscito dalla fase Alpha ed è ora disponibile per tutti.

Dalla versione Alpha abbiamo continuato a perfezionare il modello. Due miglioramenti principali:

Più stabile. Nei test, gli utenti hanno preferito la nuova versione nel 72% dei casi rispetto alla precedente Alpha.

Più preciso. Abbiamo migliorato notevolmente la gestione di numeri, simboli e notazioni specialistiche in tutte le lingue.

Miglioramenti nella precisione

I modelli Text to Speech devono interpretare ciò che scrivi e decidere come pronunciarlo. Gli stessi simboli possono avere significati diversi a seconda del contesto.

Prendiamo un numero di telefono: "+49 170 9876543"

In alcuni casi, i nostri modelli leggevano questo come "più quarantanove, centosettanta, nove milioni ottocentosettantaseimila cinquecentoquarantatre" – interpretando le cifre come numeri grandi invece che come una sequenza di cifre. La lettura corretta è "più quattro nove, uno sette zero, nove otto sette sei cinque quattro tre."

Questi tipi di errori si presentavano in diverse categorie: risultati sportivi, formule chimiche, valute, coordinate – ovunque il modello dovesse interpretare simboli e decidere come vocalizzarli.

Abbiamo testato il modello su un benchmark interno che copre 27 categorie in 8 lingue.

In sintesi: Riduzione degli errori del 68%. Il tasso di errore è passato dal 15,3% al 4,9%.

Tasso di errore per categoria:

Before
Chemical Formulas
45.6%
Phone Numbers
16.9%
URLs / Emails
45.6%
ISBNs
17.9%
License Plates
14.4%
Mathematical Expressions
23.8%
Geographic Coordinates
46.2%
After
Chemical Formulas
0.6%
Phone Numbers
0.6%
URLs / Emails
3.9%
ISBNs
0.0%
License Plates
1.2%
Mathematical Expressions
6.9%
Geographic Coordinates
17.5%
Error Reduction
Chemical Formulas
99%
Phone Numbers
99%
URLs / Emails
91%
ISBNs
100%
License Plates
91%
Mathematical Expressions
71%
Geographic Coordinates
62%

I miglioramenti sono più evidenti nelle categorie in cui il contesto determina l’interpretazione – dove, ad esempio, i due punti possono indicare un risultato sportivo, un orario o un rapporto d’aspetto a seconda del testo circostante.

Esempi

Valute — valore corretto:

Input:  ¥250.000

Prima: 25.000 yen

Dopo:  250.000 yen

Formule chimiche — simboli mantenuti correttamente:

Input:  SO₂

Prima: "zolfo doppio" (confuso)

Dopo:  "S O due"

Risultati sportivi — interpretazione contestuale:

Input:  Risultato finale: 102-98

Prima: "centodue meno novantotto"

Dopo:  "centodue a novantotto"

Disponibilità

Eleven v3 è ora disponibile per tutti su tutte le piattaforme.

Articoli simili

Crea con l'audio IA della massima qualità