Salta al contenuto

Eleven v3 è ora disponibile per tutti

Eleven v3, il nostro modello Text to Speech più avanzato, è uscito dalla fase Alpha ed è ora disponibile per tutti.

Eleven v3, our most advanced Text to Speech model, is now out of Alpha and generally available.

Eleven v3, il nostro modello più avanzato di Text to Speech, è uscito dalla fase Alpha ed è ora disponibile per tutti.

Dalla versione Alpha abbiamo continuato a perfezionare il modello. Due miglioramenti principali:

Più stabile. Nei test, gli utenti hanno preferito la nuova versione nel 72% dei casi rispetto alla precedente Alpha.

Più preciso. Abbiamo migliorato notevolmente la gestione di numeri, simboli e notazioni specialistiche in tutte le lingue.

Miglioramenti nella precisione

I modelli Text to Speech devono interpretare ciò che scrivi e decidere come pronunciarlo. Gli stessi simboli possono avere significati diversi a seconda del contesto.

Prendiamo un numero di telefono: "+49 170 9876543"

In alcuni casi, i nostri modelli leggevano questo come "più quarantanove, centosettanta, nove milioni ottocentosettantaseimila cinquecentoquarantatre" – interpretando le cifre come numeri grandi invece che come una sequenza di cifre. La lettura corretta è "più quattro nove, uno sette zero, nove otto sette sei cinque quattro tre."

Questi tipi di errori si presentavano in diverse categorie: risultati sportivi, formule chimiche, valute, coordinate – ovunque il modello dovesse interpretare simboli e decidere come vocalizzarli.

Abbiamo testato il modello su un benchmark interno che copre 27 categorie in 8 lingue.

In sintesi: Riduzione degli errori del 68%. Il tasso di errore è passato dal 15,3% al 4,9%.

Tasso di errore per categoria:

Before
Chemical Formulas
45.6%
Phone Numbers
16.9%
URLs / Emails
45.6%
ISBNs
17.9%
License Plates
14.4%
Mathematical Expressions
23.8%
Geographic Coordinates
46.2%
After
Chemical Formulas
0.6%
Phone Numbers
0.6%
URLs / Emails
3.9%
ISBNs
0.0%
License Plates
1.2%
Mathematical Expressions
6.9%
Geographic Coordinates
17.5%
Error Reduction
Chemical Formulas
99%
Phone Numbers
99%
URLs / Emails
91%
ISBNs
100%
License Plates
91%
Mathematical Expressions
71%
Geographic Coordinates
62%

I miglioramenti sono più evidenti nelle categorie in cui il contesto determina l’interpretazione – dove, ad esempio, i due punti possono indicare un risultato sportivo, un orario o un rapporto d’aspetto a seconda del testo circostante.

Esempi

Valute — valore corretto:

Input:  ¥250.000

Prima: 25.000 yen

Dopo:  250.000 yen

Formule chimiche — simboli mantenuti correttamente:

Input:  SO₂

Prima: "zolfo doppio" (confuso)

Dopo:  "S O due"

Risultati sportivi — interpretazione contestuale:

Input:  Risultato finale: 102-98

Prima: "centodue meno novantotto"

Dopo:  "centodue a novantotto"

Disponibilità

Eleven v3 è ora disponibile per tutti su tutte le piattaforme.

Scopri gli articoli del team ElevenLabs

Crea con l'audio IA della massima qualità