
Presentiamo Eleven v3 (alpha)
- Categoria
- Ricerca
- Data
Eleven v3, il nostro modello Text to Speech più avanzato, è uscito dalla fase Alpha ed è ora disponibile per tutti.
Eleven v3, il nostro modello più avanzato di Text to Speech, è uscito dalla fase Alpha ed è ora disponibile per tutti.
Dalla versione Alpha abbiamo continuato a perfezionare il modello. Due miglioramenti principali:
Più stabile. Nei test, gli utenti hanno preferito la nuova versione nel 72% dei casi rispetto alla precedente Alpha.
Più preciso. Abbiamo migliorato notevolmente la gestione di numeri, simboli e notazioni specialistiche in tutte le lingue.
I modelli Text to Speech devono interpretare ciò che scrivi e decidere come pronunciarlo. Gli stessi simboli possono avere significati diversi a seconda del contesto.
Prendiamo un numero di telefono: "+49 170 9876543"
In alcuni casi, i nostri modelli leggevano questo come "più quarantanove, centosettanta, nove milioni ottocentosettantaseimila cinquecentoquarantatre" – interpretando le cifre come numeri grandi invece che come una sequenza di cifre. La lettura corretta è "più quattro nove, uno sette zero, nove otto sette sei cinque quattro tre."
Questi tipi di errori si presentavano in diverse categorie: risultati sportivi, formule chimiche, valute, coordinate – ovunque il modello dovesse interpretare simboli e decidere come vocalizzarli.
Abbiamo testato il modello su un benchmark interno che copre 27 categorie in 8 lingue.
In sintesi: Riduzione degli errori del 68%. Il tasso di errore è passato dal 15,3% al 4,9%.
Tasso di errore per categoria:
I miglioramenti sono più evidenti nelle categorie in cui il contesto determina l’interpretazione – dove, ad esempio, i due punti possono indicare un risultato sportivo, un orario o un rapporto d’aspetto a seconda del testo circostante.
Esempi
Valute — valore corretto:
Input: ¥250.000
Prima: 25.000 yen
Dopo: 250.000 yen
Formule chimiche — simboli mantenuti correttamente:
Input: SO₂
Prima: "zolfo doppio" (confuso)
Dopo: "S O due"
Risultati sportivi — interpretazione contestuale:
Input: Risultato finale: 102-98
Prima: "centodue meno novantotto"
Dopo: "centodue a novantotto"
Eleven v3 è ora disponibile per tutti su tutte le piattaforme.



