Gå till innehåll

Eleven v3 är nu tillgänglig för alla

Eleven v3, vår mest avancerade Text to Speech-modell, har lämnat Alpha och är nu tillgänglig för alla.

Eleven v3, our most advanced Text to Speech model, is now out of Alpha and generally available.

Eleven v3, vår mest avancerade Text to Speech-modell, har lämnat Alpha och är nu tillgänglig för alla.

Sedan Alpha-släppet har vi fortsatt att förbättra modellen. Två viktiga förbättringar:

Stabilare. I tester föredrog användare den nya versionen 72 % av gångerna jämfört med tidigare Alpha-version.

Mer träffsäker. Vi har förbättrat hur modellen hanterar siffror, symboler och specialnotation på olika språk.

Förbättrad noggrannhet

Text to Speech-modeller måste tolka det du skriver och avgöra hur det ska sägas. Samma symboler kan betyda olika saker beroende på sammanhang.

Ta ett telefonnummer som exempel: "+49 170 9876543"

I vissa fall läste våra modeller detta som "plus fyrtionio, etthundrasjuttio, nio miljoner åttahundrasjutiosextusen femhundrafyrtiotre" – alltså som stora tal istället för en sifferföljd. Rätt läsning är "plus fyra nio, ett sju noll, nio åtta sju sex fem fyra tre."

Den här typen av fel dök upp i flera kategorier – sportresultat, kemiska formler, valutor, koordinater – överallt där modellen behövde tolka symboler och avgöra hur de skulle uttalas.

Vi testade mot ett internt riktmärke med 27 kategorier på 8 språk.

Sammanfattning: 68 % färre fel. Felfrekvensen gick ner från 15,3 % till 4,9 %.

Felfrekvens per kategori:

Before
Chemical Formulas
45.6%
Phone Numbers
16.9%
URLs / Emails
45.6%
ISBNs
17.9%
License Plates
14.4%
Mathematical Expressions
23.8%
Geographic Coordinates
46.2%
After
Chemical Formulas
0.6%
Phone Numbers
0.6%
URLs / Emails
3.9%
ISBNs
0.0%
License Plates
1.2%
Mathematical Expressions
6.9%
Geographic Coordinates
17.5%
Error Reduction
Chemical Formulas
99%
Phone Numbers
99%
URLs / Emails
91%
ISBNs
100%
License Plates
91%
Mathematical Expressions
71%
Geographic Coordinates
62%

Förbättringarna märks mest i kategorier där sammanhanget avgör tolkningen – där ett kolon kan betyda sportresultat, tid eller bildförhållande beroende på texten runtomkring.

Exempel

Valutor — rätt storlek:

Inmatning:  ¥250,000

Före: 25 000 yen

Efter:  250 000 yen

Kemiska formler — symbolerna bevaras korrekt:

Inmatning:  SO₂

Före: "svavel dubbel" (osammanhängande)

Efter:  "S O två"

Sportresultat — tolkar utifrån sammanhang:

Inmatning:  Slutresultat: 102-98

Före: "etthundratvå minus nittioåtta"

Efter:  "etthundratvå mot nittioåtta"

Tillgänglighet

Eleven v3 är nu tillgänglig på alla plattformar.

Utforska artiklar av ElevenLabs-teamet

ElevenLabs

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in