Pomiń

Eleven v3 już dostępny dla wszystkich

Eleven v3, nasz najbardziej zaawansowany model Text to Speech, wyszedł z Alphy i jest już dostępny dla wszystkich.

Eleven v3, our most advanced Text to Speech model, is now out of Alpha and generally available.

Eleven v3, nasz najbardziej zaawansowany model Text to Speech, wyszedł z Alphy i jest już dostępny dla wszystkich.

Od premiery Alphy cały czas ulepszaliśmy model. Najważniejsze zmiany:

Stabilniejszy. W testach użytkownicy wybierali nową wersję w 72% przypadków zamiast poprzedniej Alphy.

Dokładniejszy. Znacznie poprawiliśmy rozpoznawanie liczb, symboli i specjalnych oznaczeń w różnych językach.

Poprawa dokładności

Modele Text to Speech muszą zrozumieć, co piszesz, i zdecydować, jak to wypowiedzieć. Te same symbole mogą znaczyć coś innego w różnych kontekstach.

Na przykład numer telefonu: "+49 170 9876543"

Czasem nasze modele czytały to jako "plus czterdzieści dziewięć, sto siedemdziesiąt, dziewięć milionów osiemset siedemdziesiąt sześć tysięcy pięćset czterdzieści trzy" – traktując cyfry jak duże liczby zamiast ciągu cyfr. Poprawne odczytanie to "plus cztery dziewięć, jeden siedem zero, dziewięć osiem siedem sześć pięć cztery trzy."

Takie błędy pojawiały się w różnych kategoriach – wyniki sportowe, wzory chemiczne, waluty, współrzędne – wszędzie tam, gdzie model musiał zinterpretować symbole i zdecydować, jak je przeczytać.

Testowaliśmy na naszym wewnętrznym benchmarku obejmującym 27 kategorii w 8 językach.

Podsumowanie: 68% mniej błędów. Liczba błędów spadła z 15,3% do 4,9%.

Błędy według kategorii:

Before
Chemical Formulas
45.6%
Phone Numbers
16.9%
URLs / Emails
45.6%
ISBNs
17.9%
License Plates
14.4%
Mathematical Expressions
23.8%
Geographic Coordinates
46.2%
After
Chemical Formulas
0.6%
Phone Numbers
0.6%
URLs / Emails
3.9%
ISBNs
0.0%
License Plates
1.2%
Mathematical Expressions
6.9%
Geographic Coordinates
17.5%
Error Reduction
Chemical Formulas
99%
Phone Numbers
99%
URLs / Emails
91%
ISBNs
100%
License Plates
91%
Mathematical Expressions
71%
Geographic Coordinates
62%

Największa poprawa jest tam, gdzie kontekst decyduje o znaczeniu – na przykład dwukropek może oznaczać wynik meczu, godzinę albo proporcje, w zależności od tekstu.

Przykłady

Waluty — poprawna wartość:

Wpis:  ¥250,000

Przed: 25 000 jenów

Po:  250 000 jenów

Wzory chemiczne — symbole zachowane poprawnie:

Wpis:  SO₂

Przed: "siarka podwójna" (zniekształcone)

Po:  "S O dwa"

Wyniki sportowe — interpretacja zależna od kontekstu:

Wpis:  Wynik końcowy: 102-98

Przed: "sto dwa minus dziewięćdziesiąt osiem"

Po:  "sto dwa do dziewięćdziesięciu ośmiu"

Dostępność

Eleven v3 jest już dostępny na wszystkich platformach.

Przeglądaj artykuły zespołu ElevenLabs

ElevenLabs

Twórz z najwyższą jakością dźwięku AI