Przedstawiamy Eleven Multilingual v1: Nasz nowy model syntezy mowy

Opublikowano: 27 kwi 2023

PosłuchajPosłuchaj tego artykułu

0:00

0:000:00

Dzisiaj z przyjemnością prezentujemy Eleven Multilingual v1 – nasz zaawansowany model syntezy mowy obsługujący siedem nowych języków: francuski, niemiecki, hinduski, włoski, Polski, Portugalski, i hiszpański. Bazując na badaniach stanowiących podstawę Eleven Monolingual v1, nasze obecne podejście do głębokiego uczenia się wykorzystuje więcej danych, większą moc obliczeniową i nowatorskie techniki w ramach coraz bardziej zaawansowanego modelu, który jest w stanie zrozumieć niuanse tekstowe i zapewnić bogaty emocjonalnie występ. Ten postęp poszerza kreatywne horyzonty twórców, deweloperów gier i wydawców oraz otwiera drogę do wykorzystania mediów generatywnych w celu tworzenia bardziej lokalnych, dostępnych i pomysłowych treści.

Nowy model jest dostępny w ramach wszystkich planów subskrypcji. Możesz go już teraz wypróbować na naszej platformie Beta.

ElevenLabs

Aby z niej skorzystać, wystarczy wybrać ją z nowo dodanego menu rozwijanego w panelu Synteza mowy.

Przegląd badań

Podobnie jak jego poprzednik, nowy model powstał w całości na podstawie naszych wewnętrznych badań. Zachowuje wszystkie mocne strony, które uczyniły go Jedenaście monolingwalnych v1 doskonałe narzędzie do opowiadania historii, np. możliwość dostosowania przekazu do kontekstu oraz przekazywania intencji i emocji w sposób hiperrealistyczny. Funkcje te zostały teraz rozszerzone o nowe języki obsługiwane poprzez wielojęzyczne szkolenie danych.

Godną uwagi cechą tego modelu jest jego zdolność do rozpoznawania tekstu wielojęzycznego i odpowiedniej jego artykulacji. Teraz możesz generuj mowę w wielu językach za pomocą jednego polecenia przy jednoczesnym zachowaniu unikalnych cech głosu każdego mówcy. Aby uzyskać najlepsze rezultaty, zalecamy ustawienie jednego języka podpowiedzi. Chociaż model ten radzi sobie już całkiem dobrze z obsługą wielu języków jednocześnie, konieczne są dalsze udoskonalenia.

Nowy model jest kompatybilny z innymi urządzeniami VoiceLab funkcje, np. Instant

To powiedziawszy, model ten ma znane ograniczenia: liczby, akronimy i wyrazy obcojęzyczne czasami domyślnie są wprowadzane w języku angielskim, gdy zostanie wyświetlony monit w innym języku. Na przykład liczba „11” lub słowo „radio” wpisane w monicie w języku hiszpańskim mogą zostać wymówione tak, jak brzmiałyby w języku angielskim. Zalecamy, aby w miarę wprowadzania udoskonaleń wyjaśniać skróty i liczby w języku docelowym.

Demokratyzacja głosu

ElevenLabs powstało z marzeniem, by uczynić treści dostępne w każdym języku i każdym głosie. Nasz zespół pochodzi z całej Europy, Azji i USA. W miarę jak nasz zespół i świat stają się coraz bardziej wielojęzyczne, jesteśmy coraz bardziej zjednoczeni w wizji tworzenia głosów AI o jakości ludzkiej

Najnowsza wersja naszego Tekst na mowę (TTS) model ten jest zaledwie pierwszym krokiem na drodze do przekształcenia tej wizji w rzeczywistość. Dzięki pojawieniu się głosów sztucznej inteligencji o jakości zbliżonej do ludzkiej, użytkownicy i firmy mogą teraz tworzyć i dostosowywać treści audio zgodnie ze swoimi potrzebami, priorytetami i preferencjami. To już pokazało potencjał wyrównania szans dla twórców, małych firm i niezależnych artystów. Wykorzystując potencjał sztucznej inteligencji w zakresie dźwięku, użytkownicy mogą teraz tworzyć wysokiej jakości wrażenia słuchowe, które dorównują tym oferowanym przez większe organizacje dysponujące większymi zasobami.

Te możliwości obejmują teraz także

Twórcy treści którzy chcą nawiązać kontakt z różnorodną publicznością dysponujemy teraz narzędziami pozwalającymi na przezwyciężanie różnic kulturowych i wspieranie integracji.

Twórcy gier i wydawcy może tworzyć wciągające, lokalne doświadczenia dla odbiorców z całego świata, przekraczając bariery językowe i nawiązując kontakt z graczami i słuchaczami w celu maksymalizacji zaangażowania i efektywności, bez utraty jakości lub dokładności.

Placówki edukacyjne dysponują teraz środkami umożliwiającymi produkcję treści audio dla różnych użytkowników w ich językach docelowych, wspomagając rozumienie języka i nawet umiejętności wymowy, a także dostosowując się do różnych stylów nauczania i potrzeb edukacyjnych.

Instytuty dostępności może teraz jeszcze bardziej pomóc osobom z dysfunkcją wzroku lub trudnościami w uczeniu się, zapewniając im środki pozwalające na łatwą konwersję trudniej dostępnych zasobów na medium odpowiadające ich potrzebom zarówno pod względem treści, jak i formy.

Nie możemy się doczekać, aż nasi obecni i przyszli twórcy i programiści przesuną granice tego, co możliwe!

Podobne artykuły

ElevenLabs wychodzi z wersji beta i wydaje Eleven Multilingual v2 — podstawowy model mowy AI dla prawie 30 języków
Kategoria
Badania
Data
22 sie 2023
ElevenLabs w wersji beta, wprowadza Eleven Multilingual v2, podstawowy model AI dla 30 języków
Kategoria
Badania
Data
22 sie 2023
ElevenLabs wychodzi z fazy „beta” i wprowadza Eleven Multilingual v2, model konwersacyjny AI w 30 językach
Kategoria
Badania
Data
22 sie 2023
ElevenLabs wychodzi z bety i wprowadza Eleven Multilingual v2 – przełomowy model językowy AI dla 30 języków
Kategoria
Badania
Data
22 sie 2023

Twórz z najwyższej jakości audio AI

Porozmawiaj z działem sprzedaży Zarejestruj się

Przegląd badań

Demokratyzacja głosu

Podobne artykuły

ElevenLabs wychodzi z wersji beta i wydaje Eleven Multilingual v2 — podstawowy model mowy AI dla prawie 30 języków

ElevenLabs w wersji beta, wprowadza Eleven Multilingual v2, podstawowy model AI dla 30 języków

ElevenLabs wychodzi z fazy „beta” i wprowadza Eleven Multilingual v2, model konwersacyjny AI w 30 językach

ElevenLabs wychodzi z bety i wprowadza Eleven Multilingual v2 – przełomowy model językowy AI dla 30 języków