Przedstawiamy Eleven Multilingual v1: Nasz nowy model syntezy mowy

Nasze obecne podejście do głębokiego uczenia się wykorzystuje więcej danych, większą moc obliczeniową i nowe techniki, aby dostarczyć nasz najbardziej zaawansowany model syntezy mowy

Dzisiaj z przyjemnością prezentujemy Eleven Multilingual v1 – nasz zaawansowany model syntezy mowy obsługujący siedem nowych języków: francuski, niemiecki, hinduski, włoski, Polski, Portugalski, i hiszpański. Bazując na badaniach stanowiących podstawę Eleven Monolingual v1, nasze obecne podejście do głębokiego uczenia się wykorzystuje więcej danych, większą moc obliczeniową i nowatorskie techniki w ramach coraz bardziej zaawansowanego modelu, który jest w stanie zrozumieć niuanse tekstowe i zapewnić bogaty emocjonalnie występ. Ten postęp poszerza kreatywne horyzonty twórców, deweloperów gier i wydawców oraz otwiera drogę do wykorzystania mediów generatywnych w celu tworzenia bardziej lokalnych, dostępnych i pomysłowych treści.

Nowy model jest dostępny w ramach wszystkich planów subskrypcji. Możesz go już teraz wypróbować na naszej platformie Beta.

Aby z niej skorzystać, wystarczy wybrać ją z nowo dodanego menu rozwijanego w panelu Synteza mowy.

Przegląd badań

Podobnie jak jego poprzednik, nowy model powstał w całości na podstawie naszych wewnętrznych badań. Zachowuje wszystkie mocne strony, które uczyniły go Jedenaście monolingwalnych v1 doskonałe narzędzie do opowiadania historii, np. możliwość dostosowania przekazu do kontekstu oraz przekazywania intencji i emocji w sposób hiperrealistyczny. Funkcje te zostały teraz rozszerzone o nowe języki obsługiwane poprzez wielojęzyczne szkolenie danych.

Godną uwagi cechą tego modelu jest jego zdolność do rozpoznawania tekstu wielojęzycznego i odpowiedniej jego artykulacji. Teraz możesz generuj mowę w wielu językach za pomocą jednego polecenia przy jednoczesnym zachowaniu unikalnych cech głosu każdego mówcy. Aby uzyskać najlepsze rezultaty, zalecamy ustawienie jednego języka podpowiedzi. Chociaż model ten radzi sobie już całkiem dobrze z obsługą wielu języków jednocześnie, konieczne są dalsze udoskonalenia.

Nowy model jest kompatybilny z innymi urządzeniami VoiceLab funkcje, takie jak natychmiastowe klonowanie głosu i projektowanie głosu. Oczekuje się, że wszystkie utworzone głosy zachowają większość oryginalnych cech mowy we wszystkich językach, łącznie z oryginalnym akcentem.

To powiedziawszy, model ten ma znane ograniczenia: liczby, akronimy i wyrazy obcojęzyczne czasami domyślnie są wprowadzane w języku angielskim, gdy zostanie wyświetlony monit w innym języku. Na przykład liczba „11” lub słowo „radio” wpisane w monicie w języku hiszpańskim mogą zostać wymówione tak, jak brzmiałyby w języku angielskim. Zalecamy, aby w miarę wprowadzania udoskonaleń wyjaśniać skróty i liczby w języku docelowym.

Demokratyzacja głosu

Powstanie ElevenLabs było odpowiedzią na marzenie o powszechnym dostępie do wszystkich treści w każdym języku i każdym głosem. Członkowie naszego zespołu pochodzą z całej Europy, Azji i Stanów Zjednoczonych. W miarę jak nasz zespół i cały świat stają się coraz bardziej wielojęzyczne, jednoczymy się coraz bardziej wokół wizji udostępniania głosów sztucznej inteligencji o jakości ludzkiej w każdym języku.

Najnowsza wersja naszego Tekst na mowę (TTS) model ten jest zaledwie pierwszym krokiem na drodze do przekształcenia tej wizji w rzeczywistość. Dzięki pojawieniu się głosów sztucznej inteligencji o jakości zbliżonej do ludzkiej, użytkownicy i firmy mogą teraz tworzyć i dostosowywać treści audio zgodnie ze swoimi potrzebami, priorytetami i preferencjami. To już pokazało potencjał wyrównania szans dla twórców, małych firm i niezależnych artystów. Wykorzystując potencjał sztucznej inteligencji w zakresie dźwięku, użytkownicy mogą teraz tworzyć wysokiej jakości wrażenia słuchowe, które dorównują tym oferowanym przez większe organizacje dysponujące większymi zasobami.

Korzyści te dotyczą teraz także aplikacji wielojęzycznych, wielokulturowych i edukacyjnych, ponieważ umożliwiają użytkownikom, firmom i instytucjom tworzenie autentycznych materiałów audio, które trafią do szerszego grona odbiorców. Zapewniając szeroki wachlarz głosów, akcentów i języków, sztuczna inteligencja pomaga pokonywać bariery kulturowe i promować globalne porozumienie. W Eleven wierzymy, że ta nowo odkryta dostępność ostatecznie sprzyja większej kreatywności, innowacyjności i różnorodności.

Twórcy treści którzy chcą nawiązać kontakt z różnorodną publicznością dysponujemy teraz narzędziami pozwalającymi na przezwyciężanie różnic kulturowych i wspieranie integracji.

Twórcy gier i wydawcy może tworzyć wciągające, lokalne doświadczenia dla odbiorców z całego świata, przekraczając bariery językowe i nawiązując kontakt z graczami i słuchaczami w celu maksymalizacji zaangażowania i efektywności, bez utraty jakości lub dokładności.

Placówki edukacyjne dysponują teraz środkami umożliwiającymi produkcję treści audio dla różnych użytkowników w ich językach docelowych, wspomagając rozumienie języka i nawet umiejętności wymowy, a także dostosowując się do różnych stylów nauczania i potrzeb edukacyjnych.

Instytuty dostępności może teraz jeszcze bardziej pomóc osobom z dysfunkcją wzroku lub trudnościami w uczeniu się, zapewniając im środki pozwalające na łatwą konwersję trudniej dostępnych zasobów na medium odpowiadające ich potrzebom zarówno pod względem treści, jak i formy.

Nie możemy się doczekać, aż nasi obecni i przyszli twórcy i programiści przesuną granice tego, co możliwe!

Odkryj więcej

ElevenLabs

Twórz przy użyciu technologii audio AI zapewniającej najwyższą jakość