ElevenLabs wychodzi z wersji beta i wprowadza Eleven Multilingual v2 - podstawowy model AI do mowy w 30 językach

Opublikowano: 22 sie 2023

PosłuchajPosłuchaj tego artykułu

0:00

0:000:00

Platforma audio AIElevenLabsrobi ogromny krok naprzód w eliminowaniu barier językowych w treściach, wprowadzając nowy model głębokiego uczenia się wspierający wielojęzyczność w 30 językach - Eleven Multilingual v2
Postęp ten pozwoli firmom medialnym, twórcom gier, wydawcom i niezależnym twórcom na całym świecie znacznie poprawić dostępność swoich treści
Te nowe możliwości, które pojawiły się po serii nowych funkcji i ulepszeń od stycznia, oznaczają oficjalne zakończenie fazy beta firmy
Misją ElevenLabs jest udostępnienie wszystkich treści na całym świecie w dowolnym języku i głosie

Londyn, Wielka Brytania - ElevenLabsElevenLabs, światowy lider w dziedzinie oprogramowania audio AI, wprowadził dziś nowy model generowania głosu wielojęzycznego, zdolny do tworzenia głosu AI o precyzyjnym "bogactwie emocjonalnym" w 30 językach.

Postęp ten, oparty w całości na badaniach wewnętrznych, pozwoli twórcom produkować lokalne treści audio dla rynków międzynarodowych w Europie, Azji i na Bliskim Wschodzie. ElevenLabs spędziło ostatnie osiemnaście miesięcy analizując cechy mowy ludzkiej, budując nowe mechanizmy zrozumienia kontekstu i przekazywania emocji w generowaniu mowy, a także tworząc nowe, unikalne głosy.

Nowy model Eleven Multilingual v2, po wprowadzeniu tekstu na platformie ElevenLabs do zamiany tekstu na mowę, umożliwia automatyczne rozpoznawanie i generowanie mowy w około 30 językach z niespotykaną dotąd autentycznością.

Jednocześnie, niezależnie od tego, czy używany jest głos sztuczny czy sklonowany, unikalne cechy głosu mówcy zostaną zachowane we wszystkich językach, w tym jego oryginalny akcent. Oznacza to, że ten sam głos może ożywiać treści w 30 różnych językach.

To wdrożenie następuje po publicznym wydaniu profesjonalnego klonowania głosu dla wszystkich twórców na platformie. Ta aktualizacja produktu, wprowadzona wraz z dodatkowymi funkcjami bezpieczeństwa, pozwala użytkownikom tworzyć idealną cyfrową kopię swojego głosu; wersję wirtualną

nie do odróżnienia od oryginału. Dzisiejsze wydanie oznacza, że twój głos może mówić w prawie 30 językach oferowanych przez model wielojęzyczny.

Obsługiwane języki to: koreański, holenderski, turecki, szwedzki, indonezyjski, wietnamski, filipiński, ukraiński, grecki, czeski, fiński, rumuński, duński, bułgarski, malajski, węgierski, norweski, słowacki, chorwacki, klasyczny arabski i tamilski. Dołączyły do wcześniej dostępnych języków, w tym angielskiego, polskiego, niemieckiego, hiszpańskiego, francuskiego, włoskiego, hindi i portugalskiego.

Po wprowadzeniu ostatnich funkcji i ciągłych ulepszeń platformy, ElevenLabs ogłosiło dziś, że platforma oficjalnie wychodzi z wersji beta. Ten przejściowy moment jest kluczowy w dążeniu firmy do dostarczania niezawodnych i zaawansowanych narzędzi dla ponad miliona użytkowników na całym świecie.

Patrząc w przyszłość, ElevenLabs planuje wprowadzenie mechanizmu umożliwiającego użytkownikom dzielenie się głosami na platformie i korzystanie z rozwoju nowych głosów, co zwiększy możliwości współpracy między ludźmi a AI.

Mati Staniszewski, CEO i współzałożyciel ElevenLabs, skomentował:

"ElevenLabs zaczęło od marzenia, by wszystkie treści były dostępne na całym świecie w dowolnym języku i głosie. Wprowadzenie Eleven Multilingual v2 przybliżyło nas o krok do realizacji tego marzenia, czyniąc głosy AI o jakości ludzkiej dostępnymi w każdym akcencie.

"Nasze narzędzia do zamiany tekstu na mowę pomagają wyrównać szanse i dostarczają wysokiej jakości możliwości głosowe dla wszystkich twórców. Te korzyści teraz obejmują aplikacje wielojęzyczne w prawie 30 językach. Mamy nadzieję, że ostatecznie pokryjemy więcej języków i głosów z pomocą AI, eliminując bariery językowe w treściach. W ElevenLabs wierzymy, że te skoki w dostępności ostatecznie zwiększą kreatywność, innowacyjność i różnorodność."

Obniżając koszty i zasoby potrzebne do tworzenia wysokiej jakości treści audio w wielu językach, ElevenLabs umożliwia firmom i twórcom produkcję bardziej kreatywnych i dostępnych treści, które rezonują w różnych kulturach i językach.

Narzędzie do generowania mowy wielojęzycznej oferuje twórcom gier i niezależnym wydawcom nowe możliwości tłumaczenia doświadczeń z gier i treści audio dla międzynarodowej publiczności, komunikując się z graczami i słuchaczami w ich własnych językach bez kompromisów w jakości lub dokładności mowy.

Podobnie, instytucje edukacyjne mają teraz środki do natychmiastowego dostarczania uczniom dokładnych treści audio w docelowych językach, co wzmacnia umiejętności rozumienia i wymowy języka, a także zaspokaja różne style nauczania i potrzeby edukacyjne międzynarodowych studentów.

Twórcy wszelkiego rodzaju mogą używać narzędzia ElevenLabs do poprawy dostępności treści dla osób z wadami wzroku lub dodatkowymi potrzebami edukacyjnymi, uzupełniając treści wizualne mową dostępną w wielu językach.

Początkowy zestaw narzędzi audio AI, ujawniony w styczniu 2023 roku, obejmował możliwość zamiany dowolnego tekstu na mowę za pomocą wybranej grupy wcześniej zaprojektowanych głosów sztucznych oraz możliwość stworzenia kopii swojego głosu. Narzędzie do syntezy mowy wielojęzycznej to kolejny krok naprzód w misji ElevenLabs, by wszystkie treści były dostępne na całym świecie w dowolnym języku i głosie.

Wiele sektorów i branż kreatywnych już przyjęło tę technologię, w tym umożliwienie niezależnym autorom tworzenia audiobooków, wyrażanie postaci drugoplanowych w grach wideo, wspieranie osób niedowidzących w dostępie do treści pisanych online oraz uruchomienie pierwszej na świecie stacji radiowej AI. ElevenLabs nawiązało również współpracę z wieloma wiodącymi twórcami treści i studiami, w tym z generatorami wideo AI D-ID, jednym z największych wydawców audiobooków na świecie Storytel, platformą wideo naukowego otwartego dostępu ScienceCast, która intensyfikuje swoje narzędzie do tworzenia wideo na podstawie publikacji naukowych na arXiv, wiodącą globalną platformą twórców TheSoul Publishing, oraz niesamowitymi twórcami gier, takimi jak Embark Studios i Paradox Interactive, oraz platformą medialną MNTN.

ElevenLabs wychodzi z wersji beta i wprowadza Eleven Multilingual v2 - podstawowy model AI do mowy w 30 językach

Podobne artykuły

Pierwsza AI, która potrafi się śmiać

Konwersja głosu

Przedstawiamy Dubbing v2

Przedstawiamy Music v2