
ElevenLabs wychodzi z fazy beta i wprowadza Eleven Multilingual v2: podstawowy model głosu AI dla 30 języków
- Platforma AI głosowego ElevenLabsosiąga nowy etap w eliminowaniu barier językowych w treściach, wprowadzając nowy model głęboko uczący się z obsługą wielojęzyczną w 30 językach: Eleven Multilingual v2
- Ten postęp pozwoli firmom medialnym, deweloperom gier, wydawcom i niezależnym twórcom na całym świecie znacznie poprawić dostępność ich treści
- Te nowe funkcje, które pojawiły się po serii nowości i ulepszeń od stycznia, oznaczają również oficjalne zakończenie fazy beta firmy
- Misją ElevenLabs jest uczynienie wszystkich treści uniwersalnie dostępnymi w każdym języku i z dowolnym głosem
Londyn, Wielka Brytania - ElevenLabs, światowy lider w oprogramowaniu AI głosowego, wprowadził dziś nowy model generowania głosu wielojęzycznego zdolny do precyzyjnego tworzenia dźwięków AI „pełnych emocji” w 30 językach.
Ten postęp, oparty w całości na badaniach wewnętrznych, pozwoli twórcom tworzyć zlokalizowane treści audio dla rynków międzynarodowych w Europie, Azji i na Bliskim Wschodzie. ElevenLabs spędziło ostatnie 18 miesięcy na analizie cech ludzkiej mowy, tworzeniu nowych mechanizmów rozumienia kontekstu i przekazywania emocji w generowaniu mowy oraz na syntezowaniu nowych i unikalnych głosów.
Z Eleven Multilingual v2, gdy tekst jest wprowadzany do platformy syntezy mowy ElevenLabs, nowy model może automatycznie rozpoznać prawie 30 języków pisanych i generować mowę z niespotykaną autentycznością.
Ponadto, niezależnie od tego, czy jest to głos syntetyczny, czy klonowany, unikalne cechy głosu mówcy są zachowane we wszystkich językach, w tym jego oryginalny akcent. Dzięki temu ten sam głos może ożywić treści w 30 różnych językach.
To wdrożenie następuje po wprowadzeniu profesjonalnego klonowania głosu dla wszystkich twórców na platformie. Ta aktualizacja produktu, wprowadzona jednocześnie z dodatkowymi funkcjami zabezpieczeń, pozwala użytkownikom stworzyć doskonałą cyfrową kopię własnego głosu, która jest praktycznie
nie do odróżnienia od oryginału. Dzięki tej nowej wersji, twój głos będzie mógł wyrażać się w około 30 językach oferowanych przez model wielojęzyczny.
Obsługiwane języki to: koreański, niderlandzki, turecki, szwedzki, indonezyjski, wietnamski, filipiński, ukraiński, grecki, czeski, fiński, rumuński, duński, bułgarski, malajski, węgierski, norweski, słowacki, chorwacki, arabski klasyczny i tamilski. Dołączają one do wcześniej dostępnych języków, takich jak angielski, polski, niemiecki, hiszpański, francuski, włoski, hindi i portugalski.
Po ostatnich wprowadzeniach funkcji i ciągłych ulepszeniach platformy, ElevenLabs potwierdziło dziś również, że platforma oficjalnie wychodzi z fazy beta. Ta zmiana oznacza punkt zwrotny w zaangażowaniu firmy w dostarczanie niezawodnych i nowoczesnych narzędzi dla ponad miliona użytkowników na całym świecie.
W przyszłości ElevenLabs planuje wprowadzić mechanizm umożliwiający użytkownikom dzielenie się swoimi głosami na platformie i korzystanie z rozwoju nowych dźwięków, wspierając tym samym możliwości współpracy między człowiekiem a sztuczną inteligencją.
Mati Staniszewski, CEO i współzałożyciel ElevenLabs, komentuje:
„ElevenLabs zostało stworzone z myślą o uczynieniu wszystkich treści uniwersalnie dostępnymi w każdym języku i z dowolnym głosem. Dzięki wydaniu Eleven Multilingual v2, zbliżamy się o krok do naszego celu, jakim jest uczynienie tego marzenia rzeczywistością i udostępnienie głosów AI o jakości ludzkiej we wszystkich dialektach.
„Nasze narzędzia do syntezy mowy pozwalają wyrównać szanse i oferują wszystkim twórcom wysokiej jakości możliwości audio głosowego. Te korzyści teraz obejmują aplikacje wielojęzyczne w prawie 30 językach. W przyszłości mamy nadzieję objąć jeszcze więcej języków i głosów z pomocą AI, eliminując bariery językowe w treściach. W ElevenLabs wierzymy, że te postępy w zakresie dostępności będą ostatecznie wspierać kreatywność, innowacje i różnorodność.”
Obniżając koszty i zasoby potrzebne do tworzenia wysokiej jakości treści audio w wielu językach, ElevenLabs umożliwia firmom i twórcom produkcję bardziej kreatywnych i dostępnych treści, które uwzględniają wszystkie kultury i języki.
Dla deweloperów i niezależnych wydawców gier, narzędzie do generowania głosu wielojęzycznego pozwala tłumaczyć doświadczenia z gier i treści audio dla międzynarodowej publiczności, nawiązując kontakt z graczami i słuchaczami w ich własnym języku bez kompromisów w jakości lub precyzji mowy.
Podobnie, instytucje edukacyjne mogą teraz natychmiast dostarczać uczniom dokładne treści audio w językach docelowych, co wzmacnia umiejętności rozumienia i wymowy oraz odpowiada na różne style nauczania i potrzeby edukacyjne studentów międzynarodowych.
Twórcy wszelkiego rodzaju mogą używać narzędzia ElevenLabs, aby poprawić dostępność treści dla osób z wadami wzroku lub mających dodatkowe potrzeby edukacyjne, uzupełniając treści wizualne o mowę dostępną w wielu językach.
Pierwszy zestaw narzędzi głosowych AI, zaprezentowany w styczniu 2023 roku, obejmował możliwość przekształcenia dowolnego tekstu w mowę dzięki wyborowi wstępnie zaprojektowanych głosów syntetycznych oraz możliwość stworzenia klonu własnego głosu. Narzędzie do syntezy mowy wielojęzycznej to nowy krok w misji ElevenLabs, aby uczynić wszystkie treści uniwersalnie dostępnymi w każdym języku i z dowolnym głosem.
Technologia została już przyjęta w wielu sektorach i branżach kreatywnych, umożliwiając niezależnym autorom tworzenie audiobooków, dając głos postaciom drugoplanowym w grach wideo, pomagając osobom niewidomym w dostępie do treści pisanych online i zasilając pierwszą na świecie stację radiową AI. ElevenLabs współpracuje również z wieloma czołowymi twórcami i studiami treści, w tym z generatorami wideo AI D-ID, jednym z największych wydawców audiobooków na świecie , Storytel, platformą wideo naukowego z otwartym dostępem ScienceCast której narzędzie do generowania wideo gromadzi dokumenty naukowe publikowane na arXiv, głównej światowej platformie tworzenia treści TheSoul Publishing, niesamowitymi deweloperami gier jak Embark Studios i Paradox Interactive, oraz platformą multimedialną MNTN.
Zobacz więcej


Dubbing made simpler, sharper, and faster at PERSO.ai
ESTsoft and ElevenLabs partner to bring natural voiceovers and frame-accurate lip-sync to global video localization.