ElevenLabs wychodzi z fazy beta i wprowadza Eleven Multilingual v2: podstawowy model głosu AI dla 30 języków

22 sie 2023 • 4 minut czytania

Platforma AI głosowego ElevenLabsosiąga nowy etap w eliminowaniu barier językowych w treściach, wprowadzając nowy model głęboko uczący się z obsługą wielojęzyczną w 30 językach: Eleven Multilingual v2
Ten postęp pozwoli firmom medialnym, deweloperom gier, wydawcom i niezależnym twórcom na całym świecie znacznie poprawić dostępność ich treści
Te nowe funkcje, które pojawiły się po serii nowości i ulepszeń od stycznia, oznaczają również oficjalne zakończenie fazy beta firmy
Misją ElevenLabs jest uczynienie wszystkich treści uniwersalnie dostępnymi w każdym języku i z dowolnym głosem

Londyn, Wielka Brytania - ElevenLabs, światowy lider w oprogramowaniu AI głosowego, wprowadził dziś nowy model generowania głosu wielojęzycznego zdolny do precyzyjnego tworzenia dźwięków AI „pełnych emocji” w 30 językach.

Ten postęp, oparty w całości na badaniach wewnętrznych, pozwoli twórcom tworzyć zlokalizowane treści audio dla rynków międzynarodowych w Europie, Azji i na Bliskim Wschodzie. ElevenLabs spędziło ostatnie 18 miesięcy na analizie cech ludzkiej mowy, tworzeniu nowych mechanizmów rozumienia kontekstu i przekazywania emocji w generowaniu mowy oraz na syntezowaniu nowych i unikalnych głosów.

Z Eleven Multilingual v2, gdy tekst jest wprowadzany do platformy syntezy mowy ElevenLabs, nowy model może automatycznie rozpoznać prawie 30 języków pisanych i generować mowę z niespotykaną autentycznością.

Ponadto, niezależnie od tego, czy jest to głos syntetyczny, czy klonowany, unikalne cechy głosu mówcy są zachowane we wszystkich językach, w tym jego oryginalny akcent. Dzięki temu ten sam głos może ożywić treści w 30 różnych językach.

To wdrożenie następuje po wprowadzeniu profesjonalnego klonowania głosu dla wszystkich twórców na platformie. Ta aktualizacja produktu, wprowadzona jednocześnie z dodatkowymi funkcjami zabezpieczeń, pozwala użytkownikom stworzyć doskonałą cyfrową kopię własnego głosu, która jest praktycznie

nie do odróżnienia od oryginału. Dzięki tej nowej wersji, twój głos będzie mógł wyrażać się w około 30 językach oferowanych przez model wielojęzyczny.

Obsługiwane języki to: koreański, niderlandzki, turecki, szwedzki, indonezyjski, wietnamski, filipiński, ukraiński, grecki, czeski, fiński, rumuński, duński, bułgarski, malajski, węgierski, norweski, słowacki, chorwacki, arabski klasyczny i tamilski. Dołączają one do wcześniej dostępnych języków, takich jak angielski, polski, niemiecki, hiszpański, francuski, włoski, hindi i portugalski.

Po ostatnich wprowadzeniach funkcji i ciągłych ulepszeniach platformy, ElevenLabs potwierdziło dziś również, że platforma oficjalnie wychodzi z fazy beta. Ta zmiana oznacza punkt zwrotny w zaangażowaniu firmy w dostarczanie niezawodnych i nowoczesnych narzędzi dla ponad miliona użytkowników na całym świecie.

W przyszłości ElevenLabs planuje wprowadzić mechanizm umożliwiający użytkownikom dzielenie się swoimi głosami na platformie i korzystanie z rozwoju nowych dźwięków, wspierając tym samym możliwości współpracy między człowiekiem a sztuczną inteligencją.

Mati Staniszewski, CEO i współzałożyciel ElevenLabs, komentuje:

„ElevenLabs zostało stworzone z myślą o uczynieniu wszystkich treści uniwersalnie dostępnymi w każdym języku i z dowolnym głosem. Dzięki wydaniu Eleven Multilingual v2, zbliżamy się o krok do naszego celu, jakim jest uczynienie tego marzenia rzeczywistością i udostępnienie głosów AI o jakości ludzkiej we wszystkich dialektach.

„Nasze narzędzia do syntezy mowy pozwalają wyrównać szanse i oferują wszystkim twórcom wysokiej jakości możliwości audio głosowego. Te korzyści teraz obejmują aplikacje wielojęzyczne w prawie 30 językach. W przyszłości mamy nadzieję objąć jeszcze więcej języków i głosów z pomocą AI, eliminując bariery językowe w treściach. W ElevenLabs wierzymy, że te postępy w zakresie dostępności będą ostatecznie wspierać kreatywność, innowacje i różnorodność.”

Obniżając koszty i zasoby potrzebne do tworzenia wysokiej jakości treści audio w wielu językach, ElevenLabs umożliwia firmom i twórcom produkcję bardziej kreatywnych i dostępnych treści, które uwzględniają wszystkie kultury i języki.

Dla deweloperów i niezależnych wydawców gier, narzędzie do generowania głosu wielojęzycznego pozwala tłumaczyć doświadczenia z gier i treści audio dla międzynarodowej publiczności, nawiązując kontakt z graczami i słuchaczami w ich własnym języku bez kompromisów w jakości lub precyzji mowy.

Podobnie, instytucje edukacyjne mogą teraz natychmiast dostarczać uczniom dokładne treści audio w językach docelowych, co wzmacnia umiejętności rozumienia i wymowy oraz odpowiada na różne style nauczania i potrzeby edukacyjne studentów międzynarodowych.

Twórcy wszelkiego rodzaju mogą używać narzędzia ElevenLabs, aby poprawić dostępność treści dla osób z wadami wzroku lub mających dodatkowe potrzeby edukacyjne, uzupełniając treści wizualne o mowę dostępną w wielu językach.

Pierwszy zestaw narzędzi głosowych AI, zaprezentowany w styczniu 2023 roku, obejmował możliwość przekształcenia dowolnego tekstu w mowę dzięki wyborowi wstępnie zaprojektowanych głosów syntetycznych oraz możliwość stworzenia klonu własnego głosu. Narzędzie do syntezy mowy wielojęzycznej to nowy krok w misji ElevenLabs, aby uczynić wszystkie treści uniwersalnie dostępnymi w każdym języku i z dowolnym głosem.

Technologia została już przyjęta w wielu sektorach i branżach kreatywnych, umożliwiając niezależnym autorom tworzenie audiobooków, dając głos postaciom drugoplanowym w grach wideo, pomagając osobom niewidomym w dostępie do treści pisanych online i zasilając pierwszą na świecie stację radiową AI. ElevenLabs współpracuje również z wieloma czołowymi twórcami i studiami treści, w tym z generatorami wideo AI D-ID, jednym z największych wydawców audiobooków na świecie , Storytel, platformą wideo naukowego z otwartym dostępem ScienceCast której narzędzie do generowania wideo gromadzi dokumenty naukowe publikowane na arXiv, głównej światowej platformie tworzenia treści TheSoul Publishing, niesamowitymi deweloperami gier jak Embark Studios i Paradox Interactive, oraz platformą multimedialną MNTN.

Przeglądaj artykuły zespołu ElevenLabs

Customer stories

Customer stories

Le Walk brings cities to life with ElevenLabs

Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session

Agents Platform Stories

Voxpopme enhances AI Moderator with ElevenLabs Agents Platform

Supporting 10,000+ research conversations with natural, trustworthy voices

Twórz z najwyższą jakością dźwięku AI

Zacznij za darmo

Masz już konto? Zaloguj się

Napędzane przez ElevenLabs Agenci