
ElevenLabs wychodzi z fazy „beta” i wprowadza Eleven Multilingual v2, model konwersacyjny AI w 30 językach
- Platforma głosowa AIElevenLabs robi ogromny krok w eliminacji barier językowych w różnych treściach dzięki wprowadzeniu nowego modelu głębokiego uczenia, który oferuje możliwości wielojęzyczne w 30 językach:Eleven Multilingual v2.
- Ten postęp pozwoli mediom, deweloperom gier, wydawcom i niezależnym twórcom na całym świecie znacznie poprawić dostępność swoich treści.
- Te nowe możliwości, które pojawiły się po serii wprowadzeń funkcji i ulepszeń od stycznia, oficjalnie oznaczają również koniec fazy „beta” firmy.
- Celem ElevenLabs jest uczynienie wszystkich treści dostępnych uniwersalnie, w każdym języku i z dowolnym głosem.
Londyn, Wielka Brytania-ElevenLabs, światowy lider w oprogramowaniu głosowym AI, wprowadził dziś nowy model generowania głosu wielojęzycznego w 30 językach,zdolny do precyzyjnego tworzenia „emocjonalnie bogatego” audio generowanego przez AI.
Ten postęp, oparty w całości na badaniach wewnętrznych, pozwoli twórcom tworzyć zlokalizowane treści audio dla rynków międzynarodowych w Europie, Azji i na Bliskim Wschodzie. ElevenLabs poświęciło ostatnie 18 miesięcy na analizę markerów mowy ludzkiej, co pozwoliło stworzyć nowe mechanizmy rozumienia kontekstu i przekazywania emocji w generowaniu mowy oraz syntezować nowe i unikalne głosy.
Z Eleven Multilingual v2, wprowadzając tekst na platformie zamiany tekstu na mowę ElevenLabs,nowy model może automatycznie rozpoznać około 30 języków i generować głos z niespotykaną autentycznością.
Jednocześnie, niezależnie od tego, czy używana jest głos syntetyczny czy klonowany, unikalne cechy głosu mówcy są zachowane we wszystkich językach, w tym jego oryginalny akcent. Oznacza to, że można używać tego samego głosu do ożywienia treści w 30 różnych językach.
Towprowadzenie następuje po publikacji Professional Voice Cloning, dostępnego dla wszystkich twórców na platformie. Ta aktualizacja produktu, wprowadzona wraz z dodatkowymi funkcjami zabezpieczeń, pozwala użytkownikom stworzyć idealną cyfrową kopię własnego głosu. Głos, który jest praktycznie nie do odróżnienia od oryginału. Dzisiejsze wprowadzenie oznacza, że nasz głos będzie mógł mówić w około 30 językach oferowanych przez model wielojęzyczny.
Obsługiwane języki tokoreański, niderlandzki, turecki, szwedzki, indonezyjski, wietnamski, filipiński, ukraiński, grecki, czeski, fiński, rumuński, duński, bułgarski, malajski, węgierski, norweski, słowacki, chorwacki, klasyczny arabski i tamilski. Dołączają do wcześniej dostępnych języków, w tym angielskiego, polskiego, niemieckiego, hiszpańskiego, francuskiego, włoskiego, hindi i portugalskiego.
Po niedawnych wprowadzeniach nowych funkcji i ciągłych ulepszeniach platformy, ElevenLabs potwierdziło dziś, że platforma oficjalnie wychodzi z fazy „beta”. Ta zmiana oznacza kluczowy moment w zaangażowaniu firmy: dostarczanie niezawodnych i nowoczesnych narzędzi dla ponad 1 miliona globalnych użytkowników.
W przyszłości ElevenLabs planuje wprowadzić mechanizm, który pozwoli użytkownikom dzielić się głosami na platformie i czerpać korzyści z rozwoju nowych plików audio, co sprzyjałoby możliwościom współpracy między ludźmi a AI.
Mati Staniszewski, dyrektor generalny (CEO) i współzałożyciel ElevenLabs, komentuje:
„ElevenLabs powstało z marzeniem, aby wszystkie treści były dostępne uniwersalnie, w każdym języku i z dowolnym głosem. Dzięki wprowadzeniu Eleven Multilingual v2, jesteśmy o krok bliżej do realizacji tego marzenia i udostępnienia głosów o jakości ludzkiej stworzonych przez AI we wszystkich dialektach”.
„Nasze narzędzia generowania „z tekstu na mowę” przyczyniają się do równości szans i oferują wysokiej jakości możliwości audio mówionego dla wszystkich twórców. Te korzyści teraz rozszerzają się na aplikacje wielojęzyczne w prawie 30 językach. Z czasem mamy nadzieję objąć jeszcze więcej języków i głosów z pomocą AI, eliminując bariery językowe w treściach. W ElevenLabs wierzymy, że te postępy w dostępności ostatecznie sprzyjają większej kreatywności, innowacji i różnorodności”.
Zmniejszając koszty i zasoby potrzebne do tworzenia wysokiej jakości treści audio w wielu językach, ElevenLabs umożliwia firmom i twórcom produkcję bardziej kreatywnych i dostępnych treści we wszystkich kulturach i językach.
Dlaniezależnych deweloperów i wydawców gier, narzędzie generowania głosu wielojęzycznego oferuje nowe możliwości tłumaczenia doświadczeń z gier i treści audio dla międzynarodowych odbiorców, łącząc się z graczami i słuchaczami w ich własnych językach bez obniżania jakości lub precyzji mowy.
Podobnie,instytucje edukacyjnemają teraz środki, aby natychmiast dostarczać studentom dokładne treści audio w docelowych językach, co wzmacnia umiejętności rozumienia i wymowy różnych języków, a także zaspokaja różne style nauczania i potrzeby edukacyjne studentów na całym świecie.
Każdy rodzaj twórcy może używać narzędzia ElevenLabs, aby poprawićdostępnośćswoich treści dla osób z niepełnosprawnością wzrokową lub dodatkowymi potrzebami edukacyjnymi, tak aby treści wizualne były uzupełniane przez dostępne audio w różnych językach.
Początkowy zestaw narzędzi głosowych AI, zaprezentowany w styczniu 2023 roku, obejmował możliwość konwersji dowolnego tekstu na mowę dzięki wyborowi zaprojektowanych głosów syntetycznych oraz możliwość stworzenia klonu głosu użytkownika. Narzędzie syntezy głosu wielojęzycznego to kolejny krok w celu ElevenLabs, aby wszystkie treści były dostępne uniwersalnie, w każdym języku i z dowolnym głosem.
Ta technologia została już przyjęta w wielu branżach i sektorach kreatywnych, co pozwoliło niezależnym autorom tworzyć audiobooki, nadawać głos postaciom drugoplanowym w grach wideo, wspierać osoby z niepełnosprawnością wzrokową w dostępie do treści pisanych online, a nawet uruchomić pierwszy na świecie kanał radiowy AI. ElevenLabs współpracuje z niektórymi z głównych studiów i twórców treści, jak generatory wideo AID-ID, jednym z największych wydawców audiobooków na świecie,Storytel,platformą wideo naukowego z otwartym dostępemScienceCast, której narzędzie generowania wideo kondensuje prace naukowe publikowane warXiv,wiodącą na świecie platformą tworzenia treści,TheSoul Publishing,deweloperami niektórych z najbardziej niesamowitych gier, jakEmbark StudiosiParadox Interactive,oraz platformą medialnąMNTN.
Zobacz więcej


Dubbing made simpler, sharper, and faster at PERSO.ai
ESTsoft and ElevenLabs partner to bring natural voiceovers and frame-accurate lip-sync to global video localization.