
Eleven v3 (alpha), now available in the API
Eleven v3 (alpha), the most expressive text to speech model, is now available in the API for every developer.
Wielka Brytania Londyn - światowy lider w dziedzinie oprogramowania AI do głosuElevenLabs ogłosił dziś nowy, wielojęzyczny model generowania głosu w 30 językach, zdolny do tworzenia 'emocjonalnie bogatego' AI audio.
Opierając się wyłącznie na własnych badaniach, ten krok pozwala twórcom tworzyć zlokalizowane treści audio dla międzynarodowych rynków w Europie, Azji i na Bliskim Wschodzie. ElevenLabs analizował wskaźniki ludzkiej mowy przez ostatnie 18 miesięcy, budując nowe mechanizmy do rozumienia kontekstu i przekazywania emocji w generowanej mowie oraz syntezując nowe, unikalne głosy.
Dzięki Eleven Multilingual v2, gdy tekst jest wprowadzany do platformy ElevenLabs Text to Speechnowy model automatycznie rozpoznaje prawie 30 języków pisanych i generuje mowę w tym języku z niespotykaną autentycznością.
Jednocześnie, niezależnie od tego, czy używasz głosu syntetycznego czy klonowanego, unikalne cechy głosu mówcy, w tym oryginalny akcent, są zachowane we wszystkich językach. Oznacza to, że możesz ożywić treści w 30 językach, używając tego samego głosu.
Towydanienastępuje po udostępnieniu Professional Voice Cloning wszystkim twórcom na platformie. Dzięki dodatkowym funkcjom bezpieczeństwa i ochrony, ta aktualizacja produktu pozwala użytkownikom tworzyć niemal nieodróżnialną cyfrową
kopię swojego głosu. Dzisiejsze wydanie oznacza, że model wielojęzyczny jest dostępny w prawie 30 językach.
Obsługiwane języki tokoreański, niderlandzki, turecki, szwedzki, indonezyjski, wietnamski, filipiński, ukraiński, grecki, czeski, fiński, rumuński, duński, bułgarski, malajski, węgierski, norweski, słowacki, chorwacki, klasyczny arabski i tamilski. Dołączają do wcześniej dostępnych języków, takich jak angielski, polski, niemiecki, hiszpański, francuski, włoski, hindi i portugalski.
Po ostatnich wydaniach funkcji i ciągłych ulepszeniach platformy, ElevenLabs potwierdziło dziś, że platforma oficjalnie wychodzi z wersji beta. Ta zmiana jest kluczowym momentem w zobowiązaniu firmy do dostarczania niezawodnych, nowoczesnych narzędzi dla ponad miliona użytkowników na całym świecie.
W przyszłości ElevenLabs planuje wprowadzić mechanizmy, które pozwolą użytkownikom dzielić się głosami na platformie i czerpać korzyści z nowych rozwiązań audio, wspierając współpracę człowieka z AI.
CEO i współzałożyciel ElevenLabs, Mati Staniszewski, mówi:
„ElevenLabs zaczęło się z marzeniem o umożliwieniu dostępu do wszystkich treści w każdym języku i głosie. Dzięki wprowadzeniu Eleven Multilingual v2 jesteśmy o krok bliżej do realizacji tego marzenia, umożliwiając korzystanie z głosów AI o jakości ludzkiej we wszystkich dialektach.현실화하고 모든 방언에서 인간 품질의 AI 음성을 사용할 수 있도록 하는 데 한 걸음 더 다가갔습니다.
„Narzędzia TTS (Text-to-Speech) wyrównują szanse dla twórców, oferując najwyższej jakości funkcje audio dla wszystkich. Te korzyści są teraz rozszerzone na aplikacje wielojęzyczne w prawie 30 językach. Dzięki AI mamy nadzieję na usunięcie barier językowych w treściach. ElevenLabs wierzy, że ten skok w dostępności ostatecznie promuje większą kreatywność, innowacje i różnorodność.” 응용 프로그램으로 확장됩니다. 우리는 AI의 도움으로 더 많은 언어와 목소리를 다루고 콘텐츠에 대한 언어적 장벽을 제거하기를 바랍니다. ElevenLabs는 이러한 접근성의 도약이 궁극적으로 더 큰 창의성, 혁신 및 다양성을 촉진할 것이라고 믿습니다.”
Zmniejszając koszty i zasoby potrzebne do tworzenia wysokiej jakości treści audio w wielu językach, ElevenLabs wspiera firmy i twórców w tworzeniu bardziej wyobraźniowych i dostępnych treści, które mogą rezonować kulturowo i językowo.
Dla niezależnych twórców gier i wydawców narzędzia do generowania głosu wielojęzycznego oferują nowe możliwości tłumaczenia doświadczeń z gier i treści audio dla międzynarodowej publiczności, łącząc się z graczami i słuchaczami w ich języku bez utraty jakości czy dokładności głosu.
Podobnie, instytucje edukacyjne mogą teraz natychmiast dostarczać uczniom dokładne treści audio w docelowym języku, wzmacniając zrozumienie języka i umiejętności wymowy oraz spełniając różnorodne style nauczania i potrzeby edukacyjne studentów zagranicznych.
Wszyscy twórcy mogą używać narzędzi ElevenLabs do uzupełniania treści wizualnych głosem w wielu językach, poprawiającdostępność treści dla osób z wadami wzroku lub potrzebujących dodatkowej nauki.
W styczniu 2023 roku, początkowy zestaw narzędzi AI do głosu obejmował funkcje zamiany tekstu na mowę z wyborem zaprojektowanych wcześniej głosów syntetycznych oraz tworzenie kopii własnego głosu. Narzędzia do syntezy głosu wielojęzycznego to kolejny krok w misji ElevenLabs, aby umożliwić dostęp do wszystkich treści w każdym języku i głosie.
Ta technologia została już przyjęta w wielu kreatywnych dziedzinach i sektorach, umożliwiając niezależnym autorom tworzenie audiobooków, dodawanie głosu do postaci drugoplanowych w grach wideo, wspieranie osób niewidomych w dostępie do pisemnych treści online oraz zasilanie pierwszego na świecie kanału radiowego AI. ElevenLabs nawiązało również partnerstwa z AI video generatoremD-ID, jednym z największych wydawców audiobooków na świecieStorytel, platformą wideo naukowego open access ScienceCast, która kondensuje naukowe artykuły badawcze publikowane na arXiv,wiodącą globalną platformą twórców treściTheSoul Publishing, Embark Studios orazParadox Interactive, a także z innymi znakomitymi twórcami gier, platformami medialnymiMNTN i różnorodnymi wiodącymi twórcami treści i studiami.
Eleven v3 (alpha), the most expressive text to speech model, is now available in the API for every developer.
Eight seconds of audio from an old VHS tape was all Sarah needed to reclaim her voice with ElevenLabs — and through her Smartbox assistive technology device, finally let her children hear her authentic voice.
Napędzane przez ElevenLabs Conversational AI