
Safety framework for AI voice agents
AI voice agents are increasingly being used in customer service, entertainment, and enterprise applications. With this shift comes the need for clear safeguards to ensure responsible use.
Londyn, Wielka BrytaniaLondyn, Wielka Brytania- światowy lider w dziedzinie oprogramowania AI audioElevenLabsogłosiłnowy model wielojęzycznego generowania głosu, który potrafi tworzyć "emocjonalne" głosy AI w 30 językach.
Ten postęp opiera się na badaniach wewnętrznych, umożliwiając twórcom tworzenie lokalizowanych treści głosowych dla rynków międzynarodowych w Europie, Azji i na Bliskim Wschodzie. ElevenLabs analizował markery ludzkiej mowy przez 18 miesięcy, budując nowe mechanizmy dla zrozumienia kontekstu, emocjonalnej ekspresji w generowaniu głosu i tworzenia unikalnych głosów.
Korzystając z Eleven Multilingual v2, wystarczy wprowadzić tekst na platformie ElevenLabs, anowy model automatycznie rozpozna około 30 języków pisanych i wygeneruje głos z niespotykaną dotąd wiarygodnością.
Jednocześnie, niezależnie od tego, czy używany jest głos syntetyczny czy klonowany, unikalne cechy głosu mówcy i akcenty są zachowane we wszystkich językach. Oznacza to, że można użyć tego samego głosu, aby ożywić treści w 30 różnych językach.
Po tymwdrożeniu profesjonalne klonowanie głosu zostało udostępnione na platformie. Ta aktualizacja produktu została wydana z dodatkowymi funkcjami bezpieczeństwa, umożliwiając użytkownikom tworzenie idealnej cyfrowej kopii swojego głosu.
Nie można odróżnić jej od oryginalnego głosu. Dzisiejsza premiera oznacza, że możesz mówić w prawie 30 językach oferowanych przez model wielojęzyczny, używając swojego głosu.
Obsługiwane języki: koreański, niderlandzki, turecki, szwedzki, indonezyjski, wietnamski, filipiński, ukraiński, grecki, czeski, fiński, rumuński, duński, bułgarski, malajski, węgierski, norweski, słowacki, chorwacki, klasyczny arabski, tamilski. Wszystkie te języki dołączyły do wcześniej dostępnych: angielskiego, polskiego, niemieckiego, hiszpańskiego, francuskiego, włoskiego, hindi, portugalskiego.
Po ostatnich wydaniach funkcji i ciągłych ulepszeniach platformy, ElevenLabs ogłasza dziś, że platforma oficjalnie wychodzi z wersji beta. To ważny moment w naszym zaangażowaniu w dostarczanie niezawodnych, nowoczesnych narzędzi dla ponad miliona użytkowników na całym świecie.
W przyszłości ElevenLabs planuje wprowadzić mechanizmy umożliwiające użytkownikom dzielenie się głosami na platformie, czerpanie korzyści z nowych rozwiązań audio i rozwijanie możliwości współpracy między ludźmi a AI.
Mati Staniszewski, CEO i współzałożyciel ElevenLabs, komentuje:
"ElevenLabszaczęło się od marzenia o uczynieniu wszystkich treści uniwersalnie dostępnymi w każdym języku i głosie. Dzięki wydaniu Eleven Multilingual v2realizujemy to marzenie, zbliżając się do wykorzystania głosów AI o jakości ludzkiej we wszystkich dialektach.AI.
"Narzędzia do generowania tekstu na mowę wyrównują szanse, oferując najwyższej jakości funkcje audio wszystkim twórcom. Te korzyści są teraz rozszerzone na prawie30języków w aplikacjach wielojęzycznych. Ostatecznie, z pomocąAI, chcemy pokryć jeszcze więcej języków i głosów, eliminując bariery językowe w treściach. W ElevenLabswierzymy, że te skoki w dostępności ostatecznie promują kreatywność, innowacyjność i różnorodność."
ElevenLabs umożliwia firmom i twórcom tworzenie bardziej kreatywnych i dostępnych treści, które rezonują w różnych kulturach i językach, redukując koszty i zasoby potrzebne do tworzenia wysokiej jakości treści audio w wielu językach.
Dla niezależnych deweloperów gier i wydawców, narzędzia do wielojęzycznego generowania głosu oferują nowe możliwości łączenia się z graczami i słuchaczami w ich języku, tłumacząc doświadczenia z gier i treści audio dla międzynarodowej publiczności, bez utraty jakości czy precyzji głosu.
Podobnie, instytucje edukacyjnemogą teraz natychmiast dostarczać uczniom dokładne treści audio w docelowym języku, wzmacniając umiejętności rozumienia i wymowy, oraz dostosowując się do różnych stylów nauczania i potrzeb uczniów z zagranicy.
Wszyscy twórcy mogą korzystać z narzędzi ElevenLabs, aby uzupełniać treści wizualne o głosy w wielu językach, poprawiającdostępnośćdla osób z niepełnosprawnościami wzrokowymi lub potrzebami edukacyjnymi.
Pierwszy zestaw narzędzi AI audio, opublikowany w styczniu 2023 roku, zawierał różne zdefiniowane wcześniej głosy syntetyczne i możliwość klonowania własnego głosu. Narzędzia do wielojęzycznego generowania głosu to kolejny krok w misji ElevenLabs, aby wszystkie treści były uniwersalnie dostępne w każdym języku i głosie.
Ta technologia jest już stosowana w różnych kreatywnych sektorach, takich jak tworzenie audiobooków przez niezależnych autorów, głosy postaci drugoplanowych w grach wideo, wsparcie dla osób niewidomych w dostępie do treści pisanych online, czy napędzanie pierwszego na świecie kanału radiowego AI. ElevenLabs współpracuje również z AI video generatorD-ID, jednym z największych wydawców audiobooków na świecieStorytel,otwartą platformą wideo naukowegoScienceCast, która kondensuje artykuły naukowe publikowane naarXiv,wiodącą platformą dla twórców treściTheSoul Publishing, Embark StudiosorazParadox Interactive, a także z różnymi czołowymi twórcami treści, studiami i platformami medialnymiMNTN.
AI voice agents are increasingly being used in customer service, entertainment, and enterprise applications. With this shift comes the need for clear safeguards to ensure responsible use.
Tips from latency-sensitive RAG systems in production
Napędzane przez ElevenLabs Conversational AI