Ten Głos Nie Istnieje - Generatywne Voice AI

Opublikowano: 11 sty 2023

PosłuchajPosłuchaj tego artykułu

0:00

0:000:00

Ostatnio wydaje się, że wszyscy mówią o generatywnym AI. Modele językowe i tekst-do-obrazu zasilane głębokim uczeniem, takie jak ChatGPT, Stable Diffusion, DALL-E i Midjourney, wywołały sporo zamieszania w świecie technologii i nie tylko. Wielu uważa je za jedne z najważniejszych ostatnich osiągnięć w AI. Niezależnie od tego, czy się z tym zgadzasz, ogólne odczucie jest takie, że pojawiło się coś bardzo potężnego. W 2023 roku usłyszymy o modelach, które pomogą ci rysować lub tworzyć filmy. Podobnie jak pytania o najnowszy-smartfon, wkrótce będziemy pytać o najnowszy model bazowy. Jednak mimo tego entuzjazmu, czujemy, że jest jedna dziedzina w generatywnych mediach, która jest wciąż niedoceniana: głos AI. To także obszar, w którym chcemy stać się liderami. W Eleven codziennie korzystamy z potencjału odblokowanego przez techniki głębokiego uczenia, aby zasilać nasze realistyczne zamiana tekstu na mowę i klonowanie głosu narzędzia. Teraz wprowadzamy nasz własny model generatywny, który pozwala ci projektować zupełnie nowe syntetyczne głosy od podstaw.

Generator Głosów - zaprojektuj głos

Nasi użytkownicy codziennie korzystają z platformy, żeby ożywiać swoje postacie – czy to do

Mieliśmy pomysł, jak to zrobić, który pojawił się, gdy analizowaliśmy metody, które obecnie stosujemy do syntezy mowy i klonowania głosu. Oba procesy wymagają sposobu kodowania cech charakterystycznych danego głosu. Wektory mówców przenoszą tę tożsamość - są wektorową reprezentacją głosu mówcy. Zrozumieliśmy, że możemy próbować z rozkładu wektorów mówców, trenując dedykowany model, który pozwoli nam tworzyć nieskończoną liczbę nowych głosów.

Ponieważ nasi użytkownicy głównie szukają konkretnych cech mowy, musieliśmy dodać pewien stopień kontroli nad procesem. Rozszerzyliśmy nasz model o warunkowanie, aby generować głosy na podstawie ich cech. Model teraz pozwala ci ustawić pewne podstawowe parametry, które określają rdzeń nowego głosu: płeć, wiek, akcent, ton i styl mówienia. Innymi słowy, za każdym razem, gdy naciskasz 'generuj', nawet jeśli wybierzesz te same podstawowe parametry, otrzymujesz zupełnie nowy głos, który wcześniej nie istniał.

Poniżej znajdują się przykłady głosów, które można zaprojektować w ten sposób:

'Design Voice' będzie dostępny na naszej platformie w lutym, jako część Voice Lab.

Do czego to służy?

Nasze narzędzia już teraz potrafią generować mowę tak realistyczną jak ludzka i spodziewamy się, że sfera potencjalnych zastosowań dla sztucznych głosów będzie się tylko rozszerzać. Wiele z tych nowych zastosowań, w tym nagrywanie audio dla publikacji prasowych czy reklam, będzie wymagało, aby jeden głos był przypisany do konkretnej marki lub zastosowania i nie był używany gdzie indziej. Inne zastosowania, takie jak opowiadanie historii i gry wideo, od początku stawiają na elastyczność i swobodę eksperymentowania. Zamiast tworzyć ogromny zestaw wirtualnych mówców, postanowiliśmy dać użytkownikom możliwość wyboru, które głosy najlepiej pasują do ich celów.

Autorzy książek zyskują teraz nie tylko możliwość łatwego przekształcenia swojej pracy w audio, ale także zachowują artystyczną kontrolę nad projektowaniem unikalnej narracji. To daje ich odbiorcom nowe, interesujące sposoby interakcji z publikacjami oraz znacznie zwiększa liczbę książek, które będziemy mogli cieszyć się słuchając.

Wydawcy wiadomości coraz częściej wchodzą w audio i wybór charakterystycznych głosów do reprezentowania ich publikacji jest ważnym zadaniem - wielu słuchaczy ceni formę tak samo jak treść. Równie ważne jest, że wydawcy mogą teraz być pewni, że dany głos reprezentuje tylko ich.

Twórcy gier wideo mogą teraz nadawać głos wielu niemym NPC za pomocą wszystkich dostępnych narzędzi. Mogą być bardziej opłacalni bez kompromisów na jakości, a także projektować głosy, które będą całkowicie unikalne dla wirtualnych światów, które tworzą.

Kreatywni w reklamie potrzebują nałożonych głosów pasujących do konkretnych kampanii, więc możliwość projektowania narracji od początku rozwoju jest znaczną zaletą. Mogą teraz eksperymentować z wieloma głosami i stylami dostarczania natychmiastowo i bez angażowania dodatkowych zasobów.

Od twórców produkujących wszelkiego rodzaju treści audio i wideo po korporacyjnych pracowników szukających głosu do komunikacji firmowej, możliwości projektowania przekonującego audio, które jest zarówno unikalne, jak i dostosowane do konkretnego zastosowania, są teraz nieograniczone.

Etyczne AI

Podobnie jak klonowanie głosu budzi obawy dotyczące potencjalnego niewłaściwego użycia, coraz więcej osób martwi się, że rozwój technologii AI zagrozi źródłom utrzymania profesjonalistów. W Eleven widzimy przyszłość, w której aktorzy głosowi mogą licencjonować swoje głosy do trenowania modeli mowy do określonego użytku, w zamian za opłaty. Klienci i studia nadal chętnie będą angażować profesjonalne talenty głosowe w swoich projektach, a użycie AI po prostu przyczyni się do szybszego czasu realizacji i większej swobody eksperymentowania oraz ustalania kierunku na wczesnym etapie rozwoju. Technologia zmieni sposób projektowania i nagrywania mowy, ale fakt, że aktorzy głosowi nie muszą być fizycznie obecni na każdej sesji, naprawdę daje im swobodę uczestniczenia w większej liczbie projektów jednocześnie, a także prawdziwie unieśmiertelnia ich głosy.

Dodatkowo, cieszymy się, że wiele książek, wiadomości, niezależnych gier i innych treści, których autorzy i deweloperzy nie mogliby sobie pozwolić na koszty nagrywania, stanie się teraz dostępnych w innym medium. Dzięki temu zwiększonemu dostępowi pojawia się możliwość poszerzenia publiczności w każdym przypadku.

W Eleven jesteśmy w pełni zaangażowani zarówno w poszanowanie praw własności intelektualnej, jak i wprowadzenie zabezpieczeń przed potencjalnym niewłaściwym użyciem naszej technologii:

Współpracujemy tylko z klientami, którzy przestrzegają naszych Warunków, które zabraniają złośliwego użycia naszej technologii w jakimkolwiek celu, który można uznać za nielegalny lub szkodliwy;
Pracujemy również nad znakowaniem wodnym całego audio generowanego przez nasz model, aby można było je natychmiast przypisać do nas;
Kiedy używamy rozpoznawalnych głosów, robimy to w celach demonstracyjnych i w kontekstach, które nie powodują konfliktów interesów;
Jednocześnie staramy się wspierać właścicieli głosów i ich licencjodawców w dochodzeniu swoich praw, a wszystkie znane naruszenia będą analizowane i podejmowane działania.

Patrząc w przyszłość - ulepsz swój własny głos

W przyszłości planujemy połączyć możliwości naszego generatora głosów i

Szczęśliwego Nowego Roku

Gdy 2022 rok dobiegał końca, chcielibyśmy podziękować naszym beta-użytkownikom za wasze ciągłe uczestnictwo i opinie. Wiele funkcji, które rozwijamy, wynika z waszych uwag i sugestii. Nie moglibyśmy być bardziej zadowoleni, że jesteście z nami i życzymy wam wszystkim Szczęśliwego Nowego Roku.

ElevenLabs Beta
Przejdź tutaj, aby zapisać się na naszą platformę beta i wypróbować ją samodzielnie. Stale wprowadzamy ulepszenia, a wszelkie opinie użytkowników są dla nas bardzo cenne na tym wczesnym etapie.

Podobne artykuły

ElevenLabs wychodzi z wersji beta i wydaje Eleven Multilingual v2 — podstawowy model mowy AI dla prawie 30 języków
Kategoria
Badania
Data
22 sie 2023
ElevenLabs w wersji beta, wprowadza Eleven Multilingual v2, podstawowy model AI dla 30 języków
Kategoria
Badania
Data
22 sie 2023
ElevenLabs wychodzi z fazy „beta” i wprowadza Eleven Multilingual v2, model konwersacyjny AI w 30 językach
Kategoria
Badania
Data
22 sie 2023
ElevenLabs wychodzi z bety i wprowadza Eleven Multilingual v2 – przełomowy model językowy AI dla 30 języków
Kategoria
Badania
Data
22 sie 2023

Twórz z najwyższej jakości audio AI

Porozmawiaj z działem sprzedaży Zarejestruj się

Generator Głosów - zaprojektuj głos

Do czego to służy?

Etyczne AI

Patrząc w przyszłość - ulepsz swój własny głos

Szczęśliwego Nowego Roku

Podobne artykuły

ElevenLabs wychodzi z wersji beta i wydaje Eleven Multilingual v2 — podstawowy model mowy AI dla prawie 30 języków

ElevenLabs w wersji beta, wprowadza Eleven Multilingual v2, podstawowy model AI dla 30 języków

ElevenLabs wychodzi z fazy „beta” i wprowadza Eleven Multilingual v2, model konwersacyjny AI w 30 językach

ElevenLabs wychodzi z bety i wprowadza Eleven Multilingual v2 – przełomowy model językowy AI dla 30 języków