Black Friday

Zrealizuj

Ten Głos Nie Istnieje - Generatywne Voice AI

Wprowadzamy nasz własny model generatywny, który pozwala użytkownikom projektować zupełnie nowe syntetyczne głosy

Abstract colorful swirl with dropdown menus for gender, age, and accent, and a style, clarity, and stability slider.

Ostatnio wydaje się, że wszyscy mówią o generatywnym AI. Modele językowe i tekst-do-obrazu zasilane głębokim uczeniem, takie jak ChatGPT, Stable Diffusion, DALL-E i Midjourney, wywołały sporo zamieszania w świecie technologii i nie tylko. Wielu uważa je za jedne z najważniejszych ostatnich osiągnięć w AI. Niezależnie od tego, czy się z tym zgadzasz, ogólne odczucie jest takie, że pojawiło się coś bardzo potężnego. W 2023 roku usłyszymy o modelach, które pomogą ci rysować lub tworzyć filmy. Podobnie jak pytania o najnowszy-smartfon, wkrótce będziemy pytać o najnowszy model bazowy. Jednak mimo tego entuzjazmu, czujemy, że jest jedna dziedzina w generatywnych mediach, która jest wciąż niedoceniana: głos AI. To także obszar, w którym chcemy stać się liderami. W Eleven codziennie korzystamy z potencjału odblokowanego przez techniki głębokiego uczenia, aby zasilać nasze realistyczne text-to-speech i voice cloning narzędzia. Teraz wprowadzamy nasz własny model generatywny, który pozwala ci projektować zupełnie nowe syntetyczne głosy od podstaw.

Generator Głosów - zaprojektuj głos

Nasi użytkownicy codziennie korzystają z platformy, aby ożywiać swoje postacie - czy to do audiobooków, gier czy fan fiction. Zauważyliśmy, że nasza obecna baza mówców jest zbyt mała, aby każdy mógł znaleźć głosy pasujące do swoich potrzeb, pozostając jednocześnie unikalnymi dla każdego użytkownika. Naszym rozwiązaniem było umożliwienie projektowania zupełnie nowych syntetycznych głosów.

Mieliśmy pomysł, jak to zrobić, który pojawił się, gdy analizowaliśmy metody, które obecnie stosujemy do syntezy mowy i klonowania głosu. Oba procesy wymagają sposobu kodowania cech charakterystycznych danego głosu. Wektory mówców przenoszą tę tożsamość - są wektorową reprezentacją głosu mówcy. Zrozumieliśmy, że możemy próbować z rozkładu wektorów mówców, trenując dedykowany model, który pozwoli nam tworzyć nieskończoną liczbę nowych głosów.

Ponieważ nasi użytkownicy głównie szukają konkretnych cech mowy, musieliśmy dodać pewien stopień kontroli nad procesem. Rozszerzyliśmy nasz model o warunkowanie, aby generować głosy na podstawie ich cech. Model teraz pozwala ci ustawić pewne podstawowe parametry, które określają rdzeń nowego głosu: płeć, wiek, akcent, ton i styl mówienia. Innymi słowy, za każdym razem, gdy naciskasz 'generuj', nawet jeśli wybierzesz te same podstawowe parametry, otrzymujesz zupełnie nowy głos, który wcześniej nie istniał.

Poniżej znajdują się przykłady głosów, które można zaprojektować w ten sposób:

'Design Voice' będzie dostępny na naszej platformie w lutym, jako część Voice Lab.

Do czego to służy?

Nasze narzędzia już teraz potrafią generować mowę tak realistyczną jak ludzka i spodziewamy się, że sfera potencjalnych zastosowań dla sztucznych głosów będzie się tylko rozszerzać. Wiele z tych nowych zastosowań, w tym nagrywanie audio dla publikacji prasowych czy reklam, będzie wymagało, aby jeden głos był przypisany do konkretnej marki lub zastosowania i nie był używany gdzie indziej. Inne zastosowania, takie jak opowiadanie historii i gry wideo, od początku stawiają na elastyczność i swobodę eksperymentowania. Zamiast tworzyć ogromny zestaw wirtualnych mówców, postanowiliśmy dać użytkownikom możliwość wyboru, które głosy najlepiej pasują do ich celów.

Autorzy książek zyskują teraz nie tylko możliwość łatwego przekształcenia swojej pracy w audio, ale także zachowują artystyczną kontrolę nad projektowaniem unikalnej narracji. To daje ich odbiorcom nowe, interesujące sposoby interakcji z publikacjami oraz znacznie zwiększa liczbę książek, które będziemy mogli cieszyć się słuchając.

Wydawcy wiadomości coraz częściej wchodzą w audio i wybór charakterystycznych głosów do reprezentowania ich publikacji jest ważnym zadaniem - wielu słuchaczy ceni formę tak samo jak treść. Równie ważne jest, że wydawcy mogą teraz być pewni, że dany głos reprezentuje tylko ich.

Twórcy gier wideo mogą teraz nadawać głos wielu niemym NPC za pomocą wszystkich dostępnych narzędzi. Mogą być bardziej opłacalni bez kompromisów na jakości, a także projektować głosy, które będą całkowicie unikalne dla wirtualnych światów, które tworzą.

Kreatywni w reklamie potrzebują nałożonych głosów pasujących do konkretnych kampanii, więc możliwość projektowania narracji od początku rozwoju jest znaczną zaletą. Mogą teraz eksperymentować z wieloma głosami i stylami dostarczania natychmiastowo i bez angażowania dodatkowych zasobów.

Od twórców produkujących wszelkiego rodzaju treści audio i wideo po korporacyjnych pracowników szukających głosu do komunikacji firmowej, możliwości projektowania przekonującego audio, które jest zarówno unikalne, jak i dostosowane do konkretnego zastosowania, są teraz nieograniczone.

Etyczne AI

Podobnie jak klonowanie głosu budzi obawy dotyczące potencjalnego niewłaściwego użycia, coraz więcej osób martwi się, że rozwój technologii AI zagrozi źródłom utrzymania profesjonalistów. W Eleven widzimy przyszłość, w której aktorzy głosowi mogą licencjonować swoje głosy do trenowania modeli mowy do określonego użytku, w zamian za opłaty. Klienci i studia nadal chętnie będą angażować profesjonalne talenty głosowe w swoich projektach, a użycie AI po prostu przyczyni się do szybszego czasu realizacji i większej swobody eksperymentowania oraz ustalania kierunku na wczesnym etapie rozwoju. Technologia zmieni sposób projektowania i nagrywania mowy, ale fakt, że aktorzy głosowi nie muszą być fizycznie obecni na każdej sesji, naprawdę daje im swobodę uczestniczenia w większej liczbie projektów jednocześnie, a także prawdziwie unieśmiertelnia ich głosy.

Dodatkowo, cieszymy się, że wiele książek, wiadomości, niezależnych gier i innych treści, których autorzy i deweloperzy nie mogliby sobie pozwolić na koszty nagrywania, stanie się teraz dostępnych w innym medium. Dzięki temu zwiększonemu dostępowi pojawia się możliwość poszerzenia publiczności w każdym przypadku.

W Eleven jesteśmy w pełni zaangażowani zarówno w poszanowanie praw własności intelektualnej, jak i wprowadzenie zabezpieczeń przed potencjalnym niewłaściwym użyciem naszej technologii:

  • Współpracujemy tylko z klientami, którzy przestrzegają naszych Warunków, które zabraniają złośliwego użycia naszej technologii w jakimkolwiek celu, który można uznać za nielegalny lub szkodliwy;
  • Pracujemy również nad znakowaniem wodnym całego audio generowanego przez nasz model, aby można było je natychmiast przypisać do nas;
  • Kiedy używamy rozpoznawalnych głosów, robimy to w celach demonstracyjnych i w kontekstach, które nie powodują konfliktów interesów;
  • Jednocześnie staramy się wspierać właścicieli głosów i ich licencjodawców w dochodzeniu swoich praw, a wszystkie znane naruszenia będą analizowane i podejmowane działania.

Patrząc w przyszłość - ulepsz swój własny głos

W przyszłości planujemy połączyć możliwości naszych modeli generowania głosu i klonowania głosu, aby umożliwić użytkownikom ulepszanie własnych głosów. Będziesz mógł sklonować swój głos, a następnie manipulować nim w dowolny sposób. Jeśli obawiasz się, że twój naturalny styl mówienia jest nieco monotonnny, będziesz mógł dodać mu różnorodności. Jeśli naprawdę nie lubisz być nagrywany, będziesz mógł manipulować dźwiękiem, aby brzmiał bardziej naturalnie. Każda osoba, która potrzebuje stworzyć audio z własnym głosem do jakiegokolwiek celu, czy to nagranie prezentacji, czy wiadomość audio, będzie mogła to zrobić za pomocą naszego zestawu narzędzi, jednym kliknięciem.

Szczęśliwego Nowego Roku

Gdy 2022 rok dobiegał końca, chcielibyśmy podziękować naszym beta-użytkownikom za wasze ciągłe uczestnictwo i opinie. Wiele funkcji, które rozwijamy, wynika z waszych uwag i sugestii. Nie moglibyśmy być bardziej zadowoleni, że jesteście z nami i życzymy wam wszystkim Szczęśliwego Nowego Roku.

Eleven Labs Beta
Przejdź tutaj, aby zapisać się na naszą platformę beta i wypróbować ją samodzielnie. Stale wprowadzamy ulepszenia, a wszelkie opinie użytkowników są dla nas bardzo cenne na tym wczesnym etapie.

Przeglądaj artykuły zespołu ElevenLabs

ElevenLabs

Twórz z najwyższą jakością dźwięku AI