Ten głos nie istnieje - Generative Voice AI

Wdrażamy własny model generatywny, który pozwala użytkownikom projektować zupełnie nowe syntetyczne głosy

Ostatnio wydaje się, że wszyscy mówią o generatywnej sztucznej inteligencji. Oparte na głębokim uczeniu modele przetwarzania dużych języków i tekstu na obraz, takie jak ChatGPT, Stable Diffusion, DALL-E i Midjourney, wywołały wiele zamieszania w świecie technologii i nie tylko. Wielu uważa je za jedne z najważniejszych osiągnięć ostatnich lat w dziedzinie sztucznej inteligencji. Niezależnie od tego, czy się z tym zgadzasz, czy nie, ogólne odczucie jest takie, że pojawiło się coś wszechmocnego. W 2023 roku usłyszymy o modelkach, które pomogą Ci rysować lub tworzyć filmy. Podobnie jak w przypadku pytań o to, jaki jest najnowszy i najlepszy smartfon, wkrótce będziemy pytać o to, jaki jest najnowszy i najlepszy model telefonu komórkowego. Jednak mimo całego tego entuzjazmu, naszym zdaniem istnieje jeden obszar mediów generatywnych, który nadal pozostaje bardzo niedoceniany: sztuczna inteligencja głosowa. To także obszar, w którym chcemy stać się liderami. W Eleven codziennie wykorzystujemy potencjał uwalniany przez techniki głębokiego uczenia się, aby zasilać nasze realistyczne Text to Speech i klonowania głosu AI narzędzia. A teraz wdrażamy także własny model generatywny, który umożliwia projektowanie zupełnie nowych syntetycznych głosów od podstaw.

Generator głosu - zaprojektuj głos

Nasi użytkownicy codziennie korzystają z naszej platformy, aby ożywić swoje postacie – czy to w audiobookach, grach czy fan fiction. Zrozumieliśmy, że nasz obecny bank głośników jest zbyt mały, aby każdy mógł znaleźć głosy odpowiadające jego potrzebom w zakresie treści, a jednocześnie dostępne wyłącznie dla każdego użytkownika. Naszym rozwiązaniem było umożliwienie Ci zaprojektowania zupełnie nowych głosów syntetycznych.

Pomysł na to, jak się do tego zabrać, zrodził się w trakcie omawiania metod, których obecnie używamy do syntezy mowy i klonowania głosu. Oba procesy wymagają sposobu kodowania cech danego głosu. Osadzenia mówcy są nośnikiem tej tożsamości - są wektorową reprezentacją głosu mówcy. Zrozumieliśmy, że możemy pobierać próbki z rozkładu osadzeń głośników, trenując specjalny model, co pozwoli nam tworzyć nieskończenie wiele nowych głosów.

Ponieważ nasi użytkownicy szukają głównie określonych cech mowy, musieliśmy dodać pewien stopień kontroli nad tym procesem. Rozszerzyliśmy nasz model o warunkowanie, aby generować głosy na podstawie ich cech charakterystycznych. Model ten umożliwia teraz ustawienie pewnych podstawowych parametrów, które określają istotę nowego głosu: płeć, wiek, akcent, wysokość tonu i styl mówienia. Innymi słowy, za każdym razem, gdy klikniesz „generuj”, nawet jeśli wybierzesz te same parametry bazowe, otrzymujesz zupełnie nowy głos, którego wcześniej nie było.

Poniżej przedstawiono przykłady głosów, które można zaprojektować w ten sposób:

„Design Voice” będzie dostępny na naszej platformie w lutym, jako część Voice Lab.

Jaki z tego pożytek?

Nasze narzędzia potrafią już generować mowę równie realistyczną, jak mowę ludzką. Spodziewamy się, że zakres potencjalnych zastosowań sztucznych głosów będzie się tylko poszerzał. Wiele z tych nowych zastosowań, w tym nagrywanie dźwięku na potrzeby publikacji informacyjnych lub reklam, będzie wymagało, aby jeden głos był ograniczony i identyfikowany z konkretną marką lub przypadkiem użycia, a nie wykorzystywany gdzie indziej. W innych przypadkach użycia, takich jak opowiadanie historii i gry wideo, priorytetem jest elastyczność i swoboda eksperymentowania już na wczesnym etapie rozwoju. Zamiast tworzyć gigantyczny zestaw wirtualnych głośników, postanowiliśmy pozwolić użytkownikom na ostateczną decyzję, który głos najlepiej odpowiada ich potrzebom.

Książka Autorzy zyskują teraz nie tylko możliwość łatwej konwersji swojej pracy na format audio, ale także zachowują kontrolę artystyczną nad projektowaniem spersonalizowanej narracji. Dzięki temu czytelnicy zyskują nowe, interesujące sposoby interakcji z publikacjami, a także znacznie zwiększa się liczba książek, których będziemy mogli z przyjemnością słuchać.

Aktualności Wydawcy coraz częściej wchodzą na rynek audio, a wybór charakterystycznych głosów, które będą reprezentować ich publikacje, to ważne zadanie — wielu słuchaczy ceni zarówno formę, jak i treść. Równie ważne jest to, że wydawcy mogą teraz mieć pewność, że dany głos reprezentuje tylko i wyłącznie ich.

Gra wideo Twórcy gier mogą teraz użyczyć głosu wielu niemym postaciom niezależnym, mając do dyspozycji wszystkie niezbędne narzędzia. Mogą nie tylko obniżyć koszty, nie rezygnując z jakości, ale także projektować głosy, które będą całkowicie unikalne dla tworzonych przez nich wirtualnych światów.

Reklama Twórcy treści potrzebują narracji dostosowanych do konkretnych kampanii, dlatego możliwość zaprojektowania rezonującej i celowej narracji już na początku prac nad projektem jest znaczną zaletą. Teraz mogą natychmiastowo eksperymentować z wieloma głosami i stylami przekazu, bez angażowania dodatkowych zasobów.

Z Twórcy produkcja wszelkiego rodzaju treści audio i wideo zbiorowy Dla funkcjonariuszy pragnących nadać komunikatom firmowym formę przekazu, możliwości projektowania atrakcyjnych materiałów audio, które są jednocześnie wyjątkowe i dostosowane do konkretnego zastosowania, są teraz nieograniczone.

Etyczna sztuczna inteligencja

Podobnie jak klonowanie głosu budzi obawy o konsekwencje potencjalnego niewłaściwego wykorzystania, tak coraz więcej osób obawia się, że rozprzestrzenianie się technologii sztucznej inteligencji zagrozi źródłom utrzymania profesjonalistów. W Eleven widzimy przyszłość, w której aktorzy głosowi będą mogli licencjonować swój głos, aby szkolić modele mowy do określonych celów, w zamian za opłaty. Klienci i studia nadal chętnie będą zatrudniać profesjonalnych lektorów w swoich projektach, a wykorzystanie sztucznej inteligencji po prostu skróci czas realizacji i pozwoli na większą swobodę eksperymentowania i wyznaczania kierunków rozwoju na wczesnym etapie. Technologia ta zmieni sposób projektowania i nagrywania dźwięku mówionego, ale fakt, że aktorzy głosowi nie muszą już być fizycznie obecni na każdej sesji, daje im swobodę angażowania się w większą liczbę projektów w tym samym czasie, a także pozwala im w pełni uwiecznić swoje głosy.

Co więcej, jesteśmy podekscytowani, ponieważ wiele książek, wiadomości, niezależnych gier i innych treści, których autorów i deweloperów nie byłoby w stanie w przeciwnym razie uiścić odpowiedzialności za koszty nagrania, stanie się teraz dostępnych za pośrednictwem innego medium. Wraz ze zwiększonym dostępem pojawia się możliwość poszerzenia grona odbiorców w każdym przypadku.

W Eleven dokładamy wszelkich starań, aby szanować prawa własności intelektualnej i wdrażać zabezpieczenia przed potencjalnym niewłaściwym wykorzystaniem naszej technologii:

  • Współpracujemy wyłącznie z klientami, którzy przestrzegają naszych Warunków, które zabraniają złośliwego wykorzystania naszej technologii w jakimkolwiek celu, który można uznać za niezgodny z prawem lub szkodliwy;
  • Pracujemy również nad znakowaniem wodnym wszystkich plików audio generowanych przez nasz model, aby można było je natychmiast powiązać z nami;
  • Jeśli posługujemy się rozpoznawalnymi głosami, robimy to w celach demonstracyjnych i w kontekstach, które nie powodują konfliktu interesów;
  • Jednocześnie staramy się wspierać właścicieli głosów i ich licencjodawców w dochodzeniu swoich praw, a wszystkie znane naruszenia zostaną przeanalizowane i podjęte zostaną odpowiednie działania.

Patrząc w przyszłość – rozwijaj swój własny głos

W przyszłości planujemy połączyć możliwości naszych modeli generowania i klonowania głosu, aby umożliwić użytkownikom udoskonalenie ich własnego głosu. Będziesz mógł klonować swój głos i manipulować nim w celu uzyskania dowolnego efektu. Jeśli obawiasz się, że Twój naturalny styl mówienia jest nieco monotonny, możesz go urozmaicić. Jeśli naprawdę nie lubisz być nagrywany, możesz zmienić dźwięk wyjściowy, aby brzmiał bardziej naturalnie. Każdy, kto potrzebuje przygotować materiał audio z własnym głosem w dowolnym celu, niezależnie od tego, czy jest to nagrana prezentacja, czy wiadomość audio, będzie mógł to zrobić jednym kliknięciem, korzystając z naszego zestawu narzędzi.

Szczęśliwego nowego roku

Gdy rok 2022 dobiega końca, chcielibyśmy podziękować naszym użytkownikom wersji beta za ciągłe uczestnictwo i przesyłane opinie. Wiele funkcji, które rozwijamy, powstało dzięki Waszym sugestiom i sugestiom. Nie moglibyśmy być szczęśliwsi, że jesteście z nami na pokładzie i życzymy Wam wszystkim Szczęśliwego Nowego Roku.

Jedenaście laboratoriów Beta
Iść Tutaj aby zapisać się na naszą platformę beta i wypróbować ją samodzielnie. Ciągle wprowadzamy udoskonalenia i wszelkie spostrzeżenia użytkowników są dla nas bardzo cenne już na tym wczesnym etapie.

Zobacz więcej

ElevenLabs

Twórz z najwyższą jakością dźwięku AI