Konwersja głosu

Zmuszanie jednej osoby do mówienia głosem innej

Czym jest konwersja głosu?

Konwersja głosu pozwala na przekształcenie głosu jednej osoby w głos innej osoby. Wykorzystuje proces zwany klonowaniem głosu, aby zakodować głos docelowy — tzn. głos, na który dokonujemy konwersji — i wygenerować ten sam komunikat, wypowiedziany w sposób, który odpowiada tożsamości mówcy docelowego, ale zachowuje oryginalną intonację.

Zastosowania

Wysokiej jakości technologia konwersji i klonowania głosu ma potencjał zrewolucjonizowania sposobu produkcji, dostarczania i interakcji z treścią w wielu branżach. Obiecują zoptymalizować czas i koszty produkcji oraz zapewnić tym, którzy dzielą się swoimi opiniami w zakresie szkolenia algorytmów konwersji, sposoby na pasywne zarabianie na prowizjach.

  • W filmach aktorzy mogliby dzielić się swoimi bazami danych głosowych z producentami, aby tworzyć ścieżki dźwiękowe bez konieczności podróżowania na plan zdjęciowy lub do studia;
  • błędnie wypowiedziane kwestie można by znacznie skuteczniej nagrać ponownie w postprodukcji;
  • technologię tę można również wykorzystać do wiernego odtworzenia głosów postaci historycznych w fikcyjnych scenariuszach lub do przywrócenia życia zmarłym aktorom;
  • twórcy gier wideo uznają tę technologię za użyteczną w podobnym stopniu: korygowanie wypowiedzi lub po prostu eksperymentowanie będzie można wykonywać na miejscu i bez fizycznej obecności aktora, który mógłby to nagrać;
  • w medycynie pacjenci, którzy utracili zdolność mówienia, na przykład w wyniku leczenia raka gardła, mogą otrzymać szansę na ponowną komunikację własnym głosem;
  • wirtualni asystenci mogą stać się spersonalizowani, ponieważ użytkownicy domowi mogą uznać interakcję z głosem np. bliskiej osoby za bardziej naturalną niż z głosem wirtualnej nieznajomej osoby;
  • z drugiej strony branża reklamowa mogłaby skorzystać na wprowadzeniu syntetycznych lektorów, którzy brzmieliby tak realistycznie, jak głos człowieka, a jednocześnie unikaliby problemów związanych z własnością praw autorskich i tantiem. Z drugiej strony, jeśli potrzebny jest konkretnie rozpoznawalny głos, producenci reklam również mogliby wykorzystać tę technologię, aby świadomie sklonować głos konkretnego aktora, bez konieczności jego fizycznej obecności podczas długich sesji nagraniowych;
  • Branże audiobooków i podcastów to tylko dwa kolejne rozwijające się obszary działalności, w których zastosowanie technologii klonowania i konwersji głosu daje szansę na optymalizację produkcji i edycji wciągających treści.

Konwersja głosu Eleven Labs

Chociaż w Eleven opracowujemy oprogramowanie do konwersji głosu jako część naszego pakietu narzędzi, nasze badania nad klonowaniem i syntezą głosu stanowią przede wszystkim źródło napędu dla rozwoju naszego głównego produktu, który planujemy wprowadzić na rynek na początku przyszłego roku: automatycznego narzędzia do dubbingu zachowującego tożsamość.

Naszym celem jest udostępnienie wszystkich treści mówionych w różnych językach, z głosem oryginalnego mówcy, za pomocą jednego kliknięcia. Wyobraź sobie edukacyjny film na YouTube w języku angielskim. Jeśli ktoś mówi tylko po hiszpańsku (ale i tak uznałby ten przedmiot za interesujący, gdyby tylko znał ten język), to jest to problem. Oczywiście napisy stanowią rozwiązanie, ale naszym celem jest zapewnienie o wiele bardziej wciągającego i interesującego sposobu angażowania użytkowników w treść. Chcemy, żeby ta sama osoba mówiła tę samą wiadomość naturalnie, posługując się językiem hiszpańskim na poziomie rodzimym, nawet jeśli tego nie robi.

W tym celu klonowanie głosu pozwala nam zachować ich tożsamość, czyli brzmienie ich głosu. Używamy jej do generowania nowych wypowiedzi w innym języku, tak aby brzmiały tak, jakby mówiła ta sama osoba.

Konwersja głosu wchodzi w grę, ponieważ chcemy zachować emocje, intencje i styl przekazu, aby zapewnić maksymalne zaangażowanie. Szkolimy solidne modele wielojęzyczne, które umożliwiają nam analizę wypowiedzi w języku źródłowym i mapowanie ich na język docelowy z odpowiednią intonacją.

Proces

Aby zamienić głos jednej osoby na głos innej osoby, tzn. mowę źródłową na mowę docelową, potrzebujemy algorytmu, który wyrazi treść mowy źródłowej za pomocą cech mowy docelowej. Dobrą analogią są tutaj aplikacje do podmieniania twarzy, dzięki którym możesz połączyć swoją twarz z twarzą innej osoby i stworzyć obraz przedstawiający obie twarze jako całość.

Aby to zrobić, należy wziąć obraz twarzy i nanieść na mapę jego atrybuty. Kropki w poniższym przykładzie mają właśnie to znaczenie: stanowią granice, wewnątrz których zostaną wyrenderowane cechy drugiej twarzy.

W konwersji głosu potrzebujemy sposobu, aby algorytm mógł kodować właściwości docelowej mowy. Algorytm jest trenowany na zbiorze danych obejmującym wiele przykładów tej mowy. Rozbija te próbki na podstawowy poziom – mówiąc obrazowo, na „atomy” mowy. Mowa składa się ze zdań. Zdania składają się ze słów. Słowa składają się z fonemów i określają cechy mowy docelowej. To podstawowy poziom, na którym działa algorytm.

Sztuką konwersji głosu jest renderowanie treści mowy źródłowej przy użyciu fonemów mowy docelowej. Ale jest tu pewien kompromis, taki sam jak w przykładzie z zamianą twarzy: im więcej znaczników użyjesz do odwzorowania atrybutów jednej twarzy, tym więcej ograniczeń nałożysz na twarz, którą odwzorowasz wewnątrz nich. Mniej znaczników oznacza mniej ograniczeń. To samo dotyczy konwersji głosu. Im bardziej preferujemy mowę docelową, tym większe ryzyko, że stracimy synchronizację z mową źródłową. Jeśli jednak nie poświęcimy temu wystarczająco dużo uwagi, ryzykujemy utratą wielu cech charakterystycznych dla danej mowy. Na przykład, gdybyśmy mieli odtworzyć nagranie kogoś krzyczącego ze złością głosem Morgana Freemana, mielibyśmy kłopoty. Przywiązywanie zbyt dużej wagi do emocji wypowiedzianych przez autora to cena, jaką zapłacimy, a stracimy wrażenie, że to naprawdę mówi Morgan Freeman. Zbyt duży nacisk na sposób mówienia powoduje utratę ładunku emocjonalnego mowy źródłowej.

Etyka

Należy zająć się kwestiami etycznymi związanymi z klonowaniem głosu, ponieważ coraz więcej osób jest zaniepokojonych potencjalnymi możliwościami niewłaściwego wykorzystania tej technologii. W 2020 roku oszuści wykorzystali deepfake'i audio, podszywając się pod dyrektora generalnego w rozmowie telefonicznej, aby autoryzować przelew bankowy na kwotę 35 milionów dolarów. Technologia, która może przekonująco sprawić wrażenie, że ktoś powiedział coś, czego w rzeczywistości nie powiedział, naturalnie budzi obawy, że może zostać wykorzystana do dezinformacji, zniesławienia lub popełnienia oszustwa. Podobnie konwersja głosu rodzi ważne pytania o naruszenie praw autorskich, jeżeli umożliwia użytkownikom czerpanie korzyści z treści generowanych bez zgody właścicieli głosu.

W Eleven czujemy, że musimy zrobić wszystko, co w naszej mocy, aby mieć pewność, że nasza technologia nie będzie wykorzystywana w złych celach oraz wdrożyć zabezpieczenia chroniące przed zagrożeniami, jakie ona niesie:

  • współpracujemy wyłącznie z klientami, którzy przestrzegają naszych Warunków, które zabraniają złośliwego wykorzystywania naszej technologii w celu dezinformacji, zniesławienia, popełnienia oszustwa lub w jakimkolwiek innym celu, który można uznać za niezgodny z prawem lub szkodliwy;
  • syntetyczna treść wideo produkowana przez Eleven zawiera wyraźny znak wodny informujący, że została wygenerowana przez sztuczną inteligencję. Zawartość audio zawiera czytelny opis pliku. Jeśli posługujemy się rozpoznawalnymi głosami, robimy to w celach demonstracyjnych i w kontekstach, które nie powodują konfliktu interesów;
  • Jednocześnie staramy się wspierać właścicieli głosów i ich licencjodawców w dochodzeniu ich praw.
  • Jeśli masz pomysły, jak ulepszyć nasze stanowisko, daj nam znać pod adresem etyka@elevenlabs.io

Wierzymy, że strach przed nadużyciami nie powinien być dominującym czynnikiem wpływającym na nasze podejście do zaawansowanych nowych technologii. Zamiast tego powinniśmy dążyć do tego, aby zapewnić odpowiednie zabezpieczenia w momencie opracowywania technologii, minimalizując w ten sposób ryzyko szkód, a jednocześnie pozwalając nam w pełni wykorzystać potencjał, jaki technologia ta oferuje szerszej społeczności.

Przyszły

Technologia konwersji i klonowania głosu obiecuje zrewolucjonizować produkcję filmową, telewizję, tworzenie treści, tworzenie gier, podcastów i audiobooków, a także branżę reklamową. Ale ich zastosowania wykraczają poza rynek komercyjny i mogą posłużyć w medycynie, edukacji i komunikacji.

Klonowanie głosu otwiera drogę do przyszłości, w której dowolną treść będzie można generować w dowolnym języku i głosie, docierając tym samym do milionów ludzi na całym świecie i tworząc zupełnie nową gospodarkę. Naszym celem w Eleven jest pomoc w urzeczywistnieniu tej przyszłości.

Odkryj więcej

ElevenLabs

Twórz przy użyciu technologii audio AI zapewniającej najwyższą jakość