![conv ai price cut blog cover](/_next/image?url=https%3A%2F%2Feleven-public-cdn.elevenlabs.io%2Fpayloadcms%2F1yhtsfx6oum-Blog%20-%20Price%20Cut.webp&w=3840&q=95)
We cut our pricing for Conversational AI
Calls now start at 10 cents per minute — an ~50% discount across Starter, Creator and Pro plans
Konwersja głosu pozwala na przekształcenie głosu jednej osoby w głos innej osoby. Wykorzystuje proces zwany klonowaniem głosu, aby zakodować głos docelowy — tzn. głos, na który dokonujemy konwersji — i wygenerować ten sam komunikat, wypowiedziany w sposób, który odpowiada tożsamości mówcy docelowego, ale zachowuje oryginalną intonację.
Wysokiej jakości technologia konwersji i klonowania głosu ma potencjał zrewolucjonizowania sposobu produkcji, dostarczania i interakcji z treścią w wielu branżach. Obiecują zoptymalizować czas i koszty produkcji oraz zapewnić tym, którzy dzielą się swoimi opiniami w zakresie szkolenia algorytmów konwersji, sposoby na pasywne zarabianie na prowizjach.
Chociaż w Eleven opracowujemy oprogramowanie do konwersji głosu jako część naszego pakietu narzędzi, nasze badania nad klonowaniem i syntezą głosu stanowią przede wszystkim źródło napędu dla rozwoju naszego głównego produktu, który planujemy wprowadzić na rynek na początku przyszłego roku: automatycznego narzędzia do dubbingu zachowującego tożsamość.
Naszym celem jest udostępnienie wszystkich treści mówionych w różnych językach, z głosem oryginalnego mówcy, za pomocą jednego kliknięcia. Wyobraź sobie edukacyjny film na YouTube w języku angielskim. Jeśli ktoś mówi tylko po hiszpańsku (ale i tak uznałby ten przedmiot za interesujący, gdyby tylko znał ten język), to jest to problem. Oczywiście napisy stanowią rozwiązanie, ale naszym celem jest zapewnienie o wiele bardziej wciągającego i interesującego sposobu angażowania użytkowników w treść. Chcemy, żeby ta sama osoba mówiła tę samą wiadomość naturalnie, posługując się językiem hiszpańskim na poziomie rodzimym, nawet jeśli tego nie robi.
W tym celu klonowanie głosu pozwala nam zachować ich tożsamość, czyli brzmienie ich głosu. Używamy jej do generowania nowych wypowiedzi w innym języku, tak aby brzmiały tak, jakby mówiła ta sama osoba.
Konwersja głosu wchodzi w grę, ponieważ chcemy zachować emocje, intencje i styl przekazu, aby zapewnić maksymalne zaangażowanie. Szkolimy solidne modele wielojęzyczne, które umożliwiają nam analizę wypowiedzi w języku źródłowym i mapowanie ich na język docelowy z odpowiednią intonacją.
Aby zamienić głos jednej osoby na głos innej osoby, tzn. mowę źródłową na mowę docelową, potrzebujemy algorytmu, który wyrazi treść mowy źródłowej za pomocą cech mowy docelowej. Dobrą analogią są tutaj aplikacje do podmieniania twarzy, dzięki którym możesz połączyć swoją twarz z twarzą innej osoby i stworzyć obraz przedstawiający obie twarze jako całość.
Aby to zrobić, należy wziąć obraz twarzy i nanieść na mapę jego atrybuty. Kropki w poniższym przykładzie mają właśnie to znaczenie: stanowią granice, wewnątrz których zostaną wyrenderowane cechy drugiej twarzy.
W konwersji głosu potrzebujemy sposobu, aby algorytm mógł kodować właściwości docelowej mowy. Algorytm jest trenowany na zbiorze danych obejmującym wiele przykładów tej mowy. Rozbija te próbki na podstawowy poziom – mówiąc obrazowo, na „atomy” mowy. Mowa składa się ze zdań. Zdania składają się ze słów. Słowa składają się z fonemów i określają cechy mowy docelowej. To podstawowy poziom, na którym działa algorytm.
Sztuką konwersji głosu jest renderowanie treści mowy źródłowej przy użyciu fonemów mowy docelowej. Ale jest tu pewien kompromis, taki sam jak w przykładzie z zamianą twarzy: im więcej znaczników użyjesz do odwzorowania atrybutów jednej twarzy, tym więcej ograniczeń nałożysz na twarz, którą odwzorowasz wewnątrz nich. Mniej znaczników oznacza mniej ograniczeń. To samo dotyczy konwersji głosu. Im bardziej preferujemy mowę docelową, tym większe ryzyko, że stracimy synchronizację z mową źródłową. Jeśli jednak nie poświęcimy temu wystarczająco dużo uwagi, ryzykujemy utratą wielu cech charakterystycznych dla danej mowy. Na przykład, gdybyśmy mieli odtworzyć nagranie kogoś krzyczącego ze złością głosem Morgana Freemana, mielibyśmy kłopoty. Przywiązywanie zbyt dużej wagi do emocji wypowiedzianych przez autora to cena, jaką zapłacimy, a stracimy wrażenie, że to naprawdę mówi Morgan Freeman. Zbyt duży nacisk na sposób mówienia powoduje utratę ładunku emocjonalnego mowy źródłowej.
Należy zająć się kwestiami etycznymi związanymi z klonowaniem głosu, ponieważ coraz więcej osób jest zaniepokojonych potencjalnymi możliwościami niewłaściwego wykorzystania tej technologii. W 2020 roku oszuści wykorzystali deepfake'i audio, podszywając się pod dyrektora generalnego w rozmowie telefonicznej, aby autoryzować przelew bankowy na kwotę 35 milionów dolarów. Technologia, która może przekonująco sprawić wrażenie, że ktoś powiedział coś, czego w rzeczywistości nie powiedział, naturalnie budzi obawy, że może zostać wykorzystana do dezinformacji, zniesławienia lub popełnienia oszustwa. Podobnie konwersja głosu rodzi ważne pytania o naruszenie praw autorskich, jeżeli umożliwia użytkownikom czerpanie korzyści z treści generowanych bez zgody właścicieli głosu.
W Eleven czujemy, że musimy zrobić wszystko, co w naszej mocy, aby mieć pewność, że nasza technologia nie będzie wykorzystywana w złych celach oraz wdrożyć zabezpieczenia chroniące przed zagrożeniami, jakie ona niesie:
Wierzymy, że strach przed nadużyciami nie powinien być dominującym czynnikiem wpływającym na nasze podejście do zaawansowanych nowych technologii. Zamiast tego powinniśmy dążyć do tego, aby zapewnić odpowiednie zabezpieczenia w momencie opracowywania technologii, minimalizując w ten sposób ryzyko szkód, a jednocześnie pozwalając nam w pełni wykorzystać potencjał, jaki technologia ta oferuje szerszej społeczności.
Technologia konwersji i klonowania głosu obiecuje zrewolucjonizować produkcję filmową, telewizję, tworzenie treści, tworzenie gier, podcastów i audiobooków, a także branżę reklamową. Ale ich zastosowania wykraczają poza rynek komercyjny i mogą posłużyć w medycynie, edukacji i komunikacji.
Klonowanie głosu otwiera drogę do przyszłości, w której dowolną treść będzie można generować w dowolnym języku i głosie, docierając tym samym do milionów ludzi na całym świecie i tworząc zupełnie nową gospodarkę. Naszym celem w Eleven jest pomoc w urzeczywistnieniu tej przyszłości.
Calls now start at 10 cents per minute — an ~50% discount across Starter, Creator and Pro plans