Pierwsze AI, które potrafi się śmiać

Nasz model wyraża emocje jak żaden inny

W naszym ostatnim wpisie pokazaliśmy kilka dłuższych próbek wygenerowanych przez nasz narzędzie do syntezy mowy i przedstawiliśmy krótki przegląd, jak unikalny design naszego modelu pozwala mu tworzyć mowę, która jest płynna i naturalna. Dziś pokażemy, że jest również bardziej emocjonalnie bogaty i świadomy kontekstu niż jakikolwiek inny. Dzięki temu jest nie tylko angażujący do słuchania, ale także idealny do zastosowań od książek i gier wideo po reklamy.

Emocje

Obie mocne strony naszego modelu - płynność i właściwa intonacja - wynikają z ogromnej ilości danych treningowych (ponad 500 tys. godzin!), ale kluczowe jest to, jak uczy się z tych danych, co wynika z jego konstrukcji. Na najbardziej podstawowym poziomie jest stworzony, by rozumieć emocje zawarte w tekście i decydować, czy mówca powinien brzmieć radośnie, gniewnie, smutno czy neutralnie. Oto kilka przykładów:

Wszystkie różnice w intonacji i nastroju wynikają wyłącznie z tekstu - nic innego nie wpływa na wynik. Interpunkcja i znaczenie słów odgrywają główną rolę w decydowaniu, jak dostarczyć konkretne zdanie, ale zauważ, jak model przekonująco generuje dźwięki, które nie są częścią zwykłej mowy, jak śmiech (wkrótce opublikujemy kompilację różnych śmiechów, które potrafi nasze AI!). Podobnie, odpowiednio wyolbrzymia reakcję, gdy mówca jest rozbawiony czymś zabawnym - to jest ‘taaaakie śmieszne’.

Kontekst

Ale znajomość znaczenia pojedynczych słów to za mało. Nasz model jest równie wrażliwy na szerszy kontekst każdej wypowiedzi - ocenia, czy coś ma sens, analizując, jak łączy się z poprzedzającym i następującym tekstem. Ta szersza perspektywa pozwala mu właściwie intonować dłuższe fragmenty, nakładając na nie jednolity wzorzec emocjonalny, jak pokazaliśmy w naszym poprzednim wpisie z dłuższymi treściami. Pomaga to również unikać błędów logicznych. Na przykład, niektóre słowa są pisane tak samo, ale mają różne znaczenia, np. ‘read’ w czasie teraźniejszym i przeszłym lub ‘minute’ jako jednostka czasu lub coś małego. Decyzja, które znaczenie jest właściwe, zależy od kontekstu:

Słowo pisane vs. mówione

Ponieważ projektujemy naszą platformę, aby sprostać wymaganiom długich treści, nasz model musi również rozumieć, że symbole, skróty i pewne konwencje powszechne w piśmie powinny być wymawiane w określony sposób lub nie dosłownie. Na przykład, model musi wiedzieć, że FBI, TNT i ATM są wymawiane inaczej niż UNESCO czy NASA. Podobnie, $3tr jest w porządku w piśmie, ale czytane na głos musi stać się ‘trzy biliony dolarów’.

Interwencja człowieka

Rozpoznawanie tych subtelnych różnic jest kluczowe, ponieważ naszym celem jest zminimalizowanie potrzeby interwencji człowieka w procesie generowania. W końcu nie promujemy zdolności naszego narzędzia do generowania audiobooka w kilka minut po to, by ktoś musiał przesłuchać całe nagranie i przepisać cały tekst. Niemniej jednak, mimo że ciągle aktualizujemy zasady wymowy naszego modelu, zawsze może się zdarzyć, że coś go zmyli. W tym celu rozwijamy system oznaczania niepewności, który pozwoli użytkownikom natychmiast zobaczyć, które fragmenty tekstu model uznał za problematyczne i nauczyć go, jak powinny być wymawiane.

Niezliczone zastosowania

Wszystkie pokazane możliwości to kroki na drodze do uczynienia naszego oprogramowania najbardziej wszechstronnym narzędziem do generowania głosu AI.

Wydawcy wiadomości już odkryli, że zwiększenie obecności audio to świetny sposób na zatrzymanie subskrybentów. Wielką zaletą osadzania każdego artykułu z jego nagraniem audio jest to, że ludzie mogą słuchać, robiąc coś innego. Ci wydawcy, którzy to robią, często korzystają z aktorów głosowych, co jest kosztowne i nie wszystkie artykuły są pokrywane. Lub używają własnych reporterów do czytania historii, co jest czasochłonne, a więc również kosztowne. Ci, którzy używają syntetycznej mowy do nagłaśniania treści, oszczędzają pieniądze, ale płacą inną cenę, kompromitując jakość. Teraz, z ElevenLabs, nie ma potrzeby kompromisów i można mieć to, co najlepsze z obu światów.

Albo wyobraź sobie generowanie audiobooków z wyrazistym, emocjonalnie angażującym nałożonym głosem dla wszystkich postaci, w ciągu kilku minut. Nie tylko otwiera to nowe sposoby angażowania się w książki, ale także znacznie ułatwia dostęp osobom z trudnościami w nauce.

Pomyśl tylko o możliwościach, które teraz otwierają się przed deweloperami gier wideo, którzy nie muszą już zastanawiać się, czy dana postać jest na tyle ważna, by uzasadnić znaczny koszt jej nagłośnienia przez prawdziwych aktorów. Wszystkie NPC mogą teraz mieć własne głosy i osobowości.

Agencje reklamowe i producenci mogą teraz swobodnie eksperymentować i dostosowywać nałożone głosy do tonu każdej kampanii - czy to dla kanału sportowego, czy dla luksusowej marki zegarków. Głos dowolnego aktora może być licencjonowany do klonowania, dzięki czemu zmiany można wprowadzać natychmiast i bez fizycznej obecności aktora. Albo jeśli zdecydują się na w pełni syntetyczny głos, reklamodawcy nie muszą martwić się o opłaty za prawa do głosu.

Wirtualni asystenci mogą stać się bardziej realistyczni, ponieważ klonowanie głosu pozwala im mówić głosem znajomym dla konkretnego użytkownika, a także dlatego, że ta nowa głębia przekazu sprawia, że są bardziej naturalni w interakcji.

Eleven Labs Beta

Przejdź tutaj, aby zapisać się na naszą platformę beta i wypróbować ją samodzielnie. Ciągle wprowadzamy ulepszenia, a wszystkie opinie użytkowników są dla nas bardzo cenne na tym wczesnym etapie. Miłej zabawy!

Zobacz więcej

ElevenLabs

Twórz z najwyższą jakością dźwięku AI