Black Friday

Zrealizuj

Pierwsza AI, która potrafi się śmiać

Nasz model wyraża emocje jak żaden inny

A black and white cartoon-style drawing of a smiling face with a wide, toothy grin and closed, happy eyes.

W naszym ostatnim wpisie zaprezentowaliśmy kilka dłuższych próbek wygenerowanych przez nasz narzędzie do syntezy mowy i przedstawiliśmy krótki przegląd, jak unikalny design naszego modelu pozwala mu tworzyć mowę dobrze zbalansowaną i naturalną. Dziś pokażemy, że jest również bardziej emocjonalna i świadoma kontekstu niż jakakolwiek inna. Dzięki temu jest nie tylko angażująca, ale także idealna do zastosowań od książek i gier wideo po reklamy.

Emocje

Obie mocne strony naszego modelu - płynność i właściwa intonacja - wynikają z ogromnej ilości danych treningowych (ponad 500 tys. godzin!), ale kluczowe jest to, jak się z nich uczy, co wynika z jego konstrukcji. Na podstawowym poziomie jest stworzony do rozumienia emocji zawartych w tekście i decydowania, czy mówca powinien brzmieć radośnie, gniewnie, smutno czy neutralnie. Oto kilka przykładów:

Wszystkie różnice w intonacji i nastroju wynikają wyłącznie z tekstu - nic innego nie wpływa na wynik. Interpunkcja i znaczenie słów odgrywają kluczową rolę w decydowaniu, jak dostarczyć konkretne zdanie, ale zauważ, jak model przekonująco generuje dźwięki, które nie są częścią regularnej mowy, jak śmiech (wkrótce opublikujemy kompilację różnych śmiechów, które nasza AI potrafi!). Podobnie, odpowiednio wyolbrzymia reakcję, gdy mówca jest rozbawiony czymś zabawnym - to jest 'taaaakie śmieszne'.

Kontekst

Ale znajomość znaczenia pojedynczych słów to za mało. Nasz model jest równie wrażliwy na szerszy kontekst każdej wypowiedzi - ocenia, czy coś ma sens, analizując, jak łączy się z poprzedzającym i następującym tekstem. Ta szersza perspektywa pozwala mu odpowiednio intonować dłuższe fragmenty, nakładając na nie spójny wzorzec emocjonalny, jak pokazano w naszym poprzednim wpisie z dłuższymi treściami. Pomaga to również unikać błędów logicznych. Na przykład, niektóre słowa są pisane tak samo, ale mają różne znaczenia, np. 'read' w czasie teraźniejszym i przeszłym lub 'minute' jako jednostka czasu lub coś małego. Decyzja, które jest odpowiednie, zależy od kontekstu:

Słowo pisane vs. mówione

Ponieważ projektujemy naszą platformę, aby sprostać wymaganiom długich treści, nasz model musi również rozumieć, że symbole, skróty i pewne konwencje powszechne w piśmie powinny być wymawiane w określony sposób lub nie dosłownie. Na przykład, model musi wiedzieć, że FBI, TNT i ATM są wymawiane inaczej niż UNESCO czy NASA. Podobnie, $3tr jest w porządku w piśmie, ale czytane na głos, musi stać się 'trzy biliony dolarów'.

Interwencja człowieka

Rozpoznawanie tych subtelnych różnic jest kluczowe, ponieważ naszym celem jest minimalizacja potrzeby interwencji człowieka w procesie generowania. W końcu nie promujemy zdolności naszego narzędzia do generowania audiobooka w kilka minut po to, by ktoś musiał przesłuchać całe nagranie i przepisać cały tekst. Niemniej jednak, mimo że ciągle aktualizujemy zasady wymowy naszego modelu, zawsze może się zdarzyć, że coś go zdezorientuje. W tym celu rozwijamy system oznaczania niepewności, który pozwoli użytkownikom natychmiast zobaczyć, które fragmenty tekstu model uznał za problematyczne i nauczyć go, jak powinny być wymawiane.

Niezliczone zastosowania

Wszystkie pokazane możliwości to kroki na drodze do uczynienia naszego oprogramowania najbardziej wszechstronnym narzędziem do generowania głosu AI.

Wydawcy wiadomości już odkryli, że zwiększenie obecności audio to świetny sposób na zatrzymanie subskrybentów. Wielką zaletą osadzania każdego artykułu z jego nagraniem audio jest to, że ludzie mogą słuchać, robiąc coś innego. Ci wydawcy, którzy to robią, często korzystają z aktorów głosowych, co jest kosztowne i nie wszystkie artykuły są pokrywane. Lub używają własnych reporterów do czytania historii, co jest czasochłonne, a więc również kosztowne. Ci, którzy używają syntetycznej mowy do nagrywania treści, oszczędzają pieniądze, ale płacą inną cenę, kompromitując jakość. Teraz, z Eleven Labs, nie ma potrzeby kompromisów i można mieć to, co najlepsze z obu światów.

Albo wyobraź sobie generowanie audiobooków z wyrazistym, emocjonalnie angażującym głosem dla wszystkich postaci, w ciągu kilku minut. Nie tylko otwiera to nowe sposoby angażowania się w książki, ale także znacznie ułatwia dostęp osobom z trudnościami w nauce.

Pomyśl tylko o możliwościach, które teraz otwierają się przed deweloperami gier wideo, którzy nie muszą już zastanawiać się, czy dana postać jest na tyle ważna, by uzasadniać znaczne koszty jej dubbingu przez prawdziwych aktorów. Wszystkie NPC mogą teraz mieć własne głosy i osobowości.

Agencje reklamowe i producenci mogą teraz swobodnie eksperymentować i dostosowywać głosy do tonu każdej kampanii - czy to dla kanału sportowego, czy luksusowej marki zegarków. Głos dowolnego aktora może być licencjonowany do klonowania, dzięki czemu zmiany można wprowadzać natychmiast i bez fizycznej obecności aktora. A jeśli zdecydują się na w pełni syntetyczny głos, reklamodawcy nie muszą martwić się o wykupienie praw do głosu.

Wirtualni asystenci mogą stać się bardziej realistyczni, ponieważ klonowanie głosu pozwala im mówić głosem znajomym dla konkretnego użytkownika, a także dlatego, że ta nowa głębia przekazu sprawia, że są bardziej naturalni w interakcji.

Eleven Labs Beta

Przejdź tutaj, aby zapisać się na naszą platformę beta i wypróbować ją samodzielnie. Stale wprowadzamy ulepszenia, a wszystkie opinie użytkowników są dla nas bardzo cenne na tym wczesnym etapie. Miłej zabawy!

Przeglądaj artykuły zespołu ElevenLabs

ElevenLabs

Twórz z najwyższą jakością dźwięku AI