![](/_next/image?url=https%3A%2F%2Feleven-public-cdn.elevenlabs.io%2Fpayloadcms%2F6fe10773jd6-EU%20AI%20Champions.webp&w=3840&q=95)
ElevenLabs joins the EU AI Champions Initiative
Over 60 companies are working to strengthen Europe’s role in global AI
Nasz model wywołuje emocje jak żaden inny
W ostatnim wpisie zaprezentowaliśmy podgląd kilku długich próbek wygenerowanych przez nasz narzędzie do syntezy mowy i krótko omówiliśmy, w jaki sposób unikalna konstrukcja naszego modelu pozwala mu na generowanie mowy o odpowiednim tempie i bez sprzężenia zwrotnego. Dziś pokażemy wam, że jest on także bogatszy emocjonalnie i lepiej oddaje kontekst niż jakikolwiek inny. Dzięki temu jest to utwór nie tylko bardzo ciekawy wizualnie, ale także świetnie nadający się do różnych zastosowań, od podgłaśniania książek i gier wideo po reklamy.
Mocne strony naszego modelu – płynność mówienia i prawidłowa intonacja – wynikają z bogatej bazy danych szkoleniowych (ponad 500 tys. godzin!), ale tak naprawdę najważniejszy jest sposób, w jaki model uczy się na podstawie tych danych, co wynika ze sposobu, w jaki jest zbudowany. Najprościej rzecz ujmując, ma ona na celu zrozumienie emocji zawartych w tekście i podjęcie decyzji, czy mówiący powinien brzmieć szczęśliwie, gniewnie, smutno czy neutralnie. Rozważmy kilka przykładów:
Wszelkie różnice w intonacji i nastroju wynikają wyłącznie z tekstu – nic innego nie miało wpływu na wynik. Interpunkcja i znaczenie słów odgrywają główną rolę w podejmowaniu decyzji, jak przekazać konkretne zdanie, ale zwróć również uwagę, że gdy mówca cieszy się ze zwycięstwa, model przekonująco wytwarza dźwięki, które nie są częścią normalnej mowy, na przykład śmiech (wkrótce opublikujemy kompilację różnych rodzajów śmiechu, które potrafi wytworzyć nasza sztuczna inteligencja!). Podobnie, odpowiednio wyolbrzymia reakcję, gdy mówcę bawi coś zabawnego – to jest „tak zabawneUSD
Ale znajomość znaczenia poszczególnych słów nie wystarczy. Nasz model jest równie wrażliwy na szerszą sytuację otaczającą każdą wypowiedź — ocenia, czy coś ma sens na podstawie tego, w jaki sposób wiąże się z poprzednim i następnym tekstem. Taka odległa perspektywa pozwala na właściwą intonację dłuższych fragmentów poprzez nałożenie określonego ciągu myśli i rozciągnięcie wielu zdań o ujednolicony wzór emocjonalny, jak pokazano w naszym poprzednim wpisie zawierającym dłuższe treści. Ale pomaga to również uniknąć błędów logicznych. Na przykład niektóre słowa są pisane w ten sam sposób, ale mają różne znaczenie, np. „read” w czasie teraźniejszym i przeszłym lub „minute” oznacza jednostkę czasu lub coś małego. Decyzja, która z nich jest odpowiednia, zależy od kontekstu:
Ponieważ projektujemy naszą platformę tak, aby spełniała wymagania dotyczące treści w dłuższej formie, nasz model musi uwzględniać fakt, że symbole, skróty i pewne powszechnie stosowane w piśmie konwencje należy wymawiać w określony sposób lub nie należy ich wymawiać dosłownie. Na przykład model musi wiedzieć, że nazwy FBI, TNT i ATM wymawia się inaczej niż UNESCO czy NASA. Podobnie, 3 biliony dolarów są w porządku w zapisie, ale gdy się je czyta na głos, muszą stać się „trzy biliony dolarów”.
Rozpoznanie tych subtelnych różnic jest kluczowe, ponieważ naszym celem jest zminimalizowanie konieczności ingerencji człowieka w proces generowania. Przecież nie reklamujemy naszego narzędzia jako narzędzia umożliwiającego wygenerowanie audiobooka w ciągu kilku minut po to, aby ktoś musiał przesłuchać całą ścieżkę audio, a potem przepisać cały tekst. Niemniej jednak, chociaż stale aktualizujemy zasady wymowy w naszym modelu, zawsze istnieje ryzyko, że coś je zagmatwie. W tym celu opracowujemy obecnie system oznaczania niepewności, dzięki któremu użytkownicy będą mogli natychmiast zobaczyć, które fragmenty tekstu model uznał za problematyczne, i będą mogli nauczyć go, jak należy je wypowiadać.
Wszystkie zaprezentowane przez nas możliwości stanowią kroki na drodze do przekształcenia naszego oprogramowania w najbardziej wszechstronne narzędzie do przetwarzania głosu oparte na sztucznej inteligencji.
Wydawcy wiadomości odkryli już, że zwiększenie obecności w mediach audio jest świetnym sposobem na utrzymanie abonentów. Wielką zaletą osadzania każdego artykułu w wersji audio jest to, że ludzie mogą słuchać go, robiąc jednocześnie coś innego. Wydawcy, którzy tak robią, często zatrudniają aktorów głosowych, co jest kosztowne i nie wszystkie artykuły zostają uwzględnione. Albo zatrudniają własnych reporterów do czytania artykułów, co jest czasochłonne, a zatem i kosztowne. Ci, którzy wykorzystują mowę syntetyczną do nagłaśniania swoich treści, oszczędzają pieniądze, ale płacą za to cenę obniżoną jakościowo. Teraz dzięki Eleven Labs nie musisz już iść na żadne kompromisy i możesz mieć to, co najlepsze z obu światów.
Albo wyobraź sobie generowanie Audiobooki z wyrazistym, emocjonalnie angażującym głosem dla każdej postaci, w ciągu kilku minut. Nie tylko otwiera to nowe sposoby obcowania z książkami, ale także znacznie ułatwia dostęp do nich osobom mającym trudności w uczeniu się.
Pomyśl tylko o możliwościach, które teraz są otwarte gra wideo twórcy gier, którzy nie muszą już zastanawiać się, czy konkretna postać jest na tyle ważna, aby uzasadniać ponoszenie znacznych kosztów związanych z użyczeniem jej głosu przez prawdziwych aktorów. Wszyscy NPC-e mogą teraz mieć własny głos i osobowość.
Reklama Agencje i producenci mogą teraz swobodnie eksperymentować i dostosowywać narrację do charakteru każdej kampanii — niezależnie od tego, czy jest to kampania kanału telewizyjnego zajmującego się sportem, czy też luksusowej marki zegarków. Głos dowolnego aktora może uzyskać licencję na klonowanie, dzięki czemu zmiany można wprowadzać natychmiast, bez konieczności fizycznej obecności aktora. Jeśli zaś zdecydują się na całkowicie syntetyczny głos, reklamodawcy nie muszą martwić się o płacenie abonamentu za prawa głosowe.
Asystenci wirtualni mogą stać się bardziej realistyczne, zarówno dlatego, że klonowanie głosu pozwala im mówić głosem, który jest znany danemu użytkownikowi, jak i dlatego, że ta nowo odkryta głębia przekazu sprawi, że interakcja z nimi będzie bardziej naturalna.
Iść Tutaj aby zapisać się na naszą platformę beta i wypróbować ją samodzielnie. Ciągle wprowadzamy udoskonalenia i wszelkie uwagi użytkowników są dla nas bardzo cenne na tym wczesnym etapie. Cieszyć się!
Over 60 companies are working to strengthen Europe’s role in global AI
Calls now start at 10 cents per minute — an ~50% discount across Starter, Creator and Pro plans