
Pierwsze AI, które potrafi się śmiać
Nasz model wyraża emocje jak żaden inny
Przedstawiamy Eleven v3 Alpha
Wypróbuj v3Najlepsze zastosowania i praktyczne wyzwania przy wdrażaniu
Dla niektórych Real-time Dubbing przywodzi na myśl Babelfisha z Autostopem przez Galaktykę.
Babelfish „żywi się energią fal mózgowych, pochłaniając nieświadome częstotliwości i wydalając matrycę świadomych częstotliwości do ośrodków mowy w mózgu.” W praktyce oznacza to, że gdy włożysz go do ucha, każda osoba mówiąca do ciebie w dowolnym języku będzie słyszana natychmiast, jakby mówiła w twoim ojczystym języku (i w ogóle nie słyszysz oryginalnego dźwięku).
Dopóki nie możemy czytać fal mózgowych, musimy słuchać słów mówcy i tłumaczyć je na nasz docelowy język. Próba tłumaczenia każdego słowa, gdy wychodzi z ust mówcy, stwarza prawdziwe wyzwania.
Wyobraź sobie sytuację, w której chcesz tłumaczyć z angielskiego na hiszpański. Mówca zaczyna od „The”. W hiszpańskim „The” tłumaczy się na „El” dla rzeczowników męskich i „La” dla żeńskich. Nie możemy więc przetłumaczyć „The” z pewnością, dopóki nie usłyszymy więcej.
Wyobraź sobie, że mówca kontynuuje „The running water”. Teraz mamy wystarczająco informacji, by przetłumaczyć pierwsze trzy słowa na „El agua corriente”. Zakładając, że zdanie kontynuuje „The running water is too cold for swimming”, jesteśmy na dobrej drodze.
Ale jeśli mówca kontynuuje „The running water buffalo…”, musimy się cofnąć.
Aby podkreślić, jeśli mówca kontynuuje „The running water buffalo protected her calf”, powinniśmy byli zacząć zdanie od „La búfala” zamiast „El búfalo”.
Te „garden path” zdania, które zaczynają się w sposób, gdzie początkowa interpretacja słuchacza jest prawdopodobnie błędna, występują w wielu językach.
W niektórych przypadkach możesz zaakceptować, że będziesz musiał się cofnąć po zbyt szybkim rozpoczęciu dubbingu. W innych możesz wybrać dodanie opóźnienia dla większej dokładności. Biorąc pod uwagę, że pewne opóźnienie jest nieodłączne dla wszystkich przypadków użycia dubbingu, definiujemy „real-time” dubbing jako usługę, przez którą możesz ciągle strumieniować audio i otrzymywać przetłumaczoną treść.
Najlepsze komercyjne zastosowania real-time dubbingu to te, gdzie
Forbes donosił w 2019, że NBA zarabia 500 mln dolarów na międzynarodowych prawach telewizyjnych. NFL organizuje teraz mecze w Brazylii, Anglii, Niemczech i Meksyku, widząc międzynarodową ekspansję jako kluczowy czynnik przychodów w przyszłości.
I choć większość wydarzeń sportowych ma być oglądana na żywo, ludzie są już przyzwyczajeni do pewnego opóźnienia, czy o tym wiedzą, czy nie. Czas, jaki zajmuje materiał nagrany na stadionie, aby dotrzeć do twojego ekranu w domu, może wynosić od 5 sekund do kilku minut.
Zazwyczaj na miejscu jest wielu operatorów kamer i dźwięku, którzy strumieniują swój materiał do obiektu produkcyjnego. Obiekt produkcyjny przełącza się między strumieniami kamer, miksuje dźwięk, nakłada grafiki i dodaje komentarze. Mogą również celowo dodać dodatkowe opóźnienie, aby nasłuchiwać i wyciszać przekleństwa lub inne nieoczekiwane treści.
Główny strumień produkcyjny jest wysyłany do sieci nadawczej, która dodaje własne oznaczenia i reklamy oraz dystrybuuje treść do swoich lokalnych sieci. W końcu dostawcy ostatniej mili udostępniają treść konsumentom za pośrednictwem kabli, transmisji satelitarnych i usług strumieniowych.
Wielu producentów zgłasza, że byłoby akceptowalne dodanie do 20 sekund dodatkowego opóźnienia dla dubbingu. Dodatkowe opóźnienie jest więcej niż rekompensowane przez fakt, że widzowie mogą słuchać w swoim ojczystym języku.
Firmy sportowe najbardziej dbają o dostarczenie jakościowego produktu i wierzą, że kluczem do jakości jest skuteczne uchwycenie emocji i czasu nadawców. „Strzela, trafia!” musi być dostarczone z entuzjazmem.
Nasze modele klonowania głosu, które są podstawą naszej usługi dubbingu, potrafią uchwycić emocje i sposób wypowiedzi oryginalnego mówcy. W przeciwieństwie do tłumaczenia, więcej kontekstu nie zawsze prowadzi do lepszego wyniku. Jednak nie jesteśmy jeszcze na poziomie emocjonalnym hiszpańskiego komentatora piłkarskiego!
Każdy klon głosu jest średnią swoich wejść. Jeśli połączysz linię wypowiedzianą płasko jak „Będą musieli być bardziej agresywni, mając tylko dwie minuty do końca.” z „Strzela, trafia!”, powstały klon będzie średnią dostawą obu.
Dziś możemy to przezwyciężyć, mając krótsze długości kontekstu dla klonowania głosu niż dla tłumaczenia transkryptu. W przyszłości spodziewamy się znaleźć dodatkowe korzyści, dostarczając dodatkowy kontekst (jak obraz i wideo) do naszego modelu dubbingu lub tworząc „emocjonalny transkrypt” oryginalnego mówcy i używając go do kierowania dostawą dubbingowanego audio.
Podobnie jak „na żywo” Sport, Nadawanie wiadomości przechodzi przez linię produkcyjną, która dodaje opóźnienia. Z naszych rozmów z firmami medialnymi wynika, że uchwycenie emocji (choć ważne) jest mniej krytyczne i często łatwiejsze, ponieważ większość prezenterów wiadomości ma bardzo spójny sposób wypowiedzi. Jednak kluczowe jest, aby tłumaczenie było zarówno dokładne, jak i subtelne.
Oprócz szansy na awarię automatycznej usługi tłumaczeniowej, niektóre pojęcia nie mają bezpośredniego tłumaczenia. Rozważ następujące:
"Społeczność zebrała się na dzień pamięci, gdzie ocaleni dzielili się swoimi historiami, a starsi wykonywali tradycyjne modlitwy o uzdrowienie."
Hiszpański: "La comunidad se reunió para un día conmemorativo, donde los sobrevivientes compartieron sus historias y los ancianos realizaron oraciones tradicionales para la sanación."
Chociaż technicznie poprawne, „survivors” vs „sobrevivientes” niesie różną wagę w kontekstach historycznej traumy - w angielskim często implikuje odporność i godność, podczas gdy „sobrevivientes” może podkreślać ofiarność. Podobnie, „performed prayers” vs „realizaron oraciones” różni się w odniesieniu - „performed” uznaje znaczenie ceremonialne, podczas gdy „realizaron” może brzmieć bardziej proceduralnie.
Aby umożliwić naturalną, osobistą rozmowę między ludźmi, którzy nie mówią tym samym językiem, potrzebujesz niemal natychmiastowego tłumaczenia.
Korzystając z prawdopodobieństw przewidywania następnego tokena LLM, masz model czasu rzeczywistego prawdopodobieństwa, dokąd zmierza zdanie.
Źródło obrazu - Hugging Face "How to generate text"
Jeśli dostroimy ten model przewidywania następnego tokena do indywidualnego mówcy, będziemy mieli rozsądne zrozumienie, dokąd zmierza. Korzystając z tych informacji, możemy „oszukiwać”, wyprzedzając tłumaczenie i generowanie mowy, gdy mamy wysoką pewność, dokąd zmierza mówca.
Uważasz to za interesujące i chcesz z nami pracować nad przyszłością AI Audio? Sprawdź otwarte stanowiska tutaj.
Nasz model wyraża emocje jak żaden inny
Wdrażamy własny model generatywny, który pozwala użytkownikom projektować zupełnie nowe syntetyczne głosy