Przedstawiamy Eleven v3 Alpha

Wypróbuj v3

Droga do dubbingu w czasie rzeczywistym

Najlepsze zastosowania i praktyczne wyzwania przy wdrażaniu

Real-time Dubbing

Dla niektórych Real-time Dubbing przywodzi na myśl Babelfisha z Autostopem przez Galaktykę.

Babelfish „żywi się energią fal mózgowych, pochłaniając nieświadome częstotliwości i wydalając matrycę świadomych częstotliwości do ośrodków mowy w mózgu.” W praktyce oznacza to, że gdy włożysz go do ucha, każda osoba mówiąca do ciebie w dowolnym języku będzie słyszana natychmiast, jakby mówiła w twoim ojczystym języku (i w ogóle nie słyszysz oryginalnego dźwięku).

Dopóki nie możemy czytać fal mózgowych, musimy słuchać słów mówcy i tłumaczyć je na nasz docelowy język. Próba tłumaczenia każdego słowa, gdy wychodzi z ust mówcy, stwarza prawdziwe wyzwania.

Wyobraź sobie sytuację, w której chcesz tłumaczyć z angielskiego na hiszpański. Mówca zaczyna od „The”. W hiszpańskim „The” tłumaczy się na „El” dla rzeczowników męskich i „La” dla żeńskich. Nie możemy więc przetłumaczyć „The” z pewnością, dopóki nie usłyszymy więcej.

Realtime Dubbing Diagram 1

Wyobraź sobie, że mówca kontynuuje „The running water”. Teraz mamy wystarczająco informacji, by przetłumaczyć pierwsze trzy słowa na „El agua corriente”. Zakładając, że zdanie kontynuuje „The running water is too cold for swimming”, jesteśmy na dobrej drodze.

Real-time dubbing diagram 2

Ale jeśli mówca kontynuuje „The running water buffalo…”, musimy się cofnąć.

Real-time dubbing diagram 3

Aby podkreślić, jeśli mówca kontynuuje „The running water buffalo protected her calf”, powinniśmy byli zacząć zdanie od „La búfala” zamiast „El búfalo”.

Te „garden path” zdania, które zaczynają się w sposób, gdzie początkowa interpretacja słuchacza jest prawdopodobnie błędna, występują w wielu językach.

W niektórych przypadkach możesz zaakceptować, że będziesz musiał się cofnąć po zbyt szybkim rozpoczęciu dubbingu. W innych możesz wybrać dodanie opóźnienia dla większej dokładności. Biorąc pod uwagę, że pewne opóźnienie jest nieodłączne dla wszystkich przypadków użycia dubbingu, definiujemy „real-time” dubbing jako usługę, przez którą możesz ciągle strumieniować audio i otrzymywać przetłumaczoną treść.

Translation Pipeline

Najlepsze zastosowania Real-time Dubbing

Najlepsze komercyjne zastosowania real-time dubbingu to te, gdzie

  • Jest globalna publiczność
  • To jest treść na żywo
  • Jest akceptowalne mieć pewne opóźnienie w transmisji

Sport

Forbes donosił w 2019, że NBA zarabia 500 mln dolarów na międzynarodowych prawach telewizyjnych. NFL organizuje teraz mecze w Brazylii, Anglii, Niemczech i Meksyku, widząc międzynarodową ekspansję jako kluczowy czynnik przychodów w przyszłości.

I choć większość wydarzeń sportowych ma być oglądana na żywo, ludzie są już przyzwyczajeni do pewnego opóźnienia, czy o tym wiedzą, czy nie. Czas, jaki zajmuje materiał nagrany na stadionie, aby dotrzeć do twojego ekranu w domu, może wynosić od 5 sekund do kilku minut.

Zazwyczaj na miejscu jest wielu operatorów kamer i dźwięku, którzy strumieniują swój materiał do obiektu produkcyjnego. Obiekt produkcyjny przełącza się między strumieniami kamer, miksuje dźwięk, nakłada grafiki i dodaje komentarze. Mogą również celowo dodać dodatkowe opóźnienie, aby nasłuchiwać i wyciszać przekleństwa lub inne nieoczekiwane treści.

Główny strumień produkcyjny jest wysyłany do sieci nadawczej, która dodaje własne oznaczenia i reklamy oraz dystrybuuje treść do swoich lokalnych sieci. W końcu dostawcy ostatniej mili udostępniają treść konsumentom za pośrednictwem kabli, transmisji satelitarnych i usług strumieniowych.

Broadcast latency

Wielu producentów zgłasza, że byłoby akceptowalne dodanie do 20 sekund dodatkowego opóźnienia dla dubbingu. Dodatkowe opóźnienie jest więcej niż rekompensowane przez fakt, że widzowie mogą słuchać w swoim ojczystym języku.

Firmy sportowe najbardziej dbają o dostarczenie jakościowego produktu i wierzą, że kluczem do jakości jest skuteczne uchwycenie emocji i czasu nadawców. „Strzela, trafia!” musi być dostarczone z entuzjazmem.

Nasze modele klonowania głosu, które są podstawą naszej usługi dubbingu, potrafią uchwycić emocje i sposób wypowiedzi oryginalnego mówcy. W przeciwieństwie do tłumaczenia, więcej kontekstu nie zawsze prowadzi do lepszego wyniku. Jednak nie jesteśmy jeszcze na poziomie emocjonalnym hiszpańskiego komentatora piłkarskiego!

Każdy klon głosu jest średnią swoich wejść. Jeśli połączysz linię wypowiedzianą płasko jak „Będą musieli być bardziej agresywni, mając tylko dwie minuty do końca.” z „Strzela, trafia!”, powstały klon będzie średnią dostawą obu.

Dubbing Studio Soccer Announcer

Dziś możemy to przezwyciężyć, mając krótsze długości kontekstu dla klonowania głosu niż dla tłumaczenia transkryptu. W przyszłości spodziewamy się znaleźć dodatkowe korzyści, dostarczając dodatkowy kontekst (jak obraz i wideo) do naszego modelu dubbingu lub tworząc „emocjonalny transkrypt” oryginalnego mówcy i używając go do kierowania dostawą dubbingowanego audio.

Nadawanie wiadomości

Podobnie jak „na żywo” Sport, Nadawanie wiadomości przechodzi przez linię produkcyjną, która dodaje opóźnienia. Z naszych rozmów z firmami medialnymi wynika, że uchwycenie emocji (choć ważne) jest mniej krytyczne i często łatwiejsze, ponieważ większość prezenterów wiadomości ma bardzo spójny sposób wypowiedzi. Jednak kluczowe jest, aby tłumaczenie było zarówno dokładne, jak i subtelne.

Oprócz szansy na awarię automatycznej usługi tłumaczeniowej, niektóre pojęcia nie mają bezpośredniego tłumaczenia. Rozważ następujące:

"Społeczność zebrała się na dzień pamięci, gdzie ocaleni dzielili się swoimi historiami, a starsi wykonywali tradycyjne modlitwy o uzdrowienie."

Hiszpański: "La comunidad se reunió para un día conmemorativo, donde los sobrevivientes compartieron sus historias y los ancianos realizaron oraciones tradicionales para la sanación."

Chociaż technicznie poprawne, „survivors” vs „sobrevivientes” niesie różną wagę w kontekstach historycznej traumy - w angielskim często implikuje odporność i godność, podczas gdy „sobrevivientes” może podkreślać ofiarność. Podobnie, „performed prayers” vs „realizaron oraciones” różni się w odniesieniu - „performed” uznaje znaczenie ceremonialne, podczas gdy „realizaron” może brzmieć bardziej proceduralnie.

Bonus - Droga do dubbingu konwersacyjnego

Aby umożliwić naturalną, osobistą rozmowę między ludźmi, którzy nie mówią tym samym językiem, potrzebujesz niemal natychmiastowego tłumaczenia.

Korzystając z prawdopodobieństw przewidywania następnego tokena LLM, masz model czasu rzeczywistego prawdopodobieństwa, dokąd zmierza zdanie.

LLM Probabilities - Hugging Face

Źródło obrazu - Hugging Face "How to generate text"

Jeśli dostroimy ten model przewidywania następnego tokena do indywidualnego mówcy, będziemy mieli rozsądne zrozumienie, dokąd zmierza. Korzystając z tych informacji, możemy „oszukiwać”, wyprzedzając tłumaczenie i generowanie mowy, gdy mamy wysoką pewność, dokąd zmierza mówca.

Uważasz to za interesujące i chcesz z nami pracować nad przyszłością AI Audio? Sprawdź otwarte stanowiska tutaj.

Zobacz więcej

ElevenLabs

Twórz z najwyższą jakością dźwięku AI