Presenterar Eleven v3 Alpha

Prova v3

Vägen till realtidsdubbning

Bästa användningsområden och praktiska utmaningar vid införande

Real-time Dubbing

För vissa väcker Real-time Dubbing en bild av Babelfish från Liftarens guide till galaxen.

Babelfish "lever på hjärnvågsenergi, absorberar omedvetna frekvenser och utsöndrar en matris av medvetna frekvenser till hjärnans talcentrum." I praktiken betyder det att när du sätter en i örat, hör du vem som helst som talar till dig på vilket språk som helst direkt som om de talar ditt modersmål (och du hör inte källjudet alls).

Tills vi kan läsa hjärnvågor, behöver vi lyssna på talarens ord och översätta dem till vårt målspråk. Att försöka översätta varje ord när de lämnar talarens mun innebär verkliga utmaningar.

Föreställ dig ett scenario där du vill översätta från engelska till spanska. Talaren börjar med "The". På spanska översätts "The" till "El" för maskulina ord och "La" för feminina ord. Så vi kan inte översätta "The" med säkerhet förrän vi hör mer.

Realtime Dubbing Diagram 1

Föreställ dig att talaren fortsätter "The running water". Nu har vi tillräckligt med information för att översätta de första tre orden till "El agua corriente". Om meningen fortsätter "The running water is too cold for swimming" är vi i bra form.

Real-time dubbing diagram 2

Men om talaren fortsätter "The running water buffalo..." behöver vi backa.

Real-time dubbing diagram 3

För att överdriva poängen, om talaren fortsätter "The running water buffalo protected her calf", borde vi ha börjat meningen med "La búfala" istället för "El búfalo".

Dessa "garden path" meningar, sådana som börjar på ett sätt där lyssnarens initiala tolkning sannolikt är felaktig, finns på många språk.

För vissa användningsområden kan du vara villig att acceptera att du måste backa efter att ha börjat dubba för snabbt. För andra kan du välja att lägga till latens för mer noggrannhet. Eftersom viss latens är inneboende i alla dubbningsfall, definierar vi "real-time" dubbning som en tjänst genom vilken du kontinuerligt kan strömma ljud och få tillbaka översatt innehåll.

Translation Pipeline

Bästa användningsområden för Real-time Dubbing

De bästa kommersiella tillämpningarna av real-time dubbning är de där

  • Det finns en global publik
  • Det är liveinnehåll
  • Det är acceptabelt med viss fördröjning i sändningen

Sport

Forbes rapporterade 2019 att NBA tjänar 500 miljoner dollar på internationella tv-rättigheter. NFL arrangerar nu matcher i Brasilien, England, Tyskland och Mexiko eftersom de ser internationell expansion som en central intäktsdrivare i framtiden.

Och medan de flesta sportevenemang är avsedda att konsumeras live, är folk redan vana vid viss latens, vare sig de vet det eller inte. Tiden det tar för bilder som fångas på arenan att nå din skärm hemma kan variera från 5 sekunder till ett par minuter.

Vanligtvis finns det flera kamera- och ljudoperatörer på plats som strömmar sitt material till en produktionsanläggning. Produktionsanläggningen växlar mellan kameraflöden, mixar ljudet, lägger på grafik och lägger till kommentarer. De kan också medvetet lägga till en extra fördröjning för att lyssna efter och censurera svordomar eller annat oväntat innehåll.

Huvudproduktionsflödet skickas till sändningsnätverket som lägger till sin egen branding och reklam och distribuerar innehållet till sina lokala nätverk. Slutligen delar sista milens leverantörer innehållet med konsumenter via kablar, satellitflöden och streamingtjänster.

Broadcast latency

Många producenter rapporterar att det skulle vara acceptabelt att lägga till upp till 20 sekunders extra latens för dubbning. Den extra latensen kompenseras mer än väl av det faktum att tittarna kan lyssna på sitt modersmål.

Sportföretag bryr sig mest om att leverera en kvalitetsprodukt och de tror att nyckeln till en kvalitetsprodukt är att effektivt fånga känslan och tajmingen hos sändarna. "Han skjuter, han gör mål!" måste levereras med entusiasm.

Våra voice cloning-modeller som ligger till grund för vår dubbningstjänst kan fånga den ursprungliga talarens känsla och leverans. Till skillnad från översättning leder mer kontext inte alltid till ett bättre resultat. Men vi är ännu inte på den känslomässiga nivån av en spansk fotbollskommentator!

Varje röstklon är ett genomsnitt av sina ingångar. Om du kombinerar en rad som levereras platt som "De behöver vara mer aggressiva med bara två minuter kvar." med "Han skjuter, han gör mål!", kommer den resulterande klonen att vara det genomsnittliga utförandet av de två.

Dubbing Studio Soccer Announcer

Idag kan vi övervinna detta genom att ha kortare kontextlängder för voice cloning än för transkriptöversättning. I framtiden förväntar vi oss att hitta ytterligare vinster genom att tillhandahålla ytterligare kontext (som bild och video) till vår dubbningsmodell eller skapa ett "emotionellt transkript" av den ursprungliga talaren och använda det för att styra leveransen av det dubbade ljudet.

Nyhetssändningar

Precis som "live" sport går nyhetssändningar genom en produktionspipeline som lägger till fördröjningar. Från våra samtal med medieföretag är det mindre kritiskt att fånga känslan (även om det är viktigt) och ofta lättare eftersom de flesta nyhetsankare har en mycket konsekvent leverans. Det är dock avgörande att översättningen är både korrekt och nyanserad.

Utöver risken för att det sker ett fel i den automatiserade översättningstjänsten, har vissa koncept ingen direkt översättning. Tänk på följande:

"Samhället samlades för en dag av minnesstund, där överlevande delade sina berättelser och äldre utförde traditionella böner för helande."

Spanska: "La comunidad se reunió para un día conmemorativo, donde los sobrevivientes compartieron sus historias y los ancianos realizaron oraciones tradicionales para la sanación."

Även om det tekniskt sett är korrekt, bär "överlevande" vs "sobrevivientes" olika vikt i sammanhang av historiskt trauma - på engelska innebär det ofta motståndskraft och värdighet, medan "sobrevivientes" kan betona offerrollen. På samma sätt skiljer sig "utförde böner" vs "realizaron oraciones" i vördnad - "utförde" erkänner ceremoniell betydelse medan "realizaron" kan låta mer procedurmässigt.

Bonus - Vägen till konversationell dubbning

För att möjliggöra naturlig, personlig konversation mellan människor som inte talar samma språk, behöver du nästan omedelbar översättning.

Genom att använda nästa token-prediktionssannolikheter hos LLMs har du en realtidsmodell av sannolikheten för vart en mening är på väg.

LLM Probabilities - Hugging Face

Bildkälla - Hugging Face "How to generate text"

Om vi finjusterar denna nästa token-prediktionsmodell på en individuell talare, kommer vi att ha en rimlig förståelse för vart de är på väg härnäst. Med denna information kan vi "fuska" genom att förutse översättningen och talgenereringen när vi har hög säkerhet om vart talaren är på väg härnäst.

Tycker du detta är intressant och vill arbeta med oss på framtiden för AI-ljud? Utforska öppna roller här.

Utforska mer

ElevenLabs

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in