Einführung von Eleven v3 Alpha

v3 ausprobieren

Der Weg zur Echtzeit-Synchronisation

Beste Anwendungsfälle und praktische Herausforderungen bei der Einführung

Real-time Dubbing

Für manche erinnert Echtzeit-Synchronisation an den Babelfisch aus Per Anhalter durch die Galaxis.

Der Babelfisch „ernährt sich von Gehirnwellenenergie, absorbiert unbewusste Frequenzen und scheidet eine Matrix bewusster Frequenzen zu den Sprachzentren des Gehirns aus.“ In der Praxis bedeutet dies, dass Sie, wenn Sie einen in Ihr Ohr stecken, jede Sprache, die jemand zu Ihnen spricht, sofort in Ihrer Muttersprache hören (und die Originalaudio nicht hören).

Bis wir Gehirnwellen lesen können, müssen wir den Worten des Sprechers zuhören und sie in unsere Zielsprache übersetzen. Der Versuch, jedes Wort zu übersetzen, sobald es den Mund des Sprechers verlässt, stellt echte Herausforderungen dar.

Stellen Sie sich ein Szenario vor, in dem Sie von Englisch nach Spanisch übersetzen möchten. Der Sprecher beginnt mit „The“. Auf Spanisch wird „The“ mit „El“ für maskuline Wörter und „La“ für feminine Wörter übersetzt. Wir können „The“ also nicht mit Sicherheit übersetzen, bis wir mehr hören.

Realtime Dubbing Diagram 1

Stellen Sie sich vor, der Sprecher fährt fort mit „The running water“. Jetzt haben wir genug Informationen, um die ersten drei Wörter mit „El agua corriente“ zu übersetzen. Angenommen, der Satz geht weiter mit „The running water is too cold for swimming“, sind wir gut aufgestellt.

Real-time dubbing diagram 2

Aber wenn der Sprecher fortfährt mit „The running water buffalo…“, müssen wir zurückgehen.

Real-time dubbing diagram 3

Um den Punkt zu verdeutlichen, wenn der Sprecher fortfährt mit „The running water buffalo protected her calf“, hätten wir den Satz mit „La búfala“ statt „El búfalo“ beginnen sollen.

Diese „Gartenpfad-Sätze, die so beginnen, dass die anfängliche Interpretation des Zuhörers wahrscheinlich falsch ist, gibt es in vielen Sprachen.

Für einige Anwendungsfälle sind Sie möglicherweise bereit, zu akzeptieren, dass Sie zurückgehen müssen, nachdem Sie zu schnell mit dem Synchronisieren begonnen haben. Für andere können Sie sich entscheiden, eine Verzögerung für mehr Genauigkeit hinzuzufügen. Da eine gewisse Verzögerung bei allen Synchronisationsanwendungen inhärent ist, definieren wir „Echtzeit“-Synchronisation als einen Dienst, durch den Sie kontinuierlich Audio streamen und übersetzte Inhalte zurückerhalten können.

Translation Pipeline

Beste Anwendungsfälle für Echtzeit-Synchronisation

Die besten kommerziellen Anwendungen der Echtzeit-Synchronisation sind diejenigen, bei denen

  • Es ein globales Publikum gibt
  • Es sich um Live-Inhalte handelt
  • Es akzeptabel ist, eine gewisse Verzögerung in der Übertragung zu haben

Sport

Forbes berichtete 2019, dass die NBA 500 Millionen Dollar mit internationalen TV-Rechten verdient. Die NFL veranstaltet jetzt Spiele inBrasilien, England, Deutschland und Mexiko, da sie die internationale Expansion als zentralen Umsatztreiber der Zukunft sieht.

Und obwohl die meisten Sportveranstaltungen live konsumiert werden sollen, sind die Menschen bereits an eine gewisse Verzögerung gewöhnt, ob sie es wissen oder nicht. Die Zeit, die es dauert, bis das im Stadion aufgenommene Filmmaterial auf Ihrem Bildschirm zu Hause erscheint, kann zwischen 5 Sekunden und ein paar Minuten liegen.

Typischerweise gibt es vor Ort mehrere Kamera- und Tonoperatoren, die ihr Filmmaterial an eine Produktionsstätte streamen. Die Produktionsstätte wechselt zwischen Kamerafeeds, mischt das Audio, überlagert Grafiken und fügt Kommentare hinzu. Sie können auch absichtlich eine zusätzliche Verzögerung hinzufügen, um Flüche oder andere unerwartete Inhalte herauszuhören und zu überpiepen.

Der Hauptproduktionsfeed wird an das Rundfunknetz gesendet, das sein eigenes Branding und Werbung hinzufügt und die Inhalte an seine lokalen Netzwerke verteilt. Schließlich teilen die letzten Meilenanbieter die Inhalte über Kabel, Satellitenfeeds und Streaming-Dienste mit den Verbrauchern.

Broadcast latency

Viele Produzenten berichten, dass es akzeptabel wäre, bis zu 20 Sekunden zusätzliche Verzögerung für die Synchronisation hinzuzufügen. Die zusätzliche Verzögerung wird mehr als ausgeglichen durch die Tatsache, dass die Zuschauer in ihrer Muttersprache zuhören können.

Sportunternehmen legen größten Wert darauf, ein qualitativ hochwertiges Produkt bereitzustellen, und sie glauben, dass der Schlüssel zu einem qualitativ hochwertigen Produkt darin besteht, die Emotion und das Timing der Kommentatoren effektiv einzufangen. „Er schießt, er trifft!“ muss mit Begeisterung geliefert werden.

Unsere Sprachklonmodelle, die unseren Synchronisationsdienst untermauern, sind in der Lage, die Emotion und Darbietung des ursprünglichen Sprechers einzufangen. Anders als bei der Übersetzung führt mehr Kontext nicht immer zu einem besseren Ergebnis. Allerdings sind wir noch nicht auf dem emotionalen Niveau eines spanischen Fußballkommentators!

Jeder Sprachklon ist ein Durchschnitt seiner Eingaben. Wenn Sie eine Zeile kombinieren, die flach geliefert wird, wie „Sie müssen aggressiver sein, da nur noch zwei Minuten verbleiben.“ mit „Er schießt, er trifft!“, wird der resultierende Klon die durchschnittliche Darbietung der beiden sein.

Dubbing Studio Soccer Announcer

Heute können wir dies überwinden, indem wir kürzere Kontextlängen für das Sprachklonen als für die Transkriptübersetzung haben. In Zukunft erwarten wir zusätzliche Fortschritte, indem wir unserem Synchronisationsmodell zusätzlichen Kontext (wie Bilder und Videos) bereitstellen oder ein „emotionales Transkript“ des ursprünglichen Sprechers erstellen und dieses verwenden, um die Darbietung des synchronisierten Audios zu steuern.

Nachrichtenübertragung

Wie „Live“-Sport durchläuft auch die Nachrichtenübertragung eine Produktionspipeline, die Verzögerungen hinzufügt. Aus unseren Gesprächen mit Medienunternehmen geht hervor, dass das Treffen der Emotion (obwohl wichtig) weniger kritisch und oft einfacher ist, da die meisten Nachrichtensprecher eine sehr konsistente Darbietung haben. Es ist jedoch von größter Bedeutung, dass die Übersetzung sowohl genau als auch nuanciert ist.

Zusätzlich zur Möglichkeit, dass der automatisierte Übersetzungsdienst fehlschlägt, haben einige Konzepte keine direkte Übersetzung. Betrachten Sie Folgendes:

"Die Gemeinschaft versammelte sich für einen Gedenktag, an dem Überlebende ihre Geschichten teilten und Älteste traditionelle Gebete für Heilung durchführten."

Spanisch: "La comunidad se reunió para un día conmemorativo, donde los sobrevivientes compartieron sus historias y los ancianos realizaron oraciones tradicionales para la sanación."

Obwohl technisch korrekt, trägt „Überlebende“ vs. „sobrevivientes“ in Kontexten historischer Traumata ein unterschiedliches Gewicht – im Englischen impliziert es oft Widerstandsfähigkeit und Würde, während „sobrevivientes“ Opferrolle betonen kann. Ebenso unterscheidet sich „Gebete durchgeführt“ vs. „realizaron oraciones“ in der Ehrfurcht – „durchgeführt“ erkennt die zeremonielle Bedeutung an, während „realizaron“ mehr prozedural klingen kann.

Bonus - Der Weg zur Konversationssynchronisation

Um eine natürliche, persönliche Konversation zwischen Menschen zu ermöglichen, die nicht dieselbe Sprache sprechen, benötigen Sie eine nahezu sofortige Übersetzung.

Durch die Verwendung der nächsten Token-Vorhersagewahrscheinlichkeiten von LLMs haben Sie ein Echtzeitmodell der Wahrscheinlichkeit, wohin ein Satz geht.

LLM Probabilities - Hugging Face

Bildquelle - Hugging Face "How to generate text"

Wenn wir dieses nächste Token-Vorhersagemodell auf einen einzelnen Sprecher feinabstimmen, werden wir ein vernünftiges Verständnis dafür haben, wohin er als nächstes geht. Mit diesen Informationen können wir „schummeln“, indem wir die Übersetzung und Spracherzeugung vorantreiben, wenn wir eine hohe Sicherheit darüber haben, wohin der Sprecher als nächstes geht.

Finden Sie das interessant und möchten mit uns an der Zukunft der KI-Audio arbeiten? Entdecken Sie offene Stellen hier.

Mehr entdecken

ElevenLabs

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden