
Die erste KI, die lachen kann
Unser Modell erzeugt Emotionen wie kein anderes
Einführung von Eleven v3 Alpha
v3 ausprobierenBeste Anwendungsfälle und praktische Herausforderungen bei der Einführung
Für manche erinnert Echtzeit-Synchronisation an den Babelfisch aus Per Anhalter durch die Galaxis.
Der Babelfisch „ernährt sich von Gehirnwellenenergie, absorbiert unbewusste Frequenzen und scheidet eine Matrix bewusster Frequenzen zu den Sprachzentren des Gehirns aus.“ In der Praxis bedeutet dies, dass Sie, wenn Sie einen in Ihr Ohr stecken, jede Sprache, die jemand zu Ihnen spricht, sofort in Ihrer Muttersprache hören (und die Originalaudio nicht hören).
Bis wir Gehirnwellen lesen können, müssen wir den Worten des Sprechers zuhören und sie in unsere Zielsprache übersetzen. Der Versuch, jedes Wort zu übersetzen, sobald es den Mund des Sprechers verlässt, stellt echte Herausforderungen dar.
Stellen Sie sich ein Szenario vor, in dem Sie von Englisch nach Spanisch übersetzen möchten. Der Sprecher beginnt mit „The“. Auf Spanisch wird „The“ mit „El“ für maskuline Wörter und „La“ für feminine Wörter übersetzt. Wir können „The“ also nicht mit Sicherheit übersetzen, bis wir mehr hören.
Stellen Sie sich vor, der Sprecher fährt fort mit „The running water“. Jetzt haben wir genug Informationen, um die ersten drei Wörter mit „El agua corriente“ zu übersetzen. Angenommen, der Satz geht weiter mit „The running water is too cold for swimming“, sind wir gut aufgestellt.
Aber wenn der Sprecher fortfährt mit „The running water buffalo…“, müssen wir zurückgehen.
Um den Punkt zu verdeutlichen, wenn der Sprecher fortfährt mit „The running water buffalo protected her calf“, hätten wir den Satz mit „La búfala“ statt „El búfalo“ beginnen sollen.
Diese „Gartenpfad-Sätze, die so beginnen, dass die anfängliche Interpretation des Zuhörers wahrscheinlich falsch ist, gibt es in vielen Sprachen.
Für einige Anwendungsfälle sind Sie möglicherweise bereit, zu akzeptieren, dass Sie zurückgehen müssen, nachdem Sie zu schnell mit dem Synchronisieren begonnen haben. Für andere können Sie sich entscheiden, eine Verzögerung für mehr Genauigkeit hinzuzufügen. Da eine gewisse Verzögerung bei allen Synchronisationsanwendungen inhärent ist, definieren wir „Echtzeit“-Synchronisation als einen Dienst, durch den Sie kontinuierlich Audio streamen und übersetzte Inhalte zurückerhalten können.
Die besten kommerziellen Anwendungen der Echtzeit-Synchronisation sind diejenigen, bei denen
Forbes berichtete 2019, dass die NBA 500 Millionen Dollar mit internationalen TV-Rechten verdient. Die NFL veranstaltet jetzt Spiele inBrasilien, England, Deutschland und Mexiko, da sie die internationale Expansion als zentralen Umsatztreiber der Zukunft sieht.
Und obwohl die meisten Sportveranstaltungen live konsumiert werden sollen, sind die Menschen bereits an eine gewisse Verzögerung gewöhnt, ob sie es wissen oder nicht. Die Zeit, die es dauert, bis das im Stadion aufgenommene Filmmaterial auf Ihrem Bildschirm zu Hause erscheint, kann zwischen 5 Sekunden und ein paar Minuten liegen.
Typischerweise gibt es vor Ort mehrere Kamera- und Tonoperatoren, die ihr Filmmaterial an eine Produktionsstätte streamen. Die Produktionsstätte wechselt zwischen Kamerafeeds, mischt das Audio, überlagert Grafiken und fügt Kommentare hinzu. Sie können auch absichtlich eine zusätzliche Verzögerung hinzufügen, um Flüche oder andere unerwartete Inhalte herauszuhören und zu überpiepen.
Der Hauptproduktionsfeed wird an das Rundfunknetz gesendet, das sein eigenes Branding und Werbung hinzufügt und die Inhalte an seine lokalen Netzwerke verteilt. Schließlich teilen die letzten Meilenanbieter die Inhalte über Kabel, Satellitenfeeds und Streaming-Dienste mit den Verbrauchern.
Viele Produzenten berichten, dass es akzeptabel wäre, bis zu 20 Sekunden zusätzliche Verzögerung für die Synchronisation hinzuzufügen. Die zusätzliche Verzögerung wird mehr als ausgeglichen durch die Tatsache, dass die Zuschauer in ihrer Muttersprache zuhören können.
Sportunternehmen legen größten Wert darauf, ein qualitativ hochwertiges Produkt bereitzustellen, und sie glauben, dass der Schlüssel zu einem qualitativ hochwertigen Produkt darin besteht, die Emotion und das Timing der Kommentatoren effektiv einzufangen. „Er schießt, er trifft!“ muss mit Begeisterung geliefert werden.
Unsere Sprachklonmodelle, die unseren Synchronisationsdienst untermauern, sind in der Lage, die Emotion und Darbietung des ursprünglichen Sprechers einzufangen. Anders als bei der Übersetzung führt mehr Kontext nicht immer zu einem besseren Ergebnis. Allerdings sind wir noch nicht auf dem emotionalen Niveau eines spanischen Fußballkommentators!
Jeder Sprachklon ist ein Durchschnitt seiner Eingaben. Wenn Sie eine Zeile kombinieren, die flach geliefert wird, wie „Sie müssen aggressiver sein, da nur noch zwei Minuten verbleiben.“ mit „Er schießt, er trifft!“, wird der resultierende Klon die durchschnittliche Darbietung der beiden sein.
Heute können wir dies überwinden, indem wir kürzere Kontextlängen für das Sprachklonen als für die Transkriptübersetzung haben. In Zukunft erwarten wir zusätzliche Fortschritte, indem wir unserem Synchronisationsmodell zusätzlichen Kontext (wie Bilder und Videos) bereitstellen oder ein „emotionales Transkript“ des ursprünglichen Sprechers erstellen und dieses verwenden, um die Darbietung des synchronisierten Audios zu steuern.
Wie „Live“-Sport durchläuft auch die Nachrichtenübertragung eine Produktionspipeline, die Verzögerungen hinzufügt. Aus unseren Gesprächen mit Medienunternehmen geht hervor, dass das Treffen der Emotion (obwohl wichtig) weniger kritisch und oft einfacher ist, da die meisten Nachrichtensprecher eine sehr konsistente Darbietung haben. Es ist jedoch von größter Bedeutung, dass die Übersetzung sowohl genau als auch nuanciert ist.
Zusätzlich zur Möglichkeit, dass der automatisierte Übersetzungsdienst fehlschlägt, haben einige Konzepte keine direkte Übersetzung. Betrachten Sie Folgendes:
"Die Gemeinschaft versammelte sich für einen Gedenktag, an dem Überlebende ihre Geschichten teilten und Älteste traditionelle Gebete für Heilung durchführten."
Spanisch: "La comunidad se reunió para un día conmemorativo, donde los sobrevivientes compartieron sus historias y los ancianos realizaron oraciones tradicionales para la sanación."
Obwohl technisch korrekt, trägt „Überlebende“ vs. „sobrevivientes“ in Kontexten historischer Traumata ein unterschiedliches Gewicht – im Englischen impliziert es oft Widerstandsfähigkeit und Würde, während „sobrevivientes“ Opferrolle betonen kann. Ebenso unterscheidet sich „Gebete durchgeführt“ vs. „realizaron oraciones“ in der Ehrfurcht – „durchgeführt“ erkennt die zeremonielle Bedeutung an, während „realizaron“ mehr prozedural klingen kann.
Um eine natürliche, persönliche Konversation zwischen Menschen zu ermöglichen, die nicht dieselbe Sprache sprechen, benötigen Sie eine nahezu sofortige Übersetzung.
Durch die Verwendung der nächsten Token-Vorhersagewahrscheinlichkeiten von LLMs haben Sie ein Echtzeitmodell der Wahrscheinlichkeit, wohin ein Satz geht.
Bildquelle - Hugging Face "How to generate text"
Wenn wir dieses nächste Token-Vorhersagemodell auf einen einzelnen Sprecher feinabstimmen, werden wir ein vernünftiges Verständnis dafür haben, wohin er als nächstes geht. Mit diesen Informationen können wir „schummeln“, indem wir die Übersetzung und Spracherzeugung vorantreiben, wenn wir eine hohe Sicherheit darüber haben, wohin der Sprecher als nächstes geht.
Finden Sie das interessant und möchten mit uns an der Zukunft der KI-Audio arbeiten? Entdecken Sie offene Stellen hier.
Unser Modell erzeugt Emotionen wie kein anderes
Wir setzen unser eigenes generatives Modell ein, mit dem Benutzer völlig neue synthetische Stimmen entwerfen können