Présentation de Eleven v3 Alpha

Essayez v3

Le chemin vers le doublage en temps réel

Meilleurs cas d'utilisation et défis pratiques pour l'adoption

Real-time Dubbing

Pour certains, le doublage en temps réel évoque l'image du Babelfish du Guide du voyageur galactique.

Le Babelfish « se nourrit de l'énergie des ondes cérébrales, absorbe les fréquences inconscientes et excrète une matrice de fréquences conscientes vers les centres de la parole du cerveau. » En pratique, cela signifie que lorsque vous en mettez un dans votre oreille, chaque fois que quelqu'un vous parle dans n'importe quelle langue, vous l'entendez instantanément comme s'il parlait dans votre langue maternelle (et vous n'entendez pas du tout l'audio source).

Jusqu'à ce que nous puissions lire les ondes cérébrales, nous devons écouter les mots du locuteur et les traduire dans notre langue cible. Tenter de traduire chaque mot, au fur et à mesure qu'il sort de la bouche du locuteur, pose de réels défis.

Imaginez un scénario où vous souhaitez traduire de l'anglais vers l'espagnol. Le locuteur commence par « The ». En espagnol, « The » se traduit par « El » pour les mots masculins et « La » pour les mots féminins. Nous ne pouvons donc pas traduire « The » avec certitude tant que nous n'avons pas entendu plus.

Realtime Dubbing Diagram 1

Imaginez que le locuteur continue par « The running water ». Nous avons maintenant suffisamment d'informations pour traduire les trois premiers mots par « El agua corriente ». En supposant que la phrase continue par « The running water is too cold for swimming », nous sommes en bonne voie.

Real-time dubbing diagram 2

Mais si le locuteur continue par « The running water buffalo… », nous devons revenir en arrière.

Real-time dubbing diagram 3

Pour insister sur le point, si le locuteur continue par « The running water buffalo protected her calf », nous aurions dû commencer la phrase par « La búfala » au lieu de « El búfalo ».

Ces phrases «trompeuses», qui commencent de manière à ce que l'interprétation initiale de l'auditeur soit probablement incorrecte, existent dans de nombreuses langues.

Pour certains cas d'utilisation, vous pouvez accepter de devoir revenir en arrière après avoir commencé à doubler trop rapidement. Pour d'autres, vous pouvez choisir d'ajouter une latence pour plus de précision. Étant donné qu'une certaine latence est inhérente à tous les cas d'utilisation de doublage, nous définissons le doublage « en temps réel » comme un service à travers lequel vous pouvez diffuser en continu de l'audio et obtenir du contenu traduit en retour.

Translation Pipeline

Meilleurs cas d'utilisation pour le doublage en temps réel

Les meilleures applications commerciales du doublage en temps réel sont celles où

  • Il y a un public mondial
  • C'est du contenu en direct
  • Il est acceptable d'avoir un certain retard dans la diffusion

Sports

Forbes a rapporté en 2019 que la NBA gagne 500 millions de dollars en droits télévisés internationaux. La NFL organise maintenant des matchs au Brésil, en Angleterre, en Allemagne et au Mexique, car elle considère l'expansion internationale comme un moteur de revenus essentiel pour l'avenir.

Et bien que la plupart des événements sportifs soient destinés à être consommés en direct, les gens sont déjà habitués à une certaine latence, qu'ils le sachent ou non. Le temps que met la séquence capturée dans le stade pour atteindre votre écran à la maison peut varier de 5 secondes à quelques minutes.

En général, il y a plusieurs opérateurs de caméra et de son sur place qui diffusent leurs séquences à une installation de production. L'installation de production passe d'un flux de caméra à l'autre, mixe l'audio, superpose des graphiques et ajoute des commentaires. Ils peuvent également ajouter intentionnellement un délai supplémentaire pour écouter et biper les gros mots ou d'autres contenus inattendus.

Le flux de production principal est envoyé au réseau de diffusion qui ajoute sa propre marque et ses publicités et distribue le contenu à ses réseaux locaux. Enfin, les fournisseurs de dernière étape partagent le contenu avec les consommateurs via des câbles, des flux satellites et des services de streaming.

Broadcast latency

De nombreux producteurs rapportent qu'il serait acceptable d'ajouter jusqu'à 20 secondes de latence supplémentaire pour le doublage. La latence supplémentaire est plus que compensée par le fait que les téléspectateurs peuvent écouter dans leur langue maternelle.

Les entreprises sportives se soucient avant tout de fournir un produit de qualité et elles croient que la clé d'un produit de qualité est de capturer efficacement l'émotion et le timing des diffuseurs. « Il tire, il marque ! » doit être livré avec enthousiasme.

Nos modèles de clonage de voix qui sous-tendent notre service de doublage sont capables de capturer l'émotion et la prestation du locuteur original. Contrairement à la traduction, plus de contexte ne conduit pas toujours à un meilleur résultat. Cependant, nous ne sommes pas encore au niveau émotionnel d'un commentateur de football espagnol !

Chaque clone de voix est une moyenne de ses entrées. Si vous combinez une ligne livrée de manière plate comme « Ils vont devoir être plus agressifs avec seulement deux minutes restantes. » avec « Il tire, il marque ! », le clone résultant sera la moyenne des deux prestations.

Dubbing Studio Soccer Announcer

Aujourd'hui, nous pouvons surmonter cela en ayant des longueurs de contexte plus courtes pour le clonage de voix que pour la traduction de transcription. À l'avenir, nous espérons trouver des gains supplémentaires en fournissant un contexte supplémentaire (comme des images et des vidéos) à notre modèle de doublage ou en créant une « transcription émotionnelle » du locuteur original et en l'utilisant pour diriger la prestation de l'audio doublé.

Diffusion d'actualités

Comme les sports « en direct », la diffusion d'actualités passe par un pipeline de production qui ajoute des délais. D'après nos conversations avec les entreprises de médias, capturer l'émotion (bien qu'important) est moins critique et souvent plus facile car la plupart des présentateurs ont une prestation très cohérente. Il est cependant primordial que la traduction soit à la fois précise et nuancée.

En plus du risque d'une défaillance du service de traduction automatique, certains concepts n'ont pas de traduction directe. Considérez ce qui suit :

"La communauté s'est réunie pour une journée de commémoration, où les survivants ont partagé leurs histoires et les aînés ont effectué des prières traditionnelles pour la guérison."

Espagnol : "La comunidad se reunió para un día conmemorativo, donde los sobrevivientes compartieron sus historias y los ancianos realizaron oraciones tradicionales para la sanación."

Bien que techniquement exact, « survivors » vs « sobrevivientes » a un poids différent dans les contextes de traumatisme historique - en anglais, cela implique souvent la résilience et la dignité, tandis que « sobrevivientes » peut mettre l'accent sur la victimisation. De même, « performed prayers » vs « realizaron oraciones » diffère en révérence - « performed » reconnaît la signification cérémoniale tandis que « realizaron » peut sembler plus procédural.

Bonus - La route vers le doublage conversationnel

Pour permettre une conversation naturelle en personne entre des personnes qui ne parlent pas la même langue, vous avez besoin d'une traduction quasi instantanée.

En utilisant les probabilités de prédiction du prochain token des LLM, vous avez un modèle en temps réel de la probabilité de la direction d'une phrase.

LLM Probabilities - Hugging Face

Source de l'image - Hugging Face « Comment générer du texte »

Si nous ajustons ce modèle de prédiction du prochain token sur un locuteur individuel, nous aurons une compréhension raisonnable de la direction qu'il prend. En utilisant cette information, nous pouvons « tricher » en anticipant la traduction et la génération de la parole lorsque nous avons une grande certitude sur la direction que prend le locuteur.

Vous trouvez cela intéressant et souhaitez travailler avec nous sur l'avenir de l'audio IA ? Découvrez les postes ouverts ici.

En voir plus

ElevenLabs

Créez avec l'audio AI de la plus haute qualité.

Se lancer gratuitement

Vous avez déjà un compte ? Se connecter