Presentamos Eleven v3 Alpha

Prueba v3

El Camino hacia el Doblaje en Tiempo Real

Mejores casos de uso y desafíos prácticos para su adopción

Real-time Dubbing

Para algunos, el Doblaje en Tiempo Real evoca la imagen del pez Babel de Guía del autoestopista galáctico.

El pez Babel “se alimenta de la energía de las ondas cerebrales, absorbiendo frecuencias inconscientes y excretando una matriz de frecuencias conscientes hacia los centros del habla del cerebro.” En la práctica, esto significa que cuando te lo pones en el oído, cualquier persona que te hable en cualquier idioma, la escucharás instantáneamente como si hablara en tu idioma nativo (y no escuchas el audio original en absoluto).

Hasta que podamos leer las ondas cerebrales, necesitamos escuchar las palabras del hablante y traducirlas a nuestro idioma objetivo. Intentar traducir cada palabra, a medida que salen de la boca del hablante, plantea desafíos reales.

Imagina un escenario donde quieres traducir del inglés al español. El hablante comienza con “The”. En español, “The” se traduce como “El” para palabras masculinas y “La” para palabras femeninas. Así que no podemos traducir “The” con certeza hasta escuchar más.

Realtime Dubbing Diagram 1

Imagina que el hablante continúa “The running water”. Ahora tenemos suficiente información para traducir las primeras tres palabras a “El agua corriente”. Suponiendo que la frase continúa “The running water is too cold for swimming” estamos en buena forma.

Real-time dubbing diagram 2

Pero si el hablante continúa “The running water buffalo…” necesitamos retroceder.

Real-time dubbing diagram 3

Para enfatizar el punto, si el hablante continúa “The running water buffalo protected her calf”, deberíamos haber comenzado la frase con “La búfala” en lugar de “El búfalo”.

Estas frases de “camino engañoso”, aquellas que comienzan de una manera donde la interpretación inicial del oyente probablemente es incorrecta, están presentes en muchos idiomas.

Para algunos casos de uso, puedes estar dispuesto a aceptar que tendrás que retroceder después de comenzar a doblar demasiado rápido. Para otros, puedes optar por añadir latencia para mayor precisión. Dado que cierta latencia es inherente a todos los casos de uso de doblaje, definimos el doblaje “en tiempo real” como un servicio a través del cual puedes transmitir audio continuamente y obtener contenido traducido de vuelta.

Translation Pipeline

Mejores casos de uso para el Doblaje en Tiempo Real

Las mejores aplicaciones comerciales del doblaje en tiempo real son aquellas donde

  • Hay una audiencia global
  • Es contenido en vivo
  • Es aceptable tener algo de retraso en la transmisión

Deportes

Forbes informó en 2019 que la NBA está ganando $500 millones en derechos de televisión internacionales. La NFL ahora está organizando partidos en Brasil, Inglaterra, Alemania y México ya que ve la expansión internacional como un motor clave de ingresos en el futuro.

Y aunque la mayoría de los eventos deportivos están destinados a ser consumidos en vivo, la gente ya está acostumbrada a cierta latencia, lo sepan o no. El tiempo que tarda el metraje capturado en el estadio en llegar a tu pantalla en casa puede variar desde 5 segundos hasta un par de minutos.

Normalmente hay múltiples operadores de cámara y sonido en el lugar que transmiten su metraje a una instalación de producción. La instalación de producción cambia entre las transmisiones de cámara, mezcla el audio, superpone gráficos y añade comentarios. También pueden añadir intencionalmente un retraso adicional para escuchar y censurar palabrotas u otro contenido inesperado.

La transmisión principal de producción se envía a la red de transmisión que añade su propia marca y comerciales y distribuye el contenido a sus redes locales. Finalmente, los proveedores de última milla comparten el contenido con los consumidores a través de cables, transmisiones satelitales y servicios de streaming.

Broadcast latency

Muchos productores informan que sería aceptable añadir hasta 20 segundos de latencia adicional para el doblaje. La latencia adicional se compensa más que suficiente por el hecho de que los espectadores pueden escuchar en su idioma nativo.

A las empresas deportivas les importa más ofrecer un producto de calidad y creen que la clave para un producto de calidad es capturar eficazmente la emoción y el tiempo de los locutores. “¡Dispara, anota!” necesita ser entregado con entusiasmo.

Nuestros modelos de clonación de voz que sustentan nuestro servicio de doblaje son capaces de capturar la emoción y entonación del hablante original. A diferencia de la traducción, más contexto no siempre conduce a un mejor resultado. Sin embargo, ¡aún no estamos al nivel emocional de un comentarista de fútbol español!

Cada clon de voz es un promedio de sus entradas. Si combinas una línea que se entrega de manera plana como “Necesitan ser más agresivos con solo dos minutos restantes.” con “¡Dispara, anota!”, el clon resultante será la entonación promedio de las dos.

Dubbing Studio Soccer Announcer

Hoy en día, podemos superar esto teniendo longitudes de contexto más cortas para la clonación de voz que para la traducción de transcripciones. En el futuro, esperamos encontrar ganancias adicionales proporcionando contexto adicional (como imagen y video) a nuestro modelo de doblaje o creando una “transcripción emocional” del hablante original y usando eso para dirigir la entonación del audio doblado.

Transmisión de Noticias

Al igual que los Deportes “en vivo”, la Transmisión de Noticias pasa por una cadena de producción que añade retrasos. De nuestras conversaciones con empresas de medios, clavar la emoción (aunque importante) es menos crítico y a menudo más fácil porque la mayoría de los presentadores de noticias tienen una entonación muy consistente. Sin embargo, es fundamental que la traducción sea tanto precisa como matizada.

Además de la posibilidad de que haya un fallo en el servicio de traducción automática, algunos conceptos no tienen traducción directa. Considera lo siguiente:

"La comunidad se reunió para un día de recuerdo, donde los sobrevivientes compartieron sus historias y los ancianos realizaron oraciones tradicionales para la sanación."

Español: "La comunidad se reunió para un día conmemorativo, donde los sobrevivientes compartieron sus historias y los ancianos realizaron oraciones tradicionales para la sanación."

Aunque técnicamente precisa, "survivors" vs "sobrevivientes" lleva un peso diferente en contextos de trauma histórico - en inglés a menudo implica resiliencia y dignidad, mientras que "sobrevivientes" puede enfatizar la victimización. De manera similar, "performed prayers" vs "realizaron oraciones" difiere en reverencia - "performed" reconoce la importancia ceremonial mientras que "realizaron" puede sonar más procedimental.

Bonus - El Camino hacia el Doblaje Conversacional

Para permitir una conversación natural en persona entre personas que no hablan el mismo idioma, necesitas una traducción casi instantánea.

Usando las probabilidades de predicción del siguiente token de los LLMs, tienes un modelo en tiempo real de la probabilidad de hacia dónde va una frase.

LLM Probabilities - Hugging Face

Fuente de la imagen - Hugging Face "Cómo generar texto"

Si afinamos este modelo de predicción del siguiente token en un hablante individual, tendremos una comprensión razonable de hacia dónde se dirigen. Usando esta información, podemos “hacer trampa” adelantando la traducción y generación de voz cuando tenemos una alta certeza sobre hacia dónde se dirige el hablante.

¿Te parece interesante y quieres trabajar con nosotros en el futuro del Audio con IA? Explora puestos abiertos aquí.

Descubre artículos del equipo de ElevenLabs

ElevenLabs

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión