El Camino hacia el Doblaje en Tiempo Real

Mejores casos de uso y desafíos prácticos para su adopción

Real-time Dubbing

Para algunos, el Doblaje en Tiempo Real evoca la imagen del pez Babel de Guía del autoestopista galáctico.

Hasta que podamos leer ondas cerebrales, necesitamos escuchar las palabras del hablante y traducirlas a nuestro idioma objetivo. Intentar traducir palabra por palabra, según salen de la boca del hablante, presenta retos reales.

Imagina que quieres traducir del inglés al español. El hablante empieza con “The”. En español, “The” se traduce como “El” para palabras masculinas y “La” para palabras femeninas. Así que no podemos traducir “The” con certeza hasta escuchar más.

Imagina un escenario donde quieres traducir del inglés al español. El hablante comienza con “The”. En español, “The” se traduce como “El” para palabras masculinas y “La” para palabras femeninas. Así que no podemos traducir “The” con certeza hasta escuchar más.

Realtime Dubbing Diagram 1

Imagina que el hablante continúa “The running water”. Ahora tenemos suficiente información para traducir las primeras tres palabras a “El agua corriente”. Suponiendo que la frase continúa “The running water is too cold for swimming” estamos en buena forma.

Real-time dubbing diagram 2

Pero si el hablante continúa “The running water buffalo…” necesitamos retroceder.

Real-time dubbing diagram 3

Estas frases llamadas “

En algunos casos de uso, puede que aceptes tener que retroceder si empiezas a doblar demasiado rápido. En otros, puedes elegir añadir algo de latencia para ganar precisión. Como toda situación de doblaje tiene algo de latencia, definimos el “doblaje en tiempo real” como un servicio que te permite transmitir audio de forma continua y recibir el contenido traducido al momento.camino engañoso”, aquellas que comienzan de una manera donde la interpretación inicial del oyente probablemente es incorrecta, están presentes en muchos idiomas.

Para algunos casos de uso, puedes estar dispuesto a aceptar que tendrás que retroceder después de comenzar a doblar demasiado rápido. Para otros, puedes optar por añadir latencia para mayor precisión. Dado que cierta latencia es inherente a todos los casos de uso de doblaje, definimos el doblaje “en tiempo real” como un servicio a través del cual puedes transmitir audio continuamente y obtener contenido traducido de vuelta.

Translation Pipeline

Las mejores aplicaciones comerciales del doblaje en tiempo real son aquellas donde

Las mejores aplicaciones comerciales del doblaje en tiempo real son aquellas donde

  • Hay una audiencia global
  • Es contenido en vivo
  • Es aceptable tener algo de retraso en la transmisión

Deportes

Forbes informó en 2019 que la NBA está ganando $500 millones en derechos de televisión internacionales. La NFL ahora está organizando partidos en Brasil, Inglaterra, Alemania y México ya que ve la expansión internacional como un motor clave de ingresos en el futuro.

Normalmente hay varios operadores de cámara y sonido en el lugar que envían sus señales a una sala de producción. Allí, el equipo de producción cambia entre cámaras, mezcla el audio, añade gráficos y comentarios. A veces también añaden un retraso extra para poder censurar palabrotas o contenido inesperado.

La señal principal de producción se envía a la cadena de emisión, que añade su propia marca y anuncios, y distribuye el contenido a sus redes locales. Por último, los proveedores finales comparten el contenido con los espectadores a través de cable, satélite o servicios de streaming.

La transmisión principal de producción se envía a la red de transmisión que añade su propia marca y comerciales y distribuye el contenido a sus redes locales. Finalmente, los proveedores de última milla comparten el contenido con los consumidores a través de cables, transmisiones satelitales y servicios de streaming.

Broadcast latency

A las empresas deportivas les importa sobre todo ofrecer un producto de calidad, y creen que la clave está en captar bien la emoción y el ritmo de los locutores. “¡Tira, y marca!” tiene que sonar con entusiasmo.

Nuestros modelos de clonar voz IA, que son la base de nuestro servicio de doblaje, pueden captar la emoción y la entonación del hablante original. A diferencia de la traducción, tener más contexto no siempre mejora el resultado. Eso sí, ¡todavía no llegamos al nivel emocional de un comentarista de fútbol español!

Cada clon de voz es un promedio de sus entradas. Si mezclas una frase plana como “Tienen que ser más agresivos, solo quedan dos minutos” con “¡Tira, y marca!”, el clon resultante tendrá una entonación media entre ambas.

Cada clon de voz es un promedio de sus entradas. Si combinas una línea que se entrega de manera plana como “Necesitan ser más agresivos con solo dos minutos restantes.” con “¡Dispara, anota!”, el clon resultante será la entonación promedio de las dos.

Dubbing Studio Soccer Announcer

Informativos

Al igual que los deportes en directo, los informativos pasan por una cadena de producción que añade retrasos. Por lo que hemos hablado con medios, captar la emoción (aunque importante) es menos crítico y suele ser más fácil porque los presentadores suelen tener una entonación muy constante. Eso sí, la traducción debe ser precisa y matizada.

Además de la posibilidad de que falle el servicio de traducción automática, hay conceptos que no tienen traducción directa. Por ejemplo:

"La comunidad se reunió para un día de conmemoración, donde los sobrevivientes compartieron sus historias y los ancianos realizaron oraciones tradicionales para la sanación."

Español: "La comunidad se reunió para un día conmemorativo, donde los sobrevivientes compartieron sus historias y los ancianos realizaron oraciones tradicionales para la sanación."

Aunque es técnicamente correcto, “survivors” y “sobrevivientes” tienen matices distintos en contextos de trauma histórico: en inglés suele implicar resiliencia y dignidad, mientras que “sobrevivientes” puede resaltar la condición de víctima. De forma similar, “performed prayers” y “realizaron oraciones” transmiten diferente reverencia: “performed” reconoce el valor ceremonial, mientras que “realizaron” puede sonar más rutinario.

Bonus - El camino hacia el doblaje conversacional

Para que dos personas que no hablan el mismo idioma puedan conversar de forma natural y presencial, necesitas una traducción casi instantánea.

Si usas las probabilidades de predicción del siguiente token de los LLMs, tienes un modelo en tiempo real de hacia dónde va una frase.

Usando las probabilidades de predicción del siguiente token de los LLMs, tienes un modelo en tiempo real de la probabilidad de hacia dónde va una frase.

LLM Probabilities - Hugging Face

Fuente de la imagen - Hugging Face "Cómo generar texto"

¿Te parece interesante y quieres trabajar con nosotros en el futuro del audio creado con IA? Descubre

¿Te parece interesante y quieres trabajar con nosotros en el futuro del Audio con IA? Explora puestos abiertos aquí.

Descubre artículos del equipo de ElevenLabs

Investigación
Abstract colorful swirl with dropdown menus for gender, age, and accent, and a style, clarity, and stability slider.

Esta Voz No Existe - Voz IA Generativa

Estamos desplegando nuestro propio modelo generativo que permite a los usuarios diseñar voces sintéticas completamente nuevas

ElevenLabs

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión