
A primeira IA que pode rir
Nosso modelo produz emoções como nenhum outro
Para alguns, a Dublagem em Tempo Real evoca a imagem do Peixe Babel do Guia do Mochileiro das Galáxias.
O Peixe Babel “se alimenta de energia de ondas cerebrais, absorvendo frequências inconscientes e excretando uma matriz de frequências conscientes para os centros de fala do cérebro.” Na prática, isso significa que quando você coloca um no ouvido, sempre que alguém fala com você em qualquer idioma, você os ouvirá instantaneamente como se estivessem falando em seu idioma nativo (e você não ouve o áudio original).
Até que possamos ler ondas cerebrais, precisamos ouvir as palavras do falante e traduzi-las para nosso idioma alvo. Tentar traduzir cada palavra, à medida que saem da boca do falante, apresenta desafios reais.
Imagine um cenário onde você quer traduzir do inglês para o espanhol. O falante começa com “The”. Em espanhol, “The” é traduzido para “El” para palavras masculinas e “La” para palavras femininas. Então, não podemos traduzir “The” com certeza até ouvirmos mais.
Imagine que o falante continua “The running water”. Agora temos informações suficientes para traduzir as três primeiras palavras para “El agua corrente”. Supondo que a frase continue “The running water is too cold for swimming”, estamos em boa forma.
Mas se o falante continuar “The running water buffalo…” precisamos voltar atrás.
Para reforçar o ponto, se o falante continuar “The running water buffalo protected her calf”, deveríamos ter começado a frase com “La búfala” em vez de “El búfalo”.
Essas frases “caminho do jardim”, que começam de uma forma em que a interpretação inicial do ouvinte provavelmente está incorreta, estão presentes em muitos idiomas.
Para alguns casos de uso, você pode estar disposto a aceitar que terá que voltar atrás após começar a dublar muito rapidamente. Para outros, você pode optar por adicionar latência para mais precisão. Dado que alguma latência é inerente a todos os casos de uso de dublagem, definimos dublagem “em tempo real” como um serviço através do qual você pode transmitir áudio continuamente e receber o conteúdo traduzido de volta.
As melhores aplicações comerciais de dublagem em tempo real são aquelas onde
A Forbes relatou em 2019 que a NBA está ganhando $500 milhões em direitos de TV internacionais. A NFL agora está realizando jogos no Brasil, Inglaterra, Alemanha e México, pois vê a expansão internacional como um motor de receita central no futuro.
E enquanto a maioria dos eventos esportivos é feita para ser consumida ao vivo, as pessoas já estão acostumadas com alguma latência, quer saibam disso ou não. O tempo que leva para as imagens capturadas no estádio chegarem à sua tela em casa pode variar de 5 segundos a alguns minutos.
Normalmente, há vários operadores de câmera e som no local que transmitem suas imagens para uma instalação de produção. A instalação de produção alterna entre os feeds das câmeras, mistura o áudio, sobrepõe gráficos e adiciona comentários. Eles também podem adicionar intencionalmente um atraso adicional para ouvir e censurar palavrões ou outros conteúdos inesperados.
O feed principal de produção é enviado para a rede de transmissão que adiciona sua própria marca e comerciais e distribui o conteúdo para suas redes locais. Finalmente, os provedores de última milha compartilham o conteúdo com os consumidores via cabos, feeds de satélite e serviços de streaming.
Muitos produtores relatam que seria aceitável adicionar até 20 segundos de latência adicional para dublagem. A latência adicional é mais do que compensada pelo fato de que os espectadores podem ouvir em seu idioma nativo.
As empresas de esportes se preocupam principalmente em fornecer um produto de qualidade e acreditam que a chave para um produto de qualidade é capturar efetivamente a emoção e o timing dos locutores. “Ele chuta, ele marca!” precisa ser entregue com entusiasmo.
Nossos modelos de clonagem de voz que sustentam nosso serviço de dublagem são capazes de capturar a emoção e a entrega do falante original. Ao contrário da tradução, mais contexto nem sempre leva a um resultado melhor. No entanto, ainda não estamos no nível emocional de um comentarista de futebol espanhol!
Cada clone de voz é uma média de suas entradas. Se você combinar uma linha que é entregue de forma plana como “Eles vão precisar ser mais agressivos com apenas dois minutos restantes.” com “Ele chuta, ele marca!”, o clone resultante será a entrega média das duas.
Hoje, podemos superar isso tendo comprimentos de contexto mais curtos para clonagem de voz do que para tradução de transcrições. No futuro, esperamos encontrar ganhos adicionais fornecendo contexto adicional (como imagem e vídeo) para nosso modelo de dublagem ou criando uma “transcrição emocional” do falante original e usando isso para direcionar a entrega do áudio dublado.
Assim como os Esportes “ao vivo”, a Transmissão de Notícias passa por um pipeline de produção que adiciona atrasos. De nossas conversas com empresas de mídia, acertar a emoção (embora importante) é menos crítico e muitas vezes mais fácil porque a maioria dos âncoras tem uma entrega muito consistente. No entanto, é fundamental que a tradução seja precisa e sutil.
Além da chance de haver uma falha no serviço de tradução automatizada, alguns conceitos não têm tradução direta. Considere o seguinte:
"A comunidade se reuniu para um dia de lembrança, onde os sobreviventes compartilharam suas histórias e os anciãos realizaram orações tradicionais para cura."
Espanhol: "La comunidad se reunió para un día conmemorativo, donde los sobrevivientes compartieron sus historias y los ancianos realizaron oraciones tradicionales para la sanación."
Embora tecnicamente preciso, "survivors" vs "sobrevivientes" carrega peso diferente em contextos de trauma histórico - em inglês, muitas vezes implica resiliência e dignidade, enquanto "sobrevivientes" pode enfatizar a vitimização. Da mesma forma, "performed prayers" vs "realizaron oraciones" difere em reverência - "performed" reconhece a importância cerimonial enquanto "realizaron" pode soar mais procedural.
Para permitir uma conversa natural e presencial entre pessoas que não falam o mesmo idioma, é necessária uma tradução quase instantânea.
Usando as probabilidades de previsão do próximo token de LLMs, você tem um modelo em tempo real da probabilidade de onde uma frase está indo.
Fonte da imagem - Hugging Face "Como gerar texto"
Se ajustarmos este modelo de previsão do próximo token em um falante individual, teremos uma compreensão razoável de para onde ele está indo. Usando essa informação, podemos “trapacear” antecipando a tradução e geração de fala quando temos alta certeza sobre para onde o falante está indo.
Achou isso interessante e quer trabalhar conosco no futuro do Áudio com IA? Explore vagas abertas aqui.
Nosso modelo produz emoções como nenhum outro
Estamos lançando nosso próprio modelo generativo que permite aos usuários criar vozes sintéticas totalmente novas