Apresentando o Eleven v3 (alpha)

Experimente o v3

Conversão de Voz

Fazendo uma pessoa falar com a voz de outra

A man wearing glasses and headphones speaking into a microphone, smiling.

O que é conversão de voz?

A conversão de voz permite transformar a voz de uma pessoa na de outra. Ela usa um processo chamado Voice Cloning para codificar a voz alvo - ou seja, a voz para a qual convertemos - e gerar a mesma mensagem falada de uma forma que corresponda à identidade do locutor alvo, mas preserve a entonação original.

Usos

A tecnologia de conversão de voz e Voice Cloning de alta qualidade tem o potencial de revolucionar a forma como o conteúdo é produzido, entregue e interagido em diversos setores. Elas prometem otimizar o tempo e os custos de produção e oferecer àqueles que compartilham suas vozes para treinar algoritmos de conversão maneiras de ganhar taxas passivas.

  • No cinema, atores poderiam compartilhar seus bancos de voz com produtores para criar trilhas de áudio sem a necessidade de viajar para o set ou estúdio;
  • linhas mal faladas poderiam ser regravadas de forma muito mais eficaz na pós-produção;
  • a tecnologia também pode ser usada para reproduzir fielmente as vozes de figuras históricas em cenários fictícios ou trazer atores falecidos de volta à vida;
  • o desenvolvimento de jogos de vídeo achará a tecnologia útil de forma semelhante: corrigir falas ou simplesmente experimentar poderia ser feito no local e sem a presença física do ator para gravação;
  • na medicina, pacientes que perderam a capacidade de falar, por exemplo, como resultado de tratamento de câncer de garganta, podem ter a chance de se comunicar novamente com sua própria voz;
  • assistentes virtuais poderiam se tornar personalizados, já que usuários domésticos potencialmente acham mais natural interagir com, digamos, a voz de um ente querido em vez de um estranho virtual;
  • por outro lado, a indústria publicitária poderia se beneficiar da introdução de locuções sintéticas que soam tão reais quanto qualquer humano, mas evitam questões de direitos autorais e royalties. Por outro lado, se for precisamente uma voz reconhecível que é necessária, aqui também, os produtores de anúncios poderiam usar a tecnologia para clonar consensualmente a voz de um ator específico sem a necessidade de tê-lo presente em longas sessões de gravação;
  • as indústrias de audiolivros e podcasts são apenas dois outros negócios em crescimento onde a aplicação da tecnologia de Voice Cloning e conversão de voz oferece a chance de otimizar a produção e edição de conteúdo imersivo.

Conversão de Voz Eleven Labs

Embora desenvolvamos software de conversão de voz na Eleven como parte do nosso pacote de ferramentas, nossa pesquisa em Voice Cloning e síntese de voz alimenta principalmente o desenvolvimento do nosso principal produto que planejamos lançar no início do próximo ano: a ferramenta de dublagem automática que preserva a identidade.

Nosso objetivo aqui é tornar todo o conteúdo falado acessível em várias línguas na voz original do locutor, com um clique. Imagine um vídeo educacional no YouTube em inglês. Se alguém só fala espanhol (mas acharia o assunto interessante se soubesse o idioma), isso é um problema. Claro, legendas oferecem uma solução, mas nosso objetivo é proporcionar uma maneira muito mais imersiva e divertida de se envolver com o conteúdo. Queremos ser capazes de gerar essa mesma pessoa falando a mesma mensagem naturalmente em espanhol nativo, mesmo que ela realmente não fale.

Para isso, o Voice Cloning nos permite preservar sua identidade - o som de sua voz. Usamos isso para gerar novas falas em um idioma diferente, de modo que pareça que é a mesma pessoa falando.

A conversão de voz entra em cena porque queremos preservar suas emoções, intenção e estilo de entrega para máxima imersão. Treinamos modelos robustos multilíngues, que nos permitem analisar falas no idioma de origem e mapeá-las para o idioma alvo com a entonação correta.

Processo

Para converter a voz de uma pessoa na de outra, ou seja, fala de origem em fala alvo, precisamos de um algoritmo para expressar o conteúdo da fala de origem com as características da fala alvo. Uma boa analogia aqui são os aplicativos de troca de rosto que permitem misturar seu rosto com o de outra pessoa para criar uma imagem de ambos como um só.

A maneira de fazer isso é pegar a imagem de um rosto e mapear seus atributos. Os pontos no exemplo abaixo fazem exatamente isso: eles são os limites dentro dos quais as características do outro rosto seriam renderizadas.

Na conversão de voz, precisamos de uma maneira para o algoritmo codificar as propriedades da fala alvo. O algoritmo é treinado em um conjunto de dados que compreende muitos exemplos dessa fala. Ele decompõe essas amostras em um nível fundamental - os "átomos" da fala, por assim dizer. A fala é composta por frases. Frases são compostas por palavras. Palavras são formadas por fonemas e eles marcam as características da fala alvo. Eles são o nível fundamental em que o algoritmo opera.

O truque na conversão de voz é renderizar o conteúdo da fala de origem usando os fonemas da fala alvo. Mas há um equilíbrio aqui, assim como no exemplo de troca de rosto: quanto mais marcadores você usa para mapear os atributos de um rosto, mais restrições você impõe ao rosto que você mapeia dentro deles. Menos marcadores significam menos restrições. O mesmo é verdade para a conversão de voz. Quanto mais preferência damos à fala alvo, mais corremos o risco de ficar fora de sincronia com a fala de origem. Mas se não dermos preferência suficiente, corremos o risco de perder muito do que torna essa fala característica. Por exemplo, se fôssemos renderizar a gravação de alguém gritando com raiva na voz de Morgan Freeman, estaríamos em apuros. Dar muita preferência às emoções da fala de origem e o preço que pagamos é perder a impressão de que é realmente Morgan Freeman falando. Muita ênfase no padrão de fala dele e perdemos a carga emocional da fala de origem.

Ética

Preocupações éticas sobre Voice Cloning merecem atenção, pois o potencial de uso indevido da tecnologia tem preocupado um número crescente de pessoas. Em 2020, deepfakes de áudio foram usados por golpistas se passando por um CEO em uma ligação telefônica para autorizar uma transferência bancária de $35 milhões. Uma tecnologia que pode fazer parecer convincentemente que alguém disse algo que não disse naturalmente levanta temores de ser usada para desinformar, difamar ou cometer fraude. Da mesma forma, a conversão de voz levanta questões importantes sobre violação de direitos autorais se permitir que usuários capitalizem sobre conteúdo gerado sem consentimento dos proprietários da voz.

Na Eleven, sentimos a necessidade de fazer o que pudermos para garantir que nossa tecnologia não seja usada para fins nefastos e implementar salvaguardas para proteger contra seus perigos:

  • só fazemos parceria com clientes que aderem aos nossos Termos, que proíbem o uso malicioso de nossa tecnologia com a intenção de desinformar, difamar, cometer fraude ou para qualquer outro propósito que possa ser considerado ilegal ou prejudicial;
  • conteúdo de vídeo sintético produzido pela Eleven inclui uma marca d'água clara indicando que é gerado por IA. O conteúdo de áudio contém uma descrição clara do arquivo. Quando usamos vozes reconhecíveis, fazemos isso para fins de demonstração e em contextos que não geram conflitos de interesses;
  • ao mesmo tempo, buscamos apoiar os proprietários de vozes e seus licenciadores na reivindicação de seus direitos.
  • Se você tiver ideias sobre como melhorar nossa postura, por favor, nos avise em ethics@elevenlabs.io

Acreditamos que o medo do abuso não deve ser o fator dominante que guia nossa atitude em relação a novas tecnologias poderosas. Em vez disso, devemos nos esforçar para garantir que salvaguardas apropriadas sejam introduzidas no momento do desenvolvimento para minimizar o risco de danos enquanto aproveitamos ao máximo o potencial que a tecnologia oferece à comunidade em geral.

Futuro

A tecnologia de conversão de voz e Voice Cloning promete revolucionar o cinema, televisão, criação de conteúdo, desenvolvimento de jogos, podcasts e audiolivros, bem como as indústrias de publicidade. Mas suas aplicações vão além do comercial, com usos potenciais na medicina, educação e comunicação.

O Voice Cloning está abrindo caminho para um futuro onde qualquer conteúdo pode ser gerado em qualquer idioma e voz para alcançar milhões de pessoas em todo o mundo e criar uma economia totalmente nova. Nosso objetivo na Eleven é ajudar a concretizar esse futuro.

Explore artigos da equipe ElevenLabs

ElevenLabs

Crie com o áudio IA da mais alta qualidade