
ElevenLabs vs. Cartesia (June 2025)
Learn how ElevenLabs and Cartesia compare based on features, price, voice quality and more.
Apresentando o Eleven v3 (alpha)
Experimente o v3A conversão de voz permite transformar a voz de uma pessoa na de outra. Ela usa um processo chamado Voice Cloning para codificar a voz alvo - ou seja, a voz para a qual convertemos - e gerar a mesma mensagem falada de uma forma que corresponda à identidade do locutor alvo, mas preserve a entonação original.
A tecnologia de conversão de voz e Voice Cloning de alta qualidade tem o potencial de revolucionar a forma como o conteúdo é produzido, entregue e interagido em diversos setores. Elas prometem otimizar o tempo e os custos de produção e oferecer àqueles que compartilham suas vozes para treinar algoritmos de conversão maneiras de ganhar taxas passivas.
Embora desenvolvamos software de conversão de voz na Eleven como parte do nosso pacote de ferramentas, nossa pesquisa em Voice Cloning e síntese de voz alimenta principalmente o desenvolvimento do nosso principal produto que planejamos lançar no início do próximo ano: a ferramenta de dublagem automática que preserva a identidade.
Nosso objetivo aqui é tornar todo o conteúdo falado acessível em várias línguas na voz original do locutor, com um clique. Imagine um vídeo educacional no YouTube em inglês. Se alguém só fala espanhol (mas acharia o assunto interessante se soubesse o idioma), isso é um problema. Claro, legendas oferecem uma solução, mas nosso objetivo é proporcionar uma maneira muito mais imersiva e divertida de se envolver com o conteúdo. Queremos ser capazes de gerar essa mesma pessoa falando a mesma mensagem naturalmente em espanhol nativo, mesmo que ela realmente não fale.
Para isso, o Voice Cloning nos permite preservar sua identidade - o som de sua voz. Usamos isso para gerar novas falas em um idioma diferente, de modo que pareça que é a mesma pessoa falando.
A conversão de voz entra em cena porque queremos preservar suas emoções, intenção e estilo de entrega para máxima imersão. Treinamos modelos robustos multilíngues, que nos permitem analisar falas no idioma de origem e mapeá-las para o idioma alvo com a entonação correta.
Para converter a voz de uma pessoa na de outra, ou seja, fala de origem em fala alvo, precisamos de um algoritmo para expressar o conteúdo da fala de origem com as características da fala alvo. Uma boa analogia aqui são os aplicativos de troca de rosto que permitem misturar seu rosto com o de outra pessoa para criar uma imagem de ambos como um só.
A maneira de fazer isso é pegar a imagem de um rosto e mapear seus atributos. Os pontos no exemplo abaixo fazem exatamente isso: eles são os limites dentro dos quais as características do outro rosto seriam renderizadas.
Na conversão de voz, precisamos de uma maneira para o algoritmo codificar as propriedades da fala alvo. O algoritmo é treinado em um conjunto de dados que compreende muitos exemplos dessa fala. Ele decompõe essas amostras em um nível fundamental - os "átomos" da fala, por assim dizer. A fala é composta por frases. Frases são compostas por palavras. Palavras são formadas por fonemas e eles marcam as características da fala alvo. Eles são o nível fundamental em que o algoritmo opera.
O truque na conversão de voz é renderizar o conteúdo da fala de origem usando os fonemas da fala alvo. Mas há um equilíbrio aqui, assim como no exemplo de troca de rosto: quanto mais marcadores você usa para mapear os atributos de um rosto, mais restrições você impõe ao rosto que você mapeia dentro deles. Menos marcadores significam menos restrições. O mesmo é verdade para a conversão de voz. Quanto mais preferência damos à fala alvo, mais corremos o risco de ficar fora de sincronia com a fala de origem. Mas se não dermos preferência suficiente, corremos o risco de perder muito do que torna essa fala característica. Por exemplo, se fôssemos renderizar a gravação de alguém gritando com raiva na voz de Morgan Freeman, estaríamos em apuros. Dar muita preferência às emoções da fala de origem e o preço que pagamos é perder a impressão de que é realmente Morgan Freeman falando. Muita ênfase no padrão de fala dele e perdemos a carga emocional da fala de origem.
Preocupações éticas sobre Voice Cloning merecem atenção, pois o potencial de uso indevido da tecnologia tem preocupado um número crescente de pessoas. Em 2020, deepfakes de áudio foram usados por golpistas se passando por um CEO em uma ligação telefônica para autorizar uma transferência bancária de $35 milhões. Uma tecnologia que pode fazer parecer convincentemente que alguém disse algo que não disse naturalmente levanta temores de ser usada para desinformar, difamar ou cometer fraude. Da mesma forma, a conversão de voz levanta questões importantes sobre violação de direitos autorais se permitir que usuários capitalizem sobre conteúdo gerado sem consentimento dos proprietários da voz.
Na Eleven, sentimos a necessidade de fazer o que pudermos para garantir que nossa tecnologia não seja usada para fins nefastos e implementar salvaguardas para proteger contra seus perigos:
Acreditamos que o medo do abuso não deve ser o fator dominante que guia nossa atitude em relação a novas tecnologias poderosas. Em vez disso, devemos nos esforçar para garantir que salvaguardas apropriadas sejam introduzidas no momento do desenvolvimento para minimizar o risco de danos enquanto aproveitamos ao máximo o potencial que a tecnologia oferece à comunidade em geral.
A tecnologia de conversão de voz e Voice Cloning promete revolucionar o cinema, televisão, criação de conteúdo, desenvolvimento de jogos, podcasts e audiolivros, bem como as indústrias de publicidade. Mas suas aplicações vão além do comercial, com usos potenciais na medicina, educação e comunicação.
O Voice Cloning está abrindo caminho para um futuro onde qualquer conteúdo pode ser gerado em qualquer idioma e voz para alcançar milhões de pessoas em todo o mundo e criar uma economia totalmente nova. Nosso objetivo na Eleven é ajudar a concretizar esse futuro.
Learn how ElevenLabs and Cartesia compare based on features, price, voice quality and more.
Unlocking the Power of AI Voiceovers for eLearning