Esta Voz Não Existe - Voz IA Generativa

Publicado: 11 de jan. de 2023

OuvirOuça este artigo

0:00

0:000:00

Recentemente, parece que todo mundo está falando sobre IA generativa. Modelos de linguagem e de texto para imagem, como ChatGPT, Stable Diffusion, DALL-E e Midjourney, causaram muito alvoroço no mundo da tecnologia e além. Muitos os consideram entre os desenvolvimentos mais significativos recentes em IA. Concordando ou não, o sentimento geral parece ser que algo muito poderoso surgiu. Em 2023, ouviremos sobre modelos que podem ajudar você a desenhar ou criar vídeos. Assim como as perguntas sobre qual é o smartphone mais recente e melhor, em breve estaremos perguntando sobre qual é o modelo de base mais recente e melhor. No entanto, com toda essa empolgação, sentimos que há uma área dentro da mídia generativa que ainda está subestimada: a voz IA. É também a área em que buscamos nos tornar líderes. Na Eleven, contamos com o potencial desbloqueado pelas técnicas de deep learning todos os dias para alimentar nosso transformar texto em áudio e clonar voz com IA. E agora, também estamos lançando nosso próprio modelo generativo que permite a você criar vozes sintéticas totalmente novas do zero.

Gerador de Voz - crie uma voz

Nossos usuários acessam a plataforma todos os dias para dar vida aos seus personagens — seja para

Tivemos uma ideia de como faríamos isso ao analisarmos os métodos que atualmente usamos para síntese de fala e clonagem de voz. Ambos os processos exigem uma forma de codificar as características de uma voz específica. As embeddings de locutores são o que carregam essa identidade - são uma representação vetorial da voz de um locutor. Percebemos que poderíamos amostrar a distribuição de embeddings de locutores treinando um modelo dedicado para nos permitir criar infinitas novas vozes.

Como nossos usuários geralmente procuram características específicas de fala, precisávamos adicionar um grau de controle sobre o processo. Expandimos nosso modelo com condicionamento para gerar vozes com base em suas características. O modelo agora permite que você defina certos parâmetros básicos que estabelecem a identidade central da nova voz: gênero, idade, sotaque, tom e estilo de fala. Em outras palavras, toda vez que você clicar em 'gerar', mesmo que escolha os mesmos parâmetros base, você obtém uma voz completamente nova que não existia antes.

Abaixo estão alguns exemplos de vozes que podem ser criadas dessa forma:

'Design Voice' estará disponível em nossa plataforma em fevereiro, como parte do Voice Lab.

Qual é a utilidade?

Nossas ferramentas já podem produzir fala tão realista quanto a de qualquer humano e esperamos que a esfera de aplicações potenciais para vozes artificiais só se expanda. Muitas dessas novas aplicações, incluindo gravação de áudio para publicações de notícias ou comerciais, exigirão que uma voz seja confinada a, e identificada com, uma marca ou caso de uso específico, e não seja usada em outro lugar. Outros casos de uso, como narrativas e videogames, priorizam a flexibilidade e a liberdade de experimentar desde o início do desenvolvimento. Então, em vez de criar um conjunto gigantesco de locutores virtuais, decidimos permitir que os usuários tenham a palavra final sobre quais vozes melhor atendem aos seus propósitos.

Autores de livros agora ganham não apenas a oportunidade de converter facilmente seu trabalho em áudio, mas também mantêm o controle artístico sobre o design de narrações sob medida. Isso apresenta ao público novas maneiras interessantes de interagir com publicações, além de aumentar significativamente o número de livros que poderemos desfrutar ouvindo.

Editores de notícias têm se aventurado cada vez mais no áudio e escolher vozes distintas para representar suas publicações é uma tarefa importante - muitos ouvintes valorizam a forma tanto quanto o conteúdo. Igualmente importante, os editores agora podem ter certeza de que uma voz específica os representa, e somente eles.

Desenvolvedores de videogames agora podem dar voz a uma infinidade de NPCs que antes eram mudos, com todas as ferramentas necessárias ao seu alcance. Eles não apenas podem ser mais econômicos sem comprometer a qualidade, mas também podem agora criar vozes que serão totalmente únicas para os mundos virtuais que criam.

Criativos de publicidade precisam de locuções que se adequem a campanhas específicas, então poder criar narrações ressonantes e feitas sob medida no início do desenvolvimento é uma vantagem considerável. Eles agora podem experimentar com várias vozes e estilos de entrega instantaneamente e sem envolver recursos adicionais.

De criadores produzindo todos os tipos de conteúdo de áudio e vídeo a executivos corporativos buscando dar voz às comunicações da empresa, as oportunidades para criar áudio envolvente que seja único e adaptado a um caso de uso específico agora são infinitas.

IA Ética

Assim como a clonagem de voz levanta preocupações sobre as consequências de seu uso indevido potencial, cada vez mais pessoas se preocupam que a proliferação da tecnologia IA coloque em risco os meios de subsistência dos profissionais. Na Eleven, vemos um futuro em que dubladores possam licenciar suas vozes para treinar modelos de fala para uso específico, em troca de taxas. Clientes e estúdios ainda terão prazer em apresentar talentos de voz profissionais em seus projetos e o uso de IA simplesmente contribuirá para tempos de resposta mais rápidos e maior liberdade para experimentar e estabelecer direção no início do desenvolvimento. A tecnologia mudará a forma como o áudio falado é projetado e gravado, mas o fato de que os dubladores não precisam mais estar fisicamente presentes em todas as sessões realmente lhes dá a liberdade de se envolver em mais projetos ao mesmo tempo, além de realmente imortalizar suas vozes.

Além disso, a razão pela qual estamos empolgados é que uma infinidade de livros, notícias, jogos independentes e outros conteúdos cujos autores e desenvolvedores não poderiam arcar com os custos de gravação agora se tornarão acessíveis por meio de outro meio. Com esse acesso aumentado vem a oportunidade de ampliar o público em cada caso.

Na Eleven, estamos totalmente comprometidos tanto em respeitar os direitos de propriedade intelectual quanto em implementar salvaguardas contra o uso indevido potencial de nossa tecnologia:

Só fazemos parceria com clientes que aderem aos nossos Termos, que proíbem o uso malicioso de nossa tecnologia para qualquer propósito que possa ser considerado ilegal ou prejudicial;
Também estamos trabalhando na marcação de todas as áudios gerados por nosso modelo para que possam ser instantaneamente rastreados até nós;
Quando usamos vozes reconhecíveis, fazemos isso para fins de demonstração e em contextos que não geram conflitos de interesse;
Ao mesmo tempo, buscamos apoiar os proprietários de vozes e seus licenciadores na reivindicação de seus direitos e todas as infrações conhecidas serão revisadas e tratadas.

Olhando para o futuro - melhore sua própria voz

No futuro, planejamos combinar as capacidades do nosso gerador de voz e dos modelos de

Feliz Ano Novo

À medida que 2022 chegava ao fim, gostaríamos de agradecer aos nossos beta-testers por sua participação contínua e por seu feedback. Muitas das funcionalidades que estamos desenvolvendo são resultado de suas sugestões e contribuições. Não poderíamos estar mais felizes em tê-los a bordo e desejamos a todos um Feliz Ano Novo.

ElevenLabs Beta
Vá aqui para se inscrever em nossa plataforma beta e experimentá-la você mesmo. Estamos constantemente fazendo melhorias e todos os insights dos usuários são muito valiosos para nós nesta fase inicial.

Esta Voz Não Existe - Voz IA Generativa

Gerador de Voz - crie uma voz

Qual é a utilidade?

IA Ética

Olhando para o futuro - melhore sua própria voz

Feliz Ano Novo

Artigos relacionados

Conheça o Scribe

Conheça o Flash

Apresentando três novos idiomas: Húngaro, Vietnamita e Norueguês

Apresentando o Eleven Turbo v2.5