Apresentando o Eleven v3 (alpha)

Experimente o v3

Esta Voz Não Existe - Voz IA Generativa

Estamos lançando nosso próprio modelo generativo que permite aos usuários criar vozes sintéticas totalmente novas

Abstract colorful swirl with dropdown menus for gender, age, and accent, and a style, clarity, and stability slider.

Recentemente, parece que todo mundo está falando sobre IA generativa. Modelos de linguagem e de texto para imagem, como ChatGPT, Stable Diffusion, DALL-E e Midjourney, causaram muito alvoroço no mundo da tecnologia e além. Muitos os consideram entre os desenvolvimentos mais significativos recentes em IA. Concordando ou não, o sentimento geral parece ser que algo muito poderoso surgiu. Em 2023, ouviremos sobre modelos que podem ajudar você a desenhar ou criar vídeos. Assim como as perguntas sobre qual é o smartphone mais recente e melhor, em breve estaremos perguntando sobre qual é o modelo de base mais recente e melhor. No entanto, com toda essa empolgação, sentimos que há uma área dentro da mídia generativa que ainda está subestimada: a voz IA. É também a área em que buscamos nos tornar líderes. Na Eleven, contamos com o potencial desbloqueado por técnicas de deep learning todos os dias para alimentar nosso text-to-speech e voice cloning. E agora, também estamos lançando nosso próprio modelo generativo que permite a você criar vozes sintéticas totalmente novas do zero.

Gerador de Voz - crie uma voz

Nossos usuários acessam a plataforma diariamente para dar vida aos seus personagens - seja para audiolivros, jogos ou fan fiction. Percebemos que nosso banco de falantes atual é pequeno demais para que todos encontrem as vozes que atendem às suas necessidades de conteúdo, mantendo-se exclusivas para cada usuário. Nossa solução foi permitir que você criasse vozes sintéticas totalmente novas.

Tivemos uma ideia de como faríamos isso ao desvendarmos os métodos que atualmente usamos para síntese de fala e clonagem de voz. Ambos os processos exigem uma forma de codificar as características de uma voz específica. As embeddings de falantes são o que carrega essa identidade - são uma representação vetorial da voz de um falante. Percebemos que poderíamos amostrar da distribuição de embeddings de falantes treinando um modelo dedicado para nos permitir criar infinitas novas vozes.

Como nossos usuários geralmente procuram características específicas de fala, precisávamos adicionar um grau de controle sobre o processo. Expandimos nosso modelo com condicionamento para gerar vozes com base em suas características. O modelo agora permite que você defina certos parâmetros básicos que estabelecem a identidade central da nova voz: gênero, idade, sotaque, tom e estilo de fala. Em outras palavras, toda vez que você clicar em 'gerar', mesmo que escolha os mesmos parâmetros base, você obtém uma voz completamente nova que não existia antes.

Abaixo estão alguns exemplos de vozes que podem ser criadas dessa forma:

'Design Voice' estará disponível em nossa plataforma em fevereiro, como parte do Voice Lab.

Qual é a utilidade?

Nossas ferramentas já podem produzir fala tão realista quanto a de qualquer humano e esperamos que a esfera de aplicações potenciais para vozes artificiais só se expanda. Muitas dessas novas aplicações, incluindo gravação de áudio para publicações de notícias ou comerciais, exigirão que uma voz seja confinada a, e identificada com, uma marca ou caso de uso específico, e não seja usada em outro lugar. Outros casos de uso, como contação de histórias e videogames, priorizam flexibilidade e liberdade para experimentar desde o início do desenvolvimento. Então, em vez de criar um conjunto gigantesco de falantes virtuais, decidimos permitir que os usuários tenham a palavra final sobre quais vozes melhor atendem aos seus propósitos.

Autores de livros

Editores de notícias

Desenvolvedores de videogames

Criativos de publicidade

De criadores produzindo todos os tipos de conteúdo de áudio e vídeo a executivos corporativos buscando dar voz às comunicações da empresa, as oportunidades para criar áudio envolvente que seja único e adaptado a um caso de uso específico agora são infinitas.

IA Ética

Assim como a clonagem de voz levanta preocupações sobre as consequências de seu uso indevido potencial, cada vez mais pessoas se preocupam que a proliferação da tecnologia IA colocará em risco os meios de subsistência dos profissionais. Na Eleven, vemos um futuro em que dubladores poderão licenciar suas vozes para treinar modelos de fala para uso específico, em troca de taxas. Clientes e estúdios ainda apresentarão com prazer talentos de voz profissionais em seus projetos e o uso de IA simplesmente contribuirá para tempos de resposta mais rápidos e maior liberdade para experimentar e estabelecer direção no início do desenvolvimento. A tecnologia mudará a forma como o áudio falado é projetado e gravado, mas o fato de que os dubladores não precisam mais estar fisicamente presentes em todas as sessões realmente lhes dá a liberdade de se envolverem em mais projetos ao mesmo tempo, além de realmente imortalizar suas vozes.

Além disso, a razão pela qual estamos empolgados é que uma infinidade de livros, notícias, jogos independentes e outros conteúdos cujos autores e desenvolvedores não poderiam arcar com os custos de gravação agora se tornarão acessíveis por meio de outro meio. Com esse acesso aumentado vem a oportunidade de ampliar o público em cada caso.

Na Eleven, estamos totalmente comprometidos tanto em respeitar os direitos de propriedade intelectual quanto em implementar salvaguardas contra o uso indevido potencial de nossa tecnologia:

  • Só fazemos parceria com clientes que aderem aos nossos Termos, que proíbem o uso malicioso de nossa tecnologia para qualquer propósito que possa ser considerado ilegal ou prejudicial;
  • Também estamos trabalhando na marcação de todos os áudios gerados por nosso modelo para que possam ser instantaneamente rastreados até nós;
  • Quando usamos vozes reconhecíveis, fazemos isso para fins de demonstração e em contextos que não geram conflitos de interesse;
  • Ao mesmo tempo, buscamos apoiar os proprietários de vozes e seus licenciadores na reivindicação de seus direitos e todas as infrações conhecidas serão revisadas e tratadas.

Olhando para o futuro - melhore sua própria voz

No futuro, planejamos combinar as capacidades de nossos modelos de geração e clonagem de voz para permitir que os usuários melhorem suas próprias vozes. Você poderá clonar sua voz e depois manipulá-la para qualquer efeito desejado. Se você teme que seu estilo de fala natural seja um pouco monótono, poderá adicionar variedade a ele. Se você realmente não gosta de ser gravado, poderá manipular a saída para soar mais natural. Qualquer pessoa que precise produzir áudio com sua própria voz para qualquer propósito, seja uma apresentação pré-gravada ou uma mensagem de áudio, poderá fazê-lo usando nosso conjunto de ferramentas, com um clique de botão.

Feliz Ano Novo

À medida que 2022 chegava ao fim, gostaríamos de agradecer aos nossos beta-testers por sua participação contínua e por seus comentários. Muitas das funcionalidades que estamos desenvolvendo são resultado de suas sugestões e opiniões. Não poderíamos estar mais felizes em tê-los a bordo e desejamos a todos um Feliz Ano Novo.

Eleven Labs Beta
Acesse aqui para se inscrever em nossa plataforma beta e experimentá-la você mesmo. Estamos constantemente fazendo melhorias e todos os insights dos usuários são muito valiosos para nós nesta fase inicial.

Explore artigos da equipe ElevenLabs

ElevenLabs

Crie com o áudio IA da mais alta qualidade