Apresentando o Eleven v3 (alpha)

Experimente o v3

Voice Design - A Primeira IA Generativa Para Áudio

O primeiro modelo generativo para criar vozes sintéticas chegou

No mês passado, nós anunciamos que nosso modelo generativo para criação de vozes estava chegando. Finalmente está aqui e é o primeiro do seu tipo - chamamos de Voice Design. O recurso permite que você crie novas vozes do zero, selecionando suas qualidades principais como gênero, idade e sotaque. E mesmo com as mesmas configurações de parâmetros principais, nosso modelo adiciona aleatoriedade toda vez que você gera, garantindo que cada voz que você ouve seja totalmente única. Voice Design faz parte do nosso esforço mais amplo para equipar editores e criadores com as ferramentas de narrativa mais versáteis com IA.

Voice Design

O modelo por trás do Voice Design é em grande parte o resultado de nossa pesquisa em síntese de fala e Voice Cloning, embora independentemente sempre tenhamos gostado da ideia de uma ferramenta generativa para fala. Já vimos aplicações práticas para modelos generativos de texto para imagem e chatbots, mas faltava uma ferramenta semelhante para áudio. Desde o nosso lançamento, recebemos pedidos para adicionar mais locutores ao nosso banco. Em vez de sobrecarregar a biblioteca com inúmeras vozes e fazer você ouvir cada prévia para saber quem é quem, decidimos inverter o roteiro e deixar você determinar a identidade do locutor, permitindo ao mesmo tempo uma variedade infinita dentro dessas restrições.

Adicionar um grau de controle à seleção de vozes foi importante, já que nossos usuários frequentemente buscam características concretas de fala para seus roteiros. Garantir que cada voz gerada seja única foi igualmente crucial, pois muitos casos de uso exigem, ou pelo menos se beneficiam, de ter acesso exclusivo a uma voz. Além de fornecer aos usuários uma nova saída criativa, as vozes geradas com Voice Design são completamente artificiais e não pertencem a nenhuma pessoa real.

Aplicações

Além de converter facilmente textos em áudio de qualidade com nossa ferramenta principal de Speech Synthesis, autores de livros agora podem usar o Voice Design para exercer controle artístico sobre a narração e moldar a personalidade de cada personagem com vozes personalizadas.

Editores de notícias que estão se aventurando no áudio precisam de vozes para suas histórias. Como os narradores se tornam identificados com as publicações que representam, escolher a locução certa se torna uma tarefa importante que não é frequentemente repetida. O Voice Design permite que os editores escolham e comparem virtualmente inúmeros narradores na hora. Também lhes dá a tranquilidade de ter uma voz específica que os representa, e somente eles.

Desenvolvedores de jogos não precisam mais decidir se um personagem específico justifica os custos de gravação. Dezenas de milhares de NPCs anteriormente mudos agora podem ter personalidades únicas, ampliando os limites da imersão virtual.

Se você é um criador de conteúdo trabalhando em seu próximo lançamento ou um executivo corporativo procurando dar voz às comunicações da empresa, as possibilidades de criar áudio realista e envolvente para casos de uso e públicos específicos agora são ilimitadas.

Ecossistema

Voice Design é um dos vários recursos para edição de narração que planejamos introduzir este ano. O próximo é o Studio - nossa nova estação de trabalho para estruturar grandes textos, inserir pausas, regenerar trechos de áudio e atribuir partes do texto a diferentes locutores. O Studio chegará no final de março e será complementado pelo suporte à edição de entonação mais tarde no segundo trimestre deste ano.

Explore artigos da equipe ElevenLabs

ElevenLabs

Crie com o áudio IA da mais alta qualidade