Voice Design - A Primeira IA Generativa Para Áudio
- Publicado
OuvirOuça este artigo
No mês passado, nós anunciamos que nosso modelo generativo para criação de vozes estava chegando. Finalmente está aqui e é o primeiro do seu tipo - chamamos de Design de Voz. O recurso permite que você crie novas vozes do zero, selecionando suas qualidades principais como gênero, idade e sotaque. E mesmo com as mesmas configurações de parâmetros principais, nosso modelo adiciona aleatoriedade toda vez que você gera, garantindo que cada voz que você ouve seja totalmente única. Voice Design faz parte do nosso esforço mais amplo para equipar editores e criadores com as ferramentas de narrativa mais versáteis com IA.
Design de Voz
O modelo por trás do Voice Design é resultado principalmente da nossa pesquisa em síntese de fala e
Adicionar um grau de controle à seleção de vozes foi importante, já que nossos usuários frequentemente buscam características concretas de fala para seus roteiros. Garantir que cada voz gerada seja única foi igualmente crucial, pois muitos casos de uso exigem, ou pelo menos se beneficiam, de ter acesso exclusivo a uma voz. Além de fornecer aos usuários uma nova saída criativa, as vozes geradas com Voice Design são completamente artificiais e não pertencem a nenhuma pessoa real.
Aplicações
Além de converter facilmente textos em áudio de qualidade com nossa ferramenta principal de Síntese de Fala, autores de livros agora podem usar o Voice Design para exercer controle artístico sobre a narração e moldar a personalidade de cada personagem com vozes personalizadas.
Editores de notícias que estão se aventurando no áudio precisam de vozes para suas histórias. Como os narradores se tornam identificados com as publicações que representam, escolher a locução certa se torna uma tarefa importante que não é frequentemente repetida. O Voice Design permite que os editores escolham e comparem virtualmente inúmeros narradores na hora. Também lhes dá a tranquilidade de ter uma voz específica que os representa, e somente eles.
Desenvolvedores de jogos não precisam mais decidir se um personagem específico justifica os custos de gravação. Dezenas de milhares de NPCs anteriormente mudos agora podem ter personalidades únicas, ampliando os limites da imersão virtual.
Se você é um criador de conteúdo trabalhando em seu próximo lançamento ou um executivo corporativo procurando dar voz às comunicações da empresa, as possibilidades de criar áudio realista e envolvente para casos de uso e públicos específicos agora são ilimitadas.
Ecossistema
Voice Design é um dos vários recursos para edição de narração que planejamos introduzir este ano. O próximo é o Estúdio - nossa nova estação de trabalho para estruturar grandes textos, inserir pausas, regenerar trechos de áudio e atribuir partes do texto a diferentes locutores. O Studio chegará no final de março e será complementado pelo suporte à edição de entonação mais tarde no segundo trimestre deste ano.
.webp&w=3840&q=80)



