Eleven na INTERSPEECH 2022

Publicado: 5 de out. de 2022

OuvirOuça este artigo

0:00

0:000:00

Como foi

Acabamos de voltar da conferência INTERSPEECH deste ano, que foi a melhor oportunidade que tivemos até agora para apresentar e receber feedback sobre todos os desenvolvimentos em que trabalhamos nos últimos meses.

Foi ótimo aprender e compartilhar ideias com os melhores da área e estabelecer futuras relações no processo. Conhecemos equipes de startups fantásticas trabalhando no mesmo campo que nós, especialmente em Voice Cloning, síntese de fala (TTS) e conversão de voz (VC) (Supertone e LOVO são apenas dois exemplos). Ficamos igualmente animados em conversar com algumas das empresas mais estabelecidas, como Meta e Google, sobre o trabalho nos bastidores no desenvolvimento de software TTS e VC.

Fomos direto ao ponto. A quantidade de entusiasmo sincero pelo nosso trabalho não poderia nos deixar mais felizes - tudo superou qualquer expectativa que tínhamos. Nos próximos quatro dias, discutimos nossa pesquisa e progresso nessas três áreas de tecnologia de fala acima - os primeiros passos absolutamente cruciais no nosso caminho para desenvolver nossa ferramenta de dublagem automática proprietária, cuja versão 1.0 planejamos lançar no início do próximo ano.

O mais importante para nós aqui foi provar que podemos clonar vozes fielmente - que somos capazes de preservar a semelhança da voz entre os dados de voz de origem nos quais treinamos nosso algoritmo e a forma como a mesma voz soa quando gerada sinteticamente. E, em segundo lugar, era crucial para nós provar que nossas ferramentas TTS estão no caminho certo para se tornarem parte da plataforma de fala sintética mais humana e natural disponível, oferecendo prosódia e tonalidade incomparáveis.

O primeiro é naturalmente importante, pois precisamos que as novas falas geradas sejam facilmente identificáveis como faladas por uma pessoa específica - precisamos preservar corretamente a identidade do falante. Prosódia e tonalidade são importantes porque tom e ritmo transmitem intenção, o que realmente faz a fala soar humana em primeiro lugar. O santo graal aqui é que o programa não apenas pronuncie palavras fluentemente, mas também sobreponha a fala com uma carga emocional apropriada para que pareça que entende o que está dizendo.

Demonstração TTS

Você pode ver uma demonstração TTS que usamos durante a conferência abaixo. O primeiro link é o vídeo original e, em seguida, nossa amostra contendo a mesma mensagem falada em uma voz diferente. Lembre-se, isto é text-to-speech - não conversão de voz. Nossa única entrada foi escrever as palavras faladas no vídeo original para gerar a fala que você ouve. Toda a prosódia e entonação são de responsabilidade do próprio algoritmo, não há pós-processamento envolvido. Veja se você reconhece de quem é a voz!

Você lerá mais sobre a tecnologia Eleven TTS em nossa próxima entrada dedicada especificamente à geração de fala a partir de texto.

Se você gosta da nossa tecnologia e gostaria de se tornar nosso beta-tester, você pode se inscrever clique aqui.

Original:

ElevenLabs

Conteúdo acima da forma

Nos meses que antecederam a conferência, nossos esforços foram focados quase exclusivamente em entregar amostras demonstráveis da nossa tecnologia e em mostrar nossa pesquisa proprietária. Afinal, a INTERSPEECH é uma conferência de pesquisa e estávamos determinados de que o conteúdo deve preceder a forma, especialmente em um encontro tão especificamente orientado. No dia da conferência, começamos a brincar que nosso foco elevado na tecnologia talvez tenha feito nossos esforços de branding parecerem minimalistas demais. Logo ficamos bastante aliviados, se não justificados!, ao descobrir que outros, incluindo os grandes players, também optaram por configurações mais humildes.

Até o próximo ano

Nossa viagem à Coreia foi um grande sucesso para a ElevenLabs e trouxe ainda mais motivação para seguirmos em frente. Já estamos animados só de pensar no quanto podemos avançar neste próximo ano, tanto nas nossas pesquisas quanto nas formas de apresentá-las. Esperamos que até lá já tenhamos nossas ferramentas de

Eleven na INTERSPEECH 2022

Como foi

Demonstração TTS

Conteúdo acima da forma

Até o próximo ano

Artigos relacionados

Voz IA em escala para a Índia

ElevenLabs e AILAS lançam sistema de identificação de voz para proteger atores contra uso indevido de IA

ElevenLabs amplia presença no Reino Unido e nos EUA

Burda - Parceria Estratégica para Soluções de Áudio com IA e Agentes de Voz