Black Friday

Resgatar

Eleven na INTERSPEECH 2022

A conferência deste ano foi a melhor oportunidade que tivemos até agora para compartilhar nossa pesquisa e seus resultados

Como foi

Acabamos de voltar da conferência INTERSPEECH deste ano, que foi a melhor oportunidade que tivemos até agora para apresentar e receber feedback sobre todos os desenvolvimentos em que trabalhamos nos últimos meses.

Foi ótimo aprender e compartilhar ideias com os melhores da área e estabelecer futuras relações no processo. Conhecemos equipes de startups fantásticas trabalhando no mesmo campo que nós, especialmente em Voice Cloning, síntese de fala (TTS) e conversão de voz (VC) (Supertone e LOVO são apenas dois exemplos). Ficamos igualmente animados em conversar com algumas das empresas mais estabelecidas, como Meta e Google, sobre o trabalho nos bastidores no desenvolvimento de software TTS e VC.

Fomos direto ao ponto. A quantidade de entusiasmo sincero pelo nosso trabalho não poderia nos deixar mais felizes - tudo superou qualquer expectativa que tínhamos. Nos próximos quatro dias, discutimos nossa pesquisa e progresso nessas três áreas de tecnologia de fala acima - os primeiros passos absolutamente cruciais no nosso caminho para desenvolver nossa ferramenta de dublagem automática proprietária, cuja versão 1.0 planejamos lançar no início do próximo ano.

O mais importante para nós aqui foi provar que podemos clonar vozes fielmente - que somos capazes de preservar a semelhança da voz entre os dados de voz de origem nos quais treinamos nosso algoritmo e a forma como a mesma voz soa quando gerada sinteticamente. E, em segundo lugar, era crucial para nós provar que nossas ferramentas TTS estão no caminho certo para se tornarem parte da plataforma de fala sintética mais humana e natural disponível, oferecendo prosódia e tonalidade incomparáveis.

O primeiro é naturalmente importante, pois precisamos que as novas falas geradas sejam facilmente identificáveis como faladas por uma pessoa específica - precisamos preservar corretamente a identidade do falante. Prosódia e tonalidade são importantes porque tom e ritmo transmitem intenção, o que realmente faz a fala soar humana em primeiro lugar. O santo graal aqui é que o programa não apenas pronuncie palavras fluentemente, mas também sobreponha a fala com uma carga emocional apropriada para que pareça que entende o que está dizendo.

Demonstração TTS

Você pode ver uma demonstração TTS que usamos durante a conferência abaixo. O primeiro link é o vídeo original e, em seguida, nossa amostra contendo a mesma mensagem falada em uma voz diferente. Lembre-se, isto é text-to-speech - não conversão de voz. Nossa única entrada foi escrever as palavras faladas no vídeo original para gerar a fala que você ouve. Toda a prosódia e entonação são de responsabilidade do próprio algoritmo, não há pós-processamento envolvido. Veja se você reconhece de quem é a voz!

Você lerá mais sobre a tecnologia Eleven TTS em nossa próxima entrada dedicada especificamente à geração de fala a partir de texto.

Se você gosta da nossa tecnologia e gostaria de se tornar nosso beta-tester, você pode se inscrever clique aqui.

Original:

Eleven Labs Voice Cloning TTS:

Conteúdo acima da forma

Nos meses que antecederam a conferência, nossos esforços foram focados quase exclusivamente em entregar amostras demonstráveis da nossa tecnologia e em mostrar nossa pesquisa proprietária. Afinal, a INTERSPEECH é uma conferência de pesquisa e estávamos determinados de que o conteúdo deve preceder a forma, especialmente em um encontro tão especificamente orientado. No dia da conferência, começamos a brincar que nosso foco elevado na tecnologia talvez tenha feito nossos esforços de branding parecerem minimalistas demais. Logo ficamos bastante aliviados, se não justificados!, ao descobrir que outros, incluindo os grandes players, também optaram por configurações mais humildes.

Até o próximo ano

Nossa viagem à Coreia foi um grande sucesso para a Eleven e uma grande dose de motivação para nos esforçarmos ainda mais. Já estamos animados só de pensar no progresso que podemos fazer ao longo do próximo ano, tanto em nossa pesquisa quanto nas formas de apresentá-la. Esperamos que até lá tenhamos nossas ferramentas de dublagem de qualidade de produção prontas e estaremos usando as vozes das pessoas para que elas falem os idiomas que não conhecem.

Explore artigos da equipe ElevenLabs

ElevenLabs

Crie com o áudio IA da mais alta qualidade