Apresentando o Eleven v3 (alpha)

Experimente o v3

Eleven na INTERSPEECH 2022

A conferência deste ano foi a melhor oportunidade que tivemos até agora para compartilhar nossa pesquisa e seus resultados

Como foi

Acabamos de voltar da conferência INTERSPEECH deste ano, que foi a melhor oportunidade que tivemos até agora para apresentar e receber feedback sobre todos os desenvolvimentos em que trabalhamos nos últimos meses.

Foi ótimo aprender e compartilhar ideias com os melhores da área e criar futuras relações no processo. Conhecemos equipes de startups fantásticas que trabalham no mesmo campo que nós, especialmente em Voice Cloning, síntese de fala (TTS) e conversão de voz (VC) (Supertone e LOVO, para citar apenas duas). Ficamos igualmente empolgados em conversar com algumas das empresas mais consolidadas, como Meta e Google, sobre o trabalho nos bastidores no desenvolvimento de software TTS e VC.

Fomos direto ao ponto. A quantidade de entusiasmo sincero pelo nosso trabalho não poderia nos deixar mais felizes - superou todas as expectativas que tínhamos. Nos quatro dias seguintes, discutimos nossa pesquisa e progresso nessas três áreas de tecnologia de fala mencionadas acima - os primeiros passos absolutamente cruciais no nosso caminho para desenvolver nossa ferramenta de dublagem automática proprietária, cuja versão 1.0 planejamos lançar no início do próximo ano.

O mais importante para nós aqui foi provar que podemos clonar vozes fielmente - que somos capazes de preservar a semelhança da voz entre os dados de voz de origem nos quais treinamos nosso algoritmo e a forma como a mesma voz soa quando gerada sinteticamente. E, em segundo lugar, foi crucial para nós provar que nossas ferramentas TTS estão no caminho certo para se tornarem parte da plataforma de fala sintética mais humana e natural disponível, oferecendo prosódia e tonalidade incomparáveis.

O primeiro é naturalmente importante, pois precisamos que as novas falas geradas sejam facilmente identificáveis como faladas por uma pessoa específica - precisamos preservar corretamente a identidade do falante. Prosódia e tonalidade são importantes porque tom e ritmo transmitem intenção, o que realmente faz a fala soar humana em primeiro lugar. O objetivo aqui é que o programa não apenas pronuncie palavras fluentemente, mas também sobreponha a fala com uma carga emocional apropriada para que pareça que entende o que está dizendo.

Demonstração de TTS

Você pode ver uma demonstração de TTS que usamos durante a conferência abaixo. O primeiro link é o vídeo original e, em seguida, nossa amostra contendo a mesma mensagem falada em uma voz diferente. Lembre-se, isto é text-to-speech - não conversão de voz. Nossa única entrada foi escrever as palavras faladas no vídeo original para gerar a fala que você ouve. Toda a prosódia e entonação são de responsabilidade do próprio algoritmo, não há pós-processamento envolvido. Veja se você reconhece de quem é a voz!

Você lerá mais sobre a tecnologia Eleven TTS em nossa próxima entrada dedicada especificamente à geração de fala a partir de texto.

Se você gosta da nossa tecnologia e gostaria de se tornar nosso beta-tester, você pode se inscrever aqui.

Original:

Eleven Labs Voice Cloning TTS:

Conteúdo acima da forma

Nos meses que antecederam a conferência, nossos esforços foram focados quase exclusivamente em entregar amostras demonstráveis da nossa tecnologia e em mostrar nossa pesquisa proprietária. Afinal, a INTERSPEECH é uma conferência de pesquisa e estávamos determinados de que o conteúdo deve preceder a forma, especialmente em um encontro tão especificamente orientado. No dia da conferência, começamos a brincar que nosso foco aumentado na tecnologia talvez tenha feito nossos esforços de branding parecerem minimalistas demais. Logo ficamos bastante aliviados, se não vindicados!, ao descobrir que outros, incluindo os grandes players, também optaram por configurações mais humildes.

Até o próximo ano

Nossa viagem à Coreia foi um grande sucesso para a Eleven e uma grande dose de motivação para nos esforçarmos ainda mais. Já estamos animados só de pensar no progresso que podemos fazer ao longo deste próximo ano, tanto em nossa pesquisa quanto nas formas de apresentá-la. Esperamos que até lá tenhamos nossas ferramentas de dublagem em qualidade de produção prontas e estaremos usando as vozes das pessoas para que elas falem os idiomas que não conhecem.

Explore artigos da equipe ElevenLabs

ElevenLabs

Crie com o áudio IA da mais alta qualidade