Apresentando Eleven Multilingual v1: Nosso Novo Modelo de Síntese de Voz

Publicado: 27 de abr. de 2023

OuvirOuça este artigo

0:00

0:000:00

Hoje, estamos empolgados em lançar o Eleven Multilingual v1 - nosso modelo avançado de síntese de voz que suporta sete novos idiomas: Francês, Alemão, Hindi, Italiano, Polonês, Português, e Espanhol. Baseado na pesquisa que impulsionou o Eleven Monolingual v1, nossa abordagem atual de deep learning utiliza mais dados, mais poder computacional e técnicas inovadoras dentro de um modelo cada vez mais sofisticado, capaz de entender nuances textuais e oferecer uma performance emocionalmente rica. Este avanço expande os horizontes criativos para criadores, desenvolvedores de jogos e editores, e abre caminho para o uso de mídia generativa para criar conteúdo mais localizado, acessível e imaginativo.

O novo modelo está disponível em todos os planos de assinatura e você pode experimentá-lo agora em nossa plataforma Beta.

ElevenLabs

Para usá-lo, basta selecioná-lo no novo menu suspenso dentro do painel de Síntese de Voz.

Visão Geral da Pesquisa

Assim como seu antecessor, o novo modelo é baseado inteiramente em nossa pesquisa interna. Ele mantém todas as qualidades que fizeram do Eleven Monolingual v1 uma excelente ferramenta de narrativa, como a capacidade de ajustar a entrega com base no contexto e transmitir intenções e emoções de forma hiper-realista. Essas características agora foram ampliadas para os novos idiomas suportados através do treinamento com dados multilíngues.

Uma característica notável do modelo é sua capacidade de identificar texto multilíngue e articulá-lo adequadamente. Agora você pode gerar fala em vários idiomas usando um único prompt enquanto mantém as características únicas de voz de cada falante. Para melhores resultados, recomendamos fornecer um prompt em um único idioma. Embora o modelo já consiga desempenhar razoavelmente bem com vários idiomas ao mesmo tempo, melhorias adicionais são necessárias.

O novo modelo é compatível com outros recursos do VoiceLab inclui recursos como

Dito isso, o modelo tem limitações conhecidas: números, siglas e palavras estrangeiras às vezes são pronunciados em inglês quando solicitados em um idioma diferente. Por exemplo, o número "11" ou a palavra “radio”, digitados em um prompt em espanhol, podem ser pronunciados como seriam em inglês. Recomendamos soletrar siglas e números no idioma alvo enquanto trabalhamos em melhorias.

Democratização da voz

A ElevenLabs foi criada com o sonho de tornar todo o conteúdo universalmente acessível em qualquer idioma e em qualquer voz. Nossa equipe é composta por membros de toda a Europa, Ásia e EUA. À medida que nossa equipe e o mundo se tornam cada vez mais multilíngues, estamos cada vez mais unidos pela visão de criar

A última iteração do nosso Transformar Texto em Áudio (TTS) é apenas o primeiro passo no nosso caminho para tornar essa visão uma realidade. Com o advento de vozes IA de qualidade humana, usuários e empresas agora podem criar e personalizar conteúdo de áudio de acordo com suas necessidades, prioridades e preferências. Isso já mostrou potencial para nivelar o campo de jogo para criadores, pequenas empresas e artistas independentes. Ao aproveitar o poder do áudio criado com IA, os usuários agora podem desenvolver experiências auditivas de alta qualidade que rivalizam com aquelas produzidas por organizações maiores com mais recursos.

Esses benefícios agora se estendem a aplicações multilíngues, multiculturais e educacionais, capacitando usuários, empresas e instituições a produzir áudio autêntico que ressoe com um público mais amplo. Ao fornecer uma ampla gama de vozes, sotaques e idiomas, a IA ajuda a superar barreiras culturais e promove o entendimento global. Na Eleven, acreditamos que essa nova acessibilidade, em última análise, fomenta maior criatividade, inovação e diversidade.

Criadores de conteúdo que buscam engajar com públicos diversos agora têm as ferramentas para superar barreiras culturais e promover a inclusão.

Desenvolvedores de jogos e editores podem criar experiências imersivas e localizadas para públicos internacionais, transcendendo barreiras linguísticas e conectando-se com jogadores e ouvintes para maximizar o engajamento e a eficiência, sem perda de qualidade ou precisão.

Instituições educacionais agora têm os meios para produzir conteúdo de áudio para diversos usuários em seus idiomas-alvo, fortalecendo a compreensão de idiomas e até mesmo habilidades de pronúncia, além de atender a diferentes estilos de ensino e necessidades de aprendizado.

Institutos de acessibilidade agora podem capacitar ainda mais pessoas com deficiências visuais ou dificuldades de aprendizado, fornecendo-lhes meios para converter facilmente recursos menos acessíveis para um meio que atenda às suas necessidades, tanto em conteúdo quanto em forma.

Mal podemos esperar para ver nossos criadores e desenvolvedores atuais e futuros ultrapassarem os limites do que é possível!

Apresentando Eleven Multilingual v1: Nosso Novo Modelo de Síntese de Voz

Visão Geral da Pesquisa

Democratização da voz

Artigos relacionados

O Caminho para a Dublagem em Tempo Real

ElevenLabs Sai da Fase Beta e Lança Eleven Multilingual v2 - um Modelo de Fala com IA para Quase 30 Idiomas

ElevenLabs lança Eleven Multilingual v2, modelo de voz IA para 30 idiomas, em versão beta

ElevenLabs sai da fase 'beta' e lança Eleven Multilingual v2, um modelo de conversação com IA em 30 idiomas