ElevenLabs sort de la version bêta et lance Eleven Multilingual v2 - un modèle de base de parole IA pour 30 langues

Publié: 22 août 2023

ÉcouterÉcouter cet article

0:00

0:000:00

La plateforme d'IA audioElevenLabsfait un bond en avant dans ses efforts pour éliminer les barrières linguistiques du contenu, avec le lancement d'un nouveau modèle de deep learning fondamental qui prend en charge les capacités multilingues dans 30 langues - Eleven Multilingual v2
Cette avancée permettra aux entreprises de médias, aux développeurs de jeux, aux éditeurs et aux créateurs indépendants du monde entier d'améliorer considérablement l'accessibilité de leur contenu
Ces nouvelles capacités, qui suivent une série de lancements de fonctionnalités et d'améliorations depuis le lancement de la plateforme en janvier, marquent la fin officielle de la phase bêta de l'entreprise
La mission d'ElevenLabs est de rendre tout le contenu accessible mondialement dans n'importe quelle langue et avec n'importe quelle voix

Londres, Royaume-Uni - ElevenLabs, leader mondial des logiciels d'IA audio, a lancé aujourd'hui un nouveau modèle de génération de voix multilingue capable de produire une voix IA avec une "richesse émotionnelle" précise dans 30 langues.

Cette avancée, entièrement basée sur des recherches internes, permettra aux créateurs de produire du contenu audio natif pour les marchés internationaux à travers l'Europe, l'Asie et le Moyen-Orient. ElevenLabs a passé les dix-huit derniers mois à analyser les marqueurs de la parole humaine, à construire de nouveaux mécanismes pour comprendre le contexte et transmettre les émotions dans la génération de la parole, ainsi qu'à assembler des voix nouvelles et uniques.

Le nouveau modèle Eleven Multilingual v2 permet, lors de l'entrée de texte dans la plateforme ElevenLabs de Text to Speech, de détecter automatiquement près de 30 langues écrites et de générer la parole dans celles-ci avec un niveau d'authenticité sans précédent.

En même temps, que la voix utilisée soit synthétique ou clonée, les caractéristiques vocales uniques du locuteur seront préservées à travers toutes les langues, y compris son accent d'origine. Cela signifie que la même voix peut donner vie au contenu dans 30 langues distinctes.

Cette publication suitle lancement public du clonage vocal professionnel pour tous les créateurs de contenu sur la plateforme. Cette mise à jour du produit, publiée avec des fonctionnalités de sécurité supplémentaires, permet aux utilisateurs de créer une copie numérique parfaite de leur voix ; une version virtuelle

indiscernable de l'original. Le lancement d'aujourd'hui signifie que votre voix peut parler dans près de 30 langues proposées par le modèle multilingue.

Les langues prises en charge incluent : coréen, néerlandais, turc, suédois, indonésien, vietnamien, philippin, ukrainien, grec, tchèque, finnois, roumain, danois, bulgare, malais, hongrois, norvégien, slovaque, croate, arabe classique et tamoul. Elles rejoignent les langues déjà disponibles, y compris l'anglais, le polonais, l'allemand, l'espagnol, le français, l'italien, l'hindi et le portugais.

ElevenLabs a également confirmé, après le lancement des dernières fonctionnalités et les améliorations continues de la plateforme, que celle-ci sortira officiellement de la version bêta. Cette transition représente un moment clé dans l'engagement de l'entreprise à fournir des outils fiables et avancés à ses plus d'un million d'utilisateurs mondiaux.

En regardant vers l'avenir, ElevenLabs prévoit de proposer un mécanisme permettant aux utilisateurs de partager des voix sur la plateforme et de bénéficier du développement de nouvelles voix, renforçant ainsi les opportunités de collaboration entre l'humain et l'IA.

Mati Staniszewski, PDG et cofondateur d'ElevenLabs, a commenté :

"ElevenLabs a commencé avec le rêve de rendre tout le contenu accessible mondialement dans n'importe quelle langue et avec n'importe quelle voix. Le lancement d'Eleven Multilingual v2 nous a permis de nous rapprocher un peu plus de la réalisation de ce rêve et de rendre les voix IA de qualité humaine disponibles dans chaque dialecte.

"Nos outils de génération de texte en parole aident à égaliser les chances et à offrir des capacités vocales de haute qualité à tous les créateurs de contenu. Ces avantages s'étendent désormais aux applications multilingues dans près de 30 langues. Nous espérons finalement couvrir plus de langues et de voix avec l'aide de l'IA, et éliminer les barrières linguistiques au contenu. Chez ElevenLabs, nous croyons que ces avancées en matière d'accessibilité favoriseront finalement une plus grande créativité, innovation et diversité."

En réduisant le coût et les ressources nécessaires pour créer du contenu audio de haute qualité dans plusieurs langues, ElevenLabs offre aux entreprises et aux créateurs la possibilité de produire un contenu plus créatif et accessible qui résonne à travers les cultures et les langues.

L'outil de génération de parole multilingue offre aux développeurs de jeux et aux éditeurs indépendants de nouvelles opportunités pour traduire les expériences de jeu et le contenu audio pour les audiences internationales, en communiquant avec les joueurs et les auditeurs dans leurs langues sans compromettre la qualité ou la précision de la parole.

De même, les institutions éducatives disposent désormais des moyens nécessaires pour fournir aux apprenants un contenu audio précis dans les langues cibles immédiatement, améliorant ainsi les compétences de compréhension et de prononciation, tout en répondant aux différentes méthodes d'enseignement et aux besoins d'apprentissage des étudiants internationaux.

Les créateurs de tous types peuvent utiliser l'outil ElevenLabs pour améliorer l'accessibilité du contenu pour les personnes ayant des déficiences visuelles ou des besoins d'apprentissage supplémentaires en complétant le contenu visuel par la parole disponible dans plusieurs langues.

Sa gamme initiale d'outils audio IA, révélée en janvier 2023, comprenait la capacité de transformer n'importe quel texte en parole à travers une sélection de voix synthétiques préconçues et la capacité de créer une copie de votre voix. L'outil de synthèse de parole multilingue est une autre étape en avant dans la mission d'ElevenLabs de rendre tout le contenu accessible mondialement dans n'importe quelle langue et avec n'importe quelle voix.

De nombreux secteurs et industries créatives ont déjà adopté cette technologie, y compris en permettant aux auteurs indépendants de créer des livres audio, en donnant vie aux personnages secondaires dans les jeux vidéo, en aidant les malvoyants à accéder au contenu écrit en ligne, et en lançant la première chaîne de radio IA au monde. ElevenLabs a également établi des partenariats avec un éventail de créateurs de contenu et de studios de premier plan, y compris les générateurs de vidéos IA D-ID, l'un des plus grands éditeurs de livres audio au monde Storytel, la plateforme vidéo scientifique en accès libre ScienceCast qui condense les articles de recherche publiés sur arXiv, la plateforme mondiale de créateurs de contenu TheSoul Publishing, et des développeurs de jeux impressionnants comme Embark Studios et Paradox Interactive, ainsi que la plateforme médiatique MNTN.

ElevenLabs sort de la version bêta et lance Eleven Multilingual v2 - un modèle de base de parole IA pour 30 langues

Articles similaires

La première IA qui peut rire

Conversion de Voix

Découvrez Dubbing v2

Découvrez Music v2