Présentation de Eleven v3 Alpha

Essayez v3

Eleven à INTERSPEECH 2022

La conférence de cette année a été la meilleure occasion que nous ayons eue jusqu'à présent pour partager nos recherches et leurs résultats

Comment ça s'est passé

Nous revenons tout juste de la conférence INTERSPEECH de cette année, qui a été la meilleure occasion jusqu'à présent de présenter et de recevoir des retours sur tous les développements sur lesquels nous avons travaillé ces derniers mois.

C'était formidable d'apprendre et de partager des idées avec les meilleurs du domaine et de nouer des relations futures dans le processus. Nous avons rencontré des équipes de start-ups fantastiques travaillant dans le même domaine que nous, notamment sur le Voice Cloning, la synthèse vocale (TTS) et la conversion vocale (VC) (Supertone et LOVO pour n'en nommer que deux). Nous étions tout aussi enthousiastes de discuter avec certaines des entreprises les plus établies comme Meta et Google sur le travail en coulisses pour développer des logiciels TTS et VC.

Nous sommes allés droit au but. L'enthousiasme sincère pour notre travail ne pouvait pas nous rendre plus heureux - cela a dépassé toutes nos attentes. Au cours des quatre prochains jours, nous avons discuté de nos recherches et de nos progrès dans ces trois domaines de la technologie vocale - les premières étapes absolument cruciales pour développer notre outil de doublage automatique propriétaire, dont nous prévoyons de sortir la version 1.0 au début de l'année prochaine.

Le plus important pour nous ici était de prouver que nous pouvons cloner fidèlement des voix - que nous sommes capables de préserver la similarité vocale entre les données vocales sources sur lesquelles nous entraînons notre algorithme et la façon dont la même voix sonne lorsqu'elle est générée synthétiquement. Et deuxièmement, il était crucial pour nous de prouver que nos outils TTS sont en bonne voie pour devenir partie intégrante de la plateforme de synthèse vocale la plus humaine et naturelle qui soit en offrant une prosodie et une tonalité inégalées.

Le premier point est naturellement important car nous avons besoin que les nouvelles phrases générées soient facilement identifiables comme étant prononcées par une personne en particulier - nous devons correctement préserver l'identité du locuteur. La prosodie et la tonalité sont importantes car le ton et le rythme véhiculent l'intention, ce qui rend vraiment la parole humaine. Le saint graal ici est que le programme ne se contente pas de prononcer les mots couramment, mais qu'il superpose également l'énoncé d'une charge émotionnelle appropriée pour qu'il semble comprendrece qu'ildit.

Démo TTS

Vous pouvez voir une telledémo TTSque nous avons utilisée pendant la conférence ci-dessous. Le premier lien est la vidéo originale, puis notre échantillon contenant le même message prononcé avec une voix différente suit. Attention,c'est du text-to-speech - pas de la conversion vocale. Notre seule entrée était de noter les mots prononcés dans la vidéo originale pour générer le discours que vous entendez. Toute la prosodie et l'intonation sont dues à l'algorithme lui-même, il n'y a pas de post-traitement impliqué. Voyez si vous reconnaissez de qui est la voix !

Vous en lirez plus sur la technologie Eleven TTS dans notre prochaine entrée dédiée spécifiquement à la génération de discours à partir de texte.

Si vous aimez notre technologie et que vous souhaitezdevenir notre testeur bêta, vous pouvez vous inscrireici.

Original :

Eleven Labs Voice Cloning TTS :

Le contenu avant la forme

Dans les mois précédant la conférence, nos efforts se sont concentrés presque exclusivement sur la présentation d'échantillons démontrables de notre technologie et sur la présentation de notre recherche propriétaire. Après tout, INTERSPEECH est une conférence de recherche et nous étions déterminés à ce que le contenu précède la forme, surtout lors d'un rassemblement si spécifiquement orienté. Le jour de la conférence, cependant, nous avons commencé à plaisanter en disant que notre concentration accrue sur la technologie avait peut-être rendu nos efforts de branding trop minimalistes. Nous avons été rapidement soulagés, voire justifiés !, de constater que d'autres, y compris les grands acteurs, optaient également pour des installations plus modestes.

À l'année prochaine

Notre voyage en Corée a été un grand succès pour Eleven et une grande dose de motivation pour pousser encore plus fort. Nous sommes déjà impatients rien qu'en pensant aux progrès que nous pouvons réaliser au cours de l'année prochaine, tant dans nos recherches que dans les façons de les présenter. Espérons qu'à ce moment-là, nous aurons nos outils de doublage de qualité production prêts et que nous utiliserons les voix des gens pour leur permettre de parler les langues qu'ils ne connaissent pas.

Découvrez les articles de l'équipe ElevenLabs

ElevenLabs

Créez avec l'audio AI de la plus haute qualité.

Se lancer gratuitement

Vous avez déjà un compte ? Se connecter