Eleven à INTERSPEECH 2022

Publié: 5 oct. 2022

ÉcouterÉcouter cet article

0:00

0:000:00

Comment ça s'est passé

Nous revenons juste de la conférence INTERSPEECH de cette année, qui a été la meilleure occasion que nous ayons eue jusqu'à présent pour présenter et obtenir des retours sur tous les développements sur lesquels nous avons travaillé ces derniers mois.

C'était formidable d'apprendre et de partager des idées avec les meilleurs du domaine et de nouer des relations futures dans le processus. Nous avons rencontré des équipes de start-ups fantastiques travaillant dans le même domaine que nous, notamment sur le clonage de voix, la synthèse vocale (TTS) et la conversion vocale (VC) (Supertone et LOVO pour n'en nommer que deux). Nous étions tout aussi enthousiastes de discuter avec certaines des entreprises les plus établies comme Meta et Google sur le travail en coulisses qui entre dans le développement de logiciels TTS et VC.

Nous sommes allés droit au but. L'enthousiasme sincère pour notre travail ne pouvait pas nous rendre plus heureux - cela a dépassé toutes nos attentes. Au cours des quatre jours suivants, nous avons discuté de nos recherches et de nos progrès dans ces trois domaines de la technologie vocale - les premières étapes absolument cruciales sur notre chemin pour développer notre outil de doublage automatique propriétaire, dont la version 1.0 est prévue pour le début de l'année prochaine.

Le plus important pour nous ici était de prouver que nous pouvons cloner fidèlement des voix - que nous sommes capables de préserver la similarité vocale entre les données vocales sources sur lesquelles nous entraînons notre algorithme et la façon dont la même voix sonne lorsqu'elle est générée synthétiquement. Et deuxièmement, il était crucial pour nous de prouver que nos outils TTS sont en bonne voie pour devenir partie intégrante de la plateforme de synthèse vocale la plus humaine et naturelle qui soit en offrant une prosodie et une tonalité inégalées.

Le premier point est naturellement important car nous avons besoin que les nouvelles énonciations générées soient facilement identifiables comme étant prononcées par une personne en particulier - nous devons correctement préserver l'identité du locuteur. La prosodie et la tonalité sont importantes car le ton et le rythme transmettent l'intention, ce qui rend vraiment la parole humaine. Le saint graal ici est que le programme ne se contente pas de prononcer les mots de manière fluide, mais qu'il superpose également l'énoncé d'une charge émotionnelle appropriée pour qu'il semble comprendrece qu'il dit.

Démo TTS

Vous pouvez voir une telle démo TTS que nous avons utilisée lors de la conférence ci-dessous. Le premier lien est la vidéo originale, puis notre échantillon contenant le même message prononcé dans une voix différente suit. Attention, c'est du text-to-speech - pas de la conversion vocale. Notre seule entrée était d'écrire les mots prononcés dans la vidéo originale pour générer le discours que vous entendez. Toute la prosodie et l'intonation sont dues à l'algorithme lui-même, il n'y a pas de post-traitement impliqué. Voyez si vous reconnaissez de qui est la voix !

Vous en lirez plus sur la technologie Eleven TTS dans notre prochaine entrée dédiée spécifiquement à la génération de discours à partir de texte.

Si vous aimez notre technologie et que vous souhaitez devenir notre bêta-testeur, vous pouvez vous inscrire cliquez ici.

Original :

ElevenLabs

Le contenu avant la forme

Dans les mois précédant la conférence, nos efforts se sont concentrés presque exclusivement sur la livraison d'échantillons démontrables de notre technologie et sur la présentation de nos recherches propriétaires. Après tout, INTERSPEECH est une conférence de recherche et nous étions déterminés à ce que le contenu précède la forme, surtout lors d'un rassemblement si spécifiquement orienté. Le jour de la conférence, cependant, nous avons commencé à plaisanter en disant que notre concentration accrue sur la technologie avait peut-être rendu nos efforts de branding trop minimalistes. Nous avons été rapidement soulagés, voire justifiés !, de constater que d'autres, y compris les grands acteurs, optaient également pour des installations plus modestes.

À l'année prochaine

Notre voyage en Corée a été un vrai succès pour ElevenLabs et nous a donné encore plus envie d’aller plus loin. On est déjà impatients de voir tout ce qu’on pourra accomplir cette année, autant dans notre recherche que dans la façon de la présenter. D’ici là, on espère avoir notre

Eleven à INTERSPEECH 2022

Comment ça s'est passé

Démo TTS

Le contenu avant la forme

À l'année prochaine

Articles similaires

ElevenLabs maintenant vérifié sur n8n Cloud

Melania : Le Livre Audio, Sorti avec la Voix IA d'ElevenLabs

Présentation de la Résidence des Données Européennes

ElevenLabs crée une filiale japonaise, ElevenLabs G.K.