Présentation de Eleven v3 Alpha

Essayez v3

Conversion de Voix

Faire parler une personne avec la voix d'une autre

A man wearing glasses and headphones speaking into a microphone, smiling.

Qu'est-ce que la conversion de voix ?

La conversion de voix vous permet de transformer la voix d'une personne en celle d'une autre. Elle utilise un processus appelé Voice Cloning pour encoder la voix cible - c'est-à-dire, la voix vers laquelle nous convertissons - et générer le même message parlé d'une manière qui correspond à l'identité du locuteur cible tout en préservant l'intonation originale.

Utilisations

La conversion de voix de haute qualité et la technologie de Voice Cloning ont le potentiel de révolutionner la production, la diffusion et l'interaction avec le contenu dans divers secteurs. Elles promettent d'optimiser le temps et les coûts de production et d'offrir à ceux qui partagent leur voix pour entraîner les algorithmes de conversion des moyens de gagner des revenus passifs.

  • Dans le cinéma, les acteurs pourraient partager leurs bases de données vocales avec les producteurs pour créer des pistes audio sans avoir besoin de se déplacer sur le plateau ou en studio ;
  • les répliques mal prononcées pourraient être réenregistrées beaucoup plus efficacement en post-production ;
  • la technologie peut également être utilisée pour reproduire fidèlement les voix de personnages historiques dans des scénarios fictifs ou pour redonner vie à des acteurs décédés ;
  • le développement de jeux vidéo trouvera la technologie utile de manière similaire : corriger des répliques ou simplement expérimenter pourrait se faire sur place et sans que l'acteur soit physiquement présent pour l'enregistrement ;
  • en médecine, les patients qui ont perdu la capacité de parler, par exemple à la suite d'un traitement contre le cancer de la gorge, peuvent avoir la chance de communiquer à nouveau avec leur propre voix ;
  • les assistants virtuels pourraient être personnalisés car les utilisateurs à domicile trouvent potentiellement plus naturel d'interagir avec, disons, la voix d'un proche plutôt qu'avec celle d'un étranger virtuel ;
  • inversement, l'industrie publicitaire pourrait bénéficier de l'introduction de voix off synthétiques qui sonnent aussi réelles que n'importe quelle voix humaine tout en évitant les problèmes liés à la propriété des droits et aux redevances. D'un autre côté, si une voix reconnaissable est précisément nécessaire, ici aussi, les producteurs de publicité pourraient utiliser la technologie pour cloner consensuellement la voix d'un acteur particulier sans avoir besoin de sa présence physique lors de longues sessions d'enregistrement ;
  • les industries du livre audio et du podcast ne sont que deux autres secteurs en croissance où l'application de la technologie de Voice Cloning et de conversion de voix offre la possibilité d'optimiser la production et l'édition de contenu immersif.

Conversion de Voix Eleven Labs

Bien que nous développions des logiciels de conversion de voix chez Eleven dans le cadre de notre ensemble d'outils, nos recherches sur le Voice Cloning et la synthèse vocale alimentent principalement le développement de notre produit principal que nous prévoyons de lancer au début de l'année prochaine : l'outil de doublage automatique préservant l'identité.

Notre objectif ici est de rendre tout contenu parlé accessible dans toutes les langues avec la voix originale du locuteur, en un clic. Imaginez une vidéo éducative sur YouTube en anglais. Si quelqu'un ne parle que l'espagnol (mais trouverait le sujet intéressant s'il connaissait la langue), c'est un problème. Certes, les sous-titres offrent une solution, mais notre objectif est de proposer une manière beaucoup plus immersive et divertissante d'interagir avec le contenu. Nous voulons pouvoir générer cette même personne parlant le même message naturellement en espagnol de niveau natif, même si ce n'est pas le cas.

À cette fin, le Voice Cloning nous permet de préserver leur identité - le son de leur voix. Nous l'utilisons pour générer de nouvelles répliques dans une langue différente afin qu'elles semblent être prononcées par la même personne.

La conversion de voix entre en jeu car nous voulons préserver leurs émotions, leur intention et leur style de livraison pour une immersion maximale. Nous entraînons des modèles multilingues robustes, qui nous permettent d'analyser les répliques dans la langue source et de les mapper sur la langue cible avec la bonne intonation.

Processus

Pour convertir la voix d'une personne en celle d'une autre, c'est-à-dire, le discours source en discours cible, nous avons besoin d'un algorithme pour exprimer le contenu du discours source avec les caractéristiques du discours cible. Une bonne analogie ici est les applications de permutation de visage qui vous permettent de mélanger votre visage avec celui de quelqu'un d'autre pour créer une image des deux en un.

La façon de procéder est de prendre l'image d'un visage et de mapper ses attributs. Les points dans l'exemple ci-dessous font exactement cela : ils sont les limites à l'intérieur desquelles les caractéristiques de l'autre visage seraient rendues.

Dans la conversion de voix, nous avons besoin d'un moyen pour que l'algorithme encode les propriétés du discours cible. L'algorithme est entraîné sur un ensemble de données comprenant de nombreux exemples de ce discours. Il décompose ces échantillons à un niveau fondamental - les "atomes" du discours, pour ainsi dire. Le discours se compose de phrases. Les phrases sont composées de mots. Les mots sont constitués de phonèmes et ils marquent les caractéristiques du discours cible. Ils sont le niveau fondamental auquel l'algorithme opère.

Le défi dans la conversion de voix est de rendre le contenu du discours source en utilisant les phonèmes du discours cible. Mais il y a un compromis ici, tout comme dans l'exemple de permutation de visage : plus vous utilisez de marqueurs pour mapper les attributs d'un visage, plus vous imposez de contraintes au visage que vous mappez à l'intérieur. Moins de marqueurs signifie moins de contraintes. Il en va de même pour la conversion de voix. Plus nous privilégions le discours cible, plus nous risquons de perdre la synchronisation avec le discours source. Mais si nous ne lui donnons pas assez de préférence, nous risquons de perdre une grande partie de ce qui rend ce discours caractéristique. Par exemple, si nous devions rendre l'enregistrement de quelqu'un criant avec colère avec la voix de Morgan Freeman, nous serions en difficulté. Donner trop de préférence aux émotions du discours source et le prix que nous payons est de perdre l'impression que c'est vraiment Morgan Freeman qui parle. Trop d'accent sur son schéma de discours et nous perdons la charge émotionnelle du discours source.

Éthique

Les préoccupations éthiques concernant le Voice Cloning méritent d'être abordées car le potentiel de mauvaise utilisation de la technologie inquiète de plus en plus de personnes. En 2020, des deepfakes audio ont été utilisés par des escrocs se faisant passer pour un PDG lors d'un appel téléphonique pour autoriser un transfert bancaire de 35 millions de dollars. Une technologie qui peut faire croire de manière convaincante que quelqu'un a dit quelque chose qu'il n'a pas dit soulève naturellement des craintes d'être utilisée pour désinformer, diffamer ou commettre des fraudes. De même, la conversion de voix soulève des questions importantes sur la violation des droits d'auteur si elle permet aux utilisateurs de tirer profit de contenu généré sans le consentement des propriétaires de voix.

Chez Eleven, nous ressentons le besoin de faire ce que nous pouvons pour nous assurer que notre technologie n'est pas utilisée à des fins néfastes et de mettre en œuvre des mesures de protection pour se prémunir contre ses dangers :

  • nous ne collaborons qu'avec des clients qui adhèrent à nos Conditions interdisant l'utilisation malveillante de notre technologie dans le but de désinformer, diffamer, commettre des fraudes ou à toute autre fin pouvant être jugée illégale ou nuisible ;
  • le contenu vidéo synthétique produit par Eleven inclut un filigrane clair indiquant qu'il est généré par IA. Le contenu audio contient une description de fichier claire. Lorsque nous utilisons des voix reconnaissables, nous le faisons à des fins de démonstration et dans des contextes qui ne donnent pas lieu à des conflits d'intérêts ;
  • en même temps, nous cherchons à soutenir les propriétaires de voix et leurs licenciés dans la revendication de leurs droits.
  • Si vous avez des idées sur la façon d'améliorer notre position, veuillez nous le faire savoir à ethics@elevenlabs.io

Nous croyons que la peur de l'abus ne devrait pas être le facteur dominant guidant notre attitude envers les nouvelles technologies puissantes. Nous devrions plutôt nous efforcer de garantir que des mesures de protection appropriées soient introduites au moment du développement pour minimiser le risque de préjudice tout en tirant le meilleur parti du potentiel que la technologie offre à la communauté au sens large.

Avenir

La conversion de voix et la technologie de Voice Cloning promettent de révolutionner le cinéma, la télévision, la création de contenu, le développement de jeux, les podcasts et les livres audio, ainsi que les industries publicitaires. Mais leurs applications vont au-delà du commercial avec des utilisations potentielles en médecine, éducation et communication.

Le Voice Cloning ouvre la voie à un avenir où tout contenu peut être généré dans n'importe quelle langue et voix pour atteindre des millions de personnes dans le monde entier et créer une toute nouvelle économie. Notre objectif chez Eleven est de contribuer à réaliser cet avenir.

En voir plus

ElevenLabs

Créez avec l'audio AI de la plus haute qualité.

Se lancer gratuitement

Vous avez déjà un compte ? Se connecter