
StudyLabAI brings one-on-one tutoring to students globally with ElevenLabs Grant
Powering interactive, personalized learning experiences with voice AI
Présentation de Eleven v3 Alpha
Essayez v3La conversion de voix vous permet de transformer la voix d'une personne en celle d'une autre. Elle utilise un processus appelé Voice Cloning pour encoder la voix cible - c'est-à-dire, la voix vers laquelle nous convertissons - et générer le même message parlé d'une manière qui correspond à l'identité du locuteur cible tout en préservant l'intonation originale.
La conversion de voix de haute qualité et la technologie de Voice Cloning ont le potentiel de révolutionner la production, la diffusion et l'interaction avec le contenu dans divers secteurs. Elles promettent d'optimiser le temps et les coûts de production et d'offrir à ceux qui partagent leur voix pour entraîner les algorithmes de conversion des moyens de gagner des revenus passifs.
Bien que nous développions des logiciels de conversion de voix chez Eleven dans le cadre de notre ensemble d'outils, nos recherches sur le Voice Cloning et la synthèse vocale alimentent principalement le développement de notre produit principal que nous prévoyons de lancer au début de l'année prochaine : l'outil de doublage automatique préservant l'identité.
Notre objectif ici est de rendre tout contenu parlé accessible dans toutes les langues avec la voix originale du locuteur, en un clic. Imaginez une vidéo éducative sur YouTube en anglais. Si quelqu'un ne parle que l'espagnol (mais trouverait le sujet intéressant s'il connaissait la langue), c'est un problème. Certes, les sous-titres offrent une solution, mais notre objectif est de proposer une manière beaucoup plus immersive et divertissante d'interagir avec le contenu. Nous voulons pouvoir générer cette même personne parlant le même message naturellement en espagnol de niveau natif, même si ce n'est pas le cas.
À cette fin, le Voice Cloning nous permet de préserver leur identité - le son de leur voix. Nous l'utilisons pour générer de nouvelles répliques dans une langue différente afin qu'elles semblent être prononcées par la même personne.
La conversion de voix entre en jeu car nous voulons préserver leurs émotions, leur intention et leur style de livraison pour une immersion maximale. Nous entraînons des modèles multilingues robustes, qui nous permettent d'analyser les répliques dans la langue source et de les mapper sur la langue cible avec la bonne intonation.
Pour convertir la voix d'une personne en celle d'une autre, c'est-à-dire, le discours source en discours cible, nous avons besoin d'un algorithme pour exprimer le contenu du discours source avec les caractéristiques du discours cible. Une bonne analogie ici est les applications de permutation de visage qui vous permettent de mélanger votre visage avec celui de quelqu'un d'autre pour créer une image des deux en un.
La façon de procéder est de prendre l'image d'un visage et de mapper ses attributs. Les points dans l'exemple ci-dessous font exactement cela : ils sont les limites à l'intérieur desquelles les caractéristiques de l'autre visage seraient rendues.
Dans la conversion de voix, nous avons besoin d'un moyen pour que l'algorithme encode les propriétés du discours cible. L'algorithme est entraîné sur un ensemble de données comprenant de nombreux exemples de ce discours. Il décompose ces échantillons à un niveau fondamental - les "atomes" du discours, pour ainsi dire. Le discours se compose de phrases. Les phrases sont composées de mots. Les mots sont constitués de phonèmes et ils marquent les caractéristiques du discours cible. Ils sont le niveau fondamental auquel l'algorithme opère.
Le défi dans la conversion de voix est de rendre le contenu du discours source en utilisant les phonèmes du discours cible. Mais il y a un compromis ici, tout comme dans l'exemple de permutation de visage : plus vous utilisez de marqueurs pour mapper les attributs d'un visage, plus vous imposez de contraintes au visage que vous mappez à l'intérieur. Moins de marqueurs signifie moins de contraintes. Il en va de même pour la conversion de voix. Plus nous privilégions le discours cible, plus nous risquons de perdre la synchronisation avec le discours source. Mais si nous ne lui donnons pas assez de préférence, nous risquons de perdre une grande partie de ce qui rend ce discours caractéristique. Par exemple, si nous devions rendre l'enregistrement de quelqu'un criant avec colère avec la voix de Morgan Freeman, nous serions en difficulté. Donner trop de préférence aux émotions du discours source et le prix que nous payons est de perdre l'impression que c'est vraiment Morgan Freeman qui parle. Trop d'accent sur son schéma de discours et nous perdons la charge émotionnelle du discours source.
Les préoccupations éthiques concernant le Voice Cloning méritent d'être abordées car le potentiel de mauvaise utilisation de la technologie inquiète de plus en plus de personnes. En 2020, des deepfakes audio ont été utilisés par des escrocs se faisant passer pour un PDG lors d'un appel téléphonique pour autoriser un transfert bancaire de 35 millions de dollars. Une technologie qui peut faire croire de manière convaincante que quelqu'un a dit quelque chose qu'il n'a pas dit soulève naturellement des craintes d'être utilisée pour désinformer, diffamer ou commettre des fraudes. De même, la conversion de voix soulève des questions importantes sur la violation des droits d'auteur si elle permet aux utilisateurs de tirer profit de contenu généré sans le consentement des propriétaires de voix.
Chez Eleven, nous ressentons le besoin de faire ce que nous pouvons pour nous assurer que notre technologie n'est pas utilisée à des fins néfastes et de mettre en œuvre des mesures de protection pour se prémunir contre ses dangers :
Nous croyons que la peur de l'abus ne devrait pas être le facteur dominant guidant notre attitude envers les nouvelles technologies puissantes. Nous devrions plutôt nous efforcer de garantir que des mesures de protection appropriées soient introduites au moment du développement pour minimiser le risque de préjudice tout en tirant le meilleur parti du potentiel que la technologie offre à la communauté au sens large.
La conversion de voix et la technologie de Voice Cloning promettent de révolutionner le cinéma, la télévision, la création de contenu, le développement de jeux, les podcasts et les livres audio, ainsi que les industries publicitaires. Mais leurs applications vont au-delà du commercial avec des utilisations potentielles en médecine, éducation et communication.
Le Voice Cloning ouvre la voie à un avenir où tout contenu peut être généré dans n'importe quelle langue et voix pour atteindre des millions de personnes dans le monde entier et créer une toute nouvelle économie. Notre objectif chez Eleven est de contribuer à réaliser cet avenir.
Powering interactive, personalized learning experiences with voice AI
Create dynamic multi-character dialogue with Eleven v3 Audio Tags. Script overlapping voices, interruptions, and emotional shifts for natural, human-like AI conversations.