Découvrez Eleven Music. Créez la chanson parfaite pour chaque moment.

Cette voix n'existe pas - Génération vocale AI

11 janv. 2023 • 10 minutes de lecture

Nous déployons notre propre modèle génératif qui permet aux utilisateurs de concevoir des voix synthétiques entièrement nouvelles

Abstract colorful swirl with dropdown menus for gender, age, and accent, and a style, clarity, and stability slider.

Ces derniers temps, il semble que tout le monde parle d’IA générative. Les modèles de langage et de texte-image basés sur l'apprentissage profond, tels que ChatGPT, Stable Diffusion, DALL-E et Midjourney, ont suscité beaucoup d'agitation dans le monde de la technologie et au-delà. Beaucoup les incluent parmi les développements récents les plus significatifs de l’IA. Que vous soyez d’accord ou non, le sentiment général semble être que quelque chose de tout-puissant est apparu. En 2023, nous entendrons parler de modèles qui peuvent vous aider à dessiner ou à créer des vidéos. Tout comme les questions sur quel est le dernier meilleur smartphone, nous nous demanderons bientôt quel est le dernier meilleur modèle de fondation. Pourtant, malgré tout cet enthousiasme, nous pensons qu’il existe un domaine dans les médias génératifs qui est encore gravement sous-estimé : l’IA vocale. C’est aussi le domaine dans lequel nous cherchons à devenir des leaders. Chez Eleven, nous nous appuyons chaque jour sur le potentiel libéré par les techniques d'apprentissage profond pour alimenter nos synthèse vocale et clonage vocal basé sur l’IA outils. Et maintenant, nous déployons également notre propre modèle génératif qui vous permet de concevoir des voix synthétiques entièrement nouvelles à partir de zéro.

Générateur de voix - concevez une voix

Nos utilisateurs utilisent quotidiennement la plateforme pour donner vie à leurs personnages - que ce soit pour des livres audio, des jeux ou des fan fictions. Nous avons réalisé que notre banque de haut-parleurs actuelle est trop petite pour que chacun puisse trouver les voix qui correspondent à ses besoins de contenu tout en restant exclusives à chaque utilisateur. Notre solution a été de vous permettre de concevoir des voix synthétiques entièrement nouvelles.

Nous avons eu une idée de la manière dont nous allions procéder, qui nous est venue à l'esprit lorsque nous avons décortiqué les méthodes que nous utilisons actuellement pour la synthèse vocale et le clonage vocal. Les deux processus nécessitent un moyen de coder les caractéristiques d’une voix particulière. Les intégrations de haut-parleurs sont ce qui véhicule cette identité : elles sont une représentation vectorielle de la voix d'un haut-parleur. Nous avons réalisé que nous pouvions échantillonner la distribution des intégrations de locuteurs en formant un modèle dédié pour nous permettre de créer une infinité de nouvelles voix.

Étant donné que nos utilisateurs recherchent principalement des caractéristiques vocales spécifiques, nous devions ajouter un certain degré de contrôle sur le processus. Nous avons élargi notre modèle avec un conditionnement pour générer des voix en fonction de leurs caractéristiques. Le modèle vous permet désormais de définir certains paramètres de base qui établissent l'identité fondamentale de la nouvelle voix : le sexe, l'âge, l'accent, le ton et le style de parole. En d'autres termes, chaque fois que vous appuyez sur « générer », même si vous choisissez les mêmes paramètres de base, vous obtenez une voix complètement nouvelle qui n'existait pas auparavant.

Vous trouverez ci-dessous quelques exemples de voix qui peuvent être conçues de cette manière :

« Design Voice » sera disponible sur notre plateforme en février, dans le cadre de Voice Lab.

A quoi ça sert ?

Nos outils peuvent déjà produire des voix aussi réalistes que celles des humains et nous pensons que le champ des applications potentielles des voix artificielles ne fera que s’élargir. Bon nombre de ces nouvelles applications, notamment l’enregistrement audio pour les publications d’actualité ou les publicités, nécessiteront qu’une voix soit confinée et identifiée à une marque ou à un cas d’utilisation particulier, et ne soit pas utilisée ailleurs. D’autres cas d’utilisation, comme la narration et les jeux vidéo, privilégient la flexibilité et la liberté d’expérimenter dès le début du développement. Plutôt que de créer un ensemble gigantesque de haut-parleurs virtuels, nous avons décidé de laisser les utilisateurs avoir le dernier mot sur les voix qui correspondent le mieux à leurs besoins.

Livre les auteurs ont désormais non seulement la possibilité de convertir facilement leur travail en audio, mais ils conservent également le contrôle artistique sur la conception d'une narration sur mesure. Cela offre à leur public de nouvelles façons intéressantes d’interagir avec les publications et augmente considérablement le nombre de livres que nous pourrons apprécier d’écouter.

Nouvelles Les éditeurs s'aventurent de plus en plus dans l'audio et choisir des voix distinctives pour représenter leurs publications est une tâche importante - de nombreux auditeurs apprécient autant la forme que le fond. Tout aussi important, les éditeurs peuvent désormais être certains qu’une voix particulière les représente, et eux seuls.

Jeu vidéo les développeurs peuvent désormais donner leur voix à une pléthore de PNJ autrement muets avec tous les outils nécessaires disponibles à portée de main. Non seulement ils peuvent être plus rentables sans compromettre la qualité, mais ils peuvent désormais également concevoir des voix qui seront entièrement uniques aux mondes virtuels qu’ils créent.

Publicité Les créatifs ont besoin de voix off adaptées à des campagnes particulières. Il est donc très avantageux de pouvoir concevoir une narration résonnante et spécialement conçue dès le début du développement. Ils peuvent désormais expérimenter plusieurs voix et styles de diffusion instantanément et sans engager de ressources supplémentaires.

Depuis créateurs produire toutes sortes de contenus audio et vidéo pour Entreprise Pour les dirigeants souhaitant exprimer leurs communications d'entreprise, les possibilités de concevoir un son convaincant, à la fois unique et adapté à un cas d'utilisation spécifique, sont désormais infinies.

IA éthique

De la même manière que le clonage de la voix suscite des craintes quant aux conséquences d’une éventuelle utilisation abusive, de plus en plus de personnes craignent que la prolifération de la technologie de l’IA mette en péril les moyens de subsistance des professionnels. Chez Eleven, nous voyons un avenir dans lequel les acteurs de doublage pourront concéder sous licence leurs voix pour former des modèles de parole à une utilisation spécifique, en échange de frais. Les clients et les studios continueront à faire appel à des voix professionnelles dans leurs projets et l’utilisation de l’IA contribuera simplement à des délais d’exécution plus rapides et à une plus grande liberté d’expérimentation et d’établissement d’une direction dès le début du développement. La technologie va changer la façon dont l’audio parlé est conçu et enregistré, mais le fait que les acteurs de doublage n’ont plus besoin d’être physiquement présents à chaque session leur donne vraiment la liberté de s’impliquer dans plus de projets à tout moment, ainsi que d’immortaliser véritablement leurs voix.

De plus, la raison pour laquelle nous sommes enthousiasmés est qu’une multitude de livres, d’actualités, de jeux indépendants et d’autres contenus dont les auteurs et les développeurs ne pourraient autrement pas se permettre les coûts d’enregistrement seront désormais accessibles via un autre support. Cet accès accru s’accompagne de la possibilité d’élargir le public dans chaque cas.

Chez Eleven, nous nous engageons pleinement à respecter les droits de propriété intellectuelle et à mettre en œuvre des mesures de protection contre toute utilisation abusive potentielle de notre technologie :

Nous travaillons uniquement en partenariat avec des clients qui adhèrent à nos conditions qui interdisent l’utilisation malveillante de notre technologie à des fins pouvant être considérées comme illégales ou nuisibles ;
Nous travaillons également à filigraner tous les fichiers audio générés par notre modèle afin qu'ils puissent être instantanément retracés jusqu'à nous ;
Lorsque nous utilisons des voix reconnaissables, nous le faisons à des fins de démonstration et dans des contextes qui ne donnent pas lieu à des conflits d’intérêts ;
Dans le même temps, nous cherchons à aider les propriétaires de voix et leurs concédants de licence à faire valoir leurs droits et toutes les infractions connues seront examinées et traitées.

Regard vers l'avenir - renforcez votre propre voix

À l’avenir, nous prévoyons de combiner les capacités de nos modèles de génération et de clonage de voix pour permettre aux utilisateurs d’améliorer leurs propres voix. Vous pourrez cloner votre voix puis la manipuler pour obtenir l'effet souhaité. Si vous craignez que votre style de parole naturel soit un peu monotone, vous pourrez y ajouter de la variété. Si vous n'aimez vraiment pas être enregistré, vous pourrez manipuler le son pour obtenir un son plus naturel. Toute personne ayant besoin de produire un fichier audio mettant en vedette sa propre voix pour quelque raison que ce soit, qu'il s'agisse d'une présentation préenregistrée ou d'un message audio, pourra le faire à l'aide de notre suite d'outils, en un clic.

Bonne année

Alors que l'année 2022 touche à sa fin, nous tenons à remercier nos utilisateurs bêta pour leur participation continue et pour leurs commentaires. La plupart des fonctionnalités que nous développons sont le fruit de vos contributions et suggestions. Nous ne pourrions être plus heureux de vous compter parmi nous et nous vous souhaitons à tous une bonne année.

Version bêta d'Eleven Labs
Aller ici pour vous inscrire à notre plateforme bêta et l'essayer par vous-même. Nous apportons constamment des améliorations et toutes les informations sur les utilisateurs sont très précieuses pour nous à ce stade précoce.

Découvrez les articles de l'équipe ElevenLabs

Developer

Developer

Eleven Music, now available in the API

Eleven Music is the first API for developers trained on licensed data and cleared for broad commercial use.

Customer stories

Maven AGI brings advanced Voice AI to customer support with ElevenLabs

Delivering a complete customer engagement solution by adding voice support

Créez avec l'audio AI de la plus haute qualité.

Se lancer gratuitement

Vous avez déjà un compte ? Se connecter