Voice Design - La première IA générative pour l'audio

Le premier modèle génératif pour créer des voix synthétiques est arrivé

Le mois dernier, nous avons annoncé que notre modèle génératif pour la création de voix arrivait. Il est enfin là et c'est le premier du genre - nous l'appelons Voice Design. Cette fonctionnalité vous permet de créer de nouvelles voix à partir de zéro en sélectionnant leurs qualités principales comme le genre, l'âge et l'accent. Et même avec les mêmes paramètres de base, notre modèle ajoute de l'aléatoire à chaque génération pour garantir que chaque voix que vous entendez est totalement unique. Voice Design fait partie de notre effort plus large pour équiper les éditeurs et créateurs des outils de narration IA les plus polyvalents.

Voice Design

Le modèle derrière Voice Design est en grande partie le résultat de nos recherches sur la synthèse vocale et le Voice Cloning, bien que nous ayons toujours aimé l'idée d'un outil génératif pour la parole. Nous avons déjà vu des applications pratiques pour les modèles génératifs de texte à image et de chatbot, mais un outil similaire pour l'audio manquait. Depuis notre lancement, nous avons reçu des demandes pour ajouter plus de voix à notre banque. Au lieu de surcharger la bibliothèque avec d'innombrables voix et de vous faire écouter chaque aperçu pour savoir qui est qui, nous avons décidé de renverser la situation et de vous laisser déterminer l'identité du locuteur, tout en permettant une variété infinie dans ces contraintes.

Ajouter un degré de contrôle à la sélection de voix était important car nos utilisateurs recherchent souvent des caractéristiques vocales concrètes pour leurs scripts. Assurer que chaque voix générée est unique était tout aussi crucial car de nombreux cas d'utilisation nécessitent, ou du moins bénéficient, d'un accès exclusif à une voix. En plus de fournir aux utilisateurs un nouvel exutoire créatif, les voix générées avec Voice Design sont complètement artificielles et n'appartiennent à aucune personne réelle.

Applications

En plus de convertir facilement l'écriture en audio de qualité avec notre outil phare Speech Synthesis, les auteurs de livres peuvent désormais utiliser Voice Design pour exercer un contrôle artistique sur la narration et façonner la personnalité de chaque personnage avec des voix sur mesure.

Les éditeurs de presse qui se lancent dans l'audio ont besoin de voix pour leurs histoires. Parce que les narrateurs deviennent identifiés aux publications qu'ils représentent, choisir la bonne voix off devient une tâche importante qui n'est pas souvent répétée. Voice Design permet aux éditeurs de choisir et de comparer virtuellement d'innombrables narrateurs sur le champ. Cela leur donne aussi la tranquillité d'esprit d'avoir une voix particulière qui les représente, et eux seuls.

Les développeurs de jeux n'ont plus besoin de choisir si un personnage particulier justifie les coûts d'enregistrement. Des dizaines de milliers de PNJ auparavant muets peuvent désormais avoir des personnalités uniques, repoussant les limites de l'immersion virtuelle.

Que vous soyez un créateur de contenu travaillant sur votre prochaine sortie ou un responsable d'entreprise cherchant à donner une voix aux communications de l'entreprise, les possibilités de concevoir un audio réaliste et captivant pour des cas d'utilisation et des publics spécifiques sont désormais illimitées.

Écosystème

Voice Design est l'une des nombreuses fonctionnalités pour l'édition de narration que nous prévoyons d'introduire cette année. La prochaine est Studio - notre nouvelle station de travail pour structurer de grands textes, insérer des pauses, régénérer des morceaux d'audio et attribuer des parties de texte à différents locuteurs. Studio arrive fin mars et sera complété par un support d'édition d'intonation plus tard au deuxième trimestre de cette année.

Découvrez les articles de l'équipe ElevenLabs

ElevenLabs

Créez avec l'audio AI de la plus haute qualité.

Se lancer gratuitement

Vous avez déjà un compte ? Se connecter