Découvrez Eleven Music. Créez la chanson parfaite pour chaque moment.

La première IA qui peut rire

24 nov. 2022 • 6 minutes de lecture

Notre modèle produit des émotions comme aucun autre

A black and white cartoon-style drawing of a smiling face with a wide, toothy grin and closed, happy eyes.

Dans notre dernière entrée, nous avons présenté quelques échantillons longs générés par notre outil de synthèse vocale et nous avons donné un aperçu de la façon dont le design unique de notre modèle lui permet de produire une parole bien rythmée et non robotique. Aujourd'hui, nous allons vous montrer qu'il est également plus riche en émotions et plus conscient du contexte que tout autre. Cela le rend non seulement très captivant à écouter, mais aussi bien adapté pour des applications allant de la narration de livres et de jeux vidéo à la publicité.

Émotions

Les deux forces de notre modèle - la fluidité et la bonne intonation - proviennent de la richesse des données d'entraînement qu'il a vues (plus de 500 000 heures !), mais le facteur central est vraiment la façon dont il apprend de ces données, ce qui est dû à sa construction. Au niveau le plus basique, il est conçu pour comprendre les émotions contenues dans l'écriture et décider si le locuteur doit sembler heureux, en colère, triste ou neutre. Considérez quelques exemples :

Toutes les différences d'intonation et d'humeur proviennent uniquement du texte - rien d'autre n'a influencé le résultat. La ponctuation et le sens des mots jouent un rôle clé dans la façon de livrer une phrase particulière, mais remarquez aussi comment, lorsque le locuteur est heureux de sa victoire, le modèle produit de manière convaincante des sons qui ne font pas partie de la parole régulière, comme le rire (nous publierons bientôt une compilation des différents rires que notre IA est capable de produire !). De même, il exagère de manière appropriée la réaction lorsque le locuteur est amusé par quelque chose de hilarant - c'est 'tellement drôle'.

Contexte

Mais connaître le sens des mots individuels ne suffit pas. Notre modèle est également sensible à la situation plus large entourant chaque énoncé - il évalue si quelque chose a du sens en fonction de son lien avec le texte précédent et suivant. Cette perspective élargie lui permet d'intoner correctement des fragments plus longs en superposant une ligne de pensée particulière s'étendant sur plusieurs phrases avec un schéma émotionnel unifiant, comme montré dans notre entrée précédente contenant un contenu plus long. Mais cela l'aide aussi à éviter de faire des erreurs logiques. Par exemple, certains mots s'écrivent de la même manière mais ont des significations différentes, par exemple 'read' au présent et au passé ou 'minute' signifiant une unité de temps ou quelque chose de petit. Décider lequel est approprié dépend du contexte :

Mot écrit vs. mot parlé

Parce que nous concevons notre plateforme pour répondre aux exigences de contenu long, nous avons également besoin que notre modèle comprenne que les symboles, abréviations et certaines conventions courantes dans l'écriture doivent être prononcés d'une manière particulière ou ne pas être prononcés littéralement. Par exemple, le modèle doit savoir que FBI, TNT et ATM se prononcent différemment de l'UNESCO ou de la NASA. De même, $3tr est parfaitement acceptable à l'écrit mais lorsqu'il est lu à haute voix, il doit devenir 'trois trillions de dollars'.

Intervention humaine

Reconnaître ces distinctions subtiles est crucial puisque notre objectif est de minimiser le besoin d'intervention humaine dans le processus de génération. Après tout, nous ne vantons pas la capacité de notre outil à générer un livre audio en quelques minutes pour que quelqu'un doive écouter tout l'audio pour ensuite réécrire tout le texte. Néanmoins, même si nous mettons continuellement à jour les règles de prononciation de notre modèle, il est toujours possible que quelque chose le perturbe. À cette fin, nous développons maintenant un système de signalement des incertitudes qui permettra aux utilisateurs de voir instantanément quelles parties du texte le modèle a trouvées problématiques et de lui apprendre comment elles devraient être dites.

Innombrables applications

Toutes les capacités que nous avons montrées sont des étapes vers la création de notre logiciel comme l'outil de voix IA le plus polyvalent.

Les éditeurs de presse ont déjà constaté qu'augmenter leur présence audio est un excellent moyen de fidéliser les abonnés. Le grand avantage d'intégrer chaque article avec sa lecture audio est que les gens peuvent écouter tout en faisant autre chose. Les éditeurs qui le font utilisent souvent des doubleurs, ce qui est coûteux et tous les articles ne sont pas couverts. Ou ils utilisent leurs propres journalistes pour lire les histoires, ce qui prend du temps, donc coûteux aussi. Ceux qui utilisent la parole synthétique pour donner voix à leur contenu économisent de l'argent mais paient un autre prix en compromettant la qualité. Maintenant, avec ElevenLabs, il n'est plus nécessaire de faire des compromis et vous pouvez avoir le meilleur des deux mondes.

Ou imaginez générer des livres audio avec une voix off distincte et émotionnellement captivante pour tous les personnages, en quelques minutes. Non seulement cela présente de nouvelles façons de s'engager avec les livres, mais cela facilite également grandement l'accès pour les personnes ayant des difficultés d'apprentissage.

Pensez simplement aux possibilités désormais ouvertes aux développeurs de jeux vidéo qui n'ont plus besoin de se demander si un personnage particulier est suffisamment important pour justifier le coût considérable de lui donner une voix avec de vrais acteurs. Tous les PNJ peuvent désormais avoir leurs propres voix et personnalités.

Les agences de publicité et les producteurs peuvent désormais expérimenter librement et ajuster les voix off pour s'adapter au ton de n'importe quelle campagne - que ce soit pour une chaîne de télévision sportive ou pour une marque de montres de luxe. La voix de n'importe quel acteur peut être licenciée pour le clonage afin que les changements puissent être appliqués instantanément et sans la présence physique de l'acteur. Ou s'ils décident d'opter pour une voix entièrement synthétique, les annonceurs n'ont pas non plus à se soucier de payer des rachats pour les droits de voix.

Les assistants virtuels peuvent devenir plus réalistes à la fois parce que le clonage de voix leur permet de parler avec une voix familière à un utilisateur particulier et aussi parce que cette nouvelle profondeur de livraison les rendrait plus naturels à interagir avec.

Eleven Labs Beta

Allez ici pour vous inscrire à notre plateforme bêta et l'essayer vous-même. Nous faisons constamment des améliorations et tous les retours des utilisateurs sont très précieux pour nous à ce stade précoce. Profitez-en !

Découvrez les articles de l'équipe ElevenLabs

Product

Product

GPT-5 Available in ElevenLabs Conversational AI

Agents in ElevenLabs Conversational AI can now use GPT-5 for reasoning

Research

Research

Eleven Music is Here

Studio-grade music generated with natural language prompts in any style and for countless uses

Créez avec l'audio AI de la plus haute qualité.

Se lancer gratuitement

Vous avez déjà un compte ? Se connecter