Passer au contenu

Présentation du Modificateur de Voix

Transformez votre voix en celle d’un autre personnage, avec un contrôle total sur les émotions, le rythme et l’intonation.

Le Modificateur de Voix s’appelait à l’origine speech-to-speech. Dans le contexte des agents vocaux IA, « speech-to-speech » désigne aussi des architectures fusionnées où un seul modèle gère directement l’audio en entrée et en sortie. ElevenAgents utilise une architecture avancée en cascade pour sa plateforme. En savoir plus : Modèles en cascade vs fusionnés.

Nous avons ajouté le

Cela vous donne un niveau de contrôle que les

Ajoutez plus d’émotion à une voix.

A recording studio with a microphone, headphones, sound mixing console, and a large screen displaying a speech-to-speech waveform.

Voici un tutoriel réalisé par un membre de notre communauté :

Le modificateur de voix peut aussi servir de référence pour la façon de dire une phrase. Même si notre Text to Speech gère généralement bien l’intonation, il arrive que vous souhaitiez l’ajuster. Ici, le modificateur de voix vous permet de montrer comment prononcer une phrase, puis de faire dire cette phrase de la même façon par la voix de votre choix. Cette fonctionnalité sera encore plus pratique et simple à utiliser une fois intégrée directement dans Studio, mais notre objectif est déjà de vous permettre d’éditer le rendu avec précision.

Recherche

Pour y parvenir, il faut prendre l’image d’un visage et en cartographier les attributs. Les repères dans l’exemple ci-dessous servent justement à cela – ils délimitent la zone dans laquelle l’autre visage sera intégré.

Pour convertir la parole source en parole cible, nous devons exprimer le contenu de la parole source avec les caractéristiques de la parole cible. Une bonne analogie serait les applications d'échange de visages qui vous permettent de mélanger votre visage avec celui de quelqu'un d'autre pour créer une image des deux en un.

La façon de procéder est de prendre l'image d'un visage et de cartographier ses attributs. Les marqueurs dans l'exemple ci-dessous font exactement cela : ils sont les limites à l'intérieur desquelles l'autre visage serait rendu.

Comparison of facial recognition and facial mapping technology.
Audio waveform with a corresponding speech transcription in a visual format.

Produit et nouveautés récentes

Changements sur les voix préenregistrées

Nous modifions les voix par défaut disponibles dans la Synthèse Vocale. Certaines voix vont disparaître et de nouvelles seront ajoutées, avec plus de 20 nouvelles voix prévues dans les prochaines semaines.

Nous allons aussi indiquer dans l’interface combien de temps chaque voix restera disponible. Tout au long du mois de décembre, nous allons améliorer le partage de voix et la rémunération de leur utilisation pour enrichir la variété des voix. Plus d’informations à venir.

Eleven Turbo v2 & format uLaw 8khz

Turbo v2 est le fruit de plusieurs mois de recherche de notre équipe. Il est conçu pour les interactions en temps réel mais fonctionne pour tous les usages. Il prend aussi en charge le format standard (m)uLaw 8kHz pour les systèmes IVR.

Normalisation et métadonnées avec Studio

Studio prend désormais en charge les normes de soumission de livres audio, y compris le réglage du gain et la compression dynamique. Vous pouvez aussi intégrer des métadonnées (ISBN, auteur, titre) directement dans votre projet Studio.

Dictionnaire de prononciation

C’était l’une des fonctionnalités les plus demandées. Le mois dernier, nous avons ajouté la prise en charge des balises SSML pour spécifier la prononciation avec les dictionnaires IPA et CMU sur nos modèles anglais. Nous venons de lancer la prise en charge du dictionnaire de prononciation dans l’interface Studio, ce qui vous permet de télécharger un fichier précisant la prononciation avec IPA, CMU ou des substitutions de mots (alias). Les fichiers dictionnaire utilisent le format ouvert standard .PLS

IPA et CMU sont actuellement pris en charge par Turbo v2 English. Les substitutions de mots sont compatibles avec tous les modèles et toutes les langues. La documentation complète est disponible

L'ajout d'un dictionnaire de prononciation a été l'une de nos fonctionnalités les plus demandées. Le mois dernier, nous avons mis en œuvre l'ajout de balises SSML pour spécifier la prononciation en utilisant les dictionnaires IPA et CMU pour nos modèles anglais. Nous avons maintenant publié le support du dictionnaire de prononciation dans notre interface Studio, vous permettant de télécharger un fichier spécifiant la prononciation en utilisant IPA, CMU ou des substitutions de mots. Les fichiers de dictionnaire sont téléchargés en utilisant le standard de l'industrie et le format ouvert .PLS format de fichier lexique.

Si vous avez des retours, n’hésitez pas à nous contacter sur Discord !ici.

Upload area for a Lexicon file with instructions to click or drag and drop a .pls/.txt/.xml file, size limit 1.5MB.
Pronunciation diary

Dites ce que vous voulez et écoutez-le dans une voix totalement différente, avec un contrôle total sur la prestation. Capturez les chuchotements, rires, accents et nuances émotionnelles.

Découvrez les articles de l'équipe ElevenLabs

Créez avec l'audio IA de la plus haute qualité