Présentation de Eleven v3 Alpha

Essayez v3

Speech to Speech & mise à jour du produit

Dites-le comme vous le voulez !

A microphone on a wooden table in a recording studio with audio equipment in the background.

Nous avons ajouté Speech to Speech (STS) à la synthèse vocale. STS est un outil de conversion de voix qui vous permet de transformer l'enregistrement d'une voix pour qu'elle semble être prononcée par une autre. Il vous permet de contrôler les émotions, le ton et la prononciation au-delà de ce qui est possible avec TTS uniquement. Utilisez-le pour extraire plus d'émotions d'une voix particulière ou comme référence pour dire les choses comme vous le souhaitez.

Dans d'autres mises à jour, nous apportons des modifications à nos voix préenregistrées. Nous avons également amélioré Projects, avec l'ajout de la normalisation, d'un dictionnaire de prononciation et de plus d'options de personnalisation.

A voice command icon, a yellow circle with a right arrow, and an abstract yellow and orange wave design.

Récitez votre texte comme vous le souhaitez et écoutez-le prononcé par une autre voix, tout en conservant un contrôle total sur la diction.

Speech to speech

STS prend le contenu et le style de la parole de votre enregistrement et change la voix. Pensez à STS comme utile principalement pour deux choses.

L'une est d'extraire plus d'émotions d'une voix préenregistrée particulière. Téléchargez/enregistrez une parole très expressive et STS reproduira les émotions et l'intonation dans une autre voix. Comme toutes les voix ne peuvent pas exprimer de fortes émotions avec TTS uniquement, vous pouvez maintenant rendre un narrateur professionnel ou un personnage de livre pour enfants plus expressif avec votre propre voix.

Une autre utilisation de STS est de fournir une 'référence' pour la livraison de la parole. Bien que notre TTS réussisse généralement l'intonation du premier coup, vous pouvez parfois vouloir l'affiner. Ici, STS vous permet de montrer comment intoné une phrase particulière et ensuite de la faire dire par n'importe quelle voix que vous choisissez de cette manière. Cette fonctionnalité deviendra plus utile et simplifiée une fois que nous intégrerons STS directement dans Projects, mais notre objectif ici est d'améliorer radicalement votre capacité à éditer le résultat avec précision.

Regardez la vidéo créée par un de nos membres de la communauté :

Recherche

Pour convertir la parole source en parole cible, nous devons exprimer le contenu de la parole source avec les caractéristiques de la parole cible. Une bonne analogie serait les applications d'échange de visages qui vous permettent de mélanger votre visage avec celui de quelqu'un d'autre pour créer une image des deux en un.

La façon de procéder est de prendre l'image d'un visage et de cartographier ses attributs. Les marqueurs dans l'exemple ci-dessous font exactement cela : ils sont les limites à l'intérieur desquelles l'autre visage serait rendu.

Comparison of facial recognition and facial mapping technology.
Audio waveform with a corresponding speech transcription in a visual format.

Le secret de la conversion vocale est de rendre le contenu de la parole source en utilisant les phonèmes de la parole cible. Mais il y a un compromis ici, tout comme dans l'exemple d'échange de visages : plus vous utilisez de marqueurs pour cartographier les attributs d'un visage, plus vous imposez de contraintes au visage que vous cartographiez à l'intérieur. Moins de marqueurs signifie moins de contraintes.

Il en va de même pour la conversion vocale. Plus nous donnons de préférence à la parole cible, plus nous risquons de ne pas être synchronisés avec la parole source. Mais si nous ne lui donnons pas assez de préférence, nous risquons de perdre ce qui rend cette parole caractéristique. Par exemple, si nous devions rendre l'enregistrement de quelqu'un criant avec colère dans une voix chuchotée, nous serions en difficulté. Donner trop de préférence aux émotions de la parole source et le prix que nous payons est de perdre l'impression que c'est une voix chuchotée qui parle. Trop d'accent sur le modèle de parole chuchotée et nous perdons la charge émotionnelle de la parole source.

Produit et mises à jour récentes

Changements aux voix préenregistrées

Nous apporterons des changements aux voix par défaut disponibles dans la synthèse vocale plus tard cette semaine. Nous cesserons de supporter quelques voix, mais nous les remplacerons par de nouvelles. Nous prévoyons d'en ajouter plus de 20 au total dans les semaines à venir.

Nous commencerons également à fournir des informations sur l'interface utilisateur concernant la durée de disponibilité prévue de chaque voix. Enfin, tout au long de décembre, nous travaillerons à la refonte des fonctionnalités de partage de voix et de compensation d'utilisation de notre plateforme pour améliorer encore la variété des voix. Plus de détails à venir bientôt.

Eleven Turbo v2 & format uLaw 8khz

Notre modèle Turbo regroupe des mois de recherche de notre équipe technique. Il est conçu pour les interactions en temps réel mais peut être utilisé pour tout ce que vous voulez. Il est également livré avec le format standard (m)uLaw 8kHz pour les systèmes IVR.

Normalisation et métadonnées avec Projects

Vous pouvez désormais suivre les directives de soumission de livres audio standard de l'industrie dans Projects. Cela inclut l'ajustement du gain et l'application de la compression dynamique. De plus, il est maintenant possible d'intégrer des métadonnées dans vos Projects (ISBN, auteur et titre).

Journal de prononciation

L'ajout d'un dictionnaire de prononciation a été l'une de nos fonctionnalités les plus demandées. Le mois dernier, nous avons implémenté l'ajout de balises SSML pour spécifier la prononciation en utilisant les dictionnaires IPA et CMU pour nos modèles anglais. Nous avons maintenant publié la prise en charge du dictionnaire de prononciation dans l'interface utilisateur de Projects, vous permettant de télécharger un fichier spécifiant la prononciation en utilisant IPA, CMU ou des substitutions de mots. Les fichiers de dictionnaire sont téléchargés en utilisant le standard de l'industrie et le format ouvert .PLS format de fichier lexique.

Pour l'instant, IPA et CMU sont pris en charge par Turbo V2 English, et les substitutions de mots (alias) sont prises en charge par tous les modèles et langues. La documentation complète est disponible ici.

Upload area for a Lexicon file with instructions to click or drag and drop a .pls/.txt/.xml file, size limit 1.5MB.
Pronunciation diary
A voice command icon, a yellow circle with a right arrow, and an abstract yellow and orange wave design.

Récitez votre texte comme vous le souhaitez et écoutez-le prononcé par une autre voix, tout en conservant un contrôle total sur la diction.

Si vous avez des retours, n'hésitez pas à nous contacter sur Discord !

En voir plus

ElevenLabs

Créez avec l'audio AI de la plus haute qualité.

Se lancer gratuitement

Vous avez déjà un compte ? Se connecter