
Récitez votre texte comme vous le souhaitez et écoutez-le prononcé par une autre voix, tout en conservant un contrôle total sur la diction.
Présentation de Eleven v3 Alpha
Essayez v3Exprimez-vous comme vous le souhaitez et transformez votre voix en un autre personnage avec un contrôle total sur les émotions, le timing et la livraison
Nous avons ajouté Speech to Speech (STS) à la synthèse vocale. STS est un outil de conversion de voix qui vous permet de transformer l'enregistrement d'une voix pour qu'elle semble être prononcée par une autre. Il vous permet de contrôler les émotions, le ton et la prononciation au-delà de ce qui est possible avec TTS uniquement. Utilisez-le pour extraire plus d'émotions d'une voix particulière ou comme référence pour 'dire comme vous le souhaitez'.
Dans d'autres mises à jour, nous apportons des modifications à nos voix préenregistrées. Nous avons également amélioré Studio, en ajoutant la normalisation, un dictionnaire de prononciation et plus d'options de personnalisation.
Récitez votre texte comme vous le souhaitez et écoutez-le prononcé par une autre voix, tout en conservant un contrôle total sur la diction.
STS prend le contenu et le style de la parole contenue dans votre téléchargement/enregistrement et change la voix. Pensez à STS comme utile principalement pour deux choses.
L'une est d'extraire plus d'émotions d'une voix préenregistrée particulière. Téléchargez/enregistrez une parole très expressive et STS reproduira les émotions et l'intonation dans une autre voix. Comme toutes les voix ne peuvent pas exprimer de fortes émotions avec les seuls prompts TTS, vous pouvez maintenant rendre un narrateur professionnel ou un personnage de livre pour enfants plus expressif avec votre propre voix.
Une autre utilisation de STS est de fournir une 'référence' pour la livraison de la parole. Bien que notre TTS réussisse généralement l'intonation du premier coup, vous pouvez parfois vouloir l'affiner. Ici, STS vous permet de montrer comment intoné une phrase particulière et ensuite de faire dire à n'importe quelle voix que vous choisissez de cette façon. Cette fonctionnalité deviendra plus utile et simplifiée une fois que nous intégrerons STS directement dans Studio, mais notre objectif ici est d'améliorer radicalement votre capacité à éditer la sortie avec précision.
Regardez la vidéo créée par l'un de nos membres de la communauté :
Pour convertir la parole source en parole cible, nous devons exprimer le contenu de la parole source avec les caractéristiques de la parole cible. Une bonne analogie serait les applications d'échange de visages qui vous permettent de mélanger votre visage avec celui de quelqu'un d'autre pour créer une image des deux en un.
La façon de procéder est de prendre l'image d'un visage et de cartographier ses attributs. Les marqueurs dans l'exemple ci-dessous font exactement cela : ils sont les limites à l'intérieur desquelles l'autre visage serait rendu.
Le truc dans la conversion de voix est de rendre le contenu de la parole source en utilisant les phonèmes de la parole cible. Mais il y a un compromis ici, tout comme dans l'exemple d'échange de visages : plus vous utilisez de marqueurs pour cartographier les attributs d'un visage, plus vous imposez de contraintes au visage que vous mappez à l'intérieur. Moins de marqueurs signifie moins de contraintes.
Il en va de même pour la conversion de voix. Plus nous donnons de préférence à la parole cible, plus nous risquons de ne pas être synchronisés avec la parole source. Mais si nous ne lui donnons pas assez de préférence, nous risquons de perdre une grande partie de ce qui rend cette parole caractéristique. Par exemple, si nous devions rendre l'enregistrement de quelqu'un criant avec colère dans une voix chuchotée, nous serions en difficulté. Donner trop de préférence aux émotions de la parole source et le prix que nous payons est de perdre l'impression que c'est une voix chuchotée qui parle. Trop d'accent sur le modèle de parole chuchotée et nous perdons la charge émotionnelle de la parole source.
Nous apporterons des changements aux voix par défaut disponibles dans la synthèse vocale plus tard cette semaine. Nous cesserons de prendre en charge quelques voix, mais nous les remplacerons par de nouvelles. Nous prévoyons d'en ajouter plus de 20 au total dans les semaines à venir.
Nous commencerons également à fournir des informations sur l'interface utilisateur concernant la durée de disponibilité prévue de chaque voix. Enfin, tout au long de décembre, nous travaillerons à la refonte des fonctionnalités de partage de voix et de compensation d'utilisation de notre plateforme pour améliorer encore la variété des voix. Plus de détails à venir bientôt.
Notre modèle Turbo regroupe des mois de recherche de notre équipe technique. Il est conçu pour les interactions en temps réel mais peut être utilisé pour tout ce que vous voulez. Il est également livré avec le format standard (m)uLaw 8kHz pour les systèmes IVR.
Vous pouvez désormais suivre les directives de soumission de livres audio standard de l'industrie dans Studio. Cela inclut l'ajustement du gain et l'application de la compression dynamique. De plus, il est maintenant possible d'intégrer des métadonnées dans votre Studio (ISBN, auteur et titre).
L'ajout d'un dictionnaire de prononciation a été l'une de nos fonctionnalités les plus demandées. Le mois dernier, nous avons mis en œuvre l'ajout de balises SSML pour spécifier la prononciation en utilisant les dictionnaires IPA et CMU pour nos modèles anglais. Nous avons maintenant publié le support du dictionnaire de prononciation dans notre interface Studio, vous permettant de télécharger un fichier spécifiant la prononciation en utilisant IPA, CMU ou des substitutions de mots. Les fichiers de dictionnaire sont téléchargés en utilisant le standard de l'industrie et le format ouvert .PLS format de fichier lexique.
Pour l'instant, IPA et CMU sont pris en charge par Turbo V2 English, et les substitutions de mots (alias) sont prises en charge par tous les modèles et langues. La documentation complète est disponible ici.
Si vous avez des commentaires, n'hésitez pas à nous contacter sur Discord !
Récitez votre texte comme vous le souhaitez et écoutez-le prononcé par une autre voix, tout en conservant un contrôle total sur la diction.
ESTsoft and ElevenLabs partner to bring natural voiceovers and frame-accurate lip-sync to global video localization.
To celebrate 1 million agents created, build the best agent you can in 2 hours and compete for $20k+ in prizes.