
Étiquettes Audio Eleven v3 : Donner une conscience situationnelle à l'audio IA
- Catégorie
- Ressources
- Date
Les audio tags d’ElevenLabs contrôlent l’émotion, le rythme et les effets sonores de la voix IA.
Avec la sortie de Eleven v3, le prompt audio devient une compétence essentielle. Au lieu de simplement écrire ou coller le texte à faire lire par la voix IA, vous pouvez maintenant utiliser une nouvelle fonctionnalité — Tags audio — pour tout contrôler, de l’émotion à l’interprétation.
Eleven v3 est une version alpha aperçu de recherche du nouveau modèle. Il demande plus de prompt engineering que les versions précédentes — mais les résultats sont bluffants.
Les Audio Tags ElevenLabs sont des mots entre crochets que le nouveau modèle Eleven v3 peut interpréter pour guider l’action sonore. Cela peut aller de [excité], [chuchote], [soupire] à [coup de feu], [applaudissements] ou [explosion].
Les Audio Tags vous permettent de façonner le rendu des voix IA, y compris les indices non verbaux comme le ton, les pauses et le rythme. Que vous créiez des livres audio immersifs, des personnages interactifs ou des médias axés sur le dialogue, ces outils simples au niveau du script vous donnent un contrôle précis sur l’émotion et l’interprétation.
Vous pouvez placer des Audio Tags n’importe où dans votre script pour ajuster l’interprétation en temps réel. Il est aussi possible de combiner plusieurs tags dans un même script ou même une phrase. Les tags se répartissent en grandes catégories :
Ces tags vous aident à définir le ton émotionnel de la voix — qu’il soit sombre, intense ou enjoué. Par exemple, vous pouvez utiliser un ou plusieurs de [triste], [en colère], [joyeusement] ou [affligé].
Ces tags concernent davantage le ton et la performance. Utilisez-les pour ajuster le volume et l’énergie selon la scène, qu’elle soit retenue ou énergique. Exemples : [chuchote], [crie] ou même [accent x].
Une parole naturelle inclut des réactions. Vous pouvez ainsi ajouter du réalisme en intégrant des moments spontanés dans la voix. Par exemple : [rit], [se racle la gorge] ou [soupire].
Ces fonctionnalités reposent sur la nouvelle architecture de v3. Le modèle comprend le contexte du texte plus en profondeur, ce qui lui permet de suivre naturellement les indices émotionnels, les changements de ton et les transitions d’interlocuteur. Combiné aux Audio Tags, cela offre une expressivité inédite en synthèse vocale.
Vous pouvez aussi désormais créer des dialogues multi-interlocuteurs qui semblent spontanés — avec interruptions, changements d’humeur et nuances de conversation, le tout avec un minimum de prompt.
Les clones vocaux professionnels (PVC) ne sont pas encore totalement optimisés pour Eleven v3, ce qui peut entraîner une qualité de clonage inférieure par rapport aux anciens modèles. Pendant cette phase d’aperçu, il est préférable d’utiliser un clone vocal instantané (IVC) ou une voix conçue pour profiter des fonctionnalités v3. L’optimisation des PVC pour v3 arrive bientôt.
Eleven v3 est disponible dans l’interface ElevenLabs, et nous proposons 80% de réduction jusqu’à fin juin. L’API publique pour Eleven v3 (alpha) est aussi disponible. Que vous testiez ou que vous déployiez à grande échelle, c’est le moment d’explorer les possibilités.
Créer une voix IA qui interprète — et ne fait pas que lire — repose sur la maîtrise des Audio Tags. Nous avons préparé sept guides courts et pratiques pour montrer comment des tags comme [CHUCHOTE], [RIT DOUCEMENT], ou [accent français] vous permettent de gérer le contexte, l’émotion, le rythme et même les dialogues multi-personnages avec un seul modèle.
[CHUCHOTE], [CRIE], et [SOUPIRE] permettent à Eleven v3 de réagir à la situation — pour accentuer la tension, adoucir un avertissement ou marquer une pause.[voix de pirate] à [accent français], les tags transforment la narration en jeu de rôle. Changez de personnage en cours de phrase et dirigez des interprétations complètes sans changer de modèle.[soupire], [enthousiaste], ou [fatigué] guident les émotions à chaque instant, ajoutant tension, soulagement ou humour — sans réenregistrement.[pause], [émerveillé], ou [ton dramatique] contrôlent le rythme et l’accent pour guider l’auditeur à chaque étape.[interrompt], [superposé], ou des changements de ton. Un seul modèle, plusieurs voix — une conversation naturelle en une seule prise.[pause], [pressé], ou [étiré] permettent de moduler le tempo et de transformer un texte simple en véritable performance.[accent américain], [accent britannique], [accent du sud des États-Unis] et bien d’autres — pour une parole riche culturellement, sans changer de modèle.

.webp&w=3840&q=80)
.webp&w=3840&q=80)