
Présentation de Eleven v3 (alpha) — le modèle de Text to Speech le plus expressif
Eleven v3 est le modèle de Text to Speech le plus expressif
Présentation de Eleven v3 Alpha
Essayez v3Améliorez la parole IA avec les Étiquettes Audio Eleven v3. Contrôlez le ton, l'émotion et le rythme pour une conversation naturelle. Ajoutez une conscience situationnelle à votre Text to Speech.
Les balises audio sont une partie fondamentale du nouveau
Au plus simple, les Étiquettes Audio sont des mots entre crochets. Le modèle les interprète comme des indications de performance. Cela signifie que vous pouvez ajuster la livraison en cours de phrase pour refléter des nuances émotionnelles ou des changements de situation — donnant à l'IA un certain degré de conscience situationnelle.
La conscience situationnelle signifie que l'IA adapte sa livraison au moment. Avec les Étiquettes Audio, vous contrôlez non seulement ce que le modèle dit — mais aussi comment il réagit.
Que vous ajoutiez de l'urgence avec une étiquette [SHOUTING], adoucissiez un avertissement avec un [WHISPER], ou signaliez une hésitation avec [SIGH], les étiquettes transforment la narration en performance. Elles sont particulièrement précieuses dans des scènes à fort contexte ou dynamiques.
Imaginez que vous scénarisiez une vidéo de moments forts Veo 3 d'un match de football entre 11 United et 12 United. Vous voulez que l'intensité monte avec l'action : « Il passe un défenseur — [EXCITED] voici le centre — [SHOUTING] BUT ! »
Ou vous donnez voix à un moment de suspense dans un livre audio : « [WHISPERING] Je pense que quelqu'un est dans la maison. [PAUSE] Restez silencieux. »
Ce ne sont pas des ajouts stylistiques. Ils définissent le moment et influencent la sensation. Le modèle ne lit pas — il interprète.
Les Étiquettes Audio vous permettent de simuler une gamme d'indices émotionnels et physiques :
Les étiquettes peuvent être superposées pour ajouter des nuances : « [NERVOUSLY] Je... je ne suis pas sûr que ça va marcher. [GULPS] Mais essayons quand même. »
Eleven v3 prend en charge ces étiquettes avec un modèle contextuel plus profond. Il peut changer de ton en cours de ligne, gérer les interruptions et maintenir le flux — vous offrant une livraison plus naturelle sans réécrire le script.
Pour les concepteurs de voix, les développeurs de jeux et les conteurs, cela ouvre une nouvelle couche créative. Vous n'écrivez pas seulement des répliques. Vous les mettez en scène.
Les Professional Voice Clones (PVCs) ne sont actuellement pas entièrement optimisés pour Eleven v3, ce qui peut entraîner une qualité de clone potentiellement inférieure par rapport aux modèles précédents. Pendant cette phase de prévisualisation de recherche, il serait préférable de trouver un Instant Voice Clone (IVC) ou une voix conçue pour votre projet si vous devez utiliser les fonctionnalités v3. L'optimisation des PVC pour v3 arrive bientôt.
Eleven v3 est le modèle de Text to Speech le plus expressif
Les balises audio d'ElevenLabs contrôlent l'émotion, le rythme et les effets sonores des voix IA.
Propulsé par ElevenLabs IA conversationnelle