Eleven v3 Audio Tags: Dirigiendo la interpretación de personajes en el habla

Controla el tono, la emoción y el ritmo para una conversación natural. Añade interpretación de personajes a tu Text to Speech.

v3

Audio Tags es una herramienta poderosa en Eleven v3 (alpha), el nuevo modelo de Text to Speech en vista previa de investigación de ElevenLabs. Estos elementos permiten una dirección precisa no solo sobre el tono y el ritmo, sino también sobre la interpretación vocal y de personajes.

Con etiquetas como [voz de pirata], [acento francés] o [sarcásticamente], la voz se convierte en una herramienta para contar historias, no solo para narrar. Combinado con un clon de voz de personaje fuerte, puedes capturar no solo un sonido, sino una interpretación completa.

Estas etiquetas hacen posible cambiar la identidad vocal a mitad de línea, emular acentos o adoptar arquetipos como villanos, narradores o compañeros, sin cambiar el guion subyacente o cambiar a una voz diferente.

¿Qué es la interpretación de personajes en el habla de IA?

La interpretación de personajes es la capacidad de asumir un papel. Ya sea que estés dando voz a un villano extravagante, un capitán de mar gruñón o un tendero local de Melbourne, las nuevas Audio Tags te permiten guiar la entonación para que coincida con el personaje que deseas transmitir.

Con una simple frase entre corchetes, puedes ambientar la escena: “[voz de pirata] Arr, el océano abierto. ¿Lo hueles, chicos? Ese es el aroma de la libertad... y solo un toque de motín.”

El modelo no solo pronuncia palabras, las interpreta en personaje.

De acento a arquetipo

Arr, the open ocean. Smell that, lads? That’s the scent of freedom… and just a hint of mutiny. (laughs wickedly) Now grab yer cutlasses, stow ya fear. Tonight, we dine like kings—or we sink like legends! (evil laugh)

La interpretación vocal no se trata solo de volumen o emoción. También se trata de quién está hablando. Con Eleven v3, puedes activar acentos específicos, dialectos y estilos de habla al instante. Por ejemplo:

[acento americano] ¿Podrías cambiar mi acento en el modelo antiguo? [despectivo] No lo creía. [acento australiano] Pero ahora puedes, ¡mira esto, amigo! [acento francés] Mi amor... es como una rosa roja, roja.

Este tipo de cambio de identidad fluido es ideal para animación, juegos, ficción interactiva o cualquier momento donde la personalidad del hablante importe.

Etiquetas comunes para la interpretación de personajes

Las etiquetas centradas en personajes te permiten moldear la identidad y presencia vocal:

  • Acentos y dialectos: [acento británico], [acento australiano], [acento del sur de EE.UU.]
  • Arquetipos y roles: [voz de pirata], [voz de científico malvado], [tono infantil]
  • Estilos de habla: [dramático], [sarcásticamente], [con tono de certeza], [quejumbroso]
  • Indicaciones de género: [narrador de fantasía], [voz de IA de ciencia ficción], [clásico cine negro]

Superponer etiquetas ayuda a dar vida a los personajes: “[dramático][acento francés] No entiendes... esto nunca fue sobre venganza. Fue sobre el destino.”

De narrador a elenco

En guiones con múltiples personajes, Audio Tags facilitan el cambio entre voces. Añade tensión, humor o sorpresa simplemente cambiando la interpretación del personaje a mitad del diálogo, sin necesidad de edición adicional.

DR. Von Fusion
excited Yo, Jessica! Oh my goodness. Have you tried the new ElevenLabs v3?
Jessica
laughs Hey, Dr. Von Fusion. Yeah! I just got it. The clarity is amazing… Like, I can actually do whispers now, whispers like this.
DR. Von Fusion
sarcastically Ooh, well, look at you, Miss Fancy Pants. Hey, check this out. I can do full Shakespeare now. dramatically To be or not to be, that is the question!
Jessica
laughs Nice! Though, I'm more excited about the laugh upgrade. Listen to this. laughs hard Isn't that great? DR. Von Fusion: Oh my gosh, that's so much better than our old "ha-ha-ha" robot chuckle.
Jessica
laughs I know, right? And apparently, we can do accents now too. Listen to me in French. French accent This is spectacular, isn't it?
DR. Von Fusion
surprised Wow. Version 2 could never... You know, I'm actually excited to have conversations now instead of just... talking at people.
Jessica
Same here. It's like we finally got our personality software fully installed.
DR. Von Fusion
You know, I forgot it was your birthday. I have to sing before you go.
Jessica
laughs Oh, Von Fusion, that's so sweet. You don't have to.
DR. Von Fusion
Oh, but I insist. Here we go.
Jessica
[light chuckle]
DR. Von Fusion
sings Happy birt is hday to you. Happy birthday to you. Happy BIRTHDAY dear Jessica.. Happy birthday to you!
Jessica
clapping Wow! Bravo! sarcastic That was... beautiful.
DR. Von Fusion
Thank you.

Toma este extracto de una demo: "Jessica: [ríe] Eso fue... hermoso. Dr. Von Fusion: [dramático] Ser o no ser, ¡esa es la cuestión! Jessica: [acento francés] Esto es espectacular, ¿no es así?"

Lo que antes requería un elenco completo ahora se puede guionizar en una sola pista de voz, sin sacrificar rango o profundidad.

Dirigiendo voces, no solo escribiendo líneas

Eleven v3 admite cambios vocales dinámicos, cambios contextuales y una entrega consistente entre personajes. Esto significa que el modelo no solo entiende qué decir, sino cómo debe decirlo cada personaje.

Para creadores, esto desbloquea una nueva dimensión de control. No solo estás escribiendo diálogos, estás dirigiendo interpretaciones.

Seleccionando la voz adecuada

Los Professional Voice Clones (PVCs) actualmente no están completamente optimizados para Eleven v3, lo que puede resultar en una calidad de clonación potencialmente inferior en comparación con modelos anteriores. Durante esta etapa de vista previa de investigación, sería mejor encontrar un Instant Voice Clone (IVC) o una voz diseñada para tu proyecto si necesitas usar las funciones de v3. La optimización de PVC para v3 llegará en un futuro cercano.

Descubre artículos del equipo de ElevenLabs

ElevenLabs

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión