
Deepak Chopra brings his voice and teachings to life with ElevenLabs and Supertab
Sharing decades of wisdom through conversational AI
Controla el tono, la emoción y el ritmo para una conversación natural. Añade interpretación de personajes a tu Text to Speech.
Audio Tags es una herramienta poderosa en Eleven v3 (alpha), el nuevo modelo de Text to Speech en vista previa de investigación de ElevenLabs. Estos elementos permiten una dirección precisa no solo sobre el tono y el ritmo, sino también sobre la interpretación vocal y de personajes.
Con etiquetas como [voz de pirata], [acento francés] o [sarcásticamente], la voz se convierte en una herramienta para contar historias, no solo para narrar. Combinado con un clon de voz de personaje fuerte, puedes capturar no solo un sonido, sino una interpretación completa.
Estas etiquetas hacen posible cambiar la identidad vocal a mitad de línea, emular acentos o adoptar arquetipos como villanos, narradores o compañeros, sin cambiar el guion subyacente o cambiar a una voz diferente.
La interpretación de personajes es la capacidad de asumir un papel. Ya sea que estés dando voz a un villano extravagante, un capitán de mar gruñón o un tendero local de Melbourne, las nuevas Audio Tags te permiten guiar la entonación para que coincida con el personaje que deseas transmitir.
Con una simple frase entre corchetes, puedes ambientar la escena: “[voz de pirata] Arr, el océano abierto. ¿Lo hueles, chicos? Ese es el aroma de la libertad... y solo un toque de motín.”
El modelo no solo pronuncia palabras, las interpreta en personaje.
La interpretación vocal no se trata solo de volumen o emoción. También se trata de quién está hablando. Con Eleven v3, puedes activar acentos específicos, dialectos y estilos de habla al instante. Por ejemplo:
[acento americano] ¿Podrías cambiar mi acento en el modelo antiguo? [despectivo] No lo creía. [acento australiano] Pero ahora puedes, ¡mira esto, amigo! [acento francés] Mi amor... es como una rosa roja, roja.
Este tipo de cambio de identidad fluido es ideal para animación, juegos, ficción interactiva o cualquier momento donde la personalidad del hablante importe.
Las etiquetas centradas en personajes te permiten moldear la identidad y presencia vocal:
Superponer etiquetas ayuda a dar vida a los personajes: “[dramático][acento francés] No entiendes... esto nunca fue sobre venganza. Fue sobre el destino.”
En guiones con múltiples personajes, Audio Tags facilitan el cambio entre voces. Añade tensión, humor o sorpresa simplemente cambiando la interpretación del personaje a mitad del diálogo, sin necesidad de edición adicional.
Toma este extracto de una demo: "Jessica: [ríe] Eso fue... hermoso. Dr. Von Fusion: [dramático] Ser o no ser, ¡esa es la cuestión! Jessica: [acento francés] Esto es espectacular, ¿no es así?"
Lo que antes requería un elenco completo ahora se puede guionizar en una sola pista de voz, sin sacrificar rango o profundidad.
Eleven v3 admite cambios vocales dinámicos, cambios contextuales y una entrega consistente entre personajes. Esto significa que el modelo no solo entiende qué decir, sino cómo debe decirlo cada personaje.
Para creadores, esto desbloquea una nueva dimensión de control. No solo estás escribiendo diálogos, estás dirigiendo interpretaciones.
Los Professional Voice Clones (PVCs) actualmente no están completamente optimizados para Eleven v3, lo que puede resultar en una calidad de clonación potencialmente inferior en comparación con modelos anteriores. Durante esta etapa de vista previa de investigación, sería mejor encontrar un Instant Voice Clone (IVC) o una voz diseñada para tu proyecto si necesitas usar las funciones de v3. La optimización de PVC para v3 llegará en un futuro cercano.
Sharing decades of wisdom through conversational AI
AI-generated videos created with avatars & dubbed voice have grown 7x
Desarrollado por ElevenLabs Conversational AI