
Eleven v3 Audio Tags: Dando conciencia situacional al audio IA
Mejora el habla IA con Eleven v3 Audio Tags. Controla el tono, la emoción y el ritmo para una conversación natural. Añade conciencia situacional a tu Text to Speech.
Las etiquetas de audio de ElevenLabs controlan la emoción, el ritmo y los efectos de sonido de la voz IA.
Con el lanzamiento de Eleven v3, crear indicaciones de audio se ha convertido en una habilidad esencial. En lugar de escribir o pegar las palabras que quieres que diga la voz IA, ahora puedes usar una nueva capacidad — Etiquetas de Audio — para controlar todo, desde la emoción hasta la entonación.
Eleven v3 es una versión alfa vista previa de investigación del nuevo modelo. Requiere más ingeniería de indicaciones que los modelos anteriores — pero las generaciones son impresionantes.
Las Etiquetas de Audio de ElevenLabs son palabras entre corchetes que el nuevo modelo Eleven v3 puede interpretar y usar para dirigir la acción audible. Pueden ser desde [emocionado], [susurros] y [suspiros] hasta [disparo], [aplausos] y [explosión].
Las Etiquetas de Audio te permiten moldear cómo suenan las voces IA, incluyendo señales no verbales como tono, pausas y ritmo. Ya sea que estés creando audiolibros inmersivos, personajes interactivos o medios impulsados por diálogos, estas herramientas simples a nivel de guion te dan un control preciso sobre la emoción y la entonación.
Puedes colocar Etiquetas de Audio en cualquier parte de tu guion para moldear la entonación en tiempo real. También puedes usar combinaciones de etiquetas dentro de un guion o incluso una oración. Las etiquetas se dividen en categorías principales:
Estas etiquetas pueden ayudarte a establecer el tono emocional de la voz, ya sea sombrío, intenso o alegre. Por ejemplo, podrías usar una o una combinación de [triste], [enfadado], [feliz] y [afligido].
Estas se centran más en el tono y la actuación. Puedes usar estas etiquetas para ajustar el volumen y la energía en escenas que necesitan contención o fuerza. Ejemplos incluyen: [susurros], [gritos] e incluso [x acento].
El habla natural verdadera incluye reacciones. Por ejemplo, puedes usar esto para añadir realismo incorporando momentos naturales y no guionizados en el discurso. Por ejemplo: [risas], [aclara la garganta] y [suspiros].
La base de estas características es la nueva arquitectura detrás de v3. El modelo entiende el contexto del texto a un nivel más profundo, lo que significa que puede seguir señales emocionales, cambios de tono y transiciones de hablante de manera más natural. Combinado con las Etiquetas de Audio, esto desbloquea una mayor expresividad que antes no era posible en TTS.
Ahora también puedes crear diálogos multivoces que se sienten espontáneos, manejando interrupciones, cambios de humor y matices conversacionales con un mínimo de indicaciones.
Los Professional Voice Clones (PVCs) no están completamente optimizados para Eleven v3, lo que puede resultar en una calidad de clonación inferior en comparación con modelos anteriores. Durante esta etapa de vista previa de investigación, sería mejor encontrar un Instant Voice Clone (IVC) o una voz diseñada para tu proyecto si necesitas usar las funciones de v3. La optimización de PVC para v3 llegará pronto.80% off until the end of June. Public API for Eleven v3 (alpha) is coming soon. For early access, please contact sales. Whether you’re experimenting or deploying at scale, now’s the time to explore what’s possible.
Mejora el habla IA con Eleven v3 Audio Tags. Controla el tono, la emoción y el ritmo para una conversación natural. Añade conciencia situacional a tu Text to Speech.
AI-generated videos created with avatars & dubbed voice have grown 7x
Desarrollado por ElevenLabs Conversational AI