Qué son las Etiquetas de Audio Eleven v3 y por qué importan

Las etiquetas de audio de ElevenLabs controlan la emoción, el ritmo y los efectos de sonido de la voz IA.

Audio tags

Con el lanzamiento de Eleven v3, crear indicaciones de audio se ha convertido en una habilidad esencial. En lugar de escribir o pegar las palabras que quieres que diga la voz IA, ahora puedes usar una nueva capacidad — Etiquetas de Audio — para controlar todo, desde la emoción hasta la entonación.

Eleven v3 es una versión alfa vista previa de investigación del nuevo modelo. Requiere más ingeniería de indicaciones que los modelos anteriores — pero las generaciones son impresionantes.

Las Etiquetas de Audio de ElevenLabs son palabras entre corchetes que el nuevo modelo Eleven v3 puede interpretar y usar para dirigir la acción audible. Pueden ser desde [emocionado], [susurros] y [suspiros] hasta [disparo], [aplausos] y [explosión].

Las Etiquetas de Audio te permiten moldear cómo suenan las voces IA, incluyendo señales no verbales como tono, pausas y ritmo. Ya sea que estés creando audiolibros inmersivos, personajes interactivos o medios impulsados por diálogos, estas herramientas simples a nivel de guion te dan un control preciso sobre la emoción y la entonación.

Dirigiendo la actuación con Etiquetas de Audio

Puedes colocar Etiquetas de Audio en cualquier parte de tu guion para moldear la entonación en tiempo real. También puedes usar combinaciones de etiquetas dentro de un guion o incluso una oración. Las etiquetas se dividen en categorías principales:

Emociones

Estas etiquetas pueden ayudarte a establecer el tono emocional de la voz, ya sea sombrío, intenso o alegre. Por ejemplo, podrías usar una o una combinación de [triste], [enfadado], [feliz] y [afligido].

sorrowful I couldn't sleep that night. The air was too still, and the moonlight kept sliding through the blinds like it was trying to tell me something. quietly And suddenly, that's when I saw it.
Okay, you are not going to believe this. You know how I've been totally stuck on that short story, like staring at the screen for HOURS, just... nothing? sigh I was seriously about to just trash the whole thing - start over - give up probably, but then laughs last night I was just doodling, not even thinking about it, right? And this one little phrase popped into my head, just completely out of the blue, and it wasn't even for the story initially. But then I typed it out just to see, and it was like the FLOODGATES opened. Suddenly I knew exactly where the character needed to go, what the ending had to be. It all just - clicked. sigh I stayed up till like 3:00 AM, just typing like a maniac, didn't even stop for coffee. light chuckle And it's, it's GOOD, like really good. It feels so complete now, you know, like it finally has a soul. I am so incredibly pumped to finish editing it now. It went from feeling like a chore to feeling like MAGIC. Seriously, I'm still buzzing.

Dirección de la entonación

Estas se centran más en el tono y la actuación. Puedes usar estas etiquetas para ajustar el volumen y la energía en escenas que necesitan contención o fuerza. Ejemplos incluyen: [susurros], [gritos] e incluso [x acento].

Could you switch my accent in the old model? dismissive didn't think so. cheeky but you can now! so, Check this out...In just a sec, I'm gonna to speak with a different accent.. and just between you and me whispers I don't really know how. chuckles but ok.. first let's change it up... Australian accent so that I can fit in with the locals in Melbourne when I visit next month! laughs hard Woooo! yeah man, this - is - sick. Ok, let's try a different one - see if you can guess... strong French accent My love... eez like a red, red rose..
Marissa
starting to speak So I was thinking we could—
Chris
jumping in —test our new timing features?
Marissa
surprised Exactly! How did you—
Chris
overlapping —know what you were thinking? Lucky guess! Sorry, go ahead.
Marissa
cautiously Okay, so if we both try to talk at the same time—
Chris
—we'll probably crash the system!
Marissa
panicking Wait, are we crashing? I can't tell if this is a feature or a—
Chris
interrupting Bug! ...Did I just cut you off again?
Marissa
sighing Yes, but honestly? This is kind of fun.

Reacciones humanas

El habla natural verdadera incluye reacciones. Por ejemplo, puedes usar esto para añadir realismo incorporando momentos naturales y no guionizados en el discurso. Por ejemplo: [risas], [aclara la garganta] y [suspiros].

We're off under the lights here for this semi-final clash, the stadium buzzing with anticipation. ElevenLabs United in their iconic black and white shirts, pushing forward with intent straight from the opening whistle. excited The ball is zipped out wide, early attack here. Driving down the wing, pace to Bernie, shouting skips past one, skips past two! Oh, this is beautiful. One-on-one with the full-back, cuts inside—oh, that's a lovely bit of footwork!!! PURE MAGIC on the pitch! ElevenLabs on top form tonight!
Oh my God. laughs You guys, like no joke, I just tried this TTS thing and it was, like, weirdly emotional. Like it literally said, "Hi," and I was, like, on the verge of tears. laughs I don't even cry, okay? I'm a Capricorn.

Construido sobre un modelo más expresivo

La base de estas características es la nueva arquitectura detrás de v3. El modelo entiende el contexto del texto a un nivel más profundo, lo que significa que puede seguir señales emocionales, cambios de tono y transiciones de hablante de manera más natural. Combinado con las Etiquetas de Audio, esto desbloquea una mayor expresividad que antes no era posible en TTS.

Ahora también puedes crear diálogos multivoces que se sienten espontáneos, manejando interrupciones, cambios de humor y matices conversacionales con un mínimo de indicaciones.

Disponible ahora

Los Professional Voice Clones (PVCs) no están completamente optimizados para Eleven v3, lo que puede resultar en una calidad de clonación inferior en comparación con modelos anteriores. Durante esta etapa de vista previa de investigación, sería mejor encontrar un Instant Voice Clone (IVC) o una voz diseñada para tu proyecto si necesitas usar las funciones de v3. La optimización de PVC para v3 llegará pronto.80% off until the end of June. Public API for Eleven v3 (alpha) is coming soon. For early access, please contact sales. Whether you’re experimenting or deploying at scale, now’s the time to explore what’s possible.

Descubre artículos del equipo de ElevenLabs

ElevenLabs

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión