
Introducing the ElevenLabs app
Our most powerful AI voice tools are now available for iOS and Android.
Presentamos Eleven v3 Alpha
Prueba v3En nuestra última entrada, mostramos algunas muestras largas generadas por nuestra herramienta de síntesis de voz y ofrecimos una breve descripción de cómo el diseño único de nuestro modelo le permite producir un habla bien ritmada y no robótica. Hoy te vamos a mostrar que también es más rica emocionalmente y más consciente del contexto que cualquier otra. Esto, a su vez, la hace no solo muy atractiva de escuchar, sino también adecuada para aplicaciones que van desde dar voz a libros y videojuegos hasta publicidad.
Las fortalezas de nuestro modelo - fluidez y entonación adecuada - provienen de la gran cantidad de datos de entrenamiento que ha visto (¡más de 500k horas!), pero realmente el factor central es cómo aprende de estos datos, lo cual se debe a la forma en que está construido. A nivel básico, está diseñado para entender las emociones contenidas en la escritura y decidir si el hablante debe sonar feliz, enfadado, triste o neutral. Considera algunos ejemplos:
Todas las diferencias en entonación y estado de ánimo provienen únicamente del texto - nada más influyó en el resultado. La puntuación y el significado de las palabras juegan un papel principal en decidir cómo entregar una frase particular, pero también observa cómo cuando el hablante está feliz con la victoria, el modelo produce convincentemente sonidos que no son parte del habla regular, como la risa (¡pronto lanzaremos una recopilación de las diferentes risas que nuestra IA es capaz de hacer!). Del mismo modo, exagera adecuadamente la reacción cuando el hablante se divierte con algo hilarante - es ‘taaaaan divertido’.
Pero conocer el significado de palabras individuales no es suficiente. Nuestro modelo es igualmente sensible a la situación más amplia que rodea cada enunciado - evalúa si algo tiene sentido por cómo se conecta con el texto anterior y posterior. Esta perspectiva ampliada le permite entonar fragmentos más largos correctamente al superponer un hilo conductor emocional que abarca múltiples oraciones, como se mostró en nuestra entrada anterior con contenido más extenso. Pero también le ayuda a evitar cometer errores lógicos. Por ejemplo, algunas palabras se escriben de la misma manera pero tienen significados diferentes, como ‘read’ en presente y pasado o ‘minute’ significando una unidad de tiempo o algo pequeño. Decidir cuál es apropiado depende del contexto:
Como diseñamos nuestra plataforma para satisfacer las demandas de contenido largo, también necesitamos que nuestro modelo entienda que los símbolos y abreviaturas y ciertas convenciones comunes en la escritura deben pronunciarse de una manera particular o no pronunciarse literalmente. Por ejemplo, el modelo necesita saber que FBI, TNT y ATM se pronuncian de manera diferente a UNESCO o NASA. De manera similar, $3tr está perfectamente bien en escritura, pero al leerlo en voz alta, debe convertirse en ‘tres billones de dólares’.
Reconocer estas sutiles distinciones es crucial ya que nuestro objetivo es minimizar la necesidad de intervención humana en el proceso de generación. Después de todo, no promovemos la capacidad de nuestra herramienta para generar un audiolibro en minutos para que alguien tenga que escuchar todo el audio y luego reescribir todo el texto. No obstante, aunque actualizamos continuamente las reglas de pronunciación de nuestro modelo, siempre es posible que algo lo confunda. Para ello, estamos desarrollando un sistema para marcar incertidumbres que permitirá a los usuarios ver instantáneamente qué partes del texto el modelo encontró problemáticas y enseñarles cómo deben decirse.
Todas las capacidades que hemos mostrado son pasos hacia hacer nuestro software la herramienta de voz IA más versátil.
Los editores de noticias ya han descubierto que aumentar su presencia de audio es una excelente manera de retener suscriptores. El gran beneficio de incrustar cada artículo con su lectura de audio es que las personas pueden escuchar mientras hacen otra cosa. Aquellos editores que lo hacen a menudo usan actores de doblaje, lo cual es costoso y no todos los artículos se cubren. O usan a sus propios reporteros para leer historias, lo cual consume tiempo, lo que también significa costoso. Aquellos que usan voz sintética para dar voz a su contenido ahorran dinero pero pagan otro precio al comprometer la calidad. Ahora, con ElevenLabs, no hay necesidad de comprometerse y puedes tener lo mejor de ambos mundos.
O imagina generar audiolibros con locuciones emocionalmente atractivas para todos los personajes, en minutos. Esto no solo presenta nuevas formas de interactuar con los libros, sino que también facilita enormemente el acceso para personas con dificultades de aprendizaje.
Solo piensa en las posibilidades ahora abiertas para los desarrolladores de videojuegos que ya no necesitan considerar si un personaje en particular es lo suficientemente importante como para justificar el considerable costo de darle voz con actores reales. Todos los NPCs ahora pueden tener sus propias voces y personalidades.
Las agencias de publicidad y los productores ahora pueden experimentar libremente y ajustar las locuciones para adaptarse al tono de cualquier campaña, ya sea para un canal de TV deportivo o para una marca de relojes de lujo. La voz de cualquier actor puede ser licenciada para clonación de modo que los cambios se puedan aplicar instantáneamente y sin que el actor esté físicamente presente. O si deciden optar por una voz completamente sintética, los anunciantes tampoco tienen que preocuparse por pagar derechos de voz.
Los asistentes virtuales pueden volverse más realistas tanto porque la clonación de voz les permite hablar con una voz familiar para un usuario en particular como porque esta nueva profundidad de entrega los haría más naturales para interactuar.
Ve aquí para registrarte en nuestra plataforma beta y probarla por ti mismo. Estamos constantemente haciendo mejoras y todos los comentarios de los usuarios son muy valiosos para nosotros en esta etapa inicial. ¡Disfruta!
Our most powerful AI voice tools are now available for iOS and Android.
Bringing voice-first, agentic customer support to the enterprise