La primera IA que puede reír

Publicado: 24 nov 2022

EscucharEscucha este artículo

0:00

0:000:00

En nuestra última entrada, mostramos algunas muestras largas generadas por nuestra herramienta de síntesis de voz y dimos un breve resumen de cómo el diseño único de nuestro modelo le permite producir un habla bien ritmada y no robótica. Hoy te vamos a mostrar que también es más rica emocionalmente y más consciente del contexto que cualquier otra. Esto, a su vez, la hace no solo muy atractiva de escuchar, sino también adecuada para aplicaciones que van desde dar voz a libros y videojuegos hasta publicidad.

Emociones

Las fortalezas de nuestro modelo - fluidez y entonación adecuada - provienen de una gran cantidad de datos de entrenamiento que ha visto (¡más de 500k horas!), pero realmente el factor central es cómo aprende de estos datos, lo cual se debe a la forma en que está construido. A nivel más básico, está hecho para entender las emociones contenidas en la escritura y decidir si el hablante debe sonar feliz, enojado, triste o neutral. Considera algunos ejemplos:

Todas las diferencias en entonación y estado de ánimo provienen puramente del texto - nada más influyó en el resultado. La puntuación y el significado de las palabras juegan un papel principal en decidir cómo entregar una frase particular, pero también nota cómo cuando el hablante está feliz con la victoria, el modelo produce convincentemente sonidos que no son parte del habla regular, como la risa (¡pronto lanzaremos una compilación de las diferentes risas que nuestra IA es capaz de hacer!). Del mismo modo, exagera adecuadamente la reacción cuando el hablante se divierte con algo hilarante - es ‘taaaaan divertido’.

Contexto

Pero conocer el significado de palabras individuales no es suficiente. Nuestro modelo es igualmente sensible a la situación más amplia que rodea cada enunciado - evalúa si algo tiene sentido por cómo se relaciona con el texto anterior y posterior. Esta perspectiva ampliada le permite entonar fragmentos más largos correctamente al superponer un hilo conductor emocional que abarca múltiples oraciones, como se muestra en nuestra entrada anterior que contiene contenido más extenso. Pero también le ayuda a evitar cometer errores lógicos. Por ejemplo, algunas palabras se escriben de la misma manera pero tienen significados diferentes, por ejemplo, ‘read’ en presente y pasado o ‘minute’ que significa una unidad de tiempo o algo pequeño. Decidir cuál es apropiado depende del contexto:

Palabra escrita vs. hablada

Debido a que diseñamos nuestra plataforma para satisfacer las demandas de contenido extenso, también necesitamos que nuestro modelo entienda que los símbolos y abreviaturas y ciertas convenciones que son comunes en la escritura deben pronunciarse de una manera particular o no pronunciarse literalmente. Por ejemplo, el modelo necesita saber que FBI, TNT y ATM se pronuncian de manera diferente a UNESCO o NASA. Del mismo modo, $3tr está perfectamente bien en la escritura, pero cuando se lee en voz alta, debe convertirse en ‘tres billones de dólares’.

Intervención humana

Reconocer estas sutiles distinciones es crucial ya que nuestro objetivo es minimizar la necesidad de intervención humana en el proceso de generación. Después de todo, no promovemos la capacidad de nuestra herramienta para generar un audiolibro en minutos para que alguien tenga que escuchar todo el audio y luego reescribir todo el texto. No obstante, aunque actualizamos continuamente las reglas de pronunciación de nuestro modelo, siempre es posible que algo lo confunda. Para ello, estamos desarrollando un sistema para marcar incertidumbres que permitirá a los usuarios ver instantáneamente qué partes del texto el modelo encontró problemáticas y dejarles enseñarle cómo deben decirse.

Incontables aplicaciones

Todas las capacidades que hemos mostrado son pasos en el camino para hacer de nuestro software la herramienta de voz IA más versátil.

Editores de noticias ya han descubierto que aumentar su presencia de audio es una excelente manera de retener suscriptores. El gran beneficio de incrustar cada artículo con su lectura de audio es que las personas pueden escuchar mientras hacen otra cosa. Aquellos editores que lo hacen a menudo usan actores de doblaje, lo cual es costoso y no todos los artículos se cubren. O usan a sus propios reporteros para leer historias, lo cual consume tiempo, lo que también significa costoso. Aquellos que usan voz sintética para dar voz a su contenido ahorran dinero pero pagan otro precio al comprometer la calidad. Ahora, con ElevenLabs, no hay necesidad de comprometerse y puedes tener lo mejor de ambos mundos.

O imagina generar audiolibros con locuciones emocionalmente atractivas y distintas para todos los personajes, en minutos. Esto no solo presenta nuevas formas de interactuar con los libros, sino que también facilita enormemente el acceso para personas con dificultades de aprendizaje.

Solo piensa en las posibilidades ahora abiertas para desarrolladores de videojuegos que ya no necesitan considerar si un personaje particular es lo suficientemente importante como para justificar el considerable costo de darle voz con actores reales. Todos los NPCs ahora pueden tener sus propias voces y personalidades.

Agencias de publicidad y productores ahora pueden experimentar libremente y ajustar locuciones para adaptarse al tono de cualquier campaña, ya sea para un canal de TV deportivo o para una marca de relojes de lujo. La voz de cualquier actor puede ser licenciada para clonación para que los cambios se puedan aplicar instantáneamente y sin que el actor esté físicamente presente. O si deciden optar por una voz completamente sintética, los anunciantes tampoco tienen que preocuparse por pagar derechos de voz.

Asistentes virtuales puede sonar más realista porque

Beta de ElevenLabs

Ve aquí para registrarte en nuestra plataforma beta y probarla por ti mismo. Estamos constantemente haciendo mejoras y todos los comentarios de los usuarios son muy valiosos para nosotros en esta etapa inicial. ¡Disfruta!

La primera IA que puede reír

Emociones

Contexto

Palabra escrita vs. hablada

Intervención humana

Incontables aplicaciones

Beta de ElevenLabs

Artículos relacionados

ElevenLabs sale de la fase beta y lanza Eleven Multilingual v2: un modelo de inteligencia artificial de voz básico para casi 30 idiomas

Presentamos Eleven Multilingual v1: Nuestro nuevo modelo de síntesis de voz

Esta Voz No Existe - Voz IA Generativa

Conversión de voz