ElevenLabs sale de la fase «beta» y lanza Eleven Multilingual v2, un modelo de conversación mediante IA en 30 idiomas

Published: Aug 22, 2023

ListenListen to this article

0:00

0:000:00

La plataforma de voz mediante IA ElevenLabs da un salto radical en sus esfuerzos por eliminar las barreras lingüísticas de los diferentes contenidos con el lanzamiento de un nuevo modelo de aprendizaje profundo, el cual presenta capacidades multilingües en 30 idiomas: Eleven Multilingual v2.
Este avance permitirá que los medios de comunicación, los desarrolladores de juegos, los editores y los creadores independientes de todo el mundo puedan mejorar drásticamente la accesibilidad a sus contenidos.
Estas nuevas capacidades, que llegan después de una serie de lanzamientos de funciones y mejoras ejecutados desde que en enero se lanzara la plataforma, marcan oficialmente también el final de la fase «beta» de la compañía.
El objetivo de ElevenLabs es hacer que todos los contenidos resulten accesibles de forma universal, en cualquier idioma y con cualquier voz.

Londres, Reino Unido - ElevenLabs, líder mundial en «software» de voz mediante IA, ha lanzado hoy un nuevo modelo de generación de voz multilingüe en 30 idiomas, capaz de producir con precisión audio «emocionalmente rico» generado por IA.

Este avance, basado íntegramente en investigaciones internas, permitirá a los creadores producir contenido de audio localizado para los mercados internacionales de Europa, Asia y Oriente Medio. ElevenLabs ha dedicado los últimos 18 meses a analizar los marcadores del habla humana, lo que le ha permitido crear nuevos mecanismos para comprender el contexto y transmitir emociones a la generación del habla, así como sintetizar voces nuevas y únicas.

Con Eleven Multilingual v2, al introducir un texto en la plataforma de conversión de texto a voz de ElevenLabs, el nuevo modelo puede identificar automáticamente unos 30 idiomas y generar voz con un nivel de autenticidad sin precedentes.

Al mismo tiempo, e independientemente de si se utiliza una voz sintética o una voz clonada, las características de voz únicas del hablante se mantienen en todos los idiomas, incluido su acento original. Eso significa que se puede usar la misma voz para dar vida al contenido en 30 idiomas diferentes.

Este lanzamiento llega después de la publicación de Professional Voice Cloning, accesible para todos los creadores de la plataforma. Esta actualización del producto, que se lanzó junto con funciones de seguridad adicionales, permite a los usuarios crear una copia digital perfecta de su propia voz. Voz que es prácticamente indistinguible de la original. El lanzamiento de hoy supone que nuestra voz podrá hablar en los cerca de 30 idiomas que ofrece el modelo multilingüe.

Los idiomas compatibles incluyen coreano, neerlandés, turco, sueco, indonesio, vietnamita, filipino, ucraniano, griego, checo, finlandés, rumano, danés, búlgaro, malayo, húngaro, noruego, eslovaco, croata, árabe clásico y tamil. Se unen así a los idiomas disponibles anteriormente, incluidos inglés, polaco, alemán, español, francés, italiano, hindi y portugués.

Tras los recientes lanzamientos de nuevas funciones, y con las mejoras continuas de la plataforma, ElevenLabs también ha confirmado hoy que la plataforma saldrá oficialmente de la fase «beta». Esta transición marca un momento crucial en la dedicación de la empresa: proporcionar herramientas fiables y de vanguardia a su más de 1 millón de usuarios globales.

De cara al futuro, ElevenLabs planea introducir un mecanismo que permita a los usuarios compartir voces en la plataforma y beneficiarse del desarrollo de nuevos archivos de audio, lo que fomentaría las oportunidades de colaboración entre los humanos y la IA.

Mati Staniszewski, director ejecutivo (CEO) y cofundador de ElevenLabs, comenta:

«ElevenLabs nació con el sueño de hacer que todos los contenidos resulten accesibles de forma universal, en cualquier idioma y con cualquier voz. Con el lanzamiento de Eleven Multilingual v2, estamos un paso más cerca de hacer realidad ese sueño y de hacer que las voces de calidad humana creadas mediante inteligencia artificial estén disponibles en todos los dialectos».

«Nuestras herramientas de generación "de texto a voz" contribuyen a la igualdad de oportunidades y ofrecen capacidades de audio hablado de alta calidad a todos los creadores. Esos beneficios se extienden ahora a aplicaciones multilingües en casi 30 idiomas. Con el tiempo, esperamos abarcar aún más idiomas y voces con la ayuda de la IA, y eliminar las barreras lingüísticas en los contenidos. En ElevenLabs, creemos que estos avances en la accesibilidad fomentarán en última instancia una mayor creatividad, innovación y diversidad».

Al reducir los costes y los recursos necesarios para crear contenidos de audio de alta calidad en múltiples idiomas, ElevenLabs permite que las empresas y los creadores produzcan unos contenidos más imaginativos y accesibles en todas las culturas e idiomas.

En el caso de los desarrolladores y editores de juegos independientes, la herramienta de generación de voz multilingüe ofrece nuevas oportunidades para traducir experiencias de juego y contenidos de audio destinados a audiencias internacionales, conectando así con los jugadores y oyentes en sus propios idiomas sin rebajar la calidad o la precisión del audio hablado.

Del mismo modo, las instituciones educativas disponen ahora de los medios necesarios para proporcionar de forma instantánea a sus estudiantes contenidos de audio precisos y en los idiomas de destino, lo que refuerza las habilidades de comprensión y pronunciación de los distintos idiomas, así como para satisfacer los diferentes estilos de enseñanza y las necesidades de aprendizaje de los estudiantes de todo el mundo.

Cualquier tipo de creador puede utilizar la herramienta de ElevenLabs para mejorar la accesibilidad a sus contenidos por parte de las personas con discapacidad visual o con necesidades de aprendizaje adicionales, de manera que los contenidos visuales se complementen con los audios disponibles en varios idiomas.

El conjunto inicial de herramientas de voz mediante IA, presentado en enero de 2023, incluía la capacidad de convertir cualquier texto en voz gracias a una selección de voces sintéticas prediseñadas y la capacidad de crear un clon de la voz del usuario. La herramienta de síntesis de voz multilingüe es un paso más en el objetivo de ElevenLabs de hacer que todos los contenidos resulten accesibles de forma universal, en cualquier idioma y con cualquier voz.

Esta tecnología ya se ha adoptado en múltiples verticales y sectores creativos, lo que ha permitido que los autores independientes creen audiolibros, den voz a personajes secundarios en videojuegos, apoyen a las personas con discapacidad visual para que accedan a contenidos escritos en línea e incluso activen el primer canal de radio mediante IA del mundo. ElevenLabs se ha asociado con algunos de los principales estudios y creadores de contenidos, como los generadores de vídeos mediante IA D-ID, uno de los mayores editores de audiolibros del mundo, Storytel, la plataforma de vídeo científico de acceso abierto ScienceCast, cuya herramienta de generación de vídeo condensa los trabajos de investigación científica publicados en arXiv, la plataforma líder en el mundo de creación de contenidos, TheSoul Publishing, los desarrolladores de algunos de los juegos más increíbles, como Embark Studios y Paradox Interactive, y la plataforma de medios MNTN.

ElevenLabs sale de la fase «beta» y lanza Eleven Multilingual v2, un modelo de conversación mediante IA en 30 idiomas

Similar articles

Introducing Dubbing v2

Introducing Music v2

Eleven v3 is Now Generally Available

Introducing Scribe v2