ElevenLabs sale de la versión beta y lanza Eleven Multilingual v2: un modelo de IA para voz en 30 idiomas

Publicado: 22 ago 2023

EscucharEscucha este artículo

0:00

0:000:00

La plataforma de IA de audio ElevenLabs da un salto significativo hacia adelante en sus esfuerzos por eliminar las barreras lingüísticas del contenido, con el lanzamiento de un nuevo modelo de aprendizaje profundo que soporta capacidades multilingües en 30 idiomas: Eleven Multilingual v2
Este avance permitirá a empresas de medios, desarrolladores de juegos, editores y creadores independientes de todo el mundo mejorar significativamente la accesibilidad de su contenido
Estas nuevas capacidades, que siguen a una serie de lanzamientos de características y mejoras desde el lanzamiento de la plataforma en enero, representan el fin oficial de la fase beta de la empresa
La misión de ElevenLabs es hacer que todo el contenido sea accesible globalmente en cualquier idioma y con cualquier voz

Londres, Reino Unido - ElevenLabs, ElevenLabs líder mundial en software de IA de audio, lanzó hoy un nuevo modelo de generación de voz multilingüe capaz de producir voz IA con un "rico matiz emocional" en 30 idiomas.

Este avance, basado completamente en investigaciones internas, permitirá a creadores producir contenido de audio nativo para mercados internacionales en toda Europa, Asia y Oriente Medio. ElevenLabs ha pasado los últimos dieciocho meses analizando las señales del habla humana, construyendo nuevos mecanismos para entender el contexto y transmitir emociones en la generación de voz, además de crear voces nuevas y únicas.

El nuevo modelo Eleven Multilingual v2, al introducir texto en la plataforma de ElevenLabs para Text to Speech, permite identificar automáticamente casi 30 idiomas escritos y generar voz en ellos con un nivel de autenticidad sin precedentes.

Mientras tanto, independientemente de si la voz utilizada es una voz sintética o clonada, se mantendrán las características únicas de la voz del hablante en todos los idiomas, incluida su acento original. Esto significa que se puede usar la misma voz para dar vida al contenido en 30 idiomas diferentes.

Este lanzamiento sigue al lanzamiento público de la clonación de voz profesional para todos los creadores en la plataforma. Esta actualización del producto, lanzada junto con características adicionales de seguridad, permite a los usuarios crear una copia digital perfecta de su voz; una versión virtual

indistinguible del original. El lanzamiento de hoy significa que tu voz podrá hablar en casi 30 idiomas que ofrece el modelo multilingüe.

Los idiomas soportados incluyen: coreano, neerlandés, turco, sueco, indonesio, vietnamita, filipino, ucraniano, griego, checo, finlandés, rumano, danés, búlgaro, malayo, húngaro, noruego, eslovaco, croata, árabe clásico y tamil. Se han unido a los idiomas previamente disponibles, incluyendo inglés, polaco, alemán, español, francés, italiano, hindi y portugués.

ElevenLabs también confirmó hoy, tras el lanzamiento de las últimas características y mejoras continuas de la plataforma, que la plataforma saldrá oficialmente de la versión beta. Esta transición representa un momento crucial en el compromiso de la empresa de proporcionar herramientas confiables y avanzadas a sus más de un millón de usuarios globales.

Mirando hacia el futuro, ElevenLabs planea ofrecer un mecanismo que permita a los usuarios compartir voces en la plataforma y beneficiarse del desarrollo de nuevas voces, fomentando oportunidades de colaboración entre humanos e inteligencia artificial.

Mati Staniszewski, CEO y cofundador de ElevenLabs, comentó:

"ElevenLabs comenzó con el sueño de hacer que todo el contenido sea accesible globalmente en cualquier idioma y con cualquier voz. El lanzamiento de Eleven Multilingual v2 nos ha acercado un paso más a convertir este sueño en realidad y hacer que las voces IA de calidad humana estén disponibles en cada dialecto.

"Nuestras herramientas de generación de texto a voz ayudan a igualar las oportunidades y ofrecen capacidades de voz hablada de alta calidad para todos los creadores. Estos beneficios ahora se extienden a aplicaciones multilingües en casi 30 idiomas. Esperamos finalmente cubrir más idiomas y voces con la ayuda de la IA, y eliminar las barreras lingüísticas para el contenido. Creemos en ElevenLabs que estos avances en accesibilidad fomentarán en última instancia una mayor creatividad, innovación y diversidad".

Al reducir el costo y los recursos necesarios para crear contenido de audio de alta calidad en múltiples idiomas, ElevenLabs ofrece a empresas y creadores la posibilidad de producir contenido más creativo y accesible que resuene a través de culturas e idiomas.

La herramienta de generación de voz multilingüe ofrece a desarrolladores de juegos y editores independientes nuevas oportunidades para traducir experiencias de juego y contenido de audio para audiencias internacionales, conectando con jugadores y oyentes en sus propios idiomas sin comprometer la calidad o precisión de la voz hablada.

De manera similar, las instituciones educativas ahora tienen los medios para proporcionar a los estudiantes contenido de audio preciso en los idiomas objetivo de inmediato, mejorando las habilidades de comprensión y pronunciación del idioma, además de satisfacer diferentes métodos de enseñanza y necesidades de aprendizaje de estudiantes internacionales.

Creadores de todo tipo pueden usar la herramienta de ElevenLabs para mejorar la accesibilidad del contenido para personas con discapacidades visuales o necesidades de aprendizaje adicionales, complementando el contenido visual con voz disponible en múltiples idiomas.

Su conjunto inicial de herramientas de IA de audio, revelado en enero de 2023, incluía la capacidad de convertir cualquier texto en voz a través de una selección de voces sintéticas pre-diseñadas y la capacidad de crear una copia de tu voz. La herramienta de síntesis de voz multilingüe es otro paso adelante en la misión de ElevenLabs de hacer que todo el contenido sea accesible globalmente en cualquier idioma y con cualquier voz.

Varios sectores y campos creativos ya han adoptado esta tecnología, incluyendo la habilitación de autores independientes para crear audiolibros, dar voz a personajes secundarios en videojuegos, apoyar a personas con discapacidad visual para acceder a contenido escrito en línea, y operar la primera emisora de radio de IA del mundo. ElevenLabs también ha colaborado con una variedad de creadores y estudios líderes, incluyendo generadores de video con IA D-ID, uno de los mayores editores de audiolibros del mundo Storytel, la plataforma de video de acceso abierto ScienceCast que condensa artículos de investigación publicados en arXiv, la plataforma líder mundial de creadores de contenido TheSoul Publishing, y desarrolladores de juegos innovadores como Embark Studios y Paradox Interactive, y la plataforma de medios MNTN.

ElevenLabs sale de la versión beta y lanza Eleven Multilingual v2: un modelo de IA para voz en 30 idiomas

Artículos relacionados

La primera IA que puede reír

Conversión de voz

Presentamos Doblaje v2

Presentamos Music v2