Presentamos Eleven Multilingual v1: Nuestro nuevo modelo de síntesis de voz

Publicado: 27 abr 2023

EscucharEscucha este artículo

0:00

0:000:00

Hoy, estamos encantados de lanzar Eleven Multilingual v1, nuestro modelo avanzado de síntesis de voz compatible con siete nuevos idiomas: Francés, Alemán, hindi, italiano, Polaco, Portugués, y Español. Basándonos en la investigación que impulsó Eleven Monolingual v1, nuestro enfoque actual de aprendizaje profundo aprovecha más datos, más potencia computacional y técnicas novedosas dentro de un modelo cada vez más sofisticado, capaz de comprender matices textuales y ofrecer un rendimiento emocionalmente rico. Este avance amplía los horizontes creativos para creadores, desarrolladores de juegos y editores, y allana el camino para el uso de medios generativos para crear contenido más localizado, accesible e imaginativo.

El nuevo modelo está disponible en todos los planes de suscripción y puedes probarlo ahora en nuestra plataforma Beta.

ElevenLabs

Para usarlo, simplemente selecciónelo del menú desplegable recién agregado dentro del panel Síntesis de voz.

Descripción general de la investigación

Al igual que su predecesor, el nuevo modelo se basa íntegramente en nuestra investigación interna. Mantiene todas las fortalezas que lo hicieron Once monolingües v1 una excelente herramienta para contar historias, como la capacidad de ajustar la entrega en función del contexto y transmitir intenciones y emociones de manera hiperrealista. Estas funciones ahora se han ampliado a los nuevos idiomas admitidos a través del entrenamiento de datos multilingüe.

Una característica destacable del modelo es su capacidad para identificar texto multilingüe y articularlo adecuadamente. Ahora puedes Generar voz en varios idiomas usando una única indicación manteniendo las características de voz únicas de cada hablante. Para obtener mejores resultados, recomendamos proporcionar un mensaje en un solo idioma. Aunque el modelo ya puede funcionar razonablemente bien con varios idiomas a la vez, se necesitan más mejoras.

El nuevo modelo es compatible con otros VoiceLab funciones como Instantáneo

Dicho esto, el modelo tiene limitaciones conocidas.:Los números, acrónimos y palabras extranjeras a veces se escriben de forma predeterminada en inglés cuando se solicitan en un idioma diferente. Por ejemplo, el número "11" o la palabra "radio" escritos en un mensaje en español pueden pronunciarse tal como se pronunciarían en inglés. Recomendamos deletrear las siglas y los números en el idioma de destino mientras trabajamos en las mejoras.

Democratización de la voz

ElevenLabs comenzó con el sueño de hacer que todo el contenido sea accesible universalmente en cualquier idioma y con cualquier voz. Nuestro equipo proviene de toda Europa, Asia y EE. UU. A medida que nuestro equipo y el mundo se vuelven cada vez más multilingües, estamos más unidos que nunca detrás de la visión de crear

La última iteración de nuestro Texto a voz (TTS) El modelo es sólo el primer paso en nuestro camino para hacer realidad esta visión. Con la llegada de voces de IA de calidad humana, los usuarios y las empresas ahora pueden crear y personalizar contenido de audio según sus necesidades, prioridades y preferencias. Esto ya ha demostrado el potencial para nivelar el campo de juego para los creadores, las pequeñas empresas y los artistas independientes. Al aprovechar el poder del audio con IA, los usuarios ahora pueden desarrollar experiencias auditivas de alta calidad que rivalizan con las producidas por organizaciones más grandes con más recursos.

Estos beneficios ahora se extienden a aplicaciones multilingües, multiculturales y educativas al permitir a los usuarios, empresas e instituciones producir audio auténtico que tenga eco en un público más amplio. Al proporcionar una amplia gama de voces, acentos e idiomas, la IA ayuda a superar las brechas culturales y promueve la comprensión global. En Eleven, creemos que esta nueva accesibilidad, en última instancia, fomenta una mayor creatividad, innovación y diversidad.

Creadores de contenido que buscan interactuar con públicos diversos Ahora tenemos las herramientas para superar las brechas culturales y fomentar la inclusión.

Desarrolladores de juegos y editores Puede crear experiencias inmersivas y localizadas para audiencias internacionales, trascendiendo las barreras del idioma y conectando con jugadores y oyentes para maximizar la participación y la eficiencia, sin pérdida de calidad o precisión.

Instituciones educativas Ahora tienen los medios para producir contenido de audio para diversos usuarios en sus idiomas de destino, reforzando la comprensión del idioma e incluso las habilidades de pronunciación, además de satisfacer diferentes estilos de enseñanza y necesidades de aprendizaje.

Institutos de accesibilidad Ahora podemos empoderar aún más a las personas con discapacidades visuales o dificultades de aprendizaje proporcionándoles medios para convertir fácilmente recursos menos accesibles a un medio que se adapte a sus necesidades, tanto en contenido como en forma.

¡Estamos ansiosos por ver a nuestros creadores y desarrolladores actuales y futuros superar los límites de lo posible!

Presentamos Eleven Multilingual v1: Nuestro nuevo modelo de síntesis de voz

Descripción general de la investigación

Democratización de la voz

Artículos relacionados

El Camino hacia el Doblaje en Tiempo Real

ElevenLabs sale de la fase beta y lanza Eleven Multilingual v2: un modelo de inteligencia artificial de voz básico para casi 30 idiomas

ElevenLabs lanza en versión beta Eleven Multilingual v2, un modelo de voz IA básico para 30 idiomas

ElevenLabs sale de la fase beta y lanza Eleven Multilingual v2, un modelo conversacional con IA en 30 idiomas