Presentamos Eleven v3 Alpha

Prueba v3

Esta voz no existe: Inteligencia artificial de voz generativa

Estamos implementando nuestro propio modelo generativo que permite a los usuarios diseñar voces sintéticas completamente nuevas.

Abstract colorful swirl with dropdown menus for gender, age, and accent, and a style, clarity, and stability slider.

Últimamente parece que todo el mundo habla de la IA generativa. Los modelos de texto a imagen y lenguaje de gran tamaño impulsados por aprendizaje profundo, como ChatGPT, Stable Diffusion, DALL-E y Midjourney, han causado mucho revuelo en el mundo de la tecnología y más allá. Muchos los incluyen entre los desarrollos recientes más significativos en IA. Estés de acuerdo o no, el sentimiento general parece ser que ha aparecido algo muy todopoderoso. En 2023 escucharemos sobre modelos que pueden ayudarte a dibujar o crear videos. Al igual que las preguntas sobre cuál es el último y mejor teléfono inteligente, pronto preguntaremos cuál es el último y mejor modelo básico. Sin embargo, a pesar de todo este entusiasmo, creemos que hay un área dentro de los medios generativos que todavía está muy subestimada: la IA de voz. También es el área en la que buscamos convertirnos en líderes. En Eleven, confiamos en el potencial que liberan las técnicas de aprendizaje profundo cada día para potenciar nuestros proyectos realistas. Conversión de texto a voz y Clonación de voz herramientas. Y ahora también estamos implementando nuestro propio modelo generativo que le permite diseñar voces sintéticas completamente nuevas desde cero.

Generador de voz: diseña una voz

Nuestros usuarios utilizan la plataforma a diario para dar vida a sus personajes, ya sea para audiolibros, juegos o fan fiction. Nos dimos cuenta de que nuestro banco de oradores actual es demasiado pequeño para que todos puedan encontrar las voces que se adaptan a sus necesidades de contenido y, al mismo tiempo, siguen siendo exclusivas para cada usuario. Nuestra solución fue permitirle diseñar voces sintéticas completamente nuevas.

Tuvimos una idea de cómo abordaríamos esto, que surgió cuando analizamos los métodos que utilizamos actualmente para la síntesis de voz y la clonación de voz. Ambos procesos requieren una forma de codificar las características de una voz particular. Las incrustaciones de altavoces son las que transmiten esta identidad: son una representación vectorial de la voz de un hablante. Nos dimos cuenta de que podíamos tomar muestras de la distribución de incrustaciones de hablantes entrenando un modelo dedicado que nos permitiera crear infinitas voces nuevas.

Dado que nuestros usuarios buscan principalmente características de habla específicas, necesitábamos agregar un grado de control sobre el proceso. Ampliamos nuestro modelo con condicionamiento para generar voces en función de sus características. El modelo ahora permite establecer ciertos parámetros básicos que establecen la identidad central de la nueva voz: género, edad, acento, tono y estilo de habla. En otras palabras, cada vez que presionas "generar", incluso si eliges los mismos parámetros base, Obtienes una voz completamente nueva que no existía antes..

A continuación se muestran algunos ejemplos de voces que se pueden diseñar de esta manera:

‘Design Voice’ estará disponible en nuestra plataforma este febrero, como parte de Voice Lab.

¿De qué sirve?

Nuestras herramientas ya pueden producir un habla tan real como la de cualquier humano y esperamos que la esfera de aplicaciones potenciales para las voces artificiales sólo se expanda. Muchas de estas nuevas aplicaciones, incluida la grabación de audio para publicaciones de noticias o comerciales, requerirán que una voz se limite a una marca o caso de uso en particular y se identifique con ellos, y no se use en otro lugar. Otros casos de uso, como la narración de historias y los videojuegos, priorizan la flexibilidad y la libertad de experimentar desde el comienzo del desarrollo. En lugar de crear un conjunto gigantesco de altavoces virtuales, nos propusimos dejar que los usuarios tuvieran la última palabra sobre qué voces se adaptan mejor a sus propósitos.

Libro Los autores ahora no sólo tienen la oportunidad de convertir fácilmente su trabajo en audio, sino que también conservan el control artístico sobre el diseño de una narración personalizada. Esto presenta a sus audiencias nuevas e interesantes formas de interactuar con las publicaciones, y además aumenta enormemente la cantidad de libros que podremos disfrutar escuchando.

Noticias Los editores se han aventurado cada vez más en el audio y elegir voces distintivas para representar sus publicaciones es una tarea importante: muchos oyentes valoran tanto la forma como el contenido. Igualmente importante es que ahora los editores pueden estar seguros de que una voz particular los representa a ellos, y solo a ellos.

Videojuego Los desarrolladores ahora pueden expresar su voz a una gran cantidad de NPC que de otro modo permanecerían mudos, con todas las herramientas necesarias a su disposición. No sólo pueden ser más rentables sin comprometer la calidad, sino que ahora también pueden diseñar voces que serán completamente únicas para los mundos virtuales que crean.

Publicidad Los creativos necesitan voces en off que se adapten a campañas específicas, por lo que poder diseñar una narración resonante y especialmente diseñada al comienzo del desarrollo es una ventaja considerable. Ahora pueden experimentar con múltiples voces y estilos de presentación al instante y sin necesidad de utilizar recursos adicionales.

De Creadores Produciendo todo tipo de contenidos de audio y video para corporativo Para los funcionarios que buscan dar voz a las comunicaciones de la empresa, las oportunidades para diseñar un audio atractivo que sea único y adaptado a un caso de uso específico ahora son infinitas.

IA ética

De manera similar a cómo la clonación de voz genera temores sobre las consecuencias de su posible mal uso, cada vez más personas temen que la proliferación de la tecnología de IA ponga en riesgo los medios de vida de los profesionales. En Eleven, vemos un futuro en el que los actores de voz podrán licenciar sus voces para entrenar modelos de habla para un uso específico, a cambio de tarifas. Los clientes y estudios seguirán contando con gusto con talentos de voz profesionales en sus proyectos y el uso de IA simplemente contribuirá a tiempos de respuesta más rápidos y una mayor libertad para experimentar y establecer una dirección en el desarrollo inicial. La tecnología cambiará la forma en que se diseña y graba el audio hablado, pero el hecho de que los actores de voz ya no necesiten estar físicamente presentes en cada sesión realmente les da la libertad de participar en más proyectos a la vez, así como de inmortalizar verdaderamente sus voces.

Además de esto, el motivo por el que estamos entusiasmados es que una multitud de libros, noticias, juegos independientes y otros contenidos cuyos autores y desarrolladores de otro modo no podrían afrontar los costos de grabación ahora serán accesibles a través de otro medio. Con este mayor acceso viene la oportunidad de ampliar las audiencias en cada caso.

En Eleven, estamos totalmente comprometidos tanto con el respeto de los derechos de propiedad intelectual como con la implementación de salvaguardas contra el posible uso indebido de nuestra tecnología:

  • Solo nos asociamos con clientes que se adhieren a nuestros Términos que prohíben el uso malicioso de nuestra tecnología para cualquier propósito que pueda considerarse ilegal o dañino;
  • También estamos trabajando en poner una marca de agua en todo el audio generado por nuestro modelo para que pueda rastrearse instantáneamente hasta nosotros;
  • Cuando utilizamos voces reconocibles, lo hacemos con fines demostrativos y en contextos que no den lugar a conflictos de intereses;
  • Al mismo tiempo, buscamos apoyar a los propietarios de voces y sus licenciantes para reclamar sus derechos y todas las infracciones conocidas serán revisadas y tomadas las medidas pertinentes.

Mirando hacia el futuro: potencia tu propia voz

En el futuro planeamos combinar las capacidades de nuestros modelos de generación y clonación de voz para permitir a los usuarios mejorar sus propias voces. Podrás clonar tu voz y luego manipularla para conseguir el efecto que desees. Si temes que tu estilo natural de hablar sea un poco monótono, podrás agregarle variedad. Si realmente no te gusta que te graben, podrás manipular la salida para que suene más natural. Cualquier persona que necesite producir audio con su propia voz para cualquier propósito, ya sea una presentación pregrabada o un mensaje de audio, podrá hacerlo utilizando nuestro conjunto de herramientas, con solo hacer clic en un botón.

Feliz año nuevo

A medida que el año 2022 se acerca a su fin, nos gustaría agradecer a nuestros usuarios beta por su continua participación y por sus comentarios. Muchas de las características que estamos desarrollando se deben a sus aportes y sugerencias. No podríamos estar más felices de tenerlos a bordo y les deseamos a todos un Feliz Año Nuevo.

Versión beta de Once Labs
Ir aquí para registrarse en nuestra plataforma beta y probarla usted mismo. Estamos realizando mejoras constantemente y toda la información de los usuarios es muy valiosa para nosotros en esta etapa inicial.

Explora más

ElevenLabs

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión