
Esta Voz No Existe - Voz IA Generativa
Estamos desplegando nuestro propio modelo generativo que permite a los usuarios diseñar voces sintéticas completamente nuevas
Recientemente parece que todo el mundo habla de IA generativa. Modelos de lenguaje y de texto a imagen impulsados por aprendizaje profundo como ChatGPT, Stable Diffusion, DALL-E y Midjourney han causado mucho revuelo en el mundo tecnológico y más allá. Muchos los consideran entre los desarrollos más significativos recientes en IA. Estés de acuerdo o no, el sentimiento general parece ser que ha aparecido algo muy poderoso. En 2023 escucharemos sobre modelos que pueden ayudarte a dibujar o crear videos. Al igual que con las preguntas sobre cuál es el último y mejor smartphone, pronto estaremos preguntando sobre cuál es el último y mejor modelo base. Sin embargo, a pesar de toda esta emoción, sentimos que hay un área dentro de los medios generativos que aún está muy subestimada: la voz IA. También es el área en la que buscamos ser líderes. En Eleven, confiamos en el potencial desbloqueado por las técnicas de aprendizaje profundo cada día para impulsar nuestro realista texto a voz y herramientas de voice cloning. Y ahora, también estamos desplegando nuestro propio modelo generativo que te permite diseñar voces sintéticas completamente nuevas desde cero.
Generador de Voz - diseña una voz
Nuestros usuarios acuden a la plataforma diariamente para dar vida a sus personajes, ya sea para audiolibros, juegos o fan fiction. Nos dimos cuenta de que nuestro banco de voces actual es demasiado pequeño para que todos encuentren las voces que se ajusten a sus necesidades de contenido mientras permanecen exclusivas para cada usuario. Nuestra solución fue permitirte diseñar voces sintéticas completamente nuevas.
Tuvimos una idea de cómo abordar esto al desglosar los métodos que actualmente usamos para la síntesis de voz y el voice cloning. Ambos procesos requieren una forma de codificar las características de una voz particular. Las incrustaciones de hablantes son lo que lleva esta identidad: son una representación vectorial de la voz de un hablante. Nos dimos cuenta de que podíamos muestrear de la distribución de incrustaciones de hablantes entrenando un modelo dedicado para permitirnos crear infinitas voces nuevas.
Dado que nuestros usuarios buscan principalmente características específicas del habla, necesitábamos agregar un grado de control sobre el proceso. Ampliamos nuestro modelo con condicionamiento para generar voces basadas en sus características. El modelo ahora te permite establecer ciertos parámetros básicos que establecen la identidad central de la nueva voz: género, edad, acento, tono y estilo de habla. En otras palabras, cada vez que presionas ‘generar’, incluso si eliges los mismos parámetros base, obtienes una voz completamente nueva que no existía antes.
A continuación, algunos ejemplos de voces que se pueden diseñar de esta manera:
'Diseñar Voz' estará disponible en nuestra plataforma este febrero, como parte de Voice Lab.
¿Para qué sirve?
Nuestras herramientas ya pueden producir discursos tan realistas como los de cualquier humano y esperamos que el ámbito de aplicaciones potenciales para voces artificiales solo se expanda. Muchas de estas nuevas aplicaciones, incluyendo la grabación de audio para publicaciones de noticias o comerciales, requerirán que una voz se limite a, y se identifique con, una marca o caso de uso particular, y no se use en otro lugar. Otros casos de uso, como la narración de historias y los videojuegos, priorizan la flexibilidad y la libertad de experimentar desde el principio del desarrollo. Así que en lugar de crear un conjunto gigantesco de hablantes virtuales, decidimos permitir que los usuarios tengan la última palabra sobre qué voces se adaptan mejor a sus propósitos.
Autores de libros ahora no solo tienen la oportunidad de convertir fácilmente su trabajo a audio, sino que también conservan el control artístico sobre el diseño de la narración a medida. Esto presenta a sus audiencias nuevas formas interesantes de interactuar con las publicaciones, así como aumenta enormemente el número de libros que podremos disfrutar escuchando.
Editores de noticias han incursionado cada vez más en el audio y elegir voces distintivas para representar sus publicaciones es una tarea importante: muchos oyentes valoran tanto la forma como el contenido. Igualmente importante, los editores ahora pueden estar seguros de que una voz particular los representa a ellos, y solo a ellos.
Desarrolladores de videojuegos ahora pueden dar voz a una multitud de NPCs que de otro modo estarían mudos con todas las herramientas necesarias disponibles al alcance de su mano. No solo pueden ser más rentables sin comprometer la calidad, sino que ahora también pueden diseñar voces que serán completamente únicas para los mundos virtuales que crean.
Creativos de publicidad necesitan locuciones que se adapten a campañas particulares, por lo que poder diseñar narraciones resonantes y hechas a medida al inicio del desarrollo es una ventaja considerable. Ahora pueden experimentar con múltiples voces y estilos de entonación al instante y sin involucrar recursos adicionales.
Desde creadores que producen todo tipo de contenido de audio y video hasta directivos corporativos que buscan dar voz a las comunicaciones de la empresa, las oportunidades para diseñar audio atractivo que sea único y adaptado a un caso de uso específico ahora son infinitas.
IA Ética
De manera similar a cómo el voice cloning genera temores sobre las consecuencias de su posible mal uso, cada vez más personas se preocupan de que la proliferación de la tecnología IA ponga en riesgo los medios de vida de los profesionales. En Eleven, vemos un futuro en el que los actores de doblaje puedan licenciar sus voces para entrenar modelos de habla para un uso específico, a cambio de tarifas. Los clientes y estudios seguirán encantados de contar con talento profesional de voz en sus proyectos y el uso de IA simplemente contribuirá a tiempos de entrega más rápidos y mayor libertad para experimentar y establecer dirección en el desarrollo temprano. La tecnología cambiará cómo se diseña y graba el audio hablado, pero el hecho de que los actores de doblaje ya no necesiten estar físicamente presentes para cada sesión realmente les da la libertad de participar en más proyectos al mismo tiempo, así como de inmortalizar verdaderamente sus voces.
Además de esto, la razón por la que estamos emocionados es que una multitud de libros, noticias, juegos independientes y otros contenidos cuyos autores y desarrolladores de otro modo no podrían permitirse los costos de grabación ahora se volverán accesibles a través de otro medio. Con este mayor acceso viene la oportunidad de ampliar audiencias en cada caso.
En Eleven, estamos completamente comprometidos tanto a respetar los derechos de propiedad intelectual como a implementar salvaguardas contra el posible mal uso de nuestra tecnología:
- Solo nos asociamos con clientes que se adhieren a nuestros Términos, que prohíben el uso malicioso de nuestra tecnología para cualquier propósito que pueda considerarse ilegal o dañino;
- También estamos trabajando en marcar con agua todo el audio generado por nuestro modelo para que pueda ser rastreado instantáneamente hasta nosotros;
- Cuando usamos voces reconocibles, lo hacemos con fines de demostración y en contextos que no generan conflictos de intereses;
- Al mismo tiempo, buscamos apoyar a los propietarios de voces y sus licenciatarios en reclamar sus derechos y todas las infracciones conocidas serán revisadas y se tomarán medidas.
Mirando hacia adelante - mejora tu propia voz
En el futuro, planeamos combinar las capacidades de nuestros modelos de generación de voz y voice cloning para permitir a los usuarios mejorar sus propias voces. Podrás clonar tu voz y luego manipularla para cualquier efecto deseado. Si temes que tu estilo de habla natural sea un poco monótono, podrás añadirle variedad. Si realmente no te gusta ser grabado, podrás manipular el resultado para que suene más natural. Cualquier persona que necesite producir audio con su propia voz para cualquier propósito, ya sea una presentación pregrabada o un mensaje de audio, podrá hacerlo usando nuestro conjunto de herramientas, con solo un clic.
Feliz Año Nuevo
A medida que 2022 llegaba a su fin, nos gustaría agradecer a nuestros usuarios beta por su continua participación y por sus comentarios. Muchas de las funciones que estamos desarrollando se deben a tus aportes y sugerencias. No podríamos estar más felices de tenerte a bordo y te deseamos un Feliz Año Nuevo.
Eleven Labs Beta
Ve aquí para registrarte en nuestra plataforma beta y probarla por ti mismo. Estamos constantemente haciendo mejoras y toda la información de los usuarios es muy valiosa para nosotros en esta etapa temprana.
Descubre artículos del equipo de ElevenLabs


We’re partnering with Liberty Global to accelerate voice AI expansion across Europe
Their strategic investment supports the next stage of our growth in the region
