
Introducing the ElevenLabs app
Our most powerful AI voice tools are now available for iOS and Android.
Presentamos Eleven v3 Alpha
Prueba v3La conversión de voz te permite transformar la voz de una persona en la de otra. Utiliza un proceso llamado clonación de voz para codificar la voz de destino (es decir, la voz a la que convertimos) y generar el mismo mensaje hablado de una manera que coincide con la identidad del hablante de destino pero conserva la entonación original.
La tecnología de clonación y conversión de voz de alta calidad tiene el potencial de revolucionar la forma en que se produce, se entrega y se interactúa con el contenido en una variedad de industrias. Prometen optimizar el tiempo y los costos de producción y brindar a quienes comparten sus voces para entrenar algoritmos de conversión formas de ganar tarifas pasivas.
Aunque en Eleven desarrollamos software de conversión de voz como parte de nuestro paquete de herramientas, nuestra investigación en clonación y síntesis de voz alimenta principalmente el desarrollo de nuestro producto principal que planeamos lanzar a principios del próximo año: la herramienta de doblaje automático que preserva la identidad.
Nuestro objetivo aquí es hacer que todo el contenido hablado sea accesible en todos los idiomas con la voz del hablante original, con solo hacer clic en un botón. Imagina un vídeo educativo de YouTube en inglés. Si alguien sólo habla español (pero encontraría el tema interesante si supiera el idioma), eso es un problema. Claro, los subtítulos proporcionan una solución, pero nuestro objetivo es ofrecer una forma mucho más inmersiva y entretenida de interactuar con el contenido. Queremos poder generar esa misma persona diciendo el mismo mensaje de forma natural en un español de nivel nativo, incluso si en realidad no lo hace.
Para ello, la clonación de voz nos permite preservar su identidad: el sonido de su voz. Lo usamos para generar nuevas expresiones en un idioma diferente para que suenen como si fuera la misma persona hablando.
La conversión de voz entra en juego porque queremos preservar sus emociones, intención y estilo de entrega para una máxima inmersión. Entrenamos modelos robustos en múltiples idiomas que nos permiten analizar enunciados en el idioma de origen y mapearlos en el idioma de destino con la entonación correcta.
Para convertir la voz de una persona en la de otra, es decir, el habla de origen en el habla de destino, necesitamos un algoritmo para expresar el contenido del habla de origen con las características del habla de destino. Una buena analogía aquí son las aplicaciones de intercambio de caras que te permiten mezclar tu cara con la de otra persona para crear una imagen de ambas como una sola.
La forma de hacerlo es tomar la imagen de una cara y mapear sus atributos. Los puntos en el ejemplo a continuación hacen exactamente eso: son los límites dentro de los cuales se representarían las características de la otra cara.
En la conversión de voz, necesitamos una forma para que el algoritmo codifique las propiedades del habla de destino. El algoritmo se entrena con un conjunto de datos que incluye muchos ejemplos de ese discurso. Descompone esas muestras hasta un nivel fundamental: los "átomos" del habla, por así decirlo. El habla se compone de oraciones. Las oraciones se componen de palabras. Las palabras están formadas por fonemas y marcan las características del habla meta. Son el nivel fundamental en el que opera el algoritmo.
El truco en la conversión de voz es representar el contenido del habla de origen utilizando fonemas del habla de destino. Pero aquí hay una compensación, tal como ocurre en el ejemplo del intercambio de caras: cuantos más marcadores uses para mapear los atributos de una cara, más restricciones impondrás a la cara que mapees dentro de ellos. Menos marcadores significan menos restricciones. Lo mismo ocurre con la conversión de voz. Cuanto más preferencia le demos al habla meta, mayor será el riesgo de perder la sincronía con el habla fuente. Pero si no le damos suficiente preferencia, corremos el riesgo de perder mucho de lo que hace característico ese discurso. Por ejemplo, si reprodujéramos la grabación de alguien gritando enojado con la voz de Morgan Freeman, estaríamos en problemas. Si damos demasiada prioridad a las emociones del discurso original, el precio que pagamos es perder la impresión de que en realidad es Morgan Freeman el que habla. Si ponemos demasiado énfasis en su patrón de habla, perdemos la carga emocional del discurso original.
Las preocupaciones éticas sobre la clonación de voz merecen ser abordadas, ya que el potencial mal uso de la tecnología preocupa a un número cada vez mayor de personas. En 2020, los estafadores utilizaron audios falsos haciéndose pasar por un director ejecutivo durante una llamada telefónica para autorizar una transferencia bancaria de 35 millones de dólares. Una tecnología que puede hacer parecer de manera convincente que alguien dijo algo que no dijo naturalmente genera temores de que se utilice para desinformar, difamar o cometer fraude. De manera similar, la conversión de voz plantea preguntas importantes sobre la violación de derechos de autor si permite a los usuarios sacar provecho de contenido generado sin el consentimiento de los propietarios de la voz.
En Eleven sentimos la necesidad de hacer todo lo posible para garantizar que nuestra tecnología no se utilice con fines nefastos y de implementar medidas de seguridad para protegernos de sus peligros:
Creemos que el miedo al abuso no debería ser el factor dominante que guíe nuestra actitud hacia las nuevas y poderosas tecnologías. Más bien, deberíamos esforzarnos por garantizar que se introduzcan las salvaguardas adecuadas en el momento del desarrollo para minimizar el riesgo de daño mientras aprovechamos al máximo el potencial que la tecnología ofrece a la comunidad en general.
La tecnología de conversión de voz y clonación de voz promete revolucionar la producción cinematográfica, la televisión, la creación de contenidos, el desarrollo de juegos, los podcasts y los audiolibros, así como las industrias publicitarias. Pero sus aplicaciones van más allá de lo comercial con usos potenciales en medicina, educación y comunicación.
La clonación de voz está allanando el camino para un futuro en el que se pueda generar cualquier contenido en cualquier idioma y voz para llegar a millones de personas en todo el mundo y crear una economía completamente nueva. Nuestro objetivo en Eleven es ayudar a hacer realidad este futuro.
Our most powerful AI voice tools are now available for iOS and Android.
Bringing voice-first, agentic customer support to the enterprise