Conversión de voz

Publicado: 6 sept 2022
Última actualización: 27 may 2026

EscucharEscucha este artículo

0:00

0:000:00

¿Qué es la conversión de voz?

La conversión de voz te permite transformar la voz de una persona en la de otra. Utiliza un proceso llamado clonación de voz para codificar la voz de destino (es decir, la voz a la que convertimos) y generar el mismo mensaje hablado de una manera que coincide con la identidad del hablante de destino pero conserva la entonación original.

Usos

La tecnología de clonación y conversión de voz de alta calidad tiene el potencial de revolucionar la forma en que se produce, se entrega y se interactúa con el contenido en una variedad de industrias. Prometen optimizar el tiempo y los costos de producción y brindar a quienes comparten sus voces para entrenar algoritmos de conversión formas de ganar tarifas pasivas.

En el cine, los actores podrían compartir sus bases de datos de voz con los productores para crear pistas de audio sin necesidad de viajar al set o al estudio;
Las líneas mal dichas podrían volver a grabarse de manera mucho más efectiva en la postproducción;
La tecnología también puede utilizarse para reproducir fielmente las voces de personajes históricos en escenarios de ficción o para devolver la vida a actores fallecidos;
El desarrollo de videojuegos encontrará útil esta tecnología en un grado similar: se podrían corregir expresiones o simplemente experimentar en el momento y sin que el actor esté físicamente presente para grabar;
En medicina, a los pacientes que han perdido la capacidad de hablar, por ejemplo como resultado de un tratamiento de cáncer de garganta, se les puede dar la oportunidad de volver a comunicarse con su propia voz;
Los asistentes virtuales podrían personalizarse a medida que los usuarios domésticos potencialmente encuentren más natural interactuar con, por ejemplo, la voz de un ser querido en lugar de la de un extraño virtual;
Por el contrario, la industria publicitaria podría beneficiarse de la introducción de voces en off sintéticas que suenen tan reales como cualquier voz humana y eviten los problemas relacionados con la propiedad de los derechos y las regalías. Por otro lado, si lo que se necesita es precisamente una voz reconocible, también en este caso los productores de anuncios podrían utilizar la tecnología para clonar de forma consensuada la voz de un actor en particular sin necesidad de que esté físicamente presente en largas sesiones de grabación;
Las industrias de audiolibros y podcasts son dos negocios en crecimiento en los que la aplicación de tecnología de clonación y conversión de voz ofrece la oportunidad de optimizar la producción y edición de contenido inmersivo.

Conversión de voz de Eleven Labs

Aunque en ElevenLabs desarrollamos software de conversión de voz como parte de nuestras herramientas, nuestra investigación en

Nuestro objetivo aquí es hacer que todo el contenido hablado sea accesible en todos los idiomas con la voz del hablante original, con solo hacer clic en un botón. Imagina un vídeo educativo de YouTube en inglés. Si alguien sólo habla español (pero encontraría el tema interesante si supiera el idioma), eso es un problema. Claro, los subtítulos proporcionan una solución, pero nuestro objetivo es ofrecer una forma mucho más inmersiva y entretenida de interactuar con el contenido. Queremos poder generar esa misma persona diciendo el mismo mensaje de forma natural en un español de nivel nativo, incluso si en realidad no lo hace.

Para ello, la clonación de voz nos permite preservar su identidad: el sonido de su voz. Lo usamos para generar nuevas expresiones en un idioma diferente para que suenen como si fuera la misma persona hablando.

La conversión de voz entra en juego porque queremos preservar sus emociones, intención y estilo de entrega para una máxima inmersión. Entrenamos modelos robustos en múltiples idiomas que nos permiten analizar enunciados en el idioma de origen y mapearlos en el idioma de destino con la entonación correcta.

Proceso

Para convertir la voz de una persona en la de otra, es decir, el habla de origen en el habla de destino, necesitamos un algoritmo para expresar el contenido del habla de origen con las características del habla de destino. Una buena analogía aquí son las aplicaciones de intercambio de caras que te permiten mezclar tu cara con la de otra persona para crear una imagen de ambas como una sola.

La forma de hacerlo es tomar la imagen de una cara y mapear sus atributos. Los puntos en el ejemplo a continuación hacen exactamente eso: son los límites dentro de los cuales se representarían las características de la otra cara.

En la conversión de voz, necesitamos una forma para que el algoritmo codifique las propiedades del habla de destino. El algoritmo se entrena con un conjunto de datos que incluye muchos ejemplos de ese discurso. Descompone esas muestras hasta un nivel fundamental: los "átomos" del habla, por así decirlo. El habla se compone de oraciones. Las oraciones se componen de palabras. Las palabras están formadas por fonemas y marcan las características del habla meta. Son el nivel fundamental en el que opera el algoritmo.

El truco en la conversión de voz es representar el contenido del habla de origen utilizando fonemas del habla de destino. Pero aquí hay una compensación, tal como ocurre en el ejemplo del intercambio de caras: cuantos más marcadores uses para mapear los atributos de una cara, más restricciones impondrás a la cara que mapees dentro de ellos. Menos marcadores significan menos restricciones. Lo mismo ocurre con la conversión de voz. Cuanto más preferencia le demos al habla meta, mayor será el riesgo de perder la sincronía con el habla fuente. Pero si no le damos suficiente preferencia, corremos el riesgo de perder mucho de lo que hace característico ese discurso. Por ejemplo, si reprodujéramos la grabación de alguien gritando enojado con la voz de Morgan Freeman, estaríamos en problemas. Si damos demasiada prioridad a las emociones del discurso original, el precio que pagamos es perder la impresión de que en realidad es Morgan Freeman el que habla. Si ponemos demasiado énfasis en su patrón de habla, perdemos la carga emocional del discurso original.

Ética

Las preocupaciones éticas sobre la clonación de voz merecen ser abordadas, ya que el potencial mal uso de la tecnología preocupa a un número cada vez mayor de personas. En 2020, los estafadores utilizaron audios falsos haciéndose pasar por un director ejecutivo durante una llamada telefónica para autorizar una transferencia bancaria de 35 millones de dólares. Una tecnología que puede hacer parecer de manera convincente que alguien dijo algo que no dijo naturalmente genera temores de que se utilice para desinformar, difamar o cometer fraude. De manera similar, la conversión de voz plantea preguntas importantes sobre la violación de derechos de autor si permite a los usuarios sacar provecho de contenido generado sin el consentimiento de los propietarios de la voz.

En Eleven sentimos la necesidad de hacer todo lo posible para garantizar que nuestra tecnología no se utilice con fines nefastos y de implementar medidas de seguridad para protegernos de sus peligros:

Solo nos asociamos con clientes que se adhieren a nuestros Términos que prohíben el uso malicioso de nuestra tecnología con la intención de desinformar, difamar, cometer fraude o con cualquier otro propósito que pueda considerarse ilegal o dañino;
El contenido de video sintético producido por Eleven incluye una marca de agua clara que indica que está generado por IA. El contenido de audio contiene una descripción clara del archivo. Cuando utilizamos voces reconocibles, lo hacemos con fines demostrativos y en contextos que no den lugar a conflictos de intereses;
Al mismo tiempo, buscamos apoyar a los propietarios de voces y a sus licenciantes en la reclamación de sus derechos.
Si tiene ideas sobre cómo mejorar nuestra postura, háganoslo saber en ética@elevenlabs.io

Creemos que el miedo al abuso no debería ser el factor dominante que guíe nuestra actitud hacia las nuevas y poderosas tecnologías. Más bien, deberíamos esforzarnos por garantizar que se introduzcan las salvaguardas adecuadas en el momento del desarrollo para minimizar el riesgo de daño mientras aprovechamos al máximo el potencial que la tecnología ofrece a la comunidad en general.

Futuro

La tecnología de conversión de voz y clonación de voz promete revolucionar la producción cinematográfica, la televisión, la creación de contenidos, el desarrollo de juegos, los podcasts y los audiolibros, así como las industrias publicitarias. Pero sus aplicaciones van más allá de lo comercial con usos potenciales en medicina, educación y comunicación.

La clonación de voz está allanando el camino para un futuro en el que se pueda generar cualquier contenido en cualquier idioma y voz para llegar a millones de personas en todo el mundo y crear una economía completamente nueva. Nuestro objetivo en Eleven es ayudar a hacer realidad este futuro.

Conversión de voz

¿Qué es la conversión de voz?

Usos

Conversión de voz de Eleven Labs

Proceso

Ética

Futuro

Artículos relacionados

ElevenLabs sale de la beta y lanza Eleven Multilingual v2: un modelo base de IA para 30 idiomas

ElevenLabs sale de la versión beta y lanza Eleven Multilingual v2: un modelo de IA para voz en 30 idiomas

Eleven Multilingüe v2

Presentamos Eleven Multilingual v1: Nuestro nuevo modelo de síntesis de voz