Presentamos speech to speech

Última actualización 16 oct 2025 • 9 minutos de lectura

Dilo como quieras y transforma tu voz en otro personaje con control total sobre emociones, tiempo y entonación

Hemos añadido Speech to Speech (STS) a la Síntesis de Voz. STS es una herramienta de conversión de voz que te permite hacer que la grabación de una voz suene como si fuera hablada por otra. Te permite controlar las emociones, el tono y la pronunciación más allá de lo posible con TTS solo con prompts. Úsalo para extraer más emociones de una voz en particular o como referencia de 'dilo como quieras'.

En otras actualizaciones, estamos haciendo cambios en nuestras voces predefinidas. También hemos realizado varias mejoras en Studio, incluyendo normalización añadida, diccionario de pronunciación y más opciones de personalización.

Voice Changer con IA

A voice command icon, a yellow circle with a right arrow, and an abstract yellow and orange wave design.

Dilo como quieras y escúchalo con otra voz, con control total sobre la expresión y entonación

Speech to Speech

STS toma el contenido y estilo del discurso contenido en tu carga/grabación y cambia la voz. Piensa en STS como útil principalmente para dos cosas.

Una es extraer más emociones de una voz predefinida en particular. Sube/graba un discurso altamente expresivo y STS replicará las emociones y la entonación en otra voz. Dado que no todas las voces pueden expresar emociones fuertes solo con prompts de TTS, ahora puedes hacer que un narrador profesional o un personaje de libro infantil sea más expresivo con tu propia voz.

Otro uso para STS es proporcionar una 'referencia' para la entonación del discurso. Aunque nuestro TTS suele acertar con la entonación de inmediato, a veces puedes querer ajustarla. Aquí, STS te permite demostrar cómo entonar una frase en particular y luego hacer que cualquier voz que elijas la diga así. Esta funcionalidad será más útil e inmediata una vez que integremos STS directamente en Studio, pero nuestro objetivo aquí es mejorar radicalmente tu capacidad para editar el resultado con precisión.

Mira el vídeo creado por uno de nuestros miembros de la comunidad:

Investigación

Para convertir el discurso fuente en discurso objetivo, necesitamos expresar el contenido del discurso fuente con las características del discurso objetivo. Una buena analogía serían las aplicaciones de intercambio de caras que te permiten mezclar tu cara con la de otra persona para crear una imagen de ambos como uno solo.

La forma de hacerlo es tomar la imagen de una cara y mapear sus atributos. Los marcadores en el ejemplo a continuación hacen precisamente eso: son los límites dentro de los cuales se renderizaría la otra cara.

Comparison of facial recognition and facial mapping technology.

Audio waveform with a corresponding speech transcription in a visual format.

El truco en la conversión de voz es renderizar el contenido del discurso fuente usando los fonemas del discurso objetivo. Pero hay un compromiso aquí, al igual que en el ejemplo de intercambio de caras: cuantos más marcadores uses para mapear los atributos de una cara, más restricciones impones en la cara que mapeas dentro de ellos. Menos marcadores significan menos restricciones.

Lo mismo ocurre con la conversión de voz. Cuanta más preferencia damos al discurso objetivo, más riesgo corremos de desincronizarnos con el discurso fuente. Pero si no le damos suficiente preferencia, corremos el riesgo de perder gran parte de lo que hace que ese discurso sea característico. Por ejemplo, si fuéramos a renderizar la grabación de alguien gritando enojado en una voz susurrante, estaríamos en problemas. Dar demasiada preferencia a las emociones del discurso fuente y el precio que pagamos es perder la impresión de que es una voz susurrante hablando. Demasiado énfasis en el patrón de discurso susurrante y perdemos la carga emocional del discurso fuente.

Producto y actualizaciones recientes

Cambios en voces predefinidas

Haremos cambios en las voces predeterminadas disponibles en la Síntesis de Voz a finales de esta semana. Dejaremos de soportar algunas voces, pero las reemplazaremos con nuevas. Planeamos añadir más de 20 en total en las próximas semanas.

También comenzaremos a proporcionar información en la interfaz sobre cuánto tiempo se espera que cada voz esté disponible. Finalmente, durante diciembre trabajaremos en renovar las funciones de compartición de voces y compensación de uso de nuestra plataforma para mejorar aún más la variedad de voces. Más detalles sobre esto pronto.

Eleven Turbo v2 y formato uLaw 8khz

Nuestro modelo Turbo reúne meses de investigación de nuestro equipo técnico. Está diseñado para interacciones en tiempo real, pero puede usarse para lo que quieras. También viene con el formato estándar (m)uLaw 8kHz para sistemas IVR.

Normalización y metadatos con Studio

Ahora puedes seguir las pautas de envío de audiolibros estándar de la industria dentro de Studio. Esto incluye ajustar la ganancia y aplicar compresión dinámica. Además, ahora existe la opción de incrustar metadatos en tu Studio (ISBN, autor y título).

Diario de pronunciación

Añadir un Diccionario de Pronunciación ha sido una de nuestras características más solicitadas. El mes pasado implementamos la adición de etiquetas SSML para especificar la pronunciación usando los diccionarios IPA y CMU para nuestros modelos en inglés. Ahora hemos lanzado soporte para diccionario de pronunciación en nuestra interfaz de Studio, permitiéndote subir un archivo especificando la pronunciación usando IPA, CMU o sustituciones de palabras. Los archivos de diccionario se suben usando el estándar de la industria y el formato abierto .PLS formato de archivo léxico.

Por ahora, IPA y CMU son compatibles con Turbo V2 en inglés, y las sustituciones de palabras (alias) son compatibles con todos los modelos e idiomas. La documentación completa se puede encontrar aquí.

Upload area for a Lexicon file with instructions to click or drag and drop a .pls/.txt/.xml file, size limit 1.5MB. — Pronunciation diary

Si tienes algún comentario, ¡no dudes en contactarnos en Discord!

Voice Changer con IA

Dilo como quieras y escúchalo con otra voz, con control total sobre la expresión y entonación

Descubre artículos del equipo de ElevenLabs

Impact

Impact

Restoring identity through voice in Africa: Senses Hub x ElevenLabs

Millions of people across Africa live with speech impairments or loss of voice. Through our partnership with Senses Hub, we’re developing personalized, culturally relevant voices that restore identity, confidence, and connection across the continent.

Company

Company

Powering India’s new generation of voice AI agents

A look at the architecture, players, and infrastructure driving India’s 2025 voice-AI landscape

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión

Desarrollado por ElevenLabs Agentes