Salta al contenido

Presentamos Cambiador de Voz

Transforma tu voz en otro personaje con control total sobre emociones, tiempos y entonación.

Cambiador de Voz antes se llamaba speech-to-speech. En el contexto de agentes de voz IA, "speech-to-speech" también se refiere a arquitecturas fusionadas donde un solo modelo procesa directamente el audio de entrada y salida. ElevenAgents utiliza una arquitectura avanzada en cascada en su plataforma. Más información: Modelos en cascada vs fusionados.

Hemos añadido

Esto te da un nivel de control que

Consigue más emoción en una voz.

A recording studio with a microphone, headphones, sound mixing console, and a large screen displaying a speech-to-speech waveform.

Aquí tienes un tutorial de un miembro de nuestra comunidad:

Otra utilidad del cambiador de voz es servir como ‘referencia’ para la entonación. Aunque nuestro TTS suele acertar con la entonación desde el principio, a veces puedes querer ajustarla. Aquí, el cambiador de voz te permite mostrar cómo entonar una frase concreta y luego hacer que cualquier voz la diga de esa forma. Esta función será aún más útil y sencilla cuando integremos el cambiador de voz directamente en Proyectos, pero nuestro objetivo es que puedas editar el resultado con máxima precisión.

Investigación

La forma de hacerlo es tomar la imagen de una cara y mapear sus atributos. Los marcadores en el ejemplo de abajo hacen justo eso: marcan los límites dentro de los cuales se renderiza la otra cara.

Para convertir el discurso fuente en discurso objetivo, necesitamos expresar el contenido del discurso fuente con las características del discurso objetivo. Una buena analogía serían las aplicaciones de intercambio de caras que te permiten mezclar tu cara con la de otra persona para crear una imagen de ambos como uno solo.

La forma de hacerlo es tomar la imagen de una cara y mapear sus atributos. Los marcadores en el ejemplo a continuación hacen precisamente eso: son los límites dentro de los cuales se renderizaría la otra cara.

Comparison of facial recognition and facial mapping technology.
Audio waveform with a corresponding speech transcription in a visual format.

Producto y novedades recientes

Cambios en las voces predefinidas

Estamos haciendo cambios en las voces por defecto disponibles en Síntesis de Voz. Vamos a retirar algunas voces y a añadir nuevas, con más de 20 incorporaciones previstas en las próximas semanas.

También vamos a mostrar en la interfaz cuánto tiempo estará disponible cada voz. Durante diciembre, renovaremos las funciones de compartir voces y compensación por uso para mejorar la variedad de voces. Pronto daremos más detalles.

Eleven Turbo v2 y formato uLaw 8kHz

Turbo v2 es el resultado de meses de investigación de nuestro equipo. Está diseñado para interacciones en tiempo real, pero sirve para cualquier caso de uso. Además, es compatible con el formato estándar (m)uLaw 8kHz para sistemas IVR.

Normalización y metadatos en Proyectos

Proyectos ahora cumple con las guías de entrega de audiolibros estándar del sector, incluyendo ajuste de ganancia y compresión dinámica. También puedes añadir metadatos (ISBN, autor y título) directamente en tu proyecto de Proyectos.

Diccionario de pronunciación

Esta ha sido una de las funciones más solicitadas. El mes pasado añadimos soporte para etiquetas SSML para especificar la pronunciación usando los diccionarios IPA y CMU en nuestros modelos en inglés. Ahora hemos lanzado el soporte de diccionario de pronunciación en la interfaz de Proyectos, permitiendo subir un archivo con la pronunciación usando IPA, CMU o sustituciones de palabras (alias). Los archivos de diccionario usan el formato estándar abierto .PLS

IPA y CMU están disponibles actualmente en Turbo v2 inglés. Las sustituciones de palabras están disponibles en todos los modelos y lenguajes. Puedes consultar la documentación completa

Añadir un Diccionario de Pronunciación ha sido una de nuestras características más solicitadas. El mes pasado implementamos la adición de etiquetas SSML para especificar la pronunciación usando los diccionarios IPA y CMU para nuestros modelos en inglés. Ahora hemos lanzado soporte para diccionario de pronunciación en nuestra interfaz de Studio, permitiéndote subir un archivo especificando la pronunciación usando IPA, CMU o sustituciones de palabras. Los archivos de diccionario se suben usando el estándar de la industria y el formato abierto .PLS formato de archivo léxico.

Si tienes comentarios, escríbenos en Discord sin problema.aquí.

Upload area for a Lexicon file with instructions to click or drag and drop a .pls/.txt/.xml file, size limit 1.5MB.
Pronunciation diary

Di lo que quieras y escúchalo en una voz completamente diferente, con control total sobre la interpretación. Captura susurros, risas, acentos y matices emocionales.

Descubre artículos del equipo de ElevenLabs

Crea con el audio IA de la más alta calidad