
¡Turbo v2 ya está aquí!
- Categoría
- Producto
- Fecha
Transforma tu voz en otro personaje con control total sobre emociones, tiempos y entonación.
Cambiador de Voz antes se llamaba speech-to-speech. En el contexto de agentes de voz IA, "speech-to-speech" también se refiere a arquitecturas fusionadas donde un solo modelo procesa directamente el audio de entrada y salida. ElevenAgents utiliza una arquitectura avanzada en cascada en su plataforma. Más información: Modelos en cascada vs fusionados.
Hemos añadido
Consigue más emoción en una voz.

Aquí tienes un tutorial de un miembro de nuestra comunidad:
Otra utilidad del cambiador de voz es servir como ‘referencia’ para la entonación. Aunque nuestro TTS suele acertar con la entonación desde el principio, a veces puedes querer ajustarla. Aquí, el cambiador de voz te permite mostrar cómo entonar una frase concreta y luego hacer que cualquier voz la diga de esa forma. Esta función será aún más útil y sencilla cuando integremos el cambiador de voz directamente en Proyectos, pero nuestro objetivo es que puedas editar el resultado con máxima precisión.
Investigación
Para convertir el discurso fuente en discurso objetivo, necesitamos expresar el contenido del discurso fuente con las características del discurso objetivo. Una buena analogía serían las aplicaciones de intercambio de caras que te permiten mezclar tu cara con la de otra persona para crear una imagen de ambos como uno solo.
La forma de hacerlo es tomar la imagen de una cara y mapear sus atributos. Los marcadores en el ejemplo a continuación hacen precisamente eso: son los límites dentro de los cuales se renderizaría la otra cara.
Producto y novedades recientes
Cambios en las voces predefinidas
Eleven Turbo v2 y formato uLaw 8kHz
Turbo v2 es el resultado de meses de investigación de nuestro equipo. Está diseñado para interacciones en tiempo real, pero sirve para cualquier caso de uso. Además, es compatible con el formato estándar (m)uLaw 8kHz para sistemas IVR.
Proyectos ahora cumple con las guías de entrega de audiolibros estándar del sector, incluyendo ajuste de ganancia y compresión dinámica. También puedes añadir metadatos (ISBN, autor y título) directamente en tu proyecto de Proyectos.
Esta ha sido una de las funciones más solicitadas. El mes pasado añadimos soporte para etiquetas SSML para especificar la pronunciación usando los diccionarios IPA y CMU en nuestros modelos en inglés. Ahora hemos lanzado el soporte de diccionario de pronunciación en la interfaz de Proyectos, permitiendo subir un archivo con la pronunciación usando IPA, CMU o sustituciones de palabras (alias). Los archivos de diccionario usan el formato estándar abierto .PLS
Añadir un Diccionario de Pronunciación ha sido una de nuestras características más solicitadas. El mes pasado implementamos la adición de etiquetas SSML para especificar la pronunciación usando los diccionarios IPA y CMU para nuestros modelos en inglés. Ahora hemos lanzado soporte para diccionario de pronunciación en nuestra interfaz de Studio, permitiéndote subir un archivo especificando la pronunciación usando IPA, CMU o sustituciones de palabras. Los archivos de diccionario se suben usando el estándar de la industria y el formato abierto .PLS formato de archivo léxico.
Si tienes comentarios, escríbenos en Discord sin problema.aquí.
Di lo que quieras y escúchalo en una voz completamente diferente, con control total sobre la interpretación. Captura susurros, risas, acentos y matices emocionales.



