
Dilo como quieras y escúchalo con otra voz, con control total sobre la expresión y entonación
Presentamos Eleven v3 Alpha
Prueba v3Dilo como quieras y transforma tu voz en otro personaje con control total sobre emociones, tiempo y entonación
Hemos añadido Speech to Speech (STS) a la Síntesis de Voz. STS es una herramienta de conversión de voz que te permite hacer que la grabación de una voz suene como si fuera hablada por otra. Te permite controlar las emociones, el tono y la pronunciación más allá de lo posible con TTS solo con prompts. Úsalo para extraer más emociones de una voz en particular o como referencia de 'dilo como quieras'.
En otras actualizaciones, estamos haciendo cambios en nuestras voces predefinidas. También hemos realizado varias mejoras en Studio, incluyendo normalización añadida, diccionario de pronunciación y más opciones de personalización.
Dilo como quieras y escúchalo con otra voz, con control total sobre la expresión y entonación
STS toma el contenido y estilo del discurso contenido en tu carga/grabación y cambia la voz. Piensa en STS como útil principalmente para dos cosas.
Una es extraer más emociones de una voz predefinida en particular. Sube/graba un discurso altamente expresivo y STS replicará las emociones y la entonación en otra voz. Dado que no todas las voces pueden expresar emociones fuertes solo con prompts de TTS, ahora puedes hacer que un narrador profesional o un personaje de libro infantil sea más expresivo con tu propia voz.
Otro uso para STS es proporcionar una 'referencia' para la entonación del discurso. Aunque nuestro TTS suele acertar con la entonación de inmediato, a veces puedes querer ajustarla. Aquí, STS te permite demostrar cómo entonar una frase en particular y luego hacer que cualquier voz que elijas la diga así. Esta funcionalidad será más útil e inmediata una vez que integremos STS directamente en Studio, pero nuestro objetivo aquí es mejorar radicalmente tu capacidad para editar el resultado con precisión.
Mira el vídeo creado por uno de nuestros miembros de la comunidad:
Para convertir el discurso fuente en discurso objetivo, necesitamos expresar el contenido del discurso fuente con las características del discurso objetivo. Una buena analogía serían las aplicaciones de intercambio de caras que te permiten mezclar tu cara con la de otra persona para crear una imagen de ambos como uno solo.
La forma de hacerlo es tomar la imagen de una cara y mapear sus atributos. Los marcadores en el ejemplo a continuación hacen precisamente eso: son los límites dentro de los cuales se renderizaría la otra cara.
El truco en la conversión de voz es renderizar el contenido del discurso fuente usando los fonemas del discurso objetivo. Pero hay un compromiso aquí, al igual que en el ejemplo de intercambio de caras: cuantos más marcadores uses para mapear los atributos de una cara, más restricciones impones en la cara que mapeas dentro de ellos. Menos marcadores significan menos restricciones.
Lo mismo ocurre con la conversión de voz. Cuanta más preferencia damos al discurso objetivo, más riesgo corremos de desincronizarnos con el discurso fuente. Pero si no le damos suficiente preferencia, corremos el riesgo de perder gran parte de lo que hace que ese discurso sea característico. Por ejemplo, si fuéramos a renderizar la grabación de alguien gritando enojado en una voz susurrante, estaríamos en problemas. Dar demasiada preferencia a las emociones del discurso fuente y el precio que pagamos es perder la impresión de que es una voz susurrante hablando. Demasiado énfasis en el patrón de discurso susurrante y perdemos la carga emocional del discurso fuente.
Haremos cambios en las voces predeterminadas disponibles en la Síntesis de Voz a finales de esta semana. Dejaremos de soportar algunas voces, pero las reemplazaremos con nuevas. Planeamos añadir más de 20 en total en las próximas semanas.
También comenzaremos a proporcionar información en la interfaz sobre cuánto tiempo se espera que cada voz esté disponible. Finalmente, durante diciembre trabajaremos en renovar las funciones de compartición de voces y compensación de uso de nuestra plataforma para mejorar aún más la variedad de voces. Más detalles sobre esto pronto.
Nuestro modelo Turbo reúne meses de investigación de nuestro equipo técnico. Está diseñado para interacciones en tiempo real, pero puede usarse para lo que quieras. También viene con el formato estándar (m)uLaw 8kHz para sistemas IVR.
Ahora puedes seguir las pautas de envío de audiolibros estándar de la industria dentro de Studio. Esto incluye ajustar la ganancia y aplicar compresión dinámica. Además, ahora existe la opción de incrustar metadatos en tu Studio (ISBN, autor y título).
Añadir un Diccionario de Pronunciación ha sido una de nuestras características más solicitadas. El mes pasado implementamos la adición de etiquetas SSML para especificar la pronunciación usando los diccionarios IPA y CMU para nuestros modelos en inglés. Ahora hemos lanzado soporte para diccionario de pronunciación en nuestra interfaz de Studio, permitiéndote subir un archivo especificando la pronunciación usando IPA, CMU o sustituciones de palabras. Los archivos de diccionario se suben usando el estándar de la industria y el formato abierto .PLS formato de archivo léxico.
Por ahora, IPA y CMU son compatibles con Turbo V2 en inglés, y las sustituciones de palabras (alias) son compatibles con todos los modelos e idiomas. La documentación completa se puede encontrar aquí.
Si tienes algún comentario, ¡no dudes en contactarnos en Discord!
Dilo como quieras y escúchalo con otra voz, con control total sobre la expresión y entonación
Automating 1,000+ outbound calls with custom multilingual voice agents.
Start creating passive income from your voice today.