
Meesho delivers real-time, multilingual customer support with voice agents
Scaling incredible experiences for millions of users in Hindi and English
La primera plataforma de generación de voz de formato largo de alta calidad
Este noviembre, lanzamos la primera plataforma de síntesis de voz que permite a editores y creadores generar contenido de formato largo de alta calidad y emocionalmente atractivo.
Elegimos esta dirección por varias razones. Actualmente no hay una herramienta que permita generar voz de formato largo con la calidad suficiente para ser adecuada para noticias o audiolibros. Nuestro equipo es un gran oyente de todo lo relacionado con el audio y sentimos que enfrentar los desafíos del contenido más extenso es un paso natural hacia la realización de nuestras ambiciones. Pero también nos emociona considerarlo nuestra característica destacada: somos la primera plataforma de tecnología de voz IA que ofrece las voces más emotivas, ricas y realistas a creadores y editores que buscan la máxima calidad en la narración.
En este sentido, nuestra plataforma te permite generar y descargar voz de alta calidad, al nivel de un actor de doblaje, a partir de cualquier texto, ya sean artículos de noticias, libros, newsletters, blogs o trabajos académicos. Puedes elegir cualquier voz para leer el contenido, ya sea de un conjunto de voces sintéticas predefinidas o clonando una voz a partir de una muestra que proporciones. Las aplicaciones que imaginamos para nuestra tecnología son infinitas. Desde proporcionar accesibilidad entre medios al contenido existente, aumentar la productividad, revivir textos del pasado convirtiéndolos en audio, o crear nuevo contenido. Nuestro próximo objetivo es ampliar el soporte a otros idiomas.
Cómo logramos esto se debe a la forma en que hemos construido nuestro modelo. Está entrenado para entender qué se está diciendo y ajustar la entonación en consecuencia. Lo hace teniendo en cuenta no solo el significado de las palabras, sino también el contexto que rodea cada enunciado.
Los algoritmos tradicionales de generación de voz producen enunciados de manera frase por frase. Esto es computacionalmente menos exigente, pero inmediatamente suena robótico. Las emociones y la entonación a menudo necesitan extenderse y resonar a lo largo de varias frases para unir un hilo de pensamiento particular. El tono y el ritmo transmiten la intención, que es realmente lo que hace que la voz suene humana desde el principio. Así que, en lugar de generar cada enunciado por separado, nuestro modelo tiene en cuenta el contexto circundante, manteniendo un flujo y prosodia adecuados en todo el material generado. Esta profundidad emocional, junto con la calidad de audio superior, proporciona a los usuarios la herramienta de narración más genuina y atractiva que existe.
Nuestra plataforma estará disponible el próximo mes y puedes registrarte para convertirte en nuestro beta-tester hoy en elevenlabs.io
Si tienes curiosidad por escuchar nuestro software en acción, ve a audiostory.ai - un proyecto paralelo de ElevenLabs destinado a mostrar nuestras capacidades de generación de voz de formato largo, donde usamos nuestras voces sintéticas para leer artículos de noticias y libros del pasado. El primer episodio es un artículo de 1899 de The New York Times sobre la invención de la radio - escúchalo aquí. O, si aún no lo has hecho, puedes ir al principio de esta página y escuchar esta entrada leída en voz alta.
Scaling incredible experiences for millions of users in Hindi and English
AI-generated videos created with avatars & dubbed voice have grown 7x
Desarrollado por ElevenLabs Conversational AI