Primera plataforma de síntesis de voz de formato largo para editores y creadores

17 oct 2022 • 3 minutos de lectura

La primera plataforma de generación de voz de formato largo de alta calidad

Este noviembre, lanzamos la primera plataforma de síntesis de voz que permite a editores y creadores generar contenido de formato largo de alta calidad y emocionalmente atractivo.

¿Para quién es?

Elegimos esta dirección por varias razones. Actualmente no hay una herramienta que permita generar voz de formato largo con la calidad suficiente para ser adecuada para noticias o audiolibros. Nuestro equipo es un gran oyente de todo lo relacionado con el audio y sentimos que enfrentar los desafíos del contenido más extenso es un paso natural hacia la realización de nuestras ambiciones. Pero también nos emociona considerarlo nuestra característica destacada: somos la primera plataforma de tecnología de voz IA que ofrece las voces más emotivas, ricas y realistas a creadores y editores que buscan la máxima calidad en la narración.

En este sentido, nuestra plataforma te permite generar y descargar voz de alta calidad, al nivel de un actor de doblaje, a partir de cualquier texto, ya sean artículos de noticias, libros, newsletters, blogs o trabajos académicos. Puedes elegir cualquier voz para leer el contenido, ya sea de un conjunto de voces sintéticas predefinidas o clonando una voz a partir de una muestra que proporciones. Las aplicaciones que imaginamos para nuestra tecnología son infinitas. Desde proporcionar accesibilidad entre medios al contenido existente, aumentar la productividad, revivir textos del pasado convirtiéndolos en audio, o crear nuevo contenido. Nuestro próximo objetivo es ampliar el soporte a otros idiomas.

¿En qué se diferencia Eleven?

Cómo logramos esto se debe a la forma en que hemos construido nuestro modelo. Está entrenado para entender qué se está diciendo y ajustar la entonación en consecuencia. Lo hace teniendo en cuenta no solo el significado de las palabras, sino también el contexto que rodea cada enunciado.

Los algoritmos tradicionales de generación de voz producen enunciados de manera frase por frase. Esto es computacionalmente menos exigente, pero inmediatamente suena robótico. Las emociones y la entonación a menudo necesitan extenderse y resonar a lo largo de varias frases para unir un hilo de pensamiento particular. El tono y el ritmo transmiten la intención, que es realmente lo que hace que la voz suene humana desde el principio. Así que, en lugar de generar cada enunciado por separado, nuestro modelo tiene en cuenta el contexto circundante, manteniendo un flujo y prosodia adecuados en todo el material generado. Esta profundidad emocional, junto con la calidad de audio superior, proporciona a los usuarios la herramienta de narración más genuina y atractiva que existe.

Conviértete en nuestro beta-tester

Nuestra plataforma estará disponible el próximo mes y puedes registrarte para convertirte en nuestro beta-tester hoy en elevenlabs.io

audiostory.ai

Si tienes curiosidad por escuchar nuestro software en acción, ve a audiostory.ai - un proyecto paralelo de ElevenLabs destinado a mostrar nuestras capacidades de generación de voz de formato largo, donde usamos nuestras voces sintéticas para leer artículos de noticias y libros del pasado. El primer episodio es un artículo de 1899 de The New York Times sobre la invención de la radio - escúchalo aquí. O, si aún no lo has hecho, puedes ir al principio de esta página y escuchar esta entrada leída en voz alta.

Descubre artículos del equipo de ElevenLabs

Customer stories

Customer stories

Le Walk brings cities to life with ElevenLabs

Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session

Agents Platform Stories

Voxpopme enhances AI Moderator with ElevenLabs Agents Platform

Supporting 10,000+ research conversations with natural, trustworthy voices

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión

Desarrollado por ElevenLabs Agentes