
Voice Design - La Primera IA Generativa Para Audio
- Categoría
- Producto
- Fecha
Haz una foto a una estatua. Identifica las figuras representadas. Después, conversa con ellas en tiempo real: cada personaje habla con una voz distinta y acorde a su época.
Esto es lo que puedes crear con las APIs de Diseño de Voz y ElevenAgents de ElevenLabs. En este artículo, te mostramos la arquitectura de una app web móvil que combina visión por ordenador con generación de voz para convertir monumentos públicos en experiencias interactivas. Todo lo que ves aquí se puede replicar con las APIs y los ejemplos de código que encontrarás a continuación.
Toda la app que ves abajo se ha creado a partir de un único prompt, probado con éxito enCursor con Claude Opus 4.5 (alto) desde un proyecto NextJS vacío. Si quieres ir directo y crear la tuya, pega esto en tu editor:
También puedes usar las Habilidades de ElevenLabs Agent en vez de enlazar a la documentación. Están basadas en la documentación y pueden dar resultados aún mejores.
El resto del artículo explica en detalle lo que genera ese prompt.
El proceso tiene cinco fases:
Cuando un usuario fotografía una estatua, la imagen se envía a un modelo de OpenAI con capacidad de visión. Un prompt estructurado extrae el nombre de la obra, ubicación, artista, fecha y, lo más importante, una descripción detallada de la voz de cada personaje. El prompt incluye el formato JSON esperado como salida:
Para una foto de la estatua de Boudica en Westminster Bridge, Londres, la respuesta sería así:
La calidad de la descripción de voz determina directamente la calidad de la voz generada. La guía de prompts de Diseño de Voz lo explica en detalle, pero los atributos clave son: marcador de calidad de audio ("Calidad de audio perfecta."), edad y género, tono/timbre (profundo, resonante, áspero), acento preciso ("acento británico celta marcado" en vez de solo "británico") y ritmo. Cuanto más descriptivo sea el prompt, más preciso será el resultado: "neoyorquina cansada de unos 60 años con sentido del humor seco" siempre será mejor que "voz femenina mayor".
Algunos consejos de la guía: usa "marcado" en vez de "fuerte" para describir la intensidad del acento, evita términos vagos como "extranjero" y, para personajes históricos o ficticios, puedes sugerir acentos reales como inspiración (por ejemplo, "una reina celta antigua con acento británico marcado, voz regia y autoritaria").
La API de Diseño de Voz genera voces sintéticas nuevas a partir de descripciones de texto, sin necesidad de muestras de voz ni clonación. Es ideal para personajes históricos donde no existe audio original.
El proceso tiene dos pasos.
El parámetro de texto es importante. Un texto de muestra más largo y adaptado al personaje (más de 50 palabras) da resultados más estables: ajusta el diálogo al personaje en vez de usar un saludo genérico. La guía de prompts de Diseño de Voz lo explica con más detalle.
Cuando tengas las previsualizaciones, elige una y crea una voz permanente:
En estatuas con varios personajes, la creación de voces se hace en paralelo. Las voces de cinco personajes se generan en casi el mismo tiempo que una sola:
Con las voces creadas, el siguiente paso es configurar un Agente ElevenLabs capaz de cambiar entre voces de personajes en tiempo real.
El array supportedVoices indica al agente qué voces están disponibles. La plataforma Agents gestiona el cambio de voz automáticamente: cuando la respuesta del LLM indica que habla otro personaje, el motor TTS asigna ese fragmento a la voz correcta.
Para que varios personajes suenen como un grupo real (y no como un simple turno de preguntas y respuestas), hay que diseñar bien el prompt:
El último paso es la conexión del cliente. ElevenLabs Agents usa WebRTC para conversaciones por voz con baja latencia, mucho más rápido que conexiones basadas en WebSocket, lo que mejora la fluidez al hablar.
El hook useConversation gestiona la captura de audio, el streaming, la detección de voz y la reproducción.
Si quieres dar más contexto histórico antes de empezar la conversación, puedes añadir un modo de investigación avanzada usando la herramienta de búsqueda web de OpenAI:
Este proyecto demuestra que, al combinar distintas modalidades de IA —texto, investigación, visión y audio—, podemos crear experiencias que conectan el mundo digital y el real. Hay mucho potencial por explorar en agentes multimodales y nos encantaría ver cómo creadores lo aplican en educación, trabajo y ocio.
Las APIs usadas en este proyecto — Diseño de Voz,ElevenAgents y OpenAI— están disponibles desde ya.



