
Cómo funciona el motor de orquestación de ElevenAgent
Descubre cómo ElevenAgents gestiona el contexto, las herramientas y los flujos de trabajo para ofrecer conversaciones en tiempo real a nivel empresarial.
Un análisis de las cinco arquitecturas de agentes de voz y los equilibrios entre confianza, personalización y calidad de conversación.
ElevenAgents funcionan gracias a un motor de orquestación de baja latencia diseñado para conversaciones en tiempo real, añadiendo menos de 100 ms de retraso. Esta arquitectura combina lo mejor de la investigación de ElevenLabs con LLMs de vanguardia de proveedores líderes como OpenAI, Google y Anthropic, junto a modelos open-source seleccionados y alojados por ElevenLabs. Al usar varios modelos en diferentes etapas del flujo de respuesta, el agente garantiza conversaciones muy ágiles y con contexto. Aprovechando dinámicamente los puntos fuertes de cada modelo, conseguimos un rendimiento fiable y escalable en tareas empresariales y escenarios conversacionales, optimizando el equilibrio entre inteligencia, velocidad y coste.
La arquitectura del agente determina su capacidad para comportarse de forma fiable en producción, adaptarse a necesidades específicas del negocio y sonar natural en una conversación. Una arquitectura fusionada como el modelo Realtime de OpenAI puede sonar muy realista en intercambios cortos. Pero cuando los equipos necesitan aplicar reglas de cumplimiento, depurar una respuesta fallida o cambiar a un LLM más potente cuando salga uno nuevo, una red fusionada única ofrece pocas opciones.
En este artículo repasamos las cinco arquitecturas principales, sus puntos fuertes, sus limitaciones y cómo pensamos la base para agentes que se despliegan en flujos de trabajo críticos.herramientas y una base de conocimiento. Es recomendable usar agentes independientes en lugar de flujos de trabajo cuando el caso de uso no requiere verificar una secuencia estricta de pasos o cuando es importante evitar silos de conocimiento entre agentes. Los silos de conocimiento surgen cuando ciertas herramientas, documentos o contexto histórico solo están disponibles para algunos subagentes y no para otros. Esto es inherente a los flujos multiagente y supone un equilibrio entre flexibilidad y determinismo.
Qué evalúan los equipos al elegir una arquitectura
Aunque también importan factores como la concurrencia, integraciones y calidad de voz, las dimensiones anteriores dependen más directamente de la arquitectura del agente. Los equipos más exitosos adaptan su arquitectura para optimizar estos aspectos según su caso de uso.

Las arquitecturas en cascada se construyen encadenando componentes especializados: , un modelo de lenguaje grande (LLM), y Texto a Voz. Cada etapa se puede optimizar, probar y actualizar de forma independiente.entrada anterior. Esto permite recuperar documentos de forma fiable incluso cuando la última entrada del usuario es un seguimiento, una confirmación o no contiene una pregunta explícita.
¿Puedo confiar en él en producción?
Equilibrios entre arquitecturas en cascada y fusionadas Cuantas más herramientas se añaden, mayor es la carga de razonamiento para que el modelo elija la secuencia correcta. En el Agent Builder, la descripción de la herramienta explica qué hace y qué campos devuelve. Esta es la información que el modelo de lenguaje usa para entender el contexto de uso. Una vez definida, las condiciones específicas para invocar la herramienta deben estar en el prompt de sistema del agente. Por ejemplo:
Este diseño permite a las arquitecturas fusionadas preservar y reproducir la entonación de forma más efectiva, ya que el modelo procesa directamente la pronunciación y la entonación. Sin embargo, los modelos fusionados son más difíciles de probar y controlar, ya que no exponen salidas intermedias. Además, suelen depender de núcleos LLM más ligeros, lo que limita el razonamiento y el uso de herramientas en comparación con los enfoques en cascada que pueden combinarse con los modelos más potentes disponibles.Guía de Prompting. Dentro de este marco, se pueden definir varios tipos de herramientas, principalmente:
La crítica habitual a las arquitecturas en cascada es que pierden señales prosódicas. El habla se reduce a texto y la entonación, el ritmo y la emoción deben reconstruirse en la salida. Estas señales se pueden recuperar en parte con modelos explícitos, pero no se capturan de forma tan natural como en los enfoques fusionados. Otras dimensiones, como la latencia y los turnos, suelen poder optimizarse hasta niveles comparables en ambos enfoques.variable dinámica. Esta información se guarda como pares clave-valor simples, extraídos de la respuesta de la herramienta mediante mapeos predefinidos. Una vez establecidas, estas variables pueden usarse en el prompt de sistema, en parámetros de futuras herramientas y en condiciones de flujo. Este ciclo de retroalimentación da a los agentes una especie de memoria de trabajo que evoluciona con la interacción.
1. Cascada básica
Las arquitecturas fusionadas adoptan un enfoque completamente distinto. El reconocimiento, el razonamiento y la generación ocurren dentro de una sola red multimodal. El audio entra y sale, sin capas intermedias que se puedan inspeccionar.
Las cinco arquitecturasRecogida de datos y los Criterios de evaluación. La recogida de datos te permite extraer información estructurada de la transcripción de la llamada para análisis posteriores. Los clientes suelen exportar estos datos a su data lakehouse empresarial para informes o flujos de enriquecimiento. Por ejemplo, un agente de ventas puede extraer automáticamente los datos de un posible cliente de una conversación para crear o actualizar un lead en el CRM. Por otro lado, los criterios de evaluación determinan si una llamada se considera exitosa. Si se cumplen todos los criterios configurados, la llamada se marca como exitosa; si no, se marca como fallo. Así, las conversaciones cumplen siempre los estándares definidos de calidad e integridad, y se obtiene feedback rápido. Al terminar la llamada y activarse el webhook post-llamada, el agente procesa la transcripción final, incluyendo cualquier ejecución de herramienta y metadatos, con un LLM junto a todos los puntos de recogida de datos y criterios de evaluación configurados. El modelo usa este prompt combinado para decidir si se cumple cada criterio y extraer los datos especificados para análisis posteriores. Como el LLM interpreta estas configuraciones directamente en su prompt de entrada, es importante que estén claras y consistentes para que el modelo las entienda y aplique correctamente. Por eso recomendamos estas buenas prácticas para redactar criterios de evaluación y descripciones de recogida de datos.
1. Cascada Básica
El audio se transcribe, el LLM genera una respuesta en texto y TTS la convierte en voz. Cada etapa trabaja con texto plano, así que puedes ver, probar y controlar todo.
Ejemplos de uso:
Este es el enfoque detrás de
Soporte al cliente ofrecen una interfaz visual para diseñar flujos de conversación complejos. Al final, generan el objeto lógico que usa el orquestador para gestionar varios subagentes, herramientas y transferencias bajo un identificador de agente independiente. Los flujos de trabajo añaden componentes adicionales a tener en cuenta, además de los ya mencionados para agentes independientes, incluyendo cómo:
La arquitectura mantiene todo lo de la cascada básica: transparencia total, guardarraíles en texto, posibilidad de intercambiar componentes, ajuste por dominio y acceso a los mejores modelos de razonamiento y uso de herramientas. Añade mejor prosodia, menor latencia y turnos más naturales. Los equipos pueden integrar un nuevo LLM avanzado en cuanto salga, o ajustar STT para lenguaje médico, sin rehacer el resto de componentes.

Sobre esta base compartida, los flujos de trabajo introducen subagentes especializados que operan en un grafo dirigido. Cada subagente tiene un objetivo muy concreto y amplía la configuración base con instrucciones adicionales, herramientas y fuentes de conocimiento relevantes solo para su función. En vez de redefinir toda la configuración conversacional, los subagentes añaden su intención sobre el agente base mediante composición de prompts y extensión selectiva de contexto. Aunque el historial de conversación se mantiene entre transiciones de subagente para asegurar continuidad, cada subagente opera con una visión limitada y controlada del sistema. Las bases de conocimiento y herramientas se exponen de forma selectiva, creando silos claros que evitan fugas entre responsabilidades. Para reforzar este aislamiento, el objeto orquestador se reconstruye en cada transición como si fuera un agente independiente. Así, el estado del prompt, la configuración y las capacidades disponibles del subagente activo son totalmente deterministas. Este diseño permite que los flujos de trabajo mantengan coherencia global y especialización local, logrando un comportamiento predecible, separación clara de funciones y control preciso sobre cómo se aplica el contexto, el conocimiento y las acciones en cada etapa de la interacción.
3. Cascada y Fusionado Híbrido
Algunas arquitecturas envían características acústicas (pronunciación, emoción, tono) del habla directamente al LLM como embeddings, en vez de convertir primero a texto. TTS sigue siendo modular.
Esto da al LLM información más rica sobre
Ejemplos de uso:
4. Fusionado Secuencial
Un solo modelo multimodal gestiona reconocimiento, razonamiento y generación en una sola pasada, turno a turno. Esta es la arquitectura de modelos como la API Realtime de OpenAI.
Pero hay poca capacidad para aplicar guardarraíles sin capa de texto, pocas salidas intermedias para depurar y poca flexibilidad para cambiar a un LLM mejor o ajustar el STT a tu dominio. Los núcleos de razonamiento suelen ser más ligeros que los LLM avanzados, así que el uso de herramientas complejas y tareas de varios pasos se resienten. Cuando la tarea requiere resolver un problema complejo, la prosodia por sí sola no basta.
Ejemplos de uso:
5. Fusionado Dúplex
Nuestro equipo de Forward Deployed Engineering colabora estrechamente con los clientes para que estas capacidades evolucionen al ritmo de los despliegues reales. La próxima generación de agentes ofrecerá aún más transparencia, determinismo y adaptabilidad sin sacrificar la baja latencia que hace posible la conversación en tiempo real.

Descubre cómo ElevenAgents gestiona el contexto, las herramientas y los flujos de trabajo para ofrecer conversaciones en tiempo real a nivel empresarial.

Agentes de voz más expresivos, pensados para conversaciones reales con clientes.