
Desvendando o Motor de Orquestração do ElevenAgent
Veja como o ElevenAgents gerencia contexto, ferramentas e fluxos de trabalho para entregar conversas em tempo real com padrão empresarial.
Um panorama das cinco principais arquiteturas de agentes de voz e os equilíbrios entre raciocínio, controle e naturalidade.
ElevenAgents são alimentados por um motor de orquestração de baixa latência, criado especialmente para conversas em tempo real, adicionando menos de 100ms de atraso. Essa arquitetura combina o melhor das pesquisas da ElevenLabs com LLMs de ponta de provedores como OpenAI, Google e Anthropic, além de modelos open-source selecionados e hospedados pela ElevenLabs. Ao usar múltiplos modelos em diferentes etapas do pipeline de respostas, o agente garante conversas altamente responsivas e com entendimento de contexto. Aproveitando dinamicamente os pontos fortes de cada modelo em conjunto, conseguimos desempenho confiável e escalável em várias tarefas empresariais e cenários de conversação, otimizando o equilíbrio entre inteligência, velocidade e custo.
A arquitetura do agente ajuda a definir o quão natural, inteligente e consistente são suas respostas, além de influenciar se ele se comporta de forma previsível ao longo do tempo. Por exemplo, um agente com arquitetura baseada em fusão pode soar muito realista em conversas curtas, mas ter dificuldades para raciocinar ou manter a consistência em diálogos mais longos.
Neste post, mostramos as cinco principais arquiteturas de agentes conversacionais que existem hoje, explicando seus conceitos, vantagens, desvantagens e como as equipes escolhem entre elas de acordo com seus objetivos.ferramentas e uma base de conhecimento. Clientes devem preferir agentes independentes em vez de workflows quando o caso de uso exige pouca verificação de sequência de etapas ou quando é importante evitar silos de conhecimento entre agentes. Silos de conhecimento surgem quando certas ferramentas, documentos ou contexto histórico estão acessíveis para alguns subagentes, mas não para outros. Isso é inerente a workflows multiagente e traz um equilíbrio entre flexibilidade e determinismo.
O que as equipes priorizam ao criar agentes
Embora fatores como concorrência, integrações e qualidade de voz também sejam importantes, as dimensões acima podem ser mais diretamente influenciadas pela arquitetura do agente. As equipes mais bem-sucedidas adaptam a arquitetura para otimizar esses pontos conforme o uso desejado.

Arquiteturas baseadas em cascata são compostas por componentes especializados conectados em sequência: , um Large Language Model e Transformar Texto em Áudio. Cada etapa pode ser otimizada, testada e atualizada de forma independente.post anterior. Isso permite recuperar documentos de forma confiável mesmo quando a entrada mais recente do usuário é um acompanhamento, um reconhecimento de esclarecimento ou não contém uma pergunta explícita.
A recuperação, porém, é apenas uma das formas de interação dos agentes com sistemas externos.
Já as abordagens fundidas combinam essas etapas em um único modelo multimodal. O áudio entra e sai, com reconhecimento de fala, raciocínio e geração acontecendo dentro da mesma rede. À medida que mais ferramentas são adicionadas, aumenta também a responsabilidade do modelo em escolher a sequência correta de ferramentas. No Agent Builder, a descrição da ferramenta explica o que ela faz e quais campos retorna. É essa informação que o modelo de linguagem usa para entender o contexto do uso. Uma vez definida, as condições específicas para acionar a ferramenta ficam no prompt do sistema do agente. Por exemplo:
Esse design permite que arquiteturas baseadas em fusão preservem e reproduzam a prosódia de forma mais eficaz, já que o modelo processa pronúncia e entonação diretamente. Porém, modelos fundidos são mais difíceis de testar e controlar, pois não expõem saídas intermediárias. Eles também costumam usar LLMs mais leves, o que limita o raciocínio e o uso de ferramentas em comparação com abordagens em cascata que podem usar os modelos mais avançados disponíveis.Guia de Prompt. Dentro desse framework, vários tipos de ferramentas podem ser definidos, principalmente:
As cinco arquiteturas possíveisvariável dinâmica. Essas informações são mantidas como pares chave-valor simples, extraídas da resposta da ferramenta usando mapeamentos pré-definidos. Uma vez definidas, essas variáveis podem ser usadas no prompt do sistema do agente, em parâmetros de ferramentas futuras e em condições de workflow. Esse ciclo de feedback dá aos agentes uma espécie de memória de trabalho que evolui conforme interagem.
1. Cascata Básica
Com a execução e orquestração definidas, o próximo passo é entender como medir o desempenho.
Por outro lado, o agente não reconhece nuances da fala como tom, ritmo e emoção, o que pode deixar a conversa menos natural.Coleta de Dados e os Critérios de Avaliação. A Coleta de Dados permite extrair informações estruturadas da transcrição da chamada para análise e agregação. Os clientes costumam exportar esses dados para o data lakehouse da empresa para relatórios ou enriquecimento de workflows. Por exemplo, um Agent de Vendas pode extrair automaticamente dados de um prospect para criar ou atualizar um lead no sistema de CRM. Já os Critérios de Avaliação determinam se uma chamada é considerada bem-sucedida. Se todos os critérios forem atendidos, a chamada é marcada como sucesso; caso contrário, é sinalizada como falha. Isso garante que as conversas sigam padrões definidos de qualidade e integridade, além de fornecer feedback rápido. Assim que a chamada termina e o webhook pós-chamada é acionado, o agente processa a transcrição finalizada, incluindo execuções de ferramentas e metadados, em um LLM junto com todos os pontos de coleta de dados e critérios de avaliação configurados. O modelo usa esse prompt combinado para determinar se cada critério foi atendido e para extrair os dados especificados para análise. Como o LLM interpreta essas configurações diretamente no prompt de entrada, é importante formatá-las de forma clara e consistente para que o modelo entenda e aplique corretamente. Por isso, recomendamos as seguintes práticas para escrever descrições de Critérios de Avaliação e Coleta de Dados.
Possíveis usos incluem:
2. Cascata Avançada
Arquiteturas em cascata avançadas trazem o TTS contextual, onde o LLM decide não só o que dizer, mas também como dizer, enviando instruções como "diga isso de forma tranquilizadora" ou "responda com ênfase" para o modelo de TTS. O agente fala com tom e estilo mais realistas, mantendo os mesmos limites, fluxos determinísticos, uso de ferramentas e auditabilidade do sistema em cascata básico.
Essa é a abordagem usada no
Atendimento ao cliente oferecem uma interface visual para criar fluxos de conversa complexos. No final, geram o objeto lógico usado pelo orquestrador para gerenciar múltiplos subagentes, ferramentas e transferências sob um identificador de agente independente. Workflows trazem componentes adicionais além dos já descritos para agentes independentes, incluindo como:
Algumas arquiteturas em cascata enviam características acústicas (como pronúncia, emoção e tom) da fala original diretamente para o LLM como embeddings. Assim, a arquitetura preserva mais da intenção do usuário, mantendo o TTS modular. O uso de ferramentas e limites ainda é possível, mas o bloco fundido de ASR+LLM é mais difícil de auditar do que uma transição limpa de texto, e o LLM não pode ser trocado com tanta facilidade quanto em um modelo em cascata.

Sobre essa base compartilhada, Workflows introduzem subagentes especializados que atuam em um grafo direcionado. Cada subagente recebe um objetivo bem definido e complementa a configuração base com instruções adicionais de prompt, ferramentas e fontes de conhecimento relevantes apenas para sua função. Em vez de redefinir toda a configuração da conversa, os subagentes adicionam sua intenção ao agente base por meio de composição de prompt e extensão seletiva de contexto. O histórico da conversa é mantido entre transições de subagentes para garantir continuidade, mas cada subagente opera com uma visão propositalmente limitada do sistema. Bases de conhecimento e ferramentas são expostas de forma seletiva, criando silos claros que evitam vazamento de responsabilidades. Para reforçar esse isolamento, o objeto do orquestrador é reconstruído a cada transição como se fosse um agente independente. Isso garante que o estado do prompt, configuração e capacidades disponíveis do subagente ativo permaneçam totalmente determinísticos. Esse design permite que Workflows mantenham consistência global e, ao mesmo tempo, suportem especialização local, resultando em comportamento previsível, separação clara de responsabilidades e controle preciso sobre como contexto, conhecimento e ações são aplicados em cada etapa da interação.
4. Fundido Sequencial
Em arquiteturas fundidas sequenciais, um único modelo multimodal faz reconhecimento, raciocínio e geração de fala. Operando um turno por vez, o modelo escuta até o usuário terminar e então gera o áudio diretamente. Ao processar o áudio de ponta a ponta, essas arquiteturas capturam naturalmente sinais como pronúncia, ritmo e entonação, resultando em falas mais fluidas e expressivas.
Por outro lado, é mais difícil aplicar limites sem uma camada de texto, o uso de ferramentas é limitado por núcleos de raciocínio mais leves e a visibilidade é reduzida sem saídas intermediárias claras.
Quando a conversa avança para uma nova etapa, o sistema ativa uma versão do agente ajustada especificamente para aquele momento. Cada etapa opera com instruções focadas e acesso apenas ao conhecimento e ferramentas relevantes para sua responsabilidade. Por exemplo, uma etapa de reembolso pode acessar políticas de reembolso sem herdar contexto não relacionado de onboarding ou triagem. A movimentação entre etapas é controlada por condições de transição explícitas. Essas condições determinam quando a responsabilidade deve mudar e permitem decisões de roteamento naturais conforme a conversa evolui. Para manter a continuidade, a experiência do usuário permanece fluida entre as transições, com cada etapa herdando o contexto relevante da conversa sem expor os detalhes da passagem. Salvaguardas também monitoram as transições para evitar ciclos improdutivos, garantindo que o workflow permaneça estável e focado no objetivo.
5. Fundido Duplex
Em arquiteturas fundidas duplex, o modelo processa entrada e saída ao mesmo tempo. Isso pode gerar conversas com fluxo mais natural e sobreposição de fala, especialmente em diálogos curtos, mas também traz bastante complexidade. É mais difícil aplicar limites, interrupções e sobreposição de fala podem causar erros, e a visibilidade é mínima em comparação com arquiteturas em cascata.
Em algumas situações, quem fala pode compartilhar informações sensíveis com um agente, sujeitas a requisitos rigorosos de armazenamento e processamento, como dados médicos que exigem tratamento compatível com HIPAA. Para esses casos, oferecemos o Modo Zero Retenção (ZRM) no nível do Agent ou do Workspace. Quando ativado, todos os dados da chamada são processados apenas em memória e nunca gravados em armazenamento permanente. Após o término da chamada e do processamento, nenhuma informação é retida pela ElevenLabs. Assim, transcrições, gravações de áudio e análises não ficam disponíveis no Dashboard dos Agents, e essa política vale tanto para sistemas voltados ao cliente quanto para logs internos. Embora os dados não sejam retidos, eles são processados durante a chamada, e qualquer webhook pós-chamada configurado receberá os resultados, permitindo que o cliente armazene transcrições ou análises em seus próprios sistemas, se desejar.
Como escolher a arquitetura ideal para seu caso de uso
Neste artigo, mostramos como os Agents da ElevenLabs gerenciam contexto de conversa, ferramentas, avaliação e workflows estruturados para entregar experiências confiáveis e em tempo real em escala. À medida que os clientes implantam agentes em ambientes cada vez mais complexos, seguimos ampliando a flexibilidade do nosso motor de orquestração, desde modelos de avaliação configuráveis e controles de transição mais ricos até maior visibilidade sobre composição de prompts e uso de tokens em cada etapa.
Nossa equipe de Forward Deployed Engineering está trabalhando lado a lado com os clientes para garantir que essas capacidades evoluam junto com as implantações reais. A próxima geração de Agents vai oferecer ainda mais transparência, determinismo e adaptabilidade, sem abrir mão da baixa latência que torna possível a conversa em tempo real.

Veja como o ElevenAgents gerencia contexto, ferramentas e fluxos de trabalho para entregar conversas em tempo real com padrão empresarial.

Agentes de voz mais expressivos, criados para conversas reais com clientes.