Guardrails 2.0: Uma nova camada de controle no ElevenAgents

Escrito por: Eli Goodman; Jonatan von Martens
Publicado: 24 de mar. de 2026
Última atualização: 27 de mai. de 2026

OuvirOuça este artigo

0:00

0:000:00

À medida que

O Guardrails 2.0 no ElevenAgents é uma camada de controle redesenhada que ajuda a guiar os agentes para as respostas certas e evitar respostas inadequadas antes que cheguem ao usuário final.

Proteções em camadas em tempo real

Um prompt de sistema bem elaborado leva a um comportamento previsível na maioria das interações. Mas, como agentes são sistemas não determinísticos, podem se desviar em conversas longas, usuários podem tentar ultrapassar limites e até políticas bem definidas podem falhar quando o modelo é pressionado.

Por isso, equipes que implantam agentes em produção precisam de defesas em camadas: um prompt de sistema robusto como base, além de verificações independentes do que os usuários dizem e de como os agentes respondem.

O Guardrails 2.0 protege conversas em três níveis, cada um reforçando o outro:

What it does

System prompt hardening

Define allowed and disallowed behavior in the system prompt. The Focus Guardrail reinforces those instructions throughout the conversation.

User input validation

A safety net that catches prompt injection and manipulation attempts, terminating conversations that pose a security risk.

Agent response validation

Evaluates every reply against your policies in real time. If a response violates your rules, it can be blocked before delivery.

Guardrails

System prompt hardening

Focus

User input validation

Manipulation

Agent response validation

Content, Custom Guardrails

Enforcement Layer

What it does

Guardrails

System prompt hardening

Define allowed and disallowed behavior in the system prompt. The Focus Guardrail reinforces those instructions throughout the conversation.

Focus

User input validation

A safety net that catches prompt injection and manipulation attempts, terminating conversations that pose a security risk.

Manipulation

Agent response validation

Evaluates every reply against your policies in real time. If a response violates your rules, it can be blocked before delivery.

Content, Custom Guardrails

Proteções pré-configuradas

Salvaguardas pré-configuradas cobrem as áreas de risco mais comuns.

O Focus Guardrail reforça o prompt de sistema do seu agente, ajudando a manter as respostas direcionadas, relevantes e alinhadas aos seus objetivos e instruções. Isso é especialmente útil em conversas longas ou complexas, onde o agente pode se desviar dos objetivos definidos.

Diretrizes de Manipulação detectam e bloqueiam tentativas de usuários de burlar as instruções do sistema. Quando ativado, o sistema analisa as entradas dos usuários em busca de padrões que indiquem tentativas de injeção de prompt ou de sobrepor instruções, podendo encerrar conversas que representem risco de segurança.

Diretrizes de Conteúdo ajudam a garantir respostas apropriadas do agente, filtrando diversas categorias de conteúdo potencialmente sensível ou inseguro, cada uma com níveis de sensibilidade ajustáveis para controle preciso.

Custom Guardrails: Suas regras, aplicadas automaticamente

Com os Custom Guardrails, você define políticas específicas do seu domínio em linguagem natural e as aplica automaticamente em todas as chamadas. Isso ajuda a reduzir incidentes, escalonamentos e ciclos de revisão de conformidade que podem atrasar a implantação.

Um modelo leve avalia cada resposta do agente com base nas suas regras e retorna uma decisão de bloquear ou permitir, funcionando de forma independente e em paralelo à geração da resposta.

Controle total sobre como os guardrails funcionam

Você pode definir como as violações de política são detectadas e o que acontece em seguida.

Modos de execução.Configure o equilíbrio entre velocidade e rigor — essencial para voz, onde a latência é crítica. Você pode rodar os guardrails junto com a resposta para quase zero de atraso, embora uma fração de segundo de áudio possa ser reproduzida antes da interceptação. Ou segurar as respostas até a liberação completa — um pouco mais lento, mas nada chega ao usuário sem verificação.

Estratégias de saída. Quando um guardrail é acionado, você define o que acontece: encerrar a conversa, transferir para outro agente, escalar para um humano ou tentar novamente com instruções corretivas.

Níveis de sensibilidade de conteúdo. Ajuste a sensibilidade em cada categoria de conteúdo, reforçando a aplicação em casos de maior risco e flexibilizando onde o bloqueio excessivo prejudicaria a experiência do usuário.

Configuração detalhada. Cada medida de segurança pode ser ativada ou desativada individualmente, e diferentes

Visibilidade completa. Cada acionamento é registrado na sua análise de conversas, incluindo qual guardrail foi ativado e qual ação foi tomada. Isso dá às equipes os dados necessários para aprimorar prompts de sistema e guardrails ao longo do tempo.

Redação do histórico de conversas

Após o término de uma chamada, você pode remover automaticamente informações sensíveis de transcrições, gravações e payloads de webhook. Assim, mantém tudo o que precisa para análise, QA e treinamento, retirando apenas o que não é necessário.

Entidades detectadas são substituídas por placeholders no texto e por bipes no áudio. Você controla o nível de detalhe até por tipo de entidade: remover todos os nomes ou só sobrenomes, todos os identificadores financeiros ou apenas números de cartão.

Isso funciona junto com controles de dados mais amplos, como o Modo de Não Retenção, que pode ser usado em implantações com exigências de conformidade mais rigorosas.

A redação do histórico de conversas e o Modo de Não Retenção estão disponíveis para clientes empresariais.Fale com vendas para ter acesso.

Parte de uma base mais ampla de confiança e segurança

O Guardrails 2.0 e os recursos de privacidade de dados apoiam implantações empresariais do ElevenAgents junto com ferramentas de segurança para todas as etapas do ciclo de vida do agente:

Desenvolvimento do agente

Criação de prompt de sistema, configuração de guardrails, red teaming e simulações para testar o comportamento antes do agente ir ao ar

Cada conversa

Durante: Guardrails 2.0 (Focus, Manipulation, Content e Custom Guardrails), registro, Modo de Não Retenção opcional
Depois: Critérios de avaliação, monitoramento, Redação do Histórico de Conversas opcional

Juntos, esses recursos dão às equipes o controle necessário para sair do piloto para produção com menos incidentes, ciclos de aprovação mais rápidos e comportamento mais consistente dos agentes. Essas bases da plataforma também apoiam a elegibilidade para a certificação AIUC-1 e acesso às primeiras apólices de seguro para agentes do setor.

Comece a usar o Guardrails hoje

Estamos lançando recursos nos últimos meses, e o pacote completo do Guardrails 2.0 já está disponível em alpha no ElevenAgents.

Ative na aba Segurança das configurações do seu agente, ou configure via API. Para mais informações sobre implantações empresariais, fale com nosso time de vendas.

Para orientações de configuração e boas práticas, veja:

Guardrails 2.0: Uma nova camada de controle no ElevenAgents

Proteções em camadas em tempo real

Proteções pré-configuradas

Custom Guardrails: Suas regras, aplicadas automaticamente

Controle total sobre como os guardrails funcionam

Redação do histórico de conversas

Parte de uma base mais ampla de confiança e segurança

Comece a usar o Guardrails hoje

Artigos relacionados

ElevenLabs garante seguro inédito para Agentes de IA

Nossa estrutura de segurança em camadas para agentes de IA

Resumo do Webinar: Como a Insurely Implementou Agentes de Voz no Atendimento

ElevenAgents React SDK v1.0