Pular para o conteúdo

Guardrails 2.0: Uma nova camada de controle no ElevenAgents

Controles de segurança configuráveis para implantações de agentes prontos para empresas.

sq

À medida que agentes de voz assumem tarefas importantes em suporte, vendas, marketing, fluxos internos e mais, as equipes precisam ter confiança de que eles vão manter a segurança, seguir a marca e estar em conformidade em larga escala.

O Guardrails 2.0 no ElevenAgents é uma camada de controle redesenhada que ajuda a guiar os agentes para as respostas certas e evitar respostas inadequadas antes que cheguem ao usuário final.

Guardrails Cover

Proteções em camadas em tempo real

Um prompt de sistema bem elaborado leva a um comportamento previsível na maioria das interações. Mas, como agentes são sistemas não determinísticos, podem se desviar em conversas longas, usuários podem tentar ultrapassar limites e até políticas bem definidas podem falhar quando o modelo é pressionado.

Por isso, equipes que implantam agentes em produção precisam de defesas em camadas: um prompt de sistema robusto como base, além de verificações independentes do que os usuários dizem e de como os agentes respondem.

O Guardrails 2.0 protege conversas em três níveis, cada um reforçando o outro:

What it does
System prompt hardening
Define allowed and disallowed behavior in the system prompt. The Focus Guardrail reinforces those instructions throughout the conversation.
User input validation
A safety net that catches prompt injection and manipulation attempts, terminating conversations that pose a security risk.
Agent response validation
Evaluates every reply against your policies in real time. If a response violates your rules, it can be blocked before delivery.
Guardrails
System prompt hardening
Focus
User input validation
Manipulation
Agent response validation
Content, Custom Guardrails

Proteções pré-configuradas

Salvaguardas pré-configuradas cobrem as áreas de risco mais comuns.

O Focus Guardrail reforça o prompt de sistema do seu agente, ajudando a manter as respostas direcionadas, relevantes e alinhadas aos seus objetivos e instruções. Isso é especialmente útil em conversas longas ou complexas, onde o agente pode se desviar dos objetivos definidos.

Manipulation Guardrails detectam e bloqueiam tentativas de usuários de burlar as instruções do sistema. Quando ativado, o sistema analisa as entradas dos usuários em busca de padrões que indiquem tentativas de injeção de prompt ou de sobrepor instruções, podendo encerrar conversas que representem risco de segurança.

Content Guardrails ajudam a garantir respostas apropriadas do agente, filtrando diversas categorias de conteúdo potencialmente sensível ou inseguro, cada uma com níveis de sensibilidade ajustáveis para controle preciso.

Custom Guardrails: Suas regras, aplicadas automaticamente

Com os Custom Guardrails, você define políticas específicas do seu domínio em linguagem natural e as aplica automaticamente em todas as chamadas. Isso ajuda a reduzir incidentes, escalonamentos e ciclos de revisão de conformidade que podem atrasar a implantação.

Custom Guardrail Configuration Example

Um modelo leve avalia cada resposta do agente com base nas suas regras e retorna uma decisão de bloquear ou permitir, funcionando de forma independente e em paralelo à geração da resposta.

Controle total sobre como os guardrails funcionam

Você pode definir como as violações de política são detectadas e o que acontece em seguida.

Modos de execução.Configure o equilíbrio entre velocidade e rigor — essencial para voz, onde a latência é crítica. Você pode rodar os guardrails junto com a resposta para quase zero de atraso, embora uma fração de segundo de áudio possa ser reproduzida antes da interceptação. Ou segurar as respostas até a liberação completa — um pouco mais lento, mas nada chega ao usuário sem verificação.

Estratégias de saída. Quando um guardrail é acionado, você define o que acontece: encerrar a conversa, transferir para outro agente, escalar para um humano ou tentar novamente com instruções corretivas.

Níveis de sensibilidade de conteúdo. Ajuste a sensibilidade em cada categoria de conteúdo, reforçando a aplicação em casos de maior risco e flexibilizando onde o bloqueio excessivo prejudicaria a experiência do usuário.

Configuração detalhada. Cada guardrail pode ser ativado ou desativado individualmente, e diferentes agentes podem ter configurações distintas.

Visibilidade completa. Cada acionamento é registrado na sua análise de conversas, incluindo qual guardrail foi ativado e qual ação foi tomada. Isso dá às equipes os dados necessários para aprimorar prompts de sistema e guardrails ao longo do tempo.

Redação do histórico de conversas

Após o término de uma chamada, você pode remover automaticamente informações sensíveis de transcrições, gravações e payloads de webhook. Assim, mantém tudo o que precisa para análise, QA e treinamento, retirando apenas o que não é necessário.

Entidades detectadas são substituídas por placeholders no texto e por bipes no áudio. Você controla o nível de detalhe até por tipo de entidade: remover todos os nomes ou só sobrenomes, todos os identificadores financeiros ou apenas números de cartão.

Isso funciona junto com controles de dados mais amplos, como o Modo de Não Retenção, que pode ser usado em implantações com exigências de conformidade mais rigorosas.

Conversation History Redaction Example

A redação do histórico de conversas e o Modo de Não Retenção estão disponíveis para clientes empresariais.Fale com vendas para ter acesso.

Parte de uma base mais ampla de confiança e segurança

O Guardrails 2.0 e os recursos de privacidade de dados apoiam implantações empresariais do ElevenAgents junto com ferramentas de segurança para todas as etapas do ciclo de vida do agente:

Desenvolvimento do agente

  • Criação de prompt de sistema, configuração de guardrails, red teaming e simulações para testar o comportamento antes do agente ir ao ar

Cada conversa

  • Durante: Guardrails 2.0 (Focus, Manipulation, Content e Custom Guardrails), registro, Modo de Não Retenção opcional
  • Depois: Critérios de avaliação, monitoramento, Redação do Histórico de Conversas opcional

Juntos, esses recursos dão às equipes o controle necessário para sair do piloto para produção com menos incidentes, ciclos de aprovação mais rápidos e comportamento mais consistente dos agentes. Essas bases da plataforma também apoiam a elegibilidade para a certificação AIUC-1 e acesso às primeiras apólices de seguro para agentes do setor.

Comece a usar o Guardrails hoje

Estamos lançando recursos nos últimos meses, e o pacote completo do Guardrails 2.0 já está disponível em alpha no ElevenAgents.

Ative na aba Segurança das configurações do seu agente, ou configure via API. Para mais informações sobre implantações empresariais, fale com nosso time de vendas.

Para orientações de configuração e boas práticas, veja:

Explore artigos da equipe ElevenLabs

Crie com o áudio de IA da mais alta qualidade