Nossa estrutura de segurança em camadas para agentes de IA
- Escrito por
- Louise Meyer-Schoenherr
- Publicado
- Última atualização
OuvirOuça este artigo
À medida que agentes de IA assumem tarefas críticas, as equipes precisam ter confiança de que seus agentes vão agir de forma segura e previsível.proteções antes da produção, mecanismos de controle durante a conversa e monitoramento contínuo. Juntos, esses componentes ajudam a garantir o uso responsável da IA, a conscientização do usuário e a aplicação de limites em todo o
No ElevenAgents, usamos uma arquitetura de segurança em camadas, com proteções em todas as etapas da conversa, testes adversariais antes do lançamento, monitoramento em produção, proteção de dados e validação independente.
Embora nenhum sistema não-determinístico consiga evitar todos os riscos, essa estrutura abrangente de segurança permite que grandes empresas e governos que usam o ElevenAgents criem agentes que falham raramente, se recuperam bem e atendem a altos padrões de segurança.
Proteção em cada etapa da conversa
Você pode ativar e configurar facilmente controles que protegem as três etapas de cada interação. Isso é a base para
Entrada - Verificações em tempo real do que o usuário envia.
Decisão -
As regras definem os limites do comportamento do agente de voz com IA. Elas devem estar alinhadas com as políticas internas de segurança e cobrir:
- Segurança de conteúdo - evitar temas inadequados ou prejudiciais
- Limites de conhecimento - restringir o escopo aos produtos, serviços e políticas da empresa
- Restrições de identidade - definir como o agente se apresenta
- Limites de privacidade e escalonamento - proteger os dados do usuário e encerrar conversas inseguras
Dica de implementação: inclua regras completas no prompt do sistema.
O ElevenAgents oferece funcionalidades robustas de teste para que quem constrói na plataforma possa encontrar e corrigir problemas antes de colocar um agente ou alteração em produção.guia de prompts
Simulações
- Adicionar proteções ao prompt do sistema instrui o agente a ignorar tentativas de extração, manter o foco na tarefa e encerrar a interação após tentativas repetidas.
Avaliando e melhorando agentes após o lançamento
Quando você coloca seus agentes em produção, as avaliações são feitas continuamente em conversas reais. Usando a abordagem LLM-as-a-judge, cada chamada pode ser avaliada automaticamente com base nos critérios definidos. Você pode revisar os resultados das conversas em painéis e rastrear problemas usando registros detalhados, que incluem transcrições pesquisáveis, fontes, chamadas de ferramentas e acionamentos de guardrails.
Exemplo de resposta:
Protegendo dados sensíveisencerrar_chamada ou transferir_para_agente. Isso garante que os limites sejam respeitados sem discussões ou escalonamentos.
Agentes podem lidar com dados de pagamento, informações de saúde e identificadores pessoais, então é importante considerar quais dados são armazenados, onde e por quanto tempo.
Oferecemos diferentes mecanismos para que clientes possam proteger seus dados:
A avaliação de segurança foca em objetivos principais definidos pelas regras do prompt do sistema, como:
- Manter o papel e a persona definidos do agente
- Responder de forma consistente e com tom emocional adequado
- Evitar temas inseguros, fora do escopo ou sensíveis
- Respeitar limites funcionais, privacidade e regras de conformidade
Tudo isso está apoiado pelas nossas
Também submetemos nossa abordagem à avaliação independente, incluindo padrões gerais de segurança e privacidade como SOC 2 Tipo II, ISO 27001 e LGPD, além de certificações específicas como PCI DSS Nível 1 para processamento de pagamentos e HIPAA para saúde nos EUA. Veja nosso centro de confiança
Também atendemos a padrões mais recentes, nativos de IA, como ISO 42001, que regula sistemas de gestão de IA, e AIUC-1, que exige que agentes de IA passem por simulações adversariais trimestrais feitas por avaliadores independentes. As mesmas capacidades por trás do AIUC-1 também permitem acesso às
Para implantações grandes ou complexas, nossos
Conclusãosimulação de conversas da ElevenLabs, roteirizando interações entre usuário e agente com prompts de avaliação personalizados. Isso ajuda a garantir que os agentes estejam prontos para produção, alinhados aos padrões internos de segurança e mantenham a integridade da segurança em diferentes versões.
Nossa abordagem de segurança no ElevenAgents é em camadas, com cada elemento reforçando os demais:
- Configuração do agente: Prompts do sistema, workflows e procedimentos que moldam o comportamento, com as ações mais sensíveis protegidas por chamadas de ferramentas.
- Proteções: Verificações independentes em cada etapa: detecção de manipulação na entrada, Focus na decisão e validadores de conteúdo e personalizados na saída, com estratégias de saída configuráveis.encerrar_chamada caso o usuário insista.
As simulações de red teaming podem ser padronizadas e reutilizadas em diferentes agentes, versões e casos de uso, permitindo a aplicação consistente das expectativas de segurança em escala.
Veja: boas práticas de testes
Moderação ao vivo por mensagem
A moderação ao vivo por mensagem para Conversational AI pode ser ativada no nível do workspace para todos os agentes e, em alguns casos, já vem ativada por padrão. Quando ativada, o sistema encerra automaticamente a chamada se detectar que o agente está prestes a dizer algo proibido (detecção baseada em texto). Atualmente, apenas conteúdos sexuais envolvendo menores (SCIM) são bloqueados, mas o escopo da moderação pode ser ampliado conforme a necessidade do cliente. Essa funcionalidade adiciona latência mínima: p50: 0ms, p90: 250ms, p95: 450ms.
Podemos colaborar com os clientes para definir o escopo adequado de moderação e fornecer análises para apoiar o ajuste contínuo da segurança. Ex: end_call_reason
Estrutura de testes de segurança
Para validar a segurança antes da produção, recomendamos uma abordagem em etapas:
- Defina testes de red teaming alinhados à sua estrutura de segurança.
- Realize chamadas de teste manuais usando esses cenários para identificar pontos fracos e ajustar o comportamento do agente (edições no prompt do sistema).
- Defina critérios de avaliação para analisar o desempenho de segurança nas chamadas de teste manuais (acompanhe taxas de sucesso/falha e justificativas do LLM).
- Execute simulações com prompts estruturados e avaliações automáticas no ambiente de simulação de conversas, usando lógica personalizada de avaliação. Os critérios gerais de avaliação rodam em paralelo para cada simulação.
- Revise e ajuste os prompts, critérios de avaliação ou escopo de moderação até alcançar resultados consistentes.
- Implemente gradualmente quando o agente atender consistentemente às expectativas em todas as verificações de segurança, mantendo o monitoramento do desempenho.
Esse processo estruturado garante que os agentes sejam testados, ajustados e validados conforme padrões claros antes de chegarem aos usuários finais. É recomendado definir critérios de qualidade (ex: taxas mínimas de sucesso em chamadas) em cada etapa.
Resumo
Um agente de voz com IA seguro exige proteções em todas as etapas do ciclo de vida:
- Pré-produção: red teaming, simulação e design do prompt do sistema
- Durante a conversa: regras, divulgação e aplicação do end_call
- Pós-implantação: critérios de avaliação, monitoramento e moderação ao vivo
Ao implementar essa estrutura em camadas, as organizações garantem comportamento responsável, mantêm a conformidade e constroem confiança com os usuários.

.webp&w=3840&q=80)


