Guardrails 2.0：ElevenAgents 全新控制层

作者: Eli Goodman; Jonatan von Martens
发布时间: 2026年3月24日
最近更新: 2026年5月27日

收听收听本文

0:00

0:000:00

联系销售团队

随着

ElevenAgents 的 Guardrails 2.0 是全新设计的控制层，可引导智能体给出合适回应，并在内容到达终端用户前阻止不当回复。

实时多层防护

精心设计的系统提示词能让大多数对话表现可控。但由于智能体本质上是非确定性系统，长时间对话中可能出现偏离，用户也可能用新方式突破限制，即使规则明确，模型在高压下也未必始终遵守。

因此，生产环境下的智能体部署需要多层防护：以强化的系统提示词为基础，同时独立检测用户输入和智能体回复。

Guardrails 2.0 从三个层面保护对话，层层递进：

What it does

System prompt hardening

Define allowed and disallowed behavior in the system prompt. The Focus Guardrail reinforces those instructions throughout the conversation.

User input validation

A safety net that catches prompt injection and manipulation attempts, terminating conversations that pose a security risk.

Agent response validation

Evaluates every reply against your policies in real time. If a response violates your rules, it can be blocked before delivery.

Guardrails

System prompt hardening

Focus

User input validation

Manipulation

Agent response validation

Content, Custom Guardrails

Enforcement Layer

What it does

Guardrails

System prompt hardening

Define allowed and disallowed behavior in the system prompt. The Focus Guardrail reinforces those instructions throughout the conversation.

Focus

User input validation

A safety net that catches prompt injection and manipulation attempts, terminating conversations that pose a security risk.

Manipulation

Agent response validation

Evaluates every reply against your policies in real time. If a response violates your rules, it can be blocked before delivery.

Content, Custom Guardrails

内置防护

内置安全措施覆盖最常见的风险领域。

聚焦防护强化智能体的系统提示词，帮助回复更聚焦、相关，并始终符合既定目标和指令。长对话或复杂场景下尤为有效，可防止智能体偏离目标。

操控防护检测并阻止用户绕过系统指令的尝试。启用后，系统会分析用户输入，识别提示词注入或指令覆盖等风险行为，并可终止存在安全隐患的对话。

内容防护通过多类别敏感内容筛查，确保智能体回复合规。每类内容均可单独调整阈值，实现精细化控制。

自定义防护：自动执行你的规则

自定义防护支持用自然语言定义专属策略，并自动应用到每一次通话，减少违规、升级和合规审核流程，加快部署进度。

轻量模型会针对每条智能体回复与规则比对，独立并行做出拦截或放行决策，不影响回复生成。

灵活掌控防护执行方式

可自定义违规检测方式及后续处理流程。

执行模式。可根据速度与严格程度灵活配置——语音场景下延迟尤为关键。可选择与回复并行运行，实现几乎零延迟，但可能有极短音频先播放后拦截；也可选择回复完全审核后再输出，稍慢但确保无遗漏。

退出策略。触发防护后，可自定义后续操作：结束对话、转接其他智能体、升级至人工，或按纠正指令重试回复。

内容敏感度等级。可针对每类内容单独调整敏感度，高风险场景加强拦截，低风险场景减少误拦，优化体验。

精细化配置。每项安全措施都可单独启用或关闭，不同的

全程可见。每次触发都会记录在对话分析中，包括触发的防护项及处理动作，便于团队持续优化系统提示词和防护策略。

对话历史脱敏

通话结束后，可自动对转录文本、录音和 webhook 数据进行敏感信息脱敏。保留分析、质检、训练所需内容，去除无关敏感数据。

检测到的实体会在文本中替换为占位符，音频中以消音处理。可精确到每类实体：如全部姓名或仅姓氏、全部金融标识或仅支付卡号等。

此外还可结合更广泛的数据控制措施，如零留存模式，适用于合规要求更高的部署场景。

对话历史脱敏和零留存模式面向企业客户开放。请联系销售团队获取访问权限。

信任与安全体系的重要组成部分

Guardrails 2.0 及数据隐私功能，为 ElevenAgents 企业级部署提供全流程安全保障，覆盖智能体全生命周期：

智能体开发

系统提示词设计、防护配置、红队测试与行为模拟，确保上线前充分压力测试

每一次对话

进行中： Guardrails 2.0（聚焦、操控、内容及自定义防护）、日志记录、可选零留存模式
结束后：评估标准、监控、可选对话历史脱敏

这些措施帮助团队从试点到生产快速推进，减少风险，加快审批，提升智能体表现一致性。平台基础能力还支持 AIUC-1 认证及业内首个智能体保险方案。

立即体验 Guardrails

过去几个月我们已陆续上线相关功能，完整的 Guardrails 2.0 套件现已在 ElevenAgents alpha 版开放。

可在安全标签页的智能体设置中启用，或通过 API 配置。企业部署详情请联系销售团队。

设置指引与最佳实践，详见：

Guardrails 2.0：ElevenAgents 全新控制层

实时多层防护

内置防护

自定义防护：自动执行你的规则

灵活掌控防护执行方式

对话历史脱敏

信任与安全体系的重要组成部分

立即体验 Guardrails

相关内容

ElevenLabs 获得首个 AI 智能体保险

AI 智能体的多层安全框架

ElevenLabs 智能体测试功能上线

全新 ElevenLabs Agents