Guardrails 2.0:ElevenAgents 全新控制层
- 发布时间
- 最近更新
收听收听本文
语音智能体已广泛应用于支持、销售、营销、内部流程等高影响场景,团队需要确保其在企业级规模下依然安全、合规、符合品牌要求。
ElevenAgents 的 Guardrails 2.0 是全新设计的控制层,可引导智能体给出合适回应,并在内容到达终端用户前阻止不当回复。

实时多层防护
精心设计的系统提示词能让大多数对话表现可控。但由于智能体本质上是非确定性系统,长时间对话中可能出现偏离,用户也可能用新方式突破限制,即使规则明确,模型在高压下也未必始终遵守。
因此,生产环境下的智能体部署需要多层防护:以强化的系统提示词为基础,同时独立检测用户输入和智能体回复。
Guardrails 2.0 从三个层面保护对话,层层递进:
内置防护
内置安全措施覆盖最常见的风险领域。
聚焦防护 强化智能体的系统提示词,帮助回复更聚焦、相关,并始终符合既定目标和指令。长对话或复杂场景下尤为有效,可防止智能体偏离目标。
操控防护 检测并阻止用户绕过系统指令的尝试。启用后,系统会分析用户输入,识别提示词注入或指令覆盖等风险行为,并可终止存在安全隐患的对话。
内容防护 通过多类别敏感内容筛查,确保智能体回复合规。每类内容均可单独调整阈值,实现精细化控制。
自定义防护:自动执行你的规则
自定义防护支持用自然语言定义专属策略,并自动应用到每一次通话,减少违规、升级和合规审核流程,加快部署进度。
.webp&w=3840&q=95)
轻量模型会针对每条智能体回复与规则比对,独立并行做出拦截或放行决策,不影响回复生成。
灵活掌控防护执行方式
可自定义违规检测方式及后续处理流程。
执行模式。可根据速度与严格程度灵活配置——语音场景下延迟尤为关键。可选择与回复并行运行,实现几乎零延迟,但可能有极短音频先播放后拦截;也可选择回复完全审核后再输出,稍慢但确保无遗漏。
退出策略。 触发防护后,可自定义后续操作:结束对话、转接其他智能体、升级至人工,或按纠正指令重试回复。
内容敏感度等级。 可针对每类内容单独调整敏感度,高风险场景加强拦截,低风险场景减少误拦,优化体验。
精细化配置。 每项防护均可单独启用或关闭,不同智能体可采用不同配置。
全程可见。 每次触发都会记录在对话分析中,包括触发的防护项及处理动作,便于团队持续优化系统提示词和防护策略。
对话历史脱敏
通话结束后,可自动对转录文本、录音和 webhook 数据进行敏感信息脱敏。保留分析、质检、训练所需内容,去除无关敏感数据。
检测到的实体会在文本中替换为占位符,音频中以消音处理。可精确到每类实体:如全部姓名或仅姓氏、全部金融标识或仅支付卡号等。
此外还可结合更广泛的数据控制措施,如 零留存模式,适用于合规要求更高的部署场景。
.webp&w=3840&q=95)
对话历史脱敏和零留存模式面向企业客户开放。请联系销售团队 获取访问权限。
信任与安全体系的重要组成部分
Guardrails 2.0 及数据隐私功能,为 ElevenAgents 企业级部署提供全流程安全保障,覆盖智能体全生命周期:
智能体开发
- 系统提示词设计、防护配置、红队测试与行为模拟,确保上线前充分压力测试
每一次对话
- 进行中: Guardrails 2.0(聚焦、操控、内容及自定义防护)、日志记录、可选零留存模式
- 结束后: 评估标准、监控、可选对话历史脱敏
这些措施帮助团队从试点到生产快速推进,减少风险,加快审批,提升智能体表现一致性。平台基础能力还支持 AIUC-1 认证及业内首个 智能体保险方案。
立即体验 Guardrails
过去几个月我们已陆续上线相关功能,完整的 Guardrails 2.0 套件现已在 ElevenAgents alpha 版开放。
可在 安全 标签页的 智能体设置 中启用,或通过 API 配置。企业部署详情请联系 销售团队。
设置指引与最佳实践,详见:
.webp&w=3840&q=80)


.webp&w=3840&q=80)
