跳到内容

Guardrails 2.0:ElevenAgents 全新控制层

发布时间
最近更新

收听收听本文

语音智能体已广泛应用于支持、销售、营销、内部流程等高影响场景,团队需要确保其在企业级规模下依然安全、合规、符合品牌要求。

ElevenAgents 的 Guardrails 2.0 是全新设计的控制层,可引导智能体给出合适回应,并在内容到达终端用户前阻止不当回复。

Guardrails Cover

实时多层防护

精心设计的系统提示词能让大多数对话表现可控。但由于智能体本质上是非确定性系统,长时间对话中可能出现偏离,用户也可能用新方式突破限制,即使规则明确,模型在高压下也未必始终遵守。

因此,生产环境下的智能体部署需要多层防护:以强化的系统提示词为基础,同时独立检测用户输入和智能体回复。

Guardrails 2.0 从三个层面保护对话,层层递进:

What it does
System prompt hardening
Define allowed and disallowed behavior in the system prompt. The Focus Guardrail reinforces those instructions throughout the conversation.
User input validation
A safety net that catches prompt injection and manipulation attempts, terminating conversations that pose a security risk.
Agent response validation
Evaluates every reply against your policies in real time. If a response violates your rules, it can be blocked before delivery.
Guardrails
System prompt hardening
Focus
User input validation
Manipulation
Agent response validation
Content, Custom Guardrails

内置防护

内置安全措施覆盖最常见的风险领域。

聚焦防护 强化智能体的系统提示词,帮助回复更聚焦、相关,并始终符合既定目标和指令。长对话或复杂场景下尤为有效,可防止智能体偏离目标。

操控防护 检测并阻止用户绕过系统指令的尝试。启用后,系统会分析用户输入,识别提示词注入或指令覆盖等风险行为,并可终止存在安全隐患的对话。

内容防护 通过多类别敏感内容筛查,确保智能体回复合规。每类内容均可单独调整阈值,实现精细化控制。

自定义防护:自动执行你的规则

自定义防护支持用自然语言定义专属策略,并自动应用到每一次通话,减少违规、升级和合规审核流程,加快部署进度。

Custom Guardrail Configuration Example

轻量模型会针对每条智能体回复与规则比对,独立并行做出拦截或放行决策,不影响回复生成。

灵活掌控防护执行方式

可自定义违规检测方式及后续处理流程。

执行模式。可根据速度与严格程度灵活配置——语音场景下延迟尤为关键。可选择与回复并行运行,实现几乎零延迟,但可能有极短音频先播放后拦截;也可选择回复完全审核后再输出,稍慢但确保无遗漏。

退出策略。 触发防护后,可自定义后续操作:结束对话、转接其他智能体、升级至人工,或按纠正指令重试回复。

内容敏感度等级。 可针对每类内容单独调整敏感度,高风险场景加强拦截,低风险场景减少误拦,优化体验。

精细化配置。 每项防护均可单独启用或关闭,不同智能体可采用不同配置。

全程可见。 每次触发都会记录在对话分析中,包括触发的防护项及处理动作,便于团队持续优化系统提示词和防护策略。

对话历史脱敏

通话结束后,可自动对转录文本、录音和 webhook 数据进行敏感信息脱敏。保留分析、质检、训练所需内容,去除无关敏感数据。

检测到的实体会在文本中替换为占位符,音频中以消音处理。可精确到每类实体:如全部姓名或仅姓氏、全部金融标识或仅支付卡号等。

此外还可结合更广泛的数据控制措施,如 零留存模式,适用于合规要求更高的部署场景。

Conversation History Redaction Example

对话历史脱敏和零留存模式面向企业客户开放。请联系销售团队 获取访问权限。

信任与安全体系的重要组成部分

Guardrails 2.0 及数据隐私功能,为 ElevenAgents 企业级部署提供全流程安全保障,覆盖智能体全生命周期:

智能体开发

  • 系统提示词设计、防护配置、红队测试与行为模拟,确保上线前充分压力测试

每一次对话

  • 进行中: Guardrails 2.0(聚焦、操控、内容及自定义防护)、日志记录、可选零留存模式
  • 结束后: 评估标准、监控、可选对话历史脱敏

这些措施帮助团队从试点到生产快速推进,减少风险,加快审批,提升智能体表现一致性。平台基础能力还支持 AIUC-1 认证及业内首个 智能体保险方案

立即体验 Guardrails

过去几个月我们已陆续上线相关功能,完整的 Guardrails 2.0 套件现已在 ElevenAgents alpha 版开放。

可在 安全 标签页的 智能体设置 中启用,或通过 API 配置。企业部署详情请联系 销售团队

设置指引与最佳实践,详见:

相关内容

用高质量 AI 音频创作