跳到内容

Guardrails 2.0:ElevenAgents 全新控制层

可配置的安全控制,助力企业级智能体部署。

sq

语音智能体已广泛应用于支持、销售、营销、内部流程等高影响场景,团队需要确保其在企业级规模下依然安全、合规、符合品牌要求。

ElevenAgents 的 Guardrails 2.0 是全新设计的控制层,帮助智能体给出合适回复,并在到达终端用户前阻止不当内容。

Guardrails Cover

实时多层防护

精心设计的系统提示词能让大多数对话表现可控。但由于智能体本质上是非确定性系统,长对话中可能出现偏离,用户也可能用新方式突破限制,即使规则明确,模型在高压下也未必始终遵守。

因此,生产环境下的智能体部署需要多层防护:以强化的系统提示词为基础,同时独立检测用户输入和智能体回复。

Guardrails 2.0 从三个层面保护对话,层层递进:

What it does
System prompt hardening
Define allowed and disallowed behavior in the system prompt. The Focus Guardrail reinforces those instructions throughout the conversation.
User input validation
A safety net that catches prompt injection and manipulation attempts, terminating conversations that pose a security risk.
Agent response validation
Evaluates every reply against your policies in real time. If a response violates your rules, it can be blocked before delivery.
Guardrails
System prompt hardening
Focus
User input validation
Manipulation
Agent response validation
Content, Custom Guardrails

内置防护

内置防护覆盖最常见的风险领域。

聚焦防护 强化智能体的系统提示词,帮助回复更聚焦、相关,并始终符合既定目标和指令。尤其适用于长对话或复杂场景,防止智能体偏离目标。

操控防护 检测并阻止用户绕过系统指令的尝试。启用后,系统会分析用户输入,识别提示词注入或指令覆盖等风险行为,并可终止存在安全风险的对话。

内容防护 通过多类别敏感内容筛查,确保智能体回复合规。每类内容可单独调整阈值,实现精细控制。

自定义防护:自动执行你的规则

自定义防护支持用自然语言定义领域专属规则,并自动在每次通话中执行,减少违规、升级和合规审核流程,加快部署。

Custom Guardrail Configuration Example

轻量模型会对每条智能体回复按规则评估,独立并行做出拦截或放行决策,不影响回复生成。

灵活掌控防护执行方式

可自定义违规检测方式及后续处理。

执行模式。可根据速度与严格度灵活配置——语音场景下延迟尤为关键。可选择与回复并行运行,几乎无延迟,但可能有极短音频播放后才拦截;或选择回复完全通过检测后再播放,略慢但更安全。

退出策略。 触发防护后,可自定义后续操作:结束对话、转接其他智能体、升级至人工,或按纠正指令重试回复。

内容敏感度等级。 可针对不同内容类别单独调整敏感度,高风险场景加强拦截,低风险场景减少误拦,优化体验。

细致配置。 每项防护可单独启用或关闭,不同智能体可用不同配置。

全程可见。 每次触发都会记录在对话分析中,包括触发的防护项及处理动作,便于团队持续优化提示词和防护策略。

对话历史脱敏

通话结束后,可自动对转录文本、录音和 webhook 数据中的敏感信息进行脱敏。保留分析、质检和训练所需内容,去除无关敏感数据。

检测到的实体会在文本中用占位符替换,音频中用哔声处理。可精确到每类实体:如全部姓名或仅姓氏、全部金融标识或仅支付卡号等。

这项功能可与更广泛的数据控制措施配合使用,如 零留存模式,适用于合规要求更高的部署场景。

Conversation History Redaction Example

对话历史脱敏和零留存模式面向企业客户开放。联系销售团队 获取访问权限。

信任与安全体系的重要组成部分

Guardrails 2.0 及数据隐私功能,为 ElevenAgents 企业级部署提供全流程安全保障,覆盖智能体全生命周期:

智能体开发

  • 系统提示词设计、防护配置、红队测试和行为模拟,确保上线前充分压力测试

每次对话

  • 过程中: Guardrails 2.0(聚焦、操控、内容、自定义防护)、日志记录、可选零留存模式
  • 结束后: 评估标准、监控、可选对话历史脱敏

这些措施帮助团队从试点到生产快速推进,减少风险,加快审批,提升智能体表现。同时也支持 AIUC-1 认证和业内首个 智能体保险方案

立即体验 Guardrails

过去几个月我们已陆续上线相关功能,完整的 Guardrails 2.0 套件现已在 ElevenAgents alpha 版开放。

可在 安全 标签页的 智能体设置 中开启,或通过 API 配置。企业部署详情请联系 销售团队

设置指南与最佳实践,详见:

查看更多 ElevenLabs 团队的文章

用高质量 AI 音频创作