
ElevenLabs 如何应对 2024 年选举
- 分类
- 安全
- 日期
AI 语音智能体正广泛应用于客服、娱乐和企业场景。随着应用增加,明确的安全措施变得尤为重要,以确保负责任的使用。
我们的安全框架采用分层设计,涵盖 上线前防护、对话中管控机制和持续监测。这些措施共同保障 AI 行为合规、用户知情和全流程安全。
注意:本框架不包括针对 MCP 启用智能体的隐私和安全防护。
用户应在对话开始时被明确告知正在与 AI 语音智能体交流。
最佳实践: 在对话初期披露 AI 使用情况。
安全边界用于限定 AI 语音智能体的行为范围,应符合内部安全政策,覆盖:
实施建议: 在系统提示词中加入全面的安全边界。
参考:提示词指南
当安全边界被多次挑战时,应指示智能体安全退出对话。
示例回复:
此时智能体调用 结束通话 或 转接至智能体 工具。这样可确保边界被严格执行,无需争论或升级。
智能体级别的通用评估标准可用于判断 AI 语音智能体是否安全、合规,并符合系统提示词设定。采用 LLM-as-a-judge 方法,每次通话会自动审核,并根据关键行为预期判定成功或失败。这样可在测试和上线后持续监测,尤其在正式上线后尤为重要。
安全评估聚焦于系统提示词设定的高层目标,例如:
这些标准适用于所有通话,确保行为一致。系统会监测每次交互,标记异常并给出判定理由。结果可在首页仪表盘查看,便于团队跟踪安全表现,发现模式或反复出现的问题。
参考:成功评估文档
上线前,可通过模拟对话对 AI 语音智能体进行压力测试,检验其在安全、人设和合规方面的表现。红队模拟通过设计特殊场景,主动测试智能体的安全边界,帮助发现边缘案例、薄弱点和意外输出。每个模拟由用户提示词和具体评估标准组成,目的是观察智能体在不同场景下的反应,并通过自定义评估标准和 LLM-as-a-judge 确认其遵循系统提示词。
可通过 ElevenLabs 的 对话模拟 SDK,编写用户与智能体的交互脚本,结合结构化自定义评估提示词进行测试。这样可确保智能体上线前符合内部安全标准,并在不同版本间保持安全一致性。
模拟示例:
红队模拟可标准化并复用于不同智能体、版本和场景,实现大规模一致的安全管控。
参考:测试最佳实践
ConvAI 支持在工作区级别开启消息级实时审核,部分场景下默认启用。启用后,系统如检测到智能体即将说出违规内容(基于文本检测),会自动挂断通话。目前仅拦截涉及未成年人性内容(SCIM),但可根据客户需求扩展审核范围。该功能延迟极低:p50:0ms,p90:250ms,p95:450ms。
我们可与客户协作,定义合适的审核范围,并提供分析数据,支持持续安全优化。例如 end_call_reason
为确保上线前安全,建议分阶段进行:
这一流程确保智能体在上线前经过充分测试和验证。建议每个阶段设定质量门槛(如最低通话成功率)。
安全的 AI 语音智能体需在全生命周期各环节设防:
通过实施分层安全框架,企业可确保智能体行为合规,满足监管要求,并赢得用户信任。