AI 에이전트를 위한 다층 안전 프레임워크
- 게시일
- 최종 업데이트
AI 에이전트가 중요한 업무를 맡게 되면서, 팀은 에이전트가 안전하고 예측 가능하게 동작할 것이라는 신뢰가 필요합니다.사전 제작 단계의 안전장치, 대화 중 적용되는 제어 메커니즘, 지속적인 모니터링. 이러한 요소들이 함께 작동하여 AI의 책임 있는 행동, 사용자 인식, 그리고 전체
ElevenAgents에서는 대화의 모든 단계에 가드레일을 적용하고, 출시 전 적대적 테스트, 운영 중 모니터링, 데이터 보호, 독립적 검증까지 아우르는 다층 안전 구조를 적용하고 있습니다.
비결정적 시스템이 모든 위험을 완벽하게 막을 수는 없지만, 이 포괄적인 안전 프레임워크를 통해 ElevenAgents를 기반으로 구축하는 주요 기업과 정부 기관은 에이전트가 드물게 실패하고, 문제 발생 시 원활하게 복구하며, 높은 안전 기준을 충족하도록 설계할 수 있습니다.
대화의 모든 단계에서 보호
모든 교환의 세 단계를 보호하는 컨트롤을 쉽게 활성화하고 설정할 수 있습니다. 이것이 바로
입력 - 사용자가 보내는 내용에 대한 실시간 점검.
결정 -
안전장치는 AI 음성 에이전트의 행동 범위를 설정합니다. 내부 안전 정책과 일치해야 하며 다음을 포함해야 합니다:
- 콘텐츠 안전 - 부적절하거나 유해한 주제 회피
- 지식 한계 - 회사 제품, 서비스, 정책 범위로 제한
- 정체성 제약 - 에이전트의 자기 표현 방식 정의
- 개인정보 및 에스컬레이션 한계 - 사용자 데이터 보호 및 위험한 대화 종료
구현 팁: 시스템 프롬프트에 포괄적인 안전장치를 추가하세요.
ElevenAgents는 플랫폼에서 에이전트나 설정 변경이 실제로 적용되기 전에 문제를 찾아 수정할 수 있도록 강력한 테스트 기능을 제공합니다.프롬프트 가이드
시뮬레이션
- 시스템 프롬프트에 추출 방지 기능을 추가하면 에이전트가 정보 공개 시도를 무시하고, 작업에 집중하며, 반복적인 시도 시 상호작용을 종료하도록 안내할 수 있습니다.
출시 후 에이전트 평가 및 개선
에이전트를 배포하면, 실시간 대화에서 평가가 지속적으로 실행됩니다. LLM-판사 방식으로, 각 통화는 설정한 기준에 따라 자동 평가됩니다. 대시보드에서 대화 결과를 검토하고, 검색 가능한 대화 기록, 소스, 도구 호출, 가드레일 작동 내역 등 상세 로그로 문제를 추적할 수 있습니다.
예시 응답:
민감한 데이터 보호통화 종료 또는 상담원 연결 도구를 호출합니다. 이를 통해 논쟁이나 추가 에스컬레이션 없이 경계가 확실히 지켜집니다.
에이전트는 결제 정보, 건강 정보, 개인 식별자 등 민감한 데이터를 다룰 수 있으므로, 어떤 데이터가 어디에 얼마나 저장되는지 반드시 고려해야 합니다.
고객 데이터 보호를 위한 다양한 메커니즘을 제공합니다:
안전 평가는 시스템 프롬프트 안전장치에서 도출된 주요 목표에 중점을 둡니다. 예를 들어:
- 에이전트의 역할과 페르소나 유지
- 일관되고 감정적으로 적절한 톤으로 응답
- 위험하거나 범위를 벗어난, 민감한 주제 회피
- 기능적 경계, 개인정보 및 컴플라이언스 규정 준수
위의 모든 내용은 더 넓은 범위의
또한 SOC 2 Type II, ISO 27001, GDPR 등 일반적인 보안 및 개인정보 보호 기준과, 결제 처리를 위한 PCI DSS Level 1, 미국 의료 분야의 HIPAA 등 업계 및 사용 사례별 인증을 포함해, 우리의 접근 방식을 독립적으로 검증받고 있습니다. 자세한 내용은 트러스트 센터
또한 AI 관리 시스템을 규정하는 ISO 42001, 독립 평가자가 분기별로 적대적 시뮬레이션을 수행하도록 요구하는 AIUC-1 등 최신 AI 표준도 충족합니다. AIUC-1의 기반이 되는 동일한 기능을 통해 업계 최초의
대규모 또는 복잡한 배포의 경우,
결론대화 시뮬레이션 SDK를 사용해, 구조화된 맞춤 평가 프롬프트로 사용자-에이전트 상호작용을 스크립트로 작성하여 구성할 수 있습니다. 이를 통해 에이전트가 실제 운영에 적합하고, 내부 안전 기준에 부합하며, 버전별로 안전성을 유지하는지 확인할 수 있습니다.
ElevenAgents의 안전 접근 방식은 각 요소가 서로를 보완하는 다층 구조입니다:
- 에이전트 설정: 시스템 프롬프트, 워크플로우, 절차로 행동을 정의하고, 민감한 행동은 도구 호출로 제한합니다.
- 가드레일: 입력 단계의 조작 탐지, 결정 단계의 Focus, 출력 단계의 콘텐츠 및 맞춤 검증기, 그리고 설정 가능한 종료 전략 등 모든 단계에서 독립적 점검을 실시합니다.통화 종료 도구 호출 (사용자가 계속 요청할 경우)
레드팀 시뮬레이션은 다양한 에이전트, 버전, 사용 사례에 표준화해 재사용할 수 있어, 대규모로 안전 기준을 일관되게 적용할 수 있습니다.
참고: 테스트 베스트 프랙티스
메시지 단위 실시간 모더레이션
ConvAI용 메시지 단위 실시간 모더레이션은 워크스페이스 전체 에이전트에 적용할 수 있으며, 일부 경우에는 기본적으로 활성화되어 있습니다. 활성화 시, 에이전트가 금지된 내용을 말하려고 하면(텍스트 기반 감지) 시스템이 자동으로 통화를 종료합니다. 현재는 미성년자 관련 성적 콘텐츠(SCIM)만 차단되지만, 고객 요청에 따라 모더레이션 범위를 확장할 수 있습니다. 이 기능은 지연을 거의 발생시키지 않습니다: p50: 0ms, p90: 250ms, p95: 450ms.
고객과 협력해 적절한 모더레이션 범위를 정의하고, 지속적인 안전 조정을 위한 분석 데이터를 제공합니다. 예: end_call_reason
안전성 테스트 프레임워크
실제 운영 전 안전성을 검증하려면 단계별 접근을 권장합니다:
- 레드팀 테스트 정의 안전 프레임워크에 맞게 설계
- 수동 테스트 콜 진행 시나리오를 활용해 취약점을 파악하고 에이전트 행동(시스템 프롬프트 수정) 조정
- 평가 기준 설정 수동 테스트 콜 전반의 안전 성과 평가(콜 성공/실패율 및 LLM 판단 모니터링)
- 시뮬레이션 실행 구조화된 프롬프트와 자동 평가를 대화 시뮬레이션 환경에서 진행, 맞춤 평가 로직 활용. 일반 평가 기준도 각 시뮬레이션과 병행 실행
- 검토 및 반복 프롬프트, 평가 기준, 모더레이션 범위를 반복적으로 조정해 일관된 결과 달성
- 점진적 적용 모든 안전 점검에서 기대치를 지속적으로 충족하면 실제 운영에 점진적으로 적용하고, 안전 성과를 계속 모니터링
이 구조화된 프로세스를 통해 에이전트가 명확한 기준에 따라 테스트, 조정, 검증된 후 최종 사용자에게 제공됩니다. 각 단계에서 품질 기준(예: 최소 콜 성공률) 설정을 권장합니다.
요약
안전한 AI 음성 에이전트는 라이프사이클 모든 단계에서 안전장치가 필요합니다:
- 사전 제작: 레드팀, 시뮬레이션, 시스템 프롬프트 설계
- 대화 중: 안전장치, 고지, end_call 적용
- 배포 후: 평가 기준, 모니터링, 실시간 모더레이션
이 계층적 프레임워크를 적용하면 조직은 책임 있는 행동을 보장하고, 컴플라이언스를 유지하며, 사용자 신뢰를 쌓을 수 있습니다.

.webp&w=3840&q=80)


