Guardrails 2.0: ElevenAgents의 새롭게 설계된 제어 레이어
- 게시일
- 최종 업데이트
듣기이 기사 오디오로 듣기
음성 에이전트가 지원, 영업, 마케팅, 내부 워크플로우 등 다양한 분야에서 중요한 역할을 맡으면서, 팀에서는 에이전트가 안전하고 브랜드에 맞으며 컴플라이언스를 준수할 것이라는 신뢰가 필요합니다.
ElevenAgents의 Guardrails 2.0은 에이전트가 올바른 답변을 하도록 유도하고, 잘못된 답변은 최종 사용자에게 전달되기 전에 차단할 수 있도록 돕는 새롭게 설계된 제어 레이어입니다.

실시간 다중 보호 레이어
잘 설계된 시스템 프롬프트는 대부분의 상호작용에서 예측 가능한 행동을 이끌어냅니다. 하지만 에이전트는 비결정적 시스템이기 때문에 긴 대화에서는 흐름이 벗어날 수 있고, 사용자가 창의적으로 한계를 시험할 수도 있으며, 명확한 정책도 모델이 압박을 받을 때 항상 지켜지지는 않습니다.
그래서 실제 환경에 에이전트를 배포하는 팀에는 다층 방어가 필요합니다. 견고한 시스템 프롬프트를 기반으로, 사용자 입력과 에이전트 응답에 대한 독립적인 점검이 추가되어야 합니다.
Guardrails 2.0은 대화를 세 가지 단계에서 보호하며, 각 단계가 서로를 보완합니다:
사전 구축된 보호 기능
사전 구축된 보호 장치는 가장 흔한 위험 영역을 커버합니다.
포커스 가드레일은(는) 에이전트의 시스템 프롬프트를 강화하여, 응답이 목표와 지침에 맞게 집중되고 일관성 있게 유지되도록 돕습니다. 특히 긴 대화나 복잡한 대화에서 에이전트가 본래 목적에서 벗어나기 쉬운 상황에 유용합니다.
조작 방지 가드레일은(는) 사용자가 시스템 지침을 우회하려는 시도를 감지하고 차단합니다. 활성화 시, 시스템은 사용자 입력에서 프롬프트 인젝션이나 지침 무시 시도를 나타내는 패턴을 분석하고, 보안 위험이 감지되면 대화를 종료할 수 있습니다.
콘텐츠 가드레일은(는) 여러 카테고리의 잠재적으로 민감하거나 안전하지 않은 콘텐츠를 감지하여, 각 카테고리별로 세밀하게 조정 가능한 임계값을 통해 에이전트의 적절한 응답을 보장합니다.
커스텀 가드레일: 직접 만든 규칙, 자동 적용
커스텀 가드레일을 통해 도메인별 정책을 자연어로 정의하고, 모든 통화에 자동으로 적용할 수 있습니다. 이를 통해 사고, 에스컬레이션, 컴플라이언스 검토 주기를 줄여 배포 속도를 높일 수 있습니다.
.webp&w=3840&q=95)
경량 모델이 에이전트의 모든 응답을 사용자의 규칙에 따라 평가하여, 차단 또는 허용 결정을 내립니다. 이 과정은 응답 생성과 독립적으로, 동시에 실행됩니다.
가드레일 실행 방식 완전 제어
정책 위반이 감지되는 방식과 이후 조치를 직접 설정할 수 있습니다.
실행 모드.속도와 엄격함 사이의 균형을 설정할 수 있습니다. 음성에서는 지연이 특히 중요하므로, 응답과 동시에 가드레일을 실행해 거의 지연 없이 처리할 수 있습니다. 이 경우, 아주 짧은 오디오가 차단 전에 재생될 수 있습니다. 또는 응답이 완전히 검증될 때까지 대기하도록 설정하면, 약간 느려지지만 사용자에게 검증되지 않은 응답이 전달되지 않습니다.
종료 전략. 가드레일이 작동하면 이후 조치를 직접 정의할 수 있습니다. 대화를 종료하거나, 다른 에이전트로 전환, 사람에게 에스컬레이션, 수정 지침과 함께 응답 재시도 등이 가능합니다.
콘텐츠 민감도 수준. 각 콘텐츠 카테고리별로 민감도를 조정해, 위험도가 높은 경우에는 엄격하게, 사용자 경험에 영향을 줄 수 있는 경우에는 완화할 수 있습니다.
세분화된 설정. 각 가드레일은 개별적으로 활성화 또는 비활성화할 수 있으며, 에이전트마다 다른 설정을 적용할 수 있습니다.
완전한 가시성. 모든 트리거는 대화 분석에 기록되며, 어떤 가드레일이 작동했고 어떤 조치가 취해졌는지 확인할 수 있습니다. 이를 통해 팀은 시스템 프롬프트와 가드레일을 지속적으로 개선할 수 있습니다.
대화 기록 비식별화
통화가 끝난 후, 전사, 녹음 파일, 웹훅 페이로드에서 민감한 정보를 자동으로 비식별화할 수 있습니다. 분석, QA, 교육에 필요한 정보는 남기고, 불필요한 정보만 제거하세요.
감지된 엔터티는 텍스트에서는 플레이스홀더로, 오디오에서는 삐 소리로 대체됩니다. 이름 전체 또는 성만, 금융 식별자 전체 또는 결제 카드 번호만 등 엔터티 유형별로 세밀하게 비식별화 범위를 설정할 수 있습니다.
이 기능은 더 넓은 데이터 제어 기능인 제로 보관 모드와 함께, 더 엄격한 컴플라이언스가 필요한 배포 환경에서 사용할 수 있습니다.
.webp&w=3840&q=95)
대화 기록 비식별화와 제로 보관 모드는 엔터프라이즈 고객에게 제공됩니다.영업팀 문의하여 이용하세요.
더 넓은 신뢰와 안전 기반의 일부
Guardrails 2.0과 데이터 프라이버시 기능은 ElevenAgents의 엔터프라이즈 배포를 지원하며, 에이전트 라이프사이클 전 단계에 걸친 안전 도구와 함께 제공됩니다:
에이전트 개발
- 시스템 프롬프트 설계, 가드레일 설정, 레드팀 테스트, 시뮬레이션을 통해 에이전트가 실제로 배포되기 전 행동을 점검
모든 대화
- 진행 중: Guardrails 2.0(포커스, 조작 방지, 콘텐츠, 커스텀 가드레일), 로깅, 선택적 제로 보관 모드
- 종료 후: 평가 기준, 모니터링, 선택적 대화 기록 비식별화
이 모든 기능을 통해 팀은 파일럿에서 실제 운영까지 더 적은 사고, 빠른 승인, 일관된 에이전트 행동을 실현할 수 있습니다. 이러한 플랫폼 기반은 AIUC-1 인증 자격과 업계 최초의 에이전트 보험 상품 이용도 지원합니다.
지금 바로 Guardrails 사용 시작
지난 몇 달간 기능을 순차적으로 출시했으며, Guardrails 2.0 전체 기능은 이제 ElevenAgents에서 알파 버전으로 제공됩니다.
설정은 보안 탭에서 에이전트 설정에서 직접 하거나, API를 통해 구성할 수 있습니다. 엔터프라이즈 배포 관련 자세한 내용은 영업팀에 문의하세요.
설정 가이드와 모범 사례는 다음을 참고하세요:
.webp&w=3840&q=80)

.webp&w=3840&q=80)

