본문 바로가기

Guardrails 2.0: ElevenAgents의 새롭게 설계된 제어 레이어

엔터프라이즈 환경에 맞춘 에이전트 배포를 위한 설정 가능한 안전 제어 기능.

sq

음성 에이전트가 지원, 영업, 마케팅, 내부 워크플로우 등 다양한 분야에서 중요한 역할을 하게 되면서, 팀에서는 에이전트가 엔터프라이즈 환경에서도 안전하고, 브랜드에 맞으며, 컴플라이언스를 준수할 것이라는 신뢰가 필요합니다.

ElevenAgents의 Guardrails 2.0은 에이전트가 올바른 답변을 하도록 유도하고, 잘못된 답변은 최종 사용자에게 전달되기 전에 차단할 수 있도록 돕는 새롭게 설계된 제어 레이어입니다.

Guardrails Cover

실시간 다중 보호 레이어

잘 설계된 시스템 프롬프트는 대부분의 상호작용에서 예측 가능한 행동을 이끌어냅니다. 하지만 에이전트는 비결정적 시스템이기 때문에 긴 대화에서는 방향을 잃을 수 있고, 사용자가 창의적으로 한계를 시험할 수도 있으며, 명확한 정책도 모델이 압박을 받을 때 항상 지켜지지는 않습니다.

그래서 실제 환경에 에이전트를 배포하는 팀에는 다층 방어가 필요합니다. 견고한 시스템 프롬프트를 기반으로, 사용자의 입력과 에이전트의 응답을 각각 독립적으로 점검하는 추가 보호가 필요합니다.

Guardrails 2.0은 대화를 세 가지 단계에서 보호하며, 각 단계가 서로를 보완합니다:

What it does
System prompt hardening
Define allowed and disallowed behavior in the system prompt. The Focus Guardrail reinforces those instructions throughout the conversation.
User input validation
A safety net that catches prompt injection and manipulation attempts, terminating conversations that pose a security risk.
Agent response validation
Evaluates every reply against your policies in real time. If a response violates your rules, it can be blocked before delivery.
Guardrails
System prompt hardening
Focus
User input validation
Manipulation
Agent response validation
Content, Custom Guardrails

사전 구축된 보호 기능

사전 구축된 보호 장치는 가장 흔한 위험 영역을 커버합니다.

포커스 가드레일은(는) 에이전트의 시스템 프롬프트를 강화하여, 응답이 목표와 지침에 맞게 집중되고 일관되도록 돕습니다. 특히 긴 대화나 복잡한 상황에서 에이전트가 본래 목적에서 벗어나기 쉬울 때 유용합니다.

조작 방지 가드레일은(는) 사용자가 시스템 지침을 우회하려는 시도를 감지하고 차단합니다. 활성화 시, 시스템은 사용자 입력에서 프롬프트 인젝션이나 지침 무시 시도를 나타내는 패턴을 분석하고, 보안 위험이 감지되면 대화를 종료할 수 있습니다.

콘텐츠 가드레일은(는) 여러 카테고리의 잠재적으로 민감하거나 안전하지 않은 콘텐츠를 감지해, 에이전트가 적절하게 응답하도록 도와줍니다. 각 카테고리별로 민감도 임계값을 조정할 수 있어 정밀한 제어가 가능합니다.

커스텀 가드레일: 직접 정한 규칙, 자동 적용

커스텀 가드레일을 통해 도메인별 정책을 자연어로 정의하고, 모든 통화에 자동으로 적용할 수 있습니다. 이를 통해 사고, 에스컬레이션, 컴플라이언스 검토 주기를 줄여 배포 속도를 높일 수 있습니다.

Custom Guardrail Configuration Example

경량 모델이 에이전트의 모든 응답을 사용자의 규칙에 따라 평가해 차단 또는 허용 결정을 내리며, 응답 생성과 독립적으로 병렬 실행됩니다.

가드레일 실행 방식 완전 제어

정책 위반이 감지되는 방식과 이후 조치를 직접 설정할 수 있습니다.

실행 모드.속도와 엄격함 사이의 균형을 설정할 수 있습니다. 음성에서는 지연이 특히 중요하므로, 응답과 동시에 가드레일을 실행해 거의 지연 없이 차단하거나, 응답이 완전히 검증될 때까지 대기하도록 설정할 수 있습니다. 후자의 경우 약간 느릴 수 있지만, 검증되지 않은 응답이 사용자에게 전달되지 않습니다.

종료 전략. 가드레일이 작동하면 이후 조치를 직접 정의할 수 있습니다. 대화를 종료하거나, 다른 에이전트로 전환, 사람에게 에스컬레이션, 수정 지침과 함께 응답 재시도 등이 가능합니다.

콘텐츠 민감도 수준. 각 콘텐츠 카테고리별로 민감도를 조정해, 위험도가 높은 경우에는 엄격하게, 과도한 차단이 사용자 경험에 영향을 줄 때는 완화할 수 있습니다.

세분화된 설정. 각 가드레일은 개별적으로 활성화 또는 비활성화할 수 있으며, 에이전트별로 다른 설정을 적용할 수 있습니다.

완전한 가시성. 모든 트리거는 대화 분석에 기록되며, 어떤 가드레일이 작동했고 어떤 조치가 취해졌는지 확인할 수 있습니다. 이를 통해 팀은 시스템 프롬프트와 가드레일을 지속적으로 개선할 수 있습니다.

대화 기록 비식별화

통화 종료 후, 녹취록, 녹음 파일, 웹훅 페이로드에서 민감한 정보를 자동으로 비식별화할 수 있습니다. 분석, QA, 교육에 필요한 정보는 남기고, 불필요한 민감 정보만 제거할 수 있습니다.

감지된 엔터티는 텍스트에서는 플레이스홀더로, 오디오에서는 삐 소리로 대체됩니다. 이름 전체 또는 성만, 금융 식별자 전체 또는 결제 카드 번호만 등 엔터티 유형별로 세밀하게 비식별화 범위를 설정할 수 있습니다.

이 기능은 더 넓은 데이터 제어 기능인 제로 보관 모드와 함께 사용할 수 있으며, 더 엄격한 컴플라이언스가 필요한 배포 환경에 적합합니다.

Conversation History Redaction Example

대화 기록 비식별화와 제로 보관 모드는 엔터프라이즈 고객에게 제공됩니다.영업팀 문의하여 이용해 보세요.

더 넓은 신뢰와 안전 기반의 일부

Guardrails 2.0과 데이터 프라이버시 기능은 ElevenAgents의 엔터프라이즈 배포를 지원하며, 에이전트 라이프사이클 전 단계에서 안전 도구와 함께 사용할 수 있습니다:

에이전트 개발

  • 시스템 프롬프트 설계, 가드레일 설정, 레드팀 테스트, 시뮬레이션을 통한 사전 행동 점검

모든 대화

  • 진행 중: Guardrails 2.0(포커스, 조작 방지, 콘텐츠, 커스텀 가드레일), 로깅, 선택적 제로 보관 모드
  • 종료 후: 평가 기준, 모니터링, 선택적 대화 기록 비식별화

이 모든 기능을 통해 팀은 파일럿에서 실제 운영까지 더 적은 사고, 빠른 승인, 일관된 에이전트 행동을 실현할 수 있습니다. 이러한 플랫폼 기반은 AIUC-1 인증 자격과 업계 최초의 에이전트 보험 상품 이용에도 도움이 됩니다.

지금 바로 Guardrails 시작하기

지난 몇 달간 기능을 순차적으로 출시했으며, Guardrails 2.0 전체 기능이 이제 ElevenAgents에서 알파 버전으로 제공됩니다.

설정에서 보안 탭에서 에이전트 설정에서 활성화하거나, API를 통해 설정할 수 있습니다. 엔터프라이즈 배포 관련 자세한 내용은 영업팀에 문의해 주세요.

설정 가이드와 베스트 프랙티스는 아래 문서를 참고하세요:

ElevenLabs 팀의 다른 글 보기

최고 품질의 AI 오디오로 창작하세요