コンテンツにスキップ

Guardrails 2.0:ElevenAgentsの新しいコントロールレイヤー

エンタープライズ対応のエージェント導入に向けたカスタマイズ可能なセーフティコントロール。

sq

音声エージェントがサポート、営業、マーケティング、社内業務など幅広い分野で活躍する中、チームはエンタープライズ規模でも安全性やブランド準拠、コンプライアンスが守られることに自信を持つ必要があります。

ElevenAgentsのGuardrails 2.0は、エージェントが正しい応答をするよう導き、誤った応答がエンドユーザーに届く前に防ぐための新しいコントロールレイヤーです。

Guardrails Cover

リアルタイムでの多層的な保護

よく設計されたシステムプロンプトは、ほとんどのやり取りで予測可能な動作をもたらします。ただし、エージェントは非決定的なシステムのため、長い会話では意図から逸れることがあり、ユーザーが工夫して制限を突破しようとしたり、明確なポリシーでもモデルが負荷を受けると守られない場合があります。

そのため、本番環境でエージェントを運用するチームには多層的な防御が必要です。強化されたシステムプロンプトを基盤とし、ユーザーの発言やエージェントの応答に対して独立したチェックを行います。

Guardrails 2.0は、会話を3つのレベルで保護し、それぞれが相互に強化し合います:

What it does
System prompt hardening
Define allowed and disallowed behavior in the system prompt. The Focus Guardrail reinforces those instructions throughout the conversation.
User input validation
A safety net that catches prompt injection and manipulation attempts, terminating conversations that pose a security risk.
Agent response validation
Evaluates every reply against your policies in real time. If a response violates your rules, it can be blocked before delivery.
Guardrails
System prompt hardening
Focus
User input validation
Manipulation
Agent response validation
Content, Custom Guardrails

あらかじめ用意された保護機能

あらかじめ用意されたセーフガードが、最も一般的なリスク領域をカバーします。

フォーカスガードレール はエージェントのシステムプロンプトを強化し、応答が目的や指示に沿って一貫性を保つようサポートします。特に長時間や複雑な会話で、エージェントが本来の目的から逸れやすい場合に役立ちます。

マニピュレーションガードレール は、ユーザーがシステムの指示を回避しようとする試みを検知・ブロックします。有効にすると、システムがユーザー入力を解析し、プロンプトインジェクションや指示の上書きの兆候を検出し、セキュリティリスクがある会話を終了できます。

コンテンツガードレール は、複数のカテゴリで潜在的にセンシティブまたは安全でないコンテンツを検出し、適切なエージェント応答を確保します。各カテゴリごとにしきい値を細かく調整できます。

カスタムガードレール:独自ルールを自動で適用

カスタムガードレールでは、自然言語でドメイン固有のポリシーを定義し、すべての通話で自動的に適用できます。これにより、インシデントやエスカレーション、コンプライアンス審査の手間を減らし、導入をスムーズにします。

Custom Guardrail Configuration Example

軽量なモデルが、エージェントの各応答をルールに照らして評価し、ブロックまたは許可の判断を返します。これは応答生成と独立して並行実行されます。

ガードレールの動作を自由にコントロール

ポリシー違反の検知方法や、その後の対応を自由に設定できます。

実行モード速度と厳格さのバランスを調整できます。音声では遅延が重要なので、応答と同時にガードレールを実行すれば、ほぼ遅延なしで動作しますが、ごく短い音声がブロック前に再生される場合があります。もしくは、完全にチェックが終わるまで応答を保留することもでき、その場合は少し遅くなりますが、未確認の内容がユーザーに届くことはありません。

終了時の対応 ガードレールが発動した際、次の対応を設定できます:会話の終了、別のエージェントへの転送、人間へのエスカレーション、または修正指示で応答を再試行。

コンテンツ感度レベル 各コンテンツカテゴリごとに感度を調整でき、リスクの高い用途では厳しく、ユーザー体験を損なう過剰ブロックは緩和できます。

きめ細かな設定 各ガードレールは個別に有効・無効を切り替えられ、エージェントごとに異なる設定も可能です。

完全な可視化 すべてのトリガーは会話分析に記録され、どのガードレールが発動し、どの対応が取られたかが確認できます。これにより、チームはシステムプロンプトやガードレールを継続的に改善できます。

会話履歴のマスキング

通話終了後、トランスクリプトや録音、Webhookペイロードから自動でセンシティブ情報をマスキングできます。分析やQA、トレーニングに必要な情報は残しつつ、不要なデータだけを除去できます。

検出されたエンティティはテキストではプレースホルダー、音声ではビープ音に置き換えられます。個別のエンティティタイプごとに細かく制御でき、すべての氏名や姓のみ、すべての金融識別子やカード番号のみなど、柔軟に設定可能です。

これは、より広範なデータコントロール機能であるゼロリテンションモード と並行して、より厳格なコンプライアンス要件の導入にも利用できます。

Conversation History Redaction Example

会話履歴のマスキングとゼロリテンションモードは、エンタープライズ向けに提供しています。営業にお問い合わせ ください。

より広い信頼性・セーフティ基盤の一部

Guardrails 2.0やデータプライバシー機能は、ElevenAgentsのエンタープライズ導入を支え、エージェントのライフサイクル全体でセーフティツールを提供します:

エージェント開発

  • システムプロンプト設計、ガードレール設定、レッドチーミング、シミュレーションによる事前の動作検証

すべての会話

  • 実行中: Guardrails 2.0(フォーカス、マニピュレーション、コンテンツ、カスタムガードレール)、ログ記録、オプションのゼロリテンションモード
  • 実行後: 評価基準、モニタリング、オプションの会話履歴マスキング

これらを組み合わせることで、チームはパイロットから本番運用まで、インシデントを減らし、承認サイクルを短縮し、エージェントの動作をより一貫させることができます。これらのプラットフォーム基盤は、AIUC-1認証の取得や業界初のエージェント保険 へのアクセスにも対応しています。

今すぐGuardrailsを使い始めましょう

ここ数ヶ月で機能を順次リリースしており、Guardrails 2.0の全機能がElevenAgentsでアルファ版として利用可能になりました。

セキュリティ」タブのエージェント設定から有効化、またはAPI経由で設定できます。エンタープライズ導入については、営業チームまでご連絡ください。

セットアップ方法やベストプラクティスについては、以下をご覧ください:

ElevenLabsチームによる記事をもっと見る

最高品質のAIオーディオで創造する