Guardrails 2.0：ElevenAgentsの新しいコントロールレイヤー

執筆者: Eli Goodman; Jonatan von Martens
公開日: 2026年3月24日
最終更新日: 2026年5月27日

聴くこの記事を聴く

0:00

0:000:00

ElevenAgentsのGuardrails 2.0は、エージェントが正しい応答をするよう導き、誤った応答がエンドユーザーに届く前に防ぐための新しいコントロールレイヤーです。

リアルタイムでの多層的な保護

よく設計されたシステムプロンプトは、ほとんどのやり取りで予測可能な動作をもたらします。ただし、エージェントは非決定的なシステムのため、長い会話では意図から逸れることがあり、ユーザーが工夫して制限を突破しようとしたり、明確なポリシーでもモデルが負荷を受けると守られない場合があります。

そのため、本番環境でエージェントを運用するチームには多層的な防御が必要です。強化されたシステムプロンプトを基盤とし、ユーザーの発言やエージェントの応答に対して独立したチェックを行います。

Guardrails 2.0は、会話を3つのレベルで保護し、それぞれが相互に強化し合います：

What it does

System prompt hardening

Define allowed and disallowed behavior in the system prompt. The Focus Guardrail reinforces those instructions throughout the conversation.

User input validation

A safety net that catches prompt injection and manipulation attempts, terminating conversations that pose a security risk.

Agent response validation

Evaluates every reply against your policies in real time. If a response violates your rules, it can be blocked before delivery.

Guardrails

System prompt hardening

Focus

User input validation

Manipulation

Agent response validation

Content, Custom Guardrails

Enforcement Layer

What it does

Guardrails

System prompt hardening

Define allowed and disallowed behavior in the system prompt. The Focus Guardrail reinforces those instructions throughout the conversation.

Focus

User input validation

A safety net that catches prompt injection and manipulation attempts, terminating conversations that pose a security risk.

Manipulation

Agent response validation

Evaluates every reply against your policies in real time. If a response violates your rules, it can be blocked before delivery.

Content, Custom Guardrails

あらかじめ用意された保護機能

あらかじめ用意されたセーフガードが、最も一般的なリスク領域をカバーします。

フォーカスガードレールはエージェントのシステムプロンプトを強化し、応答が目的や指示に沿って一貫性を保つようサポートします。特に長時間や複雑な会話で、エージェントが本来の目的から逸れやすい場合に役立ちます。

マニピュレーションガードレールは、ユーザーがシステムの指示を回避しようとする試みを検知・ブロックします。有効にすると、システムがユーザー入力を解析し、プロンプトインジェクションや指示の上書きの兆候を検出し、セキュリティリスクがある会話を終了できます。

コンテンツガードレールは、複数のカテゴリで潜在的にセンシティブまたは安全でないコンテンツを検出し、適切なエージェント応答を確保します。各カテゴリごとにしきい値を細かく調整できます。

カスタムガードレール：独自ルールを自動で適用

カスタムガードレールでは、自然言語でドメイン固有のポリシーを定義し、すべての通話で自動的に適用できます。これにより、インシデントやエスカレーション、コンプライアンス審査の手間を減らし、導入をスムーズにします。

軽量なモデルが、エージェントの各応答をルールに照らして評価し、ブロックまたは許可の判断を返します。これは応答生成と独立して並行実行されます。

ガードレールの動作を自由にコントロール

ポリシー違反の検知方法や、その後の対応を自由に設定できます。

実行モード速度と厳格さのバランスを調整できます。音声では遅延が重要なので、応答と同時にガードレールを実行すれば、ほぼ遅延なしで動作しますが、ごく短い音声がブロック前に再生される場合があります。もしくは、完全にチェックが終わるまで応答を保留することもでき、その場合は少し遅くなりますが、未確認の内容がユーザーに届くことはありません。

終了時の対応ガードレールが発動した際、次の対応を設定できます：会話の終了、別のエージェントへの転送、人間へのエスカレーション、または修正指示で応答を再試行。

コンテンツ感度レベル各コンテンツカテゴリごとに感度を調整でき、リスクの高い用途では厳しく、ユーザー体験を損なう過剰ブロックは緩和できます。

きめ細かな設定すべてのガードレールは個別に有効化・無効化でき、さらに異なる

完全な可視化すべてのトリガーは会話分析に記録され、どのガードレールが発動し、どの対応が取られたかが確認できます。これにより、チームはシステムプロンプトやガードレールを継続的に改善できます。