Guardrails 2.0: Eine überarbeitete Kontrollschicht in ElevenAgents

Verfasst von: Eli Goodman; Jonatan von Martens
Veröffentlicht: 24. März 2026
Zuletzt aktualisiert: 27. Mai 2026

AnhörenArtikel anhören

0:00

0:000:00

Guardrails 2.0 in ElevenAgents ist eine überarbeitete Kontrollschicht, die Agenten zu den richtigen Antworten führt und falsche Antworten verhindert, bevor sie den Endnutzer erreichen.

Mehrschichtige Schutzmechanismen in Echtzeit

Ein gut formulierter System-Prompt sorgt bei den meisten Interaktionen für vorhersehbares Verhalten. Da Agenten jedoch nicht-deterministische Systeme sind, können sie in langen Gesprächen abweichen, Nutzer können kreative Wege finden, Grenzen auszutesten, und selbst klar definierte Richtlinien halten nicht immer stand, wenn das Modell unter Druck gerät.

Deshalb brauchen Teams, die Agenten produktiv einsetzen, mehrschichtige Abwehrmechanismen: Einen robusten System-Prompt als Grundlage sowie unabhängige Prüfungen dessen, was Nutzer sagen und wie Agenten reagieren.

Guardrails 2.0 schützt Gespräche auf drei Ebenen, die sich gegenseitig verstärken:

What it does

System prompt hardening

Define allowed and disallowed behavior in the system prompt. The Focus Guardrail reinforces those instructions throughout the conversation.

User input validation

A safety net that catches prompt injection and manipulation attempts, terminating conversations that pose a security risk.

Agent response validation

Evaluates every reply against your policies in real time. If a response violates your rules, it can be blocked before delivery.

Guardrails

System prompt hardening

Focus

User input validation

Manipulation

Agent response validation

Content, Custom Guardrails

Enforcement Layer

What it does

Guardrails

System prompt hardening

Define allowed and disallowed behavior in the system prompt. The Focus Guardrail reinforces those instructions throughout the conversation.

Focus

User input validation

A safety net that catches prompt injection and manipulation attempts, terminating conversations that pose a security risk.

Manipulation

Agent response validation

Evaluates every reply against your policies in real time. If a response violates your rules, it can be blocked before delivery.

Content, Custom Guardrails

Vorgefertigte Schutzmechanismen

Vorgefertigte Schutzmechanismen decken die häufigsten Risikobereiche ab.

Der Fokus-Guardrail verstärkt den System-Prompt Ihres Agenten und sorgt dafür, dass Antworten gezielt, relevant und im Einklang mit Ihren Vorgaben bleiben. Besonders hilfreich in langen oder komplexen Gesprächen, in denen der Agent eher von den Zielen abweichen könnte.

Manipulations-Guardrails erkennen und blockieren Versuche von Nutzern, Systemanweisungen zu umgehen. Bei Aktivierung analysiert das System Nutzereingaben auf Muster, die auf Prompt Injection oder Umgehungsversuche hindeuten, und kann Gespräche mit Sicherheitsrisiko beenden.

Content-Guardrails sorgen für angemessene Agentenantworten, indem sie auf verschiedene Kategorien potenziell sensibler oder unsicherer Inhalte prüfen – mit einstellbaren Schwellenwerten für präzise Kontrolle.

Eigene Guardrails: Ihre Regeln, automatisch durchgesetzt

Mit eigenen Guardrails definieren Sie domänenspezifische Richtlinien in natürlicher Sprache und setzen diese automatisch in jedem Gespräch durch. Das reduziert Vorfälle, Eskalationen und Compliance-Prüfungen, die den Rollout verzögern können.

Ein schlankes Modell prüft jede Agentenantwort anhand Ihrer Regeln und entscheidet unabhängig und parallel zur Antwortgenerierung, ob sie blockiert oder zugelassen wird.

Volle Kontrolle über die Ausführung der Guardrails

Sie bestimmen, wie Regelverstöße erkannt werden und was danach geschieht.

Ausführungsmodi.Stellen Sie das Verhältnis zwischen Geschwindigkeit und Strenge ein – entscheidend bei Voice, wo Latenz zählt. Sie können Guardrails parallel zur Antwort laufen lassen, um nahezu keine Verzögerung zu haben – dabei kann ein Bruchteil einer Sekunde Audio abgespielt werden, bevor abgefangen wird. Oder Sie halten Antworten zurück, bis sie vollständig geprüft sind – etwas langsamer, aber nichts erreicht den Nutzer ungeprüft.

Ausstiegsstrategien. Wenn ein Guardrail ausgelöst wird, legen Sie fest, was passiert: Gespräch beenden, an einen anderen Agenten übergeben, an einen Menschen eskalieren oder die Antwort mit Korrekturanweisungen wiederholen.

Inhalts-Sensitivitätsstufen. Passen Sie die Sensitivität für einzelne Inhaltskategorien an – strenger bei hohem Risiko, lockerer, wenn zu viele Blockierungen das Nutzererlebnis beeinträchtigen würden.

Granulare Konfiguration. Jede Schutzmaßnahme kann einzeln aktiviert oder deaktiviert werden, und verschiedene

Volle Transparenz. Jeder Auslöser wird in Ihrer Gesprächsanalyse protokolliert – inklusive des ausgelösten Guardrails und der ergriffenen Maßnahme. So erhalten Teams die Daten, um System-Prompts und Guardrails gezielt weiterzuentwickeln.

Schwärzung der Gesprächshistorie

Nach Gesprächsende können Sie automatisch sensible Informationen aus Transkripten, Aufzeichnungen und Webhook-Payloads entfernen. Sie behalten alles für Analyse, Qualitätssicherung und Training – ohne unnötige Daten.

Erkannte Entitäten werden im Text durch Platzhalter und im Audio durch Pieptöne ersetzt. Sie steuern die Granularität bis auf einzelne Entitätstypen: Schwärzen Sie alle Namen oder nur Nachnamen, alle Finanzkennungen oder nur Kartennummern.

Dies ergänzt umfassendere Datenkontrollen wie Modus ohne Datenspeicherung, der für Einsätze mit besonders hohen Compliance-Anforderungen genutzt werden kann.

Schwärzung der Gesprächshistorie und Zero Retention Mode stehen Unternehmenskunden zur Verfügung.Vertrieb kontaktieren für Zugang.

Teil einer umfassenden Vertrauens- und Sicherheitsbasis

Guardrails 2.0 und Datenschutzfunktionen unterstützen den Unternehmenseinsatz von ElevenAgents – ergänzt durch Sicherheits-Tools für jede Phase des Agenten-Lebenszyklus:

Agentenentwicklung

System-Prompt-Design, Guardrail-Konfiguration, Red Teaming und Simulationen zur Belastungsprüfung vor dem Livegang

Jedes Gespräch

Währenddessen: Guardrails 2.0 (Fokus, Manipulation, Content und eigene Guardrails), Protokollierung, optionaler Zero Retention Mode
Nachher: Bewertungskriterien, Monitoring, optionale Schwärzung der Gesprächshistorie

Diese Maßnahmen geben Teams die Kontrolle, um schneller und mit weniger Vorfällen von Pilotprojekten in den Produktivbetrieb zu wechseln. Sie unterstützen zudem die Voraussetzungen für die AIUC-1-Zertifizierung und den Zugang zu den ersten Agenten-Versicherungspolicen der Branche.

Guardrails jetzt nutzen

In den letzten Monaten haben wir neue Funktionen eingeführt – die vollständige Guardrails 2.0 Suite ist jetzt als Alpha in ElevenAgents verfügbar.

Aktivieren Sie sie im Sicherheits- Tab in den Einstellungen Ihres Agenten, oder konfigurieren Sie sie über die API. Für Informationen zum Unternehmenseinsatz kontaktieren Sie unser Vertriebsteam.

Für Einrichtung und Best Practices siehe:

Guardrails 2.0: Eine überarbeitete Kontrollschicht in ElevenAgents

Mehrschichtige Schutzmechanismen in Echtzeit

Vorgefertigte Schutzmechanismen

Eigene Guardrails: Ihre Regeln, automatisch durchgesetzt

Volle Kontrolle über die Ausführung der Guardrails

Schwärzung der Gesprächshistorie

Teil einer umfassenden Vertrauens- und Sicherheitsbasis

Guardrails jetzt nutzen

Ähnliche Artikel

ElevenLabs sichert erstmals KI-Agenten-Versicherung ab

Unser mehrschichtiges Sicherheitskonzept für KI-Agenten

Einführung von Tests für ElevenLabs Agents

Einführung von ElevenLabs Agents