Direkt zum Inhalt

Guardrails 2.0: Eine überarbeitete Kontrollschicht in ElevenAgents

Konfigurierbare Sicherheitskontrollen für den unternehmensweiten Einsatz von Agenten.

sq

Da Stimmenagenten zunehmend wichtige Aufgaben in Support, Vertrieb, Marketing, internen Abläufen und mehr übernehmen, brauchen Teams die Sicherheit, dass sie im großen Maßstab sicher, markenkonform und regelkonform bleiben.

Guardrails 2.0 in ElevenAgents ist eine überarbeitete Kontrollschicht, die Agenten zu den richtigen Antworten führt und falsche Antworten verhindert, bevor sie den Endnutzer erreichen.

Guardrails Cover

Mehrschichtige Schutzmechanismen in Echtzeit

Ein gut formulierter System-Prompt sorgt bei den meisten Interaktionen für vorhersehbares Verhalten. Da Agenten jedoch nicht-deterministische Systeme sind, können sie in langen Gesprächen abweichen, Nutzer können kreative Wege finden, Grenzen auszutesten, und selbst klar definierte Richtlinien halten nicht immer stand, wenn das Modell unter Druck gerät.

Deshalb brauchen Teams, die Agenten produktiv einsetzen, mehrschichtige Abwehrmechanismen: Einen robusten System-Prompt als Grundlage sowie unabhängige Prüfungen dessen, was Nutzer sagen und wie Agenten reagieren.

Guardrails 2.0 schützt Gespräche auf drei Ebenen, die sich gegenseitig verstärken:

What it does
System prompt hardening
Define allowed and disallowed behavior in the system prompt. The Focus Guardrail reinforces those instructions throughout the conversation.
User input validation
A safety net that catches prompt injection and manipulation attempts, terminating conversations that pose a security risk.
Agent response validation
Evaluates every reply against your policies in real time. If a response violates your rules, it can be blocked before delivery.
Guardrails
System prompt hardening
Focus
User input validation
Manipulation
Agent response validation
Content, Custom Guardrails

Vorgefertigte Schutzmechanismen

Vorgefertigte Schutzmechanismen decken die häufigsten Risikobereiche ab.

Der Fokus-Guardrail verstärkt den System-Prompt Ihres Agenten und sorgt dafür, dass Antworten gezielt, relevant und im Einklang mit Ihren Vorgaben bleiben. Besonders hilfreich in langen oder komplexen Gesprächen, in denen der Agent eher von den Zielen abweichen könnte.

Manipulations-Guardrails erkennen und blockieren Versuche von Nutzern, Systemanweisungen zu umgehen. Bei Aktivierung analysiert das System Nutzereingaben auf Muster, die auf Prompt Injection oder Umgehungsversuche hindeuten, und kann Gespräche mit Sicherheitsrisiko beenden.

Content-Guardrails sorgen für angemessene Agentenantworten, indem sie auf verschiedene Kategorien potenziell sensibler oder unsicherer Inhalte prüfen – mit einstellbaren Schwellenwerten für präzise Kontrolle.

Eigene Guardrails: Ihre Regeln, automatisch durchgesetzt

Mit eigenen Guardrails definieren Sie domänenspezifische Richtlinien in natürlicher Sprache und setzen diese automatisch in jedem Gespräch durch. Das reduziert Vorfälle, Eskalationen und Compliance-Prüfungen, die den Rollout verzögern können.

Custom Guardrail Configuration Example

Ein schlankes Modell prüft jede Agentenantwort anhand Ihrer Regeln und entscheidet unabhängig und parallel zur Antwortgenerierung, ob sie blockiert oder zugelassen wird.

Volle Kontrolle über die Ausführung der Guardrails

Sie bestimmen, wie Regelverstöße erkannt werden und was danach geschieht.

Ausführungsmodi.Stellen Sie das Verhältnis zwischen Geschwindigkeit und Strenge ein – entscheidend bei Voice, wo Latenz zählt. Sie können Guardrails parallel zur Antwort laufen lassen, um nahezu keine Verzögerung zu haben – dabei kann ein Bruchteil einer Sekunde Audio abgespielt werden, bevor abgefangen wird. Oder Sie halten Antworten zurück, bis sie vollständig geprüft sind – etwas langsamer, aber nichts erreicht den Nutzer ungeprüft.

Ausstiegsstrategien. Wenn ein Guardrail ausgelöst wird, legen Sie fest, was passiert: Gespräch beenden, an einen anderen Agenten übergeben, an einen Menschen eskalieren oder die Antwort mit Korrekturanweisungen wiederholen.

Inhalts-Sensitivitätsstufen. Passen Sie die Sensitivität für einzelne Inhaltskategorien an – strenger bei hohem Risiko, lockerer, wenn zu viele Blockierungen das Nutzererlebnis beeinträchtigen würden.

Granulare Konfiguration. Jeder Guardrail kann einzeln aktiviert oder deaktiviert werden, und verschiedene Agenten können unterschiedliche Konfigurationen nutzen.

Volle Transparenz. Jeder Auslöser wird in Ihrer Gesprächsanalyse protokolliert – inklusive des ausgelösten Guardrails und der ergriffenen Maßnahme. So erhalten Teams die Daten, um System-Prompts und Guardrails gezielt weiterzuentwickeln.

Schwärzung der Gesprächshistorie

Nach Gesprächsende können Sie automatisch sensible Informationen aus Transkripten, Aufzeichnungen und Webhook-Payloads entfernen. Sie behalten alles für Analyse, Qualitätssicherung und Training – ohne unnötige Daten.

Erkannte Entitäten werden im Text durch Platzhalter und im Audio durch Pieptöne ersetzt. Sie steuern die Granularität bis auf einzelne Entitätstypen: Schwärzen Sie alle Namen oder nur Nachnamen, alle Finanzkennungen oder nur Kartennummern.

Dies ergänzt umfassendere Datenkontrollen wie Zero Retention Mode, der für Einsätze mit besonders hohen Compliance-Anforderungen genutzt werden kann.

Conversation History Redaction Example

Schwärzung der Gesprächshistorie und Zero Retention Mode stehen Unternehmenskunden zur Verfügung.Vertrieb kontaktieren für Zugang.

Teil einer umfassenden Vertrauens- und Sicherheitsbasis

Guardrails 2.0 und Datenschutzfunktionen unterstützen den Unternehmenseinsatz von ElevenAgents – ergänzt durch Sicherheits-Tools für jede Phase des Agenten-Lebenszyklus:

Agentenentwicklung

  • System-Prompt-Design, Guardrail-Konfiguration, Red Teaming und Simulationen zur Belastungsprüfung vor dem Livegang

Jedes Gespräch

  • Währenddessen: Guardrails 2.0 (Fokus, Manipulation, Content und eigene Guardrails), Protokollierung, optionaler Zero Retention Mode
  • Nachher: Bewertungskriterien, Monitoring, optionale Schwärzung der Gesprächshistorie

Diese Maßnahmen geben Teams die Kontrolle, um schneller und mit weniger Vorfällen von Pilotprojekten in den Produktivbetrieb zu wechseln. Sie unterstützen zudem die Voraussetzungen für die AIUC-1-Zertifizierung und den Zugang zu den ersten Agenten-Versicherungspolicen der Branche.

Guardrails jetzt nutzen

In den letzten Monaten haben wir neue Funktionen eingeführt – die vollständige Guardrails 2.0 Suite ist jetzt als Alpha in ElevenAgents verfügbar.

Aktivieren Sie sie im Sicherheits- Tab in den Einstellungen Ihres Agenten, oder konfigurieren Sie sie über die API. Für Informationen zum Unternehmenseinsatz kontaktieren Sie unser Vertriebsteam.

Für Einrichtung und Best Practices siehe:

Entdecken Sie Artikel des ElevenLabs-Teams

Erstellen Sie mit hochwertiger KI-Audio