Unser mehrschichtiges Sicherheitskonzept für KI-Agenten
- Verfasst von
- Louise Meyer-Schoenherr
- Veröffentlicht
- Zuletzt aktualisiert
AnhörenArtikel anhören
Wenn KI-Agenten Aufgaben mit hoher Verantwortung übernehmen, brauchen Teams die Sicherheit, dass ihre Agenten zuverlässig und vorhersehbar agieren.Schutzmaßnahmen vor dem Einsatz, Durchsetzungsmechanismen während der Konversation und kontinuierlicher Überwachung. Zusammen sorgen diese Komponenten für verantwortungsvolle KI-Anwendungen, Nutzeraufklärung und die Einhaltung von Schutzmechanismen im gesamten
In ElevenAgents setzen wir auf eine mehrschichtige Sicherheitsarchitektur: Schutzmechanismen in jeder Phase des Gesprächs, adversariales Testen vor dem Start, Überwachung im Betrieb, Datenschutz und unabhängige Validierung.
Kein nicht-deterministisches System kann jedes Risiko ausschließen. Dieses umfassende Sicherheitskonzept ermöglicht es jedoch führenden Unternehmen und Behörden, mit ElevenAgents Agenten zu entwickeln, die selten ausfallen, sich schnell erholen und hohe Sicherheitsanforderungen erfüllen.
Schutz in jeder Phase des Gesprächs
Sie können einfach Kontrollen aktivieren und konfigurieren, die die drei Phasen jedes Austauschs schützen. Das ist die Grundlage für
Eingabe – Echtzeit-Prüfung der Nutzereingaben.
Entscheidung –
Schutzmechanismen legen die Grenzen des Verhaltens eines KI-Sprachagenten fest. Sie sollten mit internen Sicherheitsrichtlinien übereinstimmen und folgende Bereiche abdecken:
- Inhaltssicherheit – Vermeidung unangemessener oder schädlicher Themen
- Wissensgrenzen – Beschränkung auf Produkte, Dienstleistungen und Richtlinien des Unternehmens
- Identitätsvorgaben – Festlegung, wie sich der Agent darstellt
- Datenschutz- und Eskalationsgrenzen – Schutz von Nutzerdaten und Beenden unsicherer Gespräche
Umsetzungstipp: umfassende Schutzmechanismen im System-Prompt integrieren.
ElevenAgents bietet umfangreiche Testfunktionen, damit Sie Probleme erkennen und beheben können, bevor ein Agent oder eine Konfigurationsänderung live geht.Prompting-Leitfaden
Simulationen
- Durch Extraktionsschutz im System-Prompt wird der Agent angewiesen, Offenlegungsversuche zu ignorieren, sich auf die Aufgabe zu konzentrieren und nach wiederholten Versuchen das Gespräch zu beenden.
Agenten nach dem Start bewerten und verbessern
Bei der Bereitstellung Ihrer Agenten laufen Bewertungen kontinuierlich auf Live-Gesprächen. Mit einem LLM-as-a-Judge-Ansatz kann jeder Anruf automatisch anhand Ihrer Kriterien bewertet werden. Sie können Gesprächsergebnisse in Dashboards prüfen und Probleme anhand detaillierter Gesprächsprotokolle mit durchsuchbaren Transkripten, Quellen, Tool-Aufrufen und Schutzmechanismus-Auslösungen nachvollziehen.
Beispielantwort:
Schutz sensibler DatenAnruf beenden oder An Agent weiterleiten auf. So werden Grenzen ohne Diskussion oder Eskalation durchgesetzt.
Agenten können Zahlungsdaten, Gesundheitsinformationen und persönliche Identifikatoren verarbeiten. Daher ist es wichtig, zu prüfen, welche Daten gespeichert werden, wo sie gespeichert werden und wie lange.
Wir bieten verschiedene Mechanismen, um Kundendaten zu schützen:
Die Sicherheitsbewertung konzentriert sich auf übergeordnete Ziele, die sich aus den System-Prompt-Schutzmechanismen ableiten, wie zum Beispiel:
- Einhaltung der definierten Rolle und Persona des Agenten
- Antworten in einem konsistenten, angemessenen Tonfall
- Vermeidung unsicherer, nicht relevanter oder sensibler Themen
- Einhaltung funktionaler Grenzen, Datenschutz- und Compliance-Regeln
Alle genannten Maßnahmen basieren auf unseren umfassenden
Wir unterziehen unser Vorgehen auch unabhängigen Prüfungen, darunter allgemeine Sicherheits- und Datenschutzstandards wie SOC 2 Typ II, ISO 27001 und DSGVO sowie branchenspezifische Zertifizierungen wie PCI DSS Level 1 für Zahlungsabwicklung und HIPAA für das US-Gesundheitswesen. Weitere Informationen finden Sie in unserem Trust Center
Wir erfüllen auch neue, KI-spezifische Standards wie ISO 42001 für KI-Managementsysteme und AIUC-1, das verlangt, dass KI-Agenten vierteljährlichen adversarialen Simulationen durch unabhängige Prüfer standhalten. Die gleichen Funktionen hinter AIUC-1 ermöglichen auch Zugang zu einigen der
Für große oder komplexe Rollouts arbeiten unsere
FazitConversation Simulation-SDK von ElevenLabs konfigurieren, indem Sie Nutzer-Agent-Interaktionen mit strukturierten, individuellen Bewertungsprompts skripten. So stellen Sie sicher, dass Agenten einsatzbereit sind, Ihren internen Sicherheitsstandards entsprechen und die Sicherheitsintegrität über verschiedene Agentenversionen hinweg erhalten bleibt.
Unser Sicherheitsansatz in ElevenAgents ist mehrschichtig, wobei sich alle Elemente gegenseitig verstärken:
- Agentenkonfiguration: System-Prompts, Workflows und Verfahren, die das Verhalten steuern, wobei sensible Aktionen hinter Tool-Aufrufen abgesichert sind.
- Schutzmechanismen: Unabhängige Prüfungen in jeder Phase: Manipulationserkennung bei der Eingabe, Focus bei der Entscheidung sowie Inhalts- und individuelle Validatoren bei der Ausgabe – mit konfigurierbaren Exit-Strategien.Anruf beenden, falls der Nutzer weiter nachfragt.
Red-Teaming-Simulationen können standardisiert und für verschiedene Agenten, Versionen und Anwendungsfälle wiederverwendet werden. So wird die Einhaltung von Sicherheitsanforderungen skalierbar sichergestellt.
Siehe: Best Practices für Tests
Live-Moderation auf Nachrichtenebene
Die Live-Moderation auf Nachrichtenebene für ConvAI kann auf Workspace-Ebene für alle Agenten aktiviert werden und ist in einigen Fällen standardmäßig aktiv. Ist sie aktiviert, beendet das System automatisch das Gespräch, wenn erkannt wird, dass der Agent etwas Verbotenes sagen könnte (textbasierte Erkennung). Aktuell wird nur sexueller Inhalt mit Minderjährigen (SCIM) blockiert, der Moderationsumfang kann jedoch nach Kundenbedarf erweitert werden. Die Funktion verursacht minimale Latenz: p50: 0 ms, p90: 250 ms, p95: 450 ms.
Wir arbeiten mit Kunden zusammen, um den passenden Moderationsumfang zu definieren und stellen Analysen zur kontinuierlichen Optimierung der Sicherheit bereit, z. B. end_call_reason.
Sicherheits-Testframework
Um die Sicherheit vor dem Einsatz zu validieren, empfehlen wir einen gestuften Ansatz:
- Red-Teaming-Tests definieren im Einklang mit Ihrem Sicherheitsrahmen.
- Manuelle Testanrufe durchführen mit diesen Szenarien, um Schwachstellen zu erkennen und das Agentenverhalten anzupassen (System-Prompt-Anpassungen).
- Bewertungskriterien festlegen zur Überprüfung der Sicherheitsleistung bei manuellen Testanrufen (Erfolgs-/Fehlerraten und LLM-Begründungen überwachen).
- Simulationen durchführen mit strukturierten Prompts und automatisierten Bewertungen in der Conversation-Simulation-Umgebung, unter Verwendung individueller Bewertungslogik. Die allgemeinen Bewertungskriterien laufen parallel zu jeder Simulation.
- Überprüfen und anpassen von Prompts, Bewertungskriterien oder Moderationsumfang, bis konsistente Ergebnisse erzielt werden.
- Schrittweise ausrollen sobald der Agent alle Sicherheitsprüfungen zuverlässig besteht und die Sicherheitsleistung weiterhin überwacht wird.
Dieser strukturierte Prozess stellt sicher, dass Agenten vor dem Einsatz getestet, angepasst und nach klaren Standards überprüft werden. Die Definition von Qualitätskriterien (z. B. Mindest-Erfolgsraten) wird für jede Phase empfohlen.
Zusammenfassung
Ein sicherer KI-Sprachagent benötigt Schutzmaßnahmen in jeder Phase des Lebenszyklus:
- Vor dem Einsatz: Red-Teaming, Simulation und System-Prompt-Design
- Während der Konversation: Schutzmechanismen, Offenlegung und end_call-Durchsetzung
- Nach dem Einsatz: Bewertungskriterien, Überwachung und Live-Moderation
Mit diesem mehrschichtigen Rahmen können Unternehmen verantwortungsvolles Verhalten sicherstellen, Compliance wahren und Vertrauen bei Nutzern aufbauen.

.webp&w=3840&q=80)


