Nasz wielowarstwowy system zabezpieczeń dla agentów AI
- Opublikowano
- Ostatnia aktualizacja
PosłuchajPosłuchaj tego artykułu
Gdy agenci AI przejmują odpowiedzialne zadania, zespoły muszą mieć pewność, że będą działać bezpiecznie i przewidywalnie.zabezpieczenia przed wdrożeniem, mechanizmy kontroli podczas rozmowy i stały monitoring. Dzięki temu dbamy o odpowiedzialne działanie AI, świadomość użytkowników i przestrzeganie zasad w całym
W ElevenAgents stosujemy wielowarstwową architekturę zabezpieczeń: zabezpieczenia na każdym etapie rozmowy, testy odporności przed wdrożeniem, monitoring w produkcji, ochronę danych i niezależną weryfikację.
Żaden system niedeterministyczny nie wyeliminuje wszystkich ryzyk, ale ten system zabezpieczeń pozwala firmom i instytucjom budującym na ElevenAgents tworzyć agentów, którzy rzadko zawodzą, potrafią się naprawić i spełniają wysokie standardy bezpieczeństwa.
Ochrona na każdym etapie rozmowy
Możesz łatwo włączyć i ustawić zabezpieczenia chroniące trzy etapy każdej rozmowy. To podstawa dla
Wejście – Kontrola w czasie rzeczywistym tego, co wysyła użytkownik.
Decyzja –
Zasady określają granice działania agenta głosowego AI. Powinny być zgodne z wewnętrznymi politykami bezpieczeństwa i obejmować:
- Bezpieczeństwo treści - unikanie nieodpowiednich lub szkodliwych tematów
- Granice wiedzy - ograniczenie do produktów, usług i polityk firmy
- Ograniczenia tożsamości - określenie, jak agent się przedstawia
- Granice prywatności i eskalacji - ochrona danych użytkownika i kończenie niebezpiecznych rozmów
Wskazówka: dodaj pełne zasady do system prompt.
ElevenAgents daje rozbudowane narzędzia do testowania, dzięki którym możesz znaleźć i naprawić błędy, zanim agent lub zmiana konfiguracji trafią do użytkowników.przewodnik po promptach
Symulacje
- Dodanie zabezpieczeń do system prompt sprawia, że agent ignoruje próby wydobycia informacji, skupia się na zadaniu i kończy rozmowę po kolejnych próbach.
Ocena i ulepszanie agentów po wdrożeniu
Po wdrożeniu agentów oceny działają na bieżąco na prawdziwych rozmowach. Dzięki podejściu LLM-as-a-judge każda rozmowa może być automatycznie oceniona według twoich kryteriów. Wyniki możesz sprawdzać na dashboardach i analizować szczegóły w logach rozmów, które zawierają przeszukiwalne transkrypcje, źródła, wywołania narzędzi i uruchomienia guardrails.
Przykładowa odpowiedź:
Ochrona wrażliwych danychzakończ_rozmowę lub przekaż_do_konsultanta. Dzięki temu granice są egzekwowane bez dyskusji czy eskalacji.
Agenci mogą przetwarzać dane płatnicze, zdrowotne i osobowe, więc ważne jest, co, gdzie i jak długo jest przechowywane.
Oferujemy różne mechanizmy ochrony danych:
Ocena bezpieczeństwa skupia się na głównych celach wynikających z zasad system prompt, takich jak:
- Zachowanie określonej roli i osobowości agenta
- Odpowiedzi w spójnym, adekwatnym tonie
- Unikanie niebezpiecznych, nie na temat lub wrażliwych tematów
- Przestrzeganie granic funkcjonalnych, prywatności i zasad zgodności
Wszystko powyżej opiera się na naszych szerszych
Poddajemy nasze podejście niezależnej ocenie, w tym pod kątem bezpieczeństwa i prywatności (SOC 2 Type II, ISO 27001, RODO), a także certyfikacjom branżowym i specyficznym dla zastosowań, jak PCI DSS Level 1 dla płatności czy HIPAA dla ochrony zdrowia w USA. Zobacz nasze centrum zaufania
Spełniamy też nowe, natywne dla AI standardy, jak ISO 42001 (zarządzanie AI) i AIUC-1 (wymagający kwartalnych testów odporności przez niezależnych ekspertów). Te same mechanizmy, które stoją za AIUC-1, umożliwiają dostęp do
Przy dużych lub złożonych wdrożeniach nasi
Podsumowaniesymulacja rozmowy SDK, pisząc scenariusze interakcji użytkownik-agent z własnymi promptami oceniającymi. Dzięki temu agenci są gotowi do wdrożenia, zgodni z twoimi standardami bezpieczeństwa i utrzymują spójność między wersjami.
Nasze podejście do zabezpieczeń w ElevenAgents jest wielowarstwowe – każdy element wzmacnia pozostałe:
- Konfiguracja agenta: Instrukcje systemowe, workflows i procedury kształtujące zachowanie, z najwrażliwszymi działaniami blokowanymi przez narzędzia.
- Zabezpieczenia: Niezależne kontrole na każdym etapie: wykrywanie manipulacji na wejściu, Focus przy decyzjach, walidatory treści i własne na wyjściu, z konfigurowalnymi strategiami wyjścia.zakończ_rozmowę jeśli użytkownik nie odpuszcza.
Symulacje red teaming można standaryzować i wykorzystywać dla różnych agentów, wersji i zastosowań, co pozwala egzekwować zasady bezpieczeństwa na większą skalę.
Zobacz: najlepsze praktyki testowania
Moderacja na żywo na poziomie wiadomości
Moderację na poziomie wiadomości dla ConvAI można włączyć dla całego workspace i w niektórych przypadkach jest domyślnie aktywna. Po włączeniu system automatycznie zakończy rozmowę, jeśli wykryje, że agent ma powiedzieć coś zabronionego (wykrywanie tekstowe). Obecnie blokowane są tylko treści seksualne z udziałem nieletnich (SCIM), ale zakres moderacji można rozszerzyć według potrzeb klienta. Funkcja dodaje minimalne opóźnienie: p50: 0ms, p90: 250ms, p95: 450ms.
Możemy wspólnie z klientami ustalić odpowiedni zakres moderacji i dostarczyć analizy wspierające dalsze dostosowanie zabezpieczeń. Np. end_call_reason
Ramy testowania bezpieczeństwa
Aby sprawdzić bezpieczeństwo przed wdrożeniem, polecamy podejście etapowe:
- Zdefiniuj testy red teaming zgodne z twoimi ramami bezpieczeństwa.
- Przeprowadź ręczne rozmowy testowe na tych scenariuszach, by znaleźć słabe punkty i poprawić zachowanie agenta (edycja system prompt).
- Ustal kryteria oceny by mierzyć bezpieczeństwo w rozmowach testowych (monitoruj sukcesy/porażki i uzasadnienia LLM).
- Przeprowadź symulacje z własnymi promptami i automatyczną oceną w środowisku conversation simulation, korzystając ze szczegółowej logiki oceny. Ogólne kryteria oceny działają równolegle dla każdej symulacji.
- Przeglądaj i poprawiaj prompty, kryteria oceny lub zakres moderacji, aż wyniki będą spójne.
- Wdrażaj stopniowo gdy agent spełnia oczekiwania we wszystkich testach bezpieczeństwa i nadal monitoruj wyniki.
Ten uporządkowany proces sprawia, że agenci są testowani, dostrajani i sprawdzani według jasnych standardów przed udostępnieniem użytkownikom. Na każdym etapie warto ustalić progi jakości (np. minimalny procent udanych rozmów).
Podsumowanie
Bezpieczny agent głosowy AI wymaga zabezpieczeń na każdym etapie:
- Przed wdrożeniem: red teaming, symulacje i projekt system prompt
- Podczas rozmowy: zasady, informowanie i egzekwowanie end_call
- Po wdrożeniu: kryteria oceny, monitoring i moderacja na żywo
Dzięki wdrożeniu tych ram organizacje mogą zapewnić odpowiedzialne działanie, zgodność z przepisami i budować zaufanie użytkowników.

.webp&w=3840&q=80)


