Salta al contenuto

Guardrails 2.0: Un nuovo livello di controllo in ElevenAgents

Controlli di sicurezza configurabili per agenti pronti all’uso in ambito enterprise.

sq

Quando gli agenti vocali gestiscono attività ad alto impatto in supporto, vendite, marketing, workflow interni e altro ancora, i team devono essere sicuri che restino sicuri, coerenti con il brand e conformi anche su larga scala.

Guardrails 2.0 in ElevenAgents è un livello di controllo riprogettato che aiuta a guidare gli agenti verso le risposte corrette e a prevenire quelle sbagliate prima che arrivino all’utente finale.

Guardrails Cover

Protezione multilivello in tempo reale

Un prompt di sistema ben progettato porta a comportamenti prevedibili nella maggior parte delle interazioni. Tuttavia, poiché gli agenti sono sistemi non deterministici, possono perdere il focus nelle conversazioni lunghe, gli utenti possono trovare modi creativi per superare i limiti e anche le policy più chiare non sempre reggono quando il modello è sotto pressione.

Per questo motivo, chi distribuisce agenti in produzione ha bisogno di difese multilivello: un prompt di sistema robusto come base, più controlli indipendenti su ciò che dicono gli utenti e su come rispondono gli agenti.

Guardrails 2.0 protegge le conversazioni su tre livelli, ognuno dei quali rafforza gli altri:

What it does
System prompt hardening
Define allowed and disallowed behavior in the system prompt. The Focus Guardrail reinforces those instructions throughout the conversation.
User input validation
A safety net that catches prompt injection and manipulation attempts, terminating conversations that pose a security risk.
Agent response validation
Evaluates every reply against your policies in real time. If a response violates your rules, it can be blocked before delivery.
Guardrails
System prompt hardening
Focus
User input validation
Manipulation
Agent response validation
Content, Custom Guardrails

Protezioni predefinite

Le protezioni predefinite coprono le aree di rischio più comuni.

Il Focus Guardrail rafforza il prompt di sistema dell’agente, aiutando a mantenere le risposte mirate, pertinenti e coerenti con gli obiettivi e le istruzioni definite. È particolarmente utile nelle conversazioni lunghe o complesse, dove l’agente rischia di allontanarsi dagli obiettivi previsti.

Limiti di manipolazione rilevano e bloccano i tentativi degli utenti di aggirare le istruzioni di sistema. Se attivati, analizzano gli input degli utenti per individuare schemi che indicano tentativi di prompt injection o override delle istruzioni e possono terminare le conversazioni che rappresentano un rischio per la sicurezza.

Limiti sui contenuti aiutano a garantire risposte appropriate da parte dell’agente, filtrando diverse categorie di contenuti potenzialmente sensibili o rischiosi, ciascuna con soglie regolabili per un controllo preciso.

Custom Guardrails: Le tue regole, applicate automaticamente

I Custom Guardrails ti permettono di definire policy specifiche per il tuo settore in linguaggio naturale e di applicarle automaticamente a ogni chiamata. Questo aiuta a ridurre incidenti, escalation e cicli di revisione per la conformità che possono rallentare la distribuzione.

Custom Guardrail Configuration Example

Un modello leggero valuta ogni risposta dell’agente rispetto alle tue regole e restituisce una decisione di blocco o autorizzazione, funzionando in modo indipendente e parallelo alla generazione della risposta.

Controllo totale su come funzionano i guardrail

Puoi decidere come vengono rilevate le violazioni delle policy e cosa succede dopo.

Modalità di esecuzione.Configura il bilanciamento tra velocità e rigidità: fondamentale per la voce, dove la latenza è cruciale. Puoi eseguire i guardrail insieme alla risposta per un ritardo quasi nullo, anche se una frazione di secondo di audio potrebbe essere riprodotta prima dell’intercettazione. Oppure puoi bloccare la risposta fino al controllo completo: leggermente più lento, ma nulla arriva all’utente senza verifica.

Strategie di uscita. Quando un guardrail viene attivato, decidi tu cosa succede: termina la conversazione, trasferisci a un altro agente, passa a un operatore umano oppure riprova la risposta con istruzioni correttive.

Livelli di sensibilità dei contenuti. Regola la sensibilità per ogni categoria di contenuto, rafforzando i controlli nei casi d’uso più a rischio e allentandoli dove un blocco eccessivo danneggerebbe l’esperienza utente.

Configurazione granulare. Ogni guardrail può essere attivato o disattivato singolarmente e agenti diversi possono avere configurazioni diverse.

Visibilità completa. Ogni attivazione viene registrata nelle analytics delle conversazioni, incluso quale guardrail è intervenuto e quale azione è stata intrapresa. Così i team hanno i dati necessari per migliorare prompt di sistema e guardrail nel tempo.

Redazione della cronologia delle conversazioni

Dopo la fine di una chiamata, puoi oscurare automaticamente le informazioni sensibili da trascrizioni, registrazioni e payload dei webhook. Conservi tutto ciò che serve per analytics, QA e training, eliminando solo ciò che non ti serve.

Le entità rilevate vengono sostituite da placeholder nel testo e da beep nell’audio. Puoi controllare il livello di dettaglio fino al singolo tipo di entità: oscurare tutti i nomi o solo i cognomi, tutti gli identificativi finanziari o solo i numeri delle carte di pagamento.

Questa funzione si affianca ad altri controlli sui dati come la Modalità senza conservazione, utile per le distribuzioni con requisiti di conformità più stringenti.

Conversation History Redaction Example

La redazione della cronologia delle conversazioni e la Zero Retention Mode sono disponibili per i clienti enterprise.Contatta il team commerciale per l’accesso.

Parte di una base più ampia di fiducia e sicurezza

Guardrails 2.0 e le funzionalità di privacy dei dati supportano le distribuzioni enterprise di ElevenAgents insieme agli strumenti di sicurezza per ogni fase del ciclo di vita dell’agente:

Sviluppo dell’agente

  • Progettazione del prompt di sistema, configurazione dei guardrail, red teaming e simulazioni per testare il comportamento prima della messa in produzione

Ogni conversazione

  • Durante: Guardrails 2.0 (Focus, Manipulation, Content e Custom Guardrails), logging, Zero Retention Mode opzionale
  • Dopo: Criteri di valutazione, monitoraggio, redazione opzionale della cronologia delle conversazioni

Insieme, questi strumenti danno ai team il controllo necessario per passare dal pilot alla produzione con meno incidenti, cicli di approvazione più rapidi e comportamenti degli agenti più coerenti. Queste basi della piattaforma supportano anche l’idoneità alla certificazione AIUC-1 e l’accesso alle prime polizze assicurative per agenti.

Inizia a usare Guardrails oggi stesso

Abbiamo introdotto nuove funzionalità negli ultimi mesi e ora l’intera suite Guardrails 2.0 è disponibile in alpha su ElevenAgents.

Attivali nella scheda Sicurezza delle impostazioni dell’agente, oppure configura tramite API. Per maggiori informazioni sulle distribuzioni enterprise, contatta il nostro team commerciale.

Per indicazioni sulla configurazione e le best practice, consulta:

Scopri gli articoli del team ElevenLabs

Crea con l'audio IA della massima qualità