Guardrails 2.0: Un nuovo livello di controllo in ElevenAgents

Scritto da: Eli Goodman; Jonatan von Martens
Pubblicato: 24 mar 2026
Ultimo aggiornamento: 27 mag 2026

AscoltaAscolta questo articolo

0:00

0:000:00

Man mano che

Guardrails 2.0 in ElevenAgents è un livello di controllo riprogettato che aiuta a guidare gli agenti verso le risposte corrette e a prevenire quelle errate prima che arrivino all’utente finale.

Protezione multilivello in tempo reale

Un prompt di sistema ben progettato porta a comportamenti prevedibili nella maggior parte delle interazioni. Tuttavia, poiché gli agenti sono sistemi non deterministici, possono perdere il focus nelle conversazioni lunghe, gli utenti possono trovare modi creativi per aggirare i limiti e anche le policy più chiare non sempre reggono quando il modello è sotto pressione.

Per questo chi distribuisce agenti in produzione ha bisogno di difese multilivello: un prompt di sistema robusto come base, più controlli indipendenti su ciò che dicono gli utenti e su come rispondono gli agenti.

Guardrails 2.0 protegge le conversazioni su tre livelli, ognuno a rinforzo degli altri:

What it does

System prompt hardening

Define allowed and disallowed behavior in the system prompt. The Focus Guardrail reinforces those instructions throughout the conversation.

User input validation

A safety net that catches prompt injection and manipulation attempts, terminating conversations that pose a security risk.

Agent response validation

Evaluates every reply against your policies in real time. If a response violates your rules, it can be blocked before delivery.

Guardrails

System prompt hardening

Focus

User input validation

Manipulation

Agent response validation

Content, Custom Guardrails

Enforcement Layer

What it does

Guardrails

System prompt hardening

Define allowed and disallowed behavior in the system prompt. The Focus Guardrail reinforces those instructions throughout the conversation.

Focus

User input validation

A safety net that catches prompt injection and manipulation attempts, terminating conversations that pose a security risk.

Manipulation

Agent response validation

Evaluates every reply against your policies in real time. If a response violates your rules, it can be blocked before delivery.

Content, Custom Guardrails

Protezioni predefinite

Le protezioni predefinite coprono le aree di rischio più comuni.

Il Focus Guardrail rafforza il prompt di sistema dell’agente, aiutando a mantenere le risposte mirate, pertinenti e coerenti con gli obiettivi e le istruzioni definite. È particolarmente utile nelle conversazioni lunghe o complesse, dove l’agente rischia di allontanarsi dagli obiettivi previsti.

Limiti di manipolazione rilevano e bloccano i tentativi degli utenti di aggirare le istruzioni di sistema. Se attivati, analizzano gli input degli utenti per individuare pattern che indicano tentativi di prompt injection o override delle istruzioni e possono terminare le conversazioni che rappresentano un rischio per la sicurezza.

Limiti sui contenuti aiutano a garantire risposte appropriate da parte dell’agente, filtrando diverse categorie di contenuti potenzialmente sensibili o rischiosi, ciascuna con soglie regolabili per un controllo preciso.

Custom Guardrails: Le tue regole, applicate in automatico

I Custom Guardrails ti permettono di definire policy specifiche per il tuo settore in linguaggio naturale e di applicarle automaticamente a ogni chiamata. Questo aiuta a ridurre incidenti, escalation e cicli di revisione per la conformità che possono rallentare la distribuzione.

Un modello leggero valuta ogni risposta dell’agente rispetto alle tue regole e restituisce una decisione di blocco o autorizzazione, lavorando in modo indipendente e parallelo alla generazione della risposta.

Controllo totale su come funzionano i guardrail

Puoi decidere come vengono rilevate le violazioni delle policy e cosa succede dopo.

Modalità di esecuzione.Configura il bilanciamento tra velocità e rigidità: fondamentale per la voce, dove la latenza è cruciale. Puoi eseguire i guardrail insieme alla risposta per un ritardo quasi nullo, anche se una frazione di secondo di audio potrebbe essere riprodotta prima dell’intercettazione. Oppure puoi bloccare la risposta fino al controllo completo: leggermente più lento, ma nulla arriva all’utente senza verifica.

Strategie di uscita. Quando un guardrail viene attivato, decidi tu cosa succede: termina la conversazione, trasferisci a un altro agente, passa a un operatore umano oppure riprova la risposta con istruzioni correttive.

Livelli di sensibilità dei contenuti. Regola la sensibilità per ogni categoria di contenuto, aumentando il controllo nei casi d’uso più rischiosi e allentandolo dove un blocco eccessivo peggiorerebbe l’esperienza utente.

Configurazione granulare. Ogni protezione può essere attivata o disattivata singolarmente e diversi

Visibilità completa. Ogni attivazione viene registrata nelle analytics delle conversazioni, indicando quale guardrail è intervenuto e quale azione è stata eseguita. Così i team hanno i dati necessari per migliorare prompt di sistema e guardrail nel tempo.

Redazione della cronologia delle conversazioni

Dopo la fine di una chiamata, puoi oscurare automaticamente le informazioni sensibili da trascrizioni, registrazioni e payload dei webhook. Conserva tutto ciò che ti serve per analytics, QA e training, eliminando solo ciò che non ti serve.

Le entità rilevate vengono sostituite da placeholder nel testo e da beep nell’audio. Puoi decidere il livello di dettaglio fino al singolo tipo di entità: oscurare tutti i nomi o solo i cognomi, tutti gli identificativi finanziari o solo i numeri delle carte di pagamento.

Questa funzione si affianca ad altri controlli sui dati come la Modalità senza conservazione, utile per le distribuzioni con requisiti di conformità più stringenti.

La redazione della cronologia delle conversazioni e la Zero Retention Mode sono disponibili per i clienti enterprise.Contatta il team commerciale per l’accesso.

Parte di una base più ampia di fiducia e sicurezza

Guardrails 2.0 e le funzionalità di privacy dei dati supportano le distribuzioni enterprise di ElevenAgents insieme agli strumenti di sicurezza per ogni fase del ciclo di vita dell’agente:

Sviluppo dell’agente

Progettazione del prompt di sistema, configurazione dei guardrail, red teaming e simulazioni per testare il comportamento prima della messa in produzione

Ogni conversazione

Durante: Guardrails 2.0 (Focus, Manipulation, Content e Custom Guardrails), logging, Zero Retention Mode opzionale
Dopo: Criteri di valutazione, monitoraggio, redazione opzionale della cronologia delle conversazioni

Insieme, questi strumenti danno ai team il controllo necessario per passare dal pilot alla produzione con meno incidenti, approvazioni più rapide e comportamenti degli agenti più coerenti. Queste basi della piattaforma supportano anche l’idoneità alla certificazione AIUC-1 e l’accesso alle prime polizze assicurative per agenti del settore.

Inizia a usare Guardrails oggi stesso

Abbiamo introdotto nuove funzionalità negli ultimi mesi e l’intera suite Guardrails 2.0 è ora disponibile in alpha su ElevenAgents.

Attivali nella scheda Sicurezza delle impostazioni dell’agente, oppure configura tramite API. Per maggiori informazioni sulle distribuzioni enterprise, contatta il nostro team commerciale.

Per indicazioni sulla configurazione e best practice, consulta:

Guardrails 2.0: Un nuovo livello di controllo in ElevenAgents

Protezione multilivello in tempo reale

Protezioni predefinite

Custom Guardrails: Le tue regole, applicate in automatico

Controllo totale su come funzionano i guardrail

Redazione della cronologia delle conversazioni

Parte di una base più ampia di fiducia e sicurezza

Inizia a usare Guardrails oggi stesso

Articoli simili

ElevenLabs ottiene la prima assicurazione al mondo per agenti IA

Il nostro framework di sicurezza a livelli per agenti IA

Nuovi test per ElevenLabs Agents

Presentiamo ElevenLabs Agents