Passer au contenu

Guardrails 2.0 : Une couche de contrôle repensée dans ElevenAgents

Contrôles de sécurité configurables pour des déploiements d'agents adaptés à l'entreprise.

sq

Quand les agents vocaux prennent en charge des tâches importantes dans le support, la vente, le marketing, les workflows internes et plus encore, les équipes doivent pouvoir compter sur leur sécurité, leur conformité et leur cohérence à grande échelle.

Guardrails 2.0 dans ElevenAgents est une couche de contrôle repensée qui guide les agents vers les bonnes réponses et bloque les mauvaises avant qu'elles n'atteignent l'utilisateur final.

Guardrails Cover

Protections en temps réel, à plusieurs niveaux

Un prompt système bien conçu permet d’obtenir un comportement prévisible dans la plupart des interactions. Mais comme les agents sont des systèmes non déterministes, ils peuvent dévier lors de longues conversations, les utilisateurs peuvent trouver des moyens créatifs de contourner les règles, et même les politiques les mieux définies ne tiennent pas toujours quand le modèle est mis sous pression.

C’est pourquoi les équipes qui déploient des agents en production ont besoin de défenses en couches : un prompt système renforcé comme base, plus des vérifications indépendantes sur ce que disent les utilisateurs et sur les réponses des agents.

Guardrails 2.0 protège les conversations à trois niveaux, chacun renforçant les autres :

What it does
System prompt hardening
Define allowed and disallowed behavior in the system prompt. The Focus Guardrail reinforces those instructions throughout the conversation.
User input validation
A safety net that catches prompt injection and manipulation attempts, terminating conversations that pose a security risk.
Agent response validation
Evaluates every reply against your policies in real time. If a response violates your rules, it can be blocked before delivery.
Guardrails
System prompt hardening
Focus
User input validation
Manipulation
Agent response validation
Content, Custom Guardrails

Protections préconfigurées

Des garde-fous préconfigurés couvrent les risques les plus courants.

Le Focus Guardrail renforce le prompt système de votre agent, pour garder des réponses ciblées, pertinentes et cohérentes avec vos objectifs et instructions. C’est particulièrement utile dans les conversations longues ou complexes, où l’agent risque plus facilement de s’éloigner de ses objectifs.

Manipulation Guardrails détectent et bloquent les tentatives des utilisateurs de contourner les instructions du système. Quand ils sont activés, le système analyse les entrées utilisateur pour repérer les tentatives d’injection de prompt ou de contournement des instructions, et peut mettre fin aux conversations présentant un risque de sécurité.

Content Guardrails aident à garantir des réponses appropriées en filtrant plusieurs catégories de contenus potentiellement sensibles ou risqués, avec des seuils ajustables pour un contrôle précis.

Custom Guardrails : Vos règles, appliquées automatiquement

Les Custom Guardrails vous permettent de définir des règles spécifiques à votre domaine en langage naturel et de les appliquer automatiquement à chaque appel. Cela aide à réduire les incidents, les escalades et les cycles de validation qui ralentissent le déploiement.

Custom Guardrail Configuration Example

Un modèle léger évalue chaque réponse de l’agent selon vos règles et décide de la bloquer ou de l’autoriser, en toute indépendance et en parallèle de la génération de la réponse.

Contrôle total sur le fonctionnement des guardrails

Vous choisissez comment les violations de règles sont détectées et ce qui se passe ensuite.

Modes d’exécution.Ajustez l’équilibre entre rapidité et rigueur — essentiel pour la voix, où la latence est cruciale. Vous pouvez faire tourner les guardrails en parallèle de la réponse pour un délai quasi nul, même si une fraction de seconde d’audio peut être diffusée avant l’interception. Ou bien attendre la validation complète avant de diffuser la réponse — un peu plus lent, mais rien n’atteint l’utilisateur sans contrôle.

Stratégies de sortie. Lorsqu’un guardrail est déclenché, vous décidez de la suite : mettre fin à la conversation, transférer à un autre agent, escalader vers un humain ou réessayer la réponse avec des instructions correctives.

Niveaux de sensibilité du contenu. Ajustez la sensibilité pour chaque catégorie de contenu, en renforçant le contrôle pour les cas à risque et en l’assouplissant là où un blocage excessif nuirait à l’expérience utilisateur.

Configuration granulaire. Chaque guardrail peut être activé ou désactivé individuellement, et chaque agent peut avoir sa propre configuration.

Visibilité complète. Chaque déclenchement est enregistré dans vos analyses de conversations, avec le guardrail concerné et l’action prise. Cela permet aux équipes d’ajuster leurs prompts système et guardrails au fil du temps.

Suppression d’informations dans l’historique des conversations

Après un appel, vous pouvez automatiquement supprimer les informations sensibles des transcriptions, enregistrements et payloads webhook. Gardez ce qu’il vous faut pour l’analyse, la QA et la formation, tout en retirant le reste.

Les entités détectées sont remplacées par des placeholders dans le texte et par des bips dans l’audio. Vous contrôlez la granularité jusqu’au type d’entité : masquer tous les noms ou seulement les noms de famille, tous les identifiants financiers ou seulement les numéros de carte.

Cette fonctionnalité complète d’autres contrôles de données comme le Zero Retention Mode, utile pour les déploiements soumis à des exigences de conformité plus strictes.

Conversation History Redaction Example

La suppression d’informations dans l’historique des conversations et le Zero Retention Mode sont disponibles pour les clients entreprise.Contactez le service commercial pour y accéder.

Une base solide pour la confiance et la sécurité

Guardrails 2.0 et les fonctionnalités de confidentialité des données accompagnent les déploiements d’ElevenAgents en entreprise, avec des outils de sécurité à chaque étape du cycle de vie de l’agent :

Développement de l’agent

  • Conception du prompt système, configuration des guardrails, red teaming et simulations pour tester le comportement avant la mise en production

Chaque conversation

  • Pendant : Guardrails 2.0 (Focus, Manipulation, Content et Custom Guardrails), journalisation, Zero Retention Mode en option
  • Après : Critères d’évaluation, suivi, suppression d’informations dans l’historique des conversations en option

Ensemble, ces outils donnent aux équipes le contrôle nécessaire pour passer du pilote à la production avec moins d’incidents, des validations plus rapides et un comportement d’agent plus cohérent. Ces bases permettent aussi d’être éligible à la certification AIUC-1 et d’accéder aux premières polices d’assurance pour agents du secteur.

Commencez à utiliser Guardrails dès aujourd’hui

Nous avons déployé ces fonctionnalités ces derniers mois, et la suite complète Guardrails 2.0 est maintenant disponible en alpha dans ElevenAgents.

Activez-les dans l’onglet Sécurité des paramètres de votre agent, ou configurez-les via l’API. Pour en savoir plus sur les déploiements en entreprise, contactez notre équipe commerciale.

Pour des conseils de configuration et les bonnes pratiques, consultez :

Découvrez les articles de l'équipe ElevenLabs

Créez avec l'audio IA de la plus haute qualité