Salta al contenido

Guardrails 2.0: Una capa de control rediseñada en ElevenAgents

Controles de seguridad configurables para implementar agentes a nivel empresarial.

sq

A medida que los agentes de voz asumen tareas de alto impacto en soporte, ventas, marketing, flujos de trabajo internos y más, los equipos necesitan la tranquilidad de que seguirán siendo seguros, alineados con la marca y cumpliendo la normativa a escala empresarial.

Guardrails 2.0 en ElevenAgents es una capa de control rediseñada que ayuda a guiar a los agentes hacia las respuestas adecuadas y evita las incorrectas antes de que lleguen al usuario final.

Guardrails Cover

Protecciones en capas en tiempo real

Un prompt de sistema bien diseñado genera un comportamiento predecible en la mayoría de las interacciones. Sin embargo, como los agentes son sistemas no deterministas, pueden desviarse en conversaciones largas, los usuarios pueden buscar formas creativas de saltarse límites y, a veces, ni siquiera las políticas más claras se mantienen cuando el modelo está bajo presión.

Por eso, los equipos que ponen agentes en producción necesitan defensas en capas: un prompt de sistema robusto como base, además de comprobaciones independientes sobre lo que dicen los usuarios y cómo responden los agentes.

Guardrails 2.0 protege las conversaciones en tres niveles, cada uno reforzando a los demás:

What it does
System prompt hardening
Define allowed and disallowed behavior in the system prompt. The Focus Guardrail reinforces those instructions throughout the conversation.
User input validation
A safety net that catches prompt injection and manipulation attempts, terminating conversations that pose a security risk.
Agent response validation
Evaluates every reply against your policies in real time. If a response violates your rules, it can be blocked before delivery.
Guardrails
System prompt hardening
Focus
User input validation
Manipulation
Agent response validation
Content, Custom Guardrails

Protecciones preconfiguradas

Las salvaguardas preconfiguradas cubren las áreas de riesgo más habituales.

El Guardrail de Enfoque refuerza el prompt de sistema de tu agente, ayudando a mantener las respuestas dirigidas, relevantes y alineadas con tus objetivos e instrucciones. Es especialmente útil en conversaciones largas o complejas, donde el agente puede desviarse de sus objetivos iniciales.

Guardrails de Manipulación detectan y bloquean intentos de los usuarios de saltarse las instrucciones del sistema. Al activarlos, el sistema analiza las entradas del usuario en busca de patrones que indiquen intentos de inyección de prompt o de anular instrucciones, y puede terminar conversaciones que supongan un riesgo de seguridad.

Guardrails de Contenido ayudan a garantizar respuestas apropiadas del agente, filtrando múltiples categorías de contenido potencialmente sensible o inseguro, cada una con umbrales ajustables para un control preciso.

Guardrails Personalizados: Tus reglas, aplicadas automáticamente

Los Guardrails Personalizados te permiten definir políticas específicas de tu sector en lenguaje natural y aplicarlas automáticamente en cada llamada. Así reduces incidentes, escalados y los ciclos de revisión de cumplimiento que pueden ralentizar la implementación.

Custom Guardrail Configuration Example

Un modelo ligero evalúa cada respuesta del agente según tus reglas y decide si bloquear o permitir, funcionando de forma independiente y en paralelo a la generación de respuestas.

Control total sobre cómo funcionan los guardrails

Puedes decidir cómo se detectan las infracciones de políticas y qué ocurre después.

Modos de ejecución.Configura el equilibrio entre velocidad y rigor, clave en voz, donde la latencia es fundamental. Puedes ejecutar los guardrails junto a la respuesta para un retraso casi nulo, aunque puede sonar una fracción de segundo de audio antes de la intervención. O bien, retener las respuestas hasta que estén completamente validadas: un poco más lento, pero nada llega al usuario sin revisar.

Estrategias de salida. Cuando se activa un guardrail, decides qué ocurre: terminar la conversación, transferir a otro agente, escalar a una persona o reintentar la respuesta con instrucciones correctivas.

Niveles de sensibilidad de contenido. Ajusta la sensibilidad en cada categoría de contenido, reforzando el control en casos de mayor riesgo y relajándolo donde un exceso de bloqueo perjudicaría la experiencia del usuario.

Configuración granular. Cada guardrail se puede activar o desactivar de forma individual, y cada agente puede tener una configuración diferente.

Visibilidad total. Cada activación queda registrada en las analíticas de tus conversaciones, incluyendo qué guardrail se activó y qué acción se tomó. Así los equipos tienen los datos necesarios para mejorar sus prompts de sistema y guardrails con el tiempo.

Anonimización del historial de conversaciones

Al terminar una llamada, puedes anonimizar automáticamente información sensible en transcripciones, grabaciones y payloads de webhook. Conserva lo necesario para analítica, QA y formación, eliminando lo que no necesitas.

Las entidades detectadas se sustituyen por placeholders en el texto y por pitidos en el audio. Tú decides el nivel de detalle: anonimiza todos los nombres o solo los apellidos, todos los identificadores financieros o solo los números de tarjeta.

Esto se suma a otros controles de datos como Modo Sin Retención, útil para implementaciones con requisitos de cumplimiento más estrictos.

Conversation History Redaction Example

La anonimización del historial de conversaciones y el Modo Sin Retención están disponibles para clientes empresariales.Contacta con ventas para acceder.

Parte de una base más amplia de confianza y seguridad

Guardrails 2.0 y las funciones de privacidad de datos facilitan la implementación empresarial de ElevenAgents junto a herramientas de seguridad para cada etapa del ciclo de vida del agente:

Desarrollo de agentes

  • Diseño del prompt de sistema, configuración de guardrails, red teaming y simulaciones para poner a prueba el comportamiento antes de lanzar los agentes

Cada conversación

  • Durante: Guardrails 2.0 (Enfoque, Manipulación, Contenido y Personalizados), registro, Modo Sin Retención opcional
  • Después: Criterios de evaluación, monitorización, Anonimización del Historial de Conversaciones opcional

Todo esto da a los equipos el control necesario para pasar de pruebas a producción con menos incidentes, ciclos de aprobación más rápidos y un comportamiento de los agentes más consistente. Además, estas bases de la plataforma facilitan la elegibilidad para la certificación AIUC-1 y el acceso a las primeras pólizas de seguro para agentes.

Empieza a usar Guardrails hoy

Hemos ido lanzando funciones en los últimos meses y ahora la suite completa de Guardrails 2.0 está disponible en alpha en ElevenAgents.

Actívalos en la pestaña Seguridad de la configuración de tu agente, o configúralos desde la API. Si quieres más información sobre implementaciones empresariales, contacta con nuestro equipo de ventas.

Para guías de configuración y buenas prácticas, consulta:

Descubre artículos del equipo de ElevenLabs

Crea con el audio IA de la más alta calidad