Guardrails 2.0: Una capa de control rediseñada en ElevenAgents

Escrito por: Eli Goodman; Jonatan von Martens
Publicado: 24 mar 2026
Última actualización: 27 may 2026

EscucharEscucha este artículo

0:00

0:000:00

A medida que

Guardrails 2.0 en ElevenAgents es una capa de control rediseñada que ayuda a guiar a los agentes hacia las respuestas adecuadas y evita las incorrectas antes de que lleguen al usuario final.

Protecciones en capas en tiempo real

Un prompt de sistema bien diseñado genera un comportamiento predecible en la mayoría de las interacciones. Sin embargo, como los agentes son sistemas no deterministas, pueden desviarse en conversaciones largas, los usuarios pueden buscar formas creativas de saltarse límites y, a veces, ni siquiera las políticas más claras se mantienen cuando el modelo está bajo presión.

Por eso, los equipos que ponen agentes en producción necesitan defensas en capas: un prompt de sistema robusto como base, además de comprobaciones independientes sobre lo que dicen los usuarios y cómo responden los agentes.

Guardrails 2.0 protege las conversaciones en tres niveles, cada uno reforzando a los demás:

What it does

System prompt hardening

Define allowed and disallowed behavior in the system prompt. The Focus Guardrail reinforces those instructions throughout the conversation.

User input validation

A safety net that catches prompt injection and manipulation attempts, terminating conversations that pose a security risk.

Agent response validation

Evaluates every reply against your policies in real time. If a response violates your rules, it can be blocked before delivery.

Guardrails

System prompt hardening

Focus

User input validation

Manipulation

Agent response validation

Content, Custom Guardrails

Enforcement Layer

What it does

Guardrails

System prompt hardening

Define allowed and disallowed behavior in the system prompt. The Focus Guardrail reinforces those instructions throughout the conversation.

Focus

User input validation

A safety net that catches prompt injection and manipulation attempts, terminating conversations that pose a security risk.

Manipulation

Agent response validation

Evaluates every reply against your policies in real time. If a response violates your rules, it can be blocked before delivery.

Content, Custom Guardrails

Protecciones preconfiguradas

Las salvaguardas preconfiguradas cubren las áreas de riesgo más habituales.

El Guardrail de Enfoque refuerza el prompt de sistema de tu agente, ayudando a mantener las respuestas dirigidas, relevantes y alineadas con tus objetivos e instrucciones. Es especialmente útil en conversaciones largas o complejas, donde el agente puede desviarse de sus objetivos iniciales.

Guardrails de Manipulación detectan y bloquean intentos de los usuarios de saltarse las instrucciones del sistema. Al activarlos, el sistema analiza las entradas del usuario en busca de patrones que indiquen intentos de inyección de prompt o de anular instrucciones, y puede terminar conversaciones que supongan un riesgo de seguridad.

Guardrails de Contenido ayudan a garantizar respuestas apropiadas del agente, filtrando múltiples categorías de contenido potencialmente sensible o inseguro, cada una con umbrales ajustables para un control preciso.

Guardrails Personalizados: Tus reglas, aplicadas automáticamente

Los Guardrails Personalizados te permiten definir políticas específicas de tu sector en lenguaje natural y aplicarlas automáticamente en cada llamada. Así reduces incidentes, escalados y los ciclos de revisión de cumplimiento que pueden ralentizar la implementación.

Un modelo ligero evalúa cada respuesta del agente según tus reglas y decide si bloquear o permitir, funcionando de forma independiente y en paralelo a la generación de respuestas.

Control total sobre cómo funcionan los guardrails

Puedes decidir cómo se detectan las infracciones de políticas y qué ocurre después.

Modos de ejecución.Configura el equilibrio entre velocidad y rigor, clave en voz, donde la latencia es fundamental. Puedes ejecutar los guardrails junto a la respuesta para un retraso casi nulo, aunque puede sonar una fracción de segundo de audio antes de la intervención. O bien, retener las respuestas hasta que estén completamente validadas: un poco más lento, pero nada llega al usuario sin revisar.

Estrategias de salida. Cuando se activa un guardrail, decides qué ocurre: terminar la conversación, transferir a otro agente, escalar a una persona o reintentar la respuesta con instrucciones correctivas.

Niveles de sensibilidad de contenido. Ajusta la sensibilidad en cada categoría de contenido, reforzando el control en casos de mayor riesgo y relajándolo donde un exceso de bloqueo perjudicaría la experiencia del usuario.

Configuración granular. Cada medida de seguridad se puede activar o desactivar de forma individual, y distintos

Visibilidad total. Cada activación queda registrada en las analíticas de tus conversaciones, incluyendo qué guardrail se activó y qué acción se tomó. Así los equipos tienen los datos necesarios para mejorar sus prompts de sistema y guardrails con el tiempo.

Anonimización del historial de conversaciones

Al terminar una llamada, puedes anonimizar automáticamente información sensible en transcripciones, grabaciones y payloads de webhook. Conserva lo necesario para analítica, QA y formación, eliminando lo que no necesitas.

Las entidades detectadas se sustituyen por placeholders en el texto y por pitidos en el audio. Tú decides el nivel de detalle: anonimiza todos los nombres o solo los apellidos, todos los identificadores financieros o solo los números de tarjeta.

Esto se suma a otros controles de datos como Modo Sin Retención, útil para implementaciones con requisitos de cumplimiento más estrictos.

La anonimización del historial de conversaciones y el Modo Sin Retención están disponibles para clientes empresariales.Contacta con ventas para acceder.

Parte de una base más amplia de confianza y seguridad

Guardrails 2.0 y las funciones de privacidad de datos facilitan la implementación empresarial de ElevenAgents junto a herramientas de seguridad para cada etapa del ciclo de vida del agente:

Desarrollo de agentes

Diseño del prompt de sistema, configuración de guardrails, red teaming y simulaciones para poner a prueba el comportamiento antes de lanzar los agentes

Cada conversación

Durante: Guardrails 2.0 (Enfoque, Manipulación, Contenido y Personalizados), registro, Modo Sin Retención opcional
Después: Criterios de evaluación, monitorización, Anonimización del Historial de Conversaciones opcional

Todo esto da a los equipos el control necesario para pasar de pruebas a producción con menos incidentes, ciclos de aprobación más rápidos y un comportamiento de los agentes más consistente. Además, estas bases de la plataforma facilitan la elegibilidad para la certificación AIUC-1 y el acceso a las primeras pólizas de seguro para agentes.

Empieza a usar Guardrails hoy

Hemos ido lanzando funciones en los últimos meses y ahora la suite completa de Guardrails 2.0 está disponible en alpha en ElevenAgents.

Actívalos en la pestaña Seguridad de la configuración de tu agente, o configúralos desde la API. Si quieres más información sobre implementaciones empresariales, contacta con nuestro equipo de ventas.

Para guías de configuración y buenas prácticas, consulta:

Guardrails 2.0: Una capa de control rediseñada en ElevenAgents

Protecciones en capas en tiempo real

Protecciones preconfiguradas

Guardrails Personalizados: Tus reglas, aplicadas automáticamente

Control total sobre cómo funcionan los guardrails

Anonimización del historial de conversaciones

Parte de una base más amplia de confianza y seguridad

Empieza a usar Guardrails hoy

Artículos relacionados

ElevenLabs consigue el primer seguro para agentes IA

Nuestro marco de seguridad por capas para agentes IA

Resumen del webinar: Cómo Insurely integró agentes de voz en su centro de contacto

ElevenAgents React SDK v1.0