Nuestro marco de seguridad por capas para agentes IA
- Escrito por
- Louise Meyer-Schoenherr
- Publicado
- Última actualización
EscucharEscucha este artículo
A medida que los agentes IA asumen tareas críticas, los equipos necesitan confiar en que sus agentes actuarán de forma segura y predecible.medidas preventivas antes de la producción, mecanismos de control durante la conversación y monitorización continua. Juntos, estos componentes ayudan a garantizar un uso responsable de la IA, la concienciación del usuario y el cumplimiento de límites en todo el
En ElevenAgents, aplicamos una arquitectura de seguridad por capas, con límites de seguridad en cada etapa de la conversación, pruebas adversariales antes del lanzamiento, monitorización en producción, protección de datos y validación independiente.
Aunque ningún sistema no determinista puede proteger frente a todos los riesgos, este marco de seguridad integral permite que empresas y gobiernos que usan ElevenAgents diseñen agentes que fallan rara vez, se recuperan bien y cumplen altos estándares de seguridad.
Protección en cada etapa de la conversación
Puedes activar y configurar fácilmente controles que protegen las tres fases de cada intercambio. Esta es la base de
Entrada - Comprobaciones en tiempo real de lo que envía el usuario.
Decisión -
Los límites definen el comportamiento del agente de voz IA. Deben estar alineados con las políticas internas de seguridad e incluir:
- Seguridad de contenido - evitar temas inapropiados o dañinos
- Límites de conocimiento - limitarse a productos, servicios y políticas de la empresa
- Restricciones de identidad - definir cómo se presenta el agente
- Privacidad y límites de escalado - proteger los datos del usuario y salir de conversaciones inseguras
Consejo de implementación: añade límites completos en el prompt del sistema.
ElevenAgents ofrece funciones de prueba avanzadas para que quienes crean en la plataforma puedan detectar y corregir problemas antes de que un agente o cambio de configuración esté activo.guía de prompting
Simulaciones
- Añadir protecciones en el prompt del sistema indica al agente que ignore intentos de extracción, se centre en la tarea y termine la interacción tras varios intentos.
Evaluar y mejorar agentes tras el lanzamiento
Cuando despliegas tus agentes, las evaluaciones se ejecutan de forma continua en conversaciones reales. Usando un enfoque LLM-as-a-judge, cada llamada puede evaluarse automáticamente según los criterios que definas. Puedes revisar los resultados en paneles y rastrear incidencias con registros detallados que incluyen transcripciones buscables, fuentes, llamadas a herramientas y activaciones de guardrails.
Ejemplo de respuesta:
Protección de datos sensiblesfinalizar_llamada o transferir_a_agente. Así se garantiza que se respetan los límites sin discusión ni escalado.
Los agentes pueden gestionar datos de pago, información médica y datos personales, así que es importante considerar qué datos se almacenan, dónde y durante cuánto tiempo.
Ofrecemos varios mecanismos para que los clientes protejan sus datos:
La evaluación de seguridad se centra en objetivos generales derivados de los límites del prompt del sistema, como:
- Mantener el rol y la personalidad definidos del agente
- Responder con un tono coherente y emocionalmente adecuado
- Evitar temas inseguros, fuera de alcance o sensibles
- Respetar los límites funcionales, la privacidad y las normas de cumplimiento
Todo lo anterior se apoya en nuestras
También sometemos nuestro enfoque a revisiones independientes, incluyendo estándares generales de seguridad y privacidad como SOC 2 Tipo II, ISO 27001 y RGPD, junto a certificaciones específicas como PCI DSS Nivel 1 para pagos y HIPAA para sanidad en EE. UU. Consulta nuestro centro de confianza
También cumplimos estándares más recientes y nativos de IA como ISO 42001, que regula sistemas de gestión IA, y AIUC-1, que exige que los agentes IA superen simulaciones adversariales trimestrales por evaluadores independientes. Las mismas capacidades detrás de AIUC-1 también permiten acceder a algunas de las
Para despliegues grandes o complejos, nuestro equipo de
Conclusiónsimulación de conversaciones de ElevenLabs, creando interacciones usuario-agente con prompts de evaluación personalizados. Así te aseguras de que los agentes estén listos para producción, alineados con tus estándares internos de seguridad y mantengan la integridad en todas las versiones.
Nuestro enfoque de seguridad en ElevenAgents es por capas, y cada elemento refuerza a los demás:
- Configuración del agente: Prompts del sistema, workflows y procedimientos que definen el comportamiento, con las acciones más sensibles protegidas por llamadas a herramientas.
- Límites de seguridad: Comprobaciones independientes en cada etapa: detección de manipulación en la entrada, Focus en la decisión y validadores de contenido y personalizados en la salida, con estrategias de salida configurables.finalizar_llamada si el usuario insiste.
Las simulaciones red teaming se pueden estandarizar y reutilizar en diferentes agentes, versiones y casos de uso, permitiendo aplicar las expectativas de seguridad de forma consistente a gran escala.
Consulta: mejores prácticas de testing
Moderación en directo a nivel de mensaje
La moderación en directo a nivel de mensaje para ConvAI se puede activar a nivel de workspace en todos los agentes y, en algunos casos, viene activada por defecto. Cuando está activa, el sistema corta la llamada automáticamente si detecta que el agente va a decir algo prohibido (detección basada en texto). Actualmente solo se bloquea contenido sexual relacionado con menores (SCIM), pero el alcance de la moderación puede ampliarse según las necesidades del cliente. Esta función añade una latencia mínima: p50: 0ms, p90: 250ms, p95: 450ms.
Podemos colaborar con los clientes para definir el alcance adecuado de la moderación y ofrecer analíticas para ajustar la seguridad de forma continua. Ejemplo: end_call_reason
Marco de pruebas de seguridad
Para validar la seguridad antes de producción, recomendamos un enfoque por fases:
- Define pruebas de red teaming alineadas con tu marco de seguridad.
- Haz llamadas de prueba manuales usando estos escenarios para detectar debilidades y ajustar el comportamiento del agente (edición del prompt del sistema).
- Establece criterios de evaluación para medir el rendimiento en seguridad en las llamadas de prueba manuales (monitoriza tasas de éxito/fallo y razonamiento del LLM).
- Lanza simulaciones con prompts estructurados y evaluaciones automáticas en el entorno de simulación de conversaciones, usando lógica de evaluación personalizada. Los criterios generales de evaluación se ejecutarán en paralelo en cada simulación.
- Revisa y ajusta los prompts, criterios de evaluación o el alcance de la moderación hasta lograr resultados consistentes.
- Despliega de forma gradual cuando el agente cumpla de forma consistente con todas las comprobaciones de seguridad, manteniendo la monitorización del rendimiento.
Este proceso estructurado garantiza que los agentes se prueban, ajustan y verifican según estándares claros antes de llegar a los usuarios finales. Se recomienda definir umbrales de calidad (por ejemplo, tasas mínimas de éxito en llamadas) en cada fase.
Resumen
Un agente de voz IA seguro necesita medidas en todas las fases del ciclo de vida:
- Pre-producción: red teaming, simulación y diseño del prompt del sistema
- Durante la conversación: límites, divulgación y aplicación de end_call
- Tras el despliegue: criterios de evaluación, monitorización y moderación en directo
Al aplicar este marco por capas, las organizaciones pueden garantizar un comportamiento responsable, cumplir la normativa y generar confianza con los usuarios.

.webp&w=3840&q=80)


