Zero Trust para los agentes de IA: cómo hacer cumplir el marco de Anthropic

El informe técnico de Anthropic comienza con una declaración que enmarca el pasado y el presente de la IA y la seguridad de datos: “Las defensas de ciberseguridad basadas en el perímetro no pueden mantenerse al día con las amenazas modernas, y las amenazas en sí mismas se están acelerando”.

La primera mitad ha sido cierta durante años. La ingeniería social ha reemplazado al malware como el método de ataque de referencia. Las credenciales robadas son un factor en el 86 % de las brechas, sin pasar por completo las defensas de ciberseguridad basadas en el perímetro.

La segunda parte se está haciendo realidad en este momento. La IA está acelerando las amenazas, al proporcionar a los atacantes más herramientas para ampliar la ingeniería social y revelar el alcance total del impacto, es decir, el volumen total de datos al que puede llegar una sola identidad comprometida. Los agentes eluden los controles de las aplicaciones que antes se interponían entre las identidades y los datos, conectándose directamente a bases de datos, API y repositorio de datos, y accediendo a la información a la velocidad de una máquina.

La respuesta de Anthropic es aplicar Zero Trust a los agentes.

Los seis pilares del marco Zero Trust de Anthropic

La filosofía Zero Trust, no confiar en nada, verificar todo, asumir que ya se ha producido una violación, ha sido una filosofía de seguridad desde principios de la década de 1990. Es una base probada. Anthropic argumenta que el principio necesita una nueva forma para los sistemas agénticos: “identidades que están enraizadas criptográficamente, permisos por tarea, memoria protegida contra el envenenamiento y operaciones defensivas que se ejecutan a la velocidad de los atacantes autónomos”.

El informe técnico presenta un marco práctico organizado en torno a seis pilares fundamentales:

Identidad y autenticación del agente: pase de la identidad humana/usuario a la identidad de agente con raíces criptográficas. Cada agente debe llevar una prueba verificable de lo que es, quién lo desplegó y lo que está autorizado a hacer.
Control de acceso y administración de privilegios: reemplace el acceso basado en roles con permisos con alcance por tarea individual. Un agente autorizado para leer una base de datos para una consulta no debería conservar ese acceso para la siguiente.
Observabilidad y auditoría: registro y monitoreo exhaustiva del comportamiento del agente, llamadas a herramientas y acceso a datos.
Monitoreo y respuesta conductual: análisis continuo de las acciones del agente para detectar patrones anómalos, maliciosos o no conformes, a velocidad de máquina, no humana.
Validación de entrada y controles de salida: defensas contra la inyección de prompts, el envenenamiento de herramientas y la fuga de datos en cada límite del agente.
Integridad y recuperación: proteger la memoria del agente contra el envenenamiento y garantizar que los sistemas puedan recuperarse de un compromiso.

Anthropic también identifica las amenazas específicas que diferencian a los agentes de TI tradicionales: inyección de prompts, envenenamiento de herramientas, abuso de identidad y privilegios, envenenamiento de memoria y ataques a la cadena de suministro.

Esto no es teórico. Los modelos de IA de vanguardia ya pueden encadenar múltiples vulnerabilidades y producir explociones funcionales en horas, comprimiendo un plazo que antes solía llevar meses.

Get started with a free AI Data Risk Assessment.

Get your assessment

Los flujos de ataque como “Reprompt” ya se están utilizando para volver a los sistemas de IA en contra de las organizaciones que los implementan. Abdiel Santos, especialista en ataques de IA de Varonis, llevó a cabo recientemente un laboratorio de ataques de IA en el que demostró cómo se puede redirigir el comportamiento de los chatbots y los agentes para que realicen acciones no autorizadas.

El marco de Anthropic asocia estos seis pilares fundamentales en tres niveles de madurez, fundación, avanzado y optimizado, y describe un flujo de trabajo de implementación en ocho fases que abarca identidad, alcance de accesos, sandboxing, controles de entrada/salida y protecciones de memoria. También introduce el concepto de SOAR agéntico: orquestación de seguridad, automatización y respuesta que funcionan lo suficientemente rápido como para competir con atacantes acelerados por IA.

Es un punto de partida bien organizado y útil para cualquier organización que implemente agentes. Le recomendamos que lo lea.

El marco es sólido. Lo que importa es su aplicación.

El marco Zero Trust para agentes de IA de Anthropic define el qué. La siguiente pregunta que toda organización debería plantearse es: ¿Cómo? ¿Cómo se aplica realmente el modelo Zero Trust para agentes de IA en un entorno de IA extenso y heterogéneo?

Compartimos la convicción de Anthropic de que la seguridad de la IA requiere un enfoque fundamentalmente diferente. Como ha escrito David Gibson, nuestro vicepresidente senior de programas estratégicos: La IA no crea nuevos riesgos de datos, sino que amplifica los existentes. Los permisos excesivos que permanecieron inactivos durante años se vuelven críticos cuando un agente los hereda. Los datos confidenciales que eran teóricamente accesibles se vuelven prácticamente expuestos cuando un agente de IA puede encontrarlos, razonar sobre ellos y actuar sobre ellos en segundos.

La respuesta inicial de la industria de la seguridad ha sido incorporar controles específicos de IA a las pilas existentes: filtros de prompts, escáneres de modelos e inventarios independientes. Estos abordan la capa de IA. Pasan por alto la capa de datos. Y es en la capa de datos donde ocurre el daño.

Aquí es donde entra en juego Varonis Atlas.

Cómo Varonis Atlas aplica Zero Trust para agentes de IA

Varonis Atlas es la plataforma completa de seguridad de IA. Con Atlas, las organizaciones tienen las capacidades que necesitan para aplicar Zero Trust a los agentes de IA en todo el ciclo de vida de la seguridad.

Así es como Atlas se relaciona con el marco que Anthropic describe, y hacia dónde avanza.

Descubra: inventario de IA y shadow AI

No puede imponer el mínimo privilegio a agentes que no sabe que existen. Atlas descubre continuamente sistemas de IA en la nube, SaaS, repositorios de código y plataformas de IA, incluida la shadow AI, para crear un inventario completo y vivo de agentes, modelos y su acceso a datos.

El descubrimiento es fundamental. La postura no puede evaluar lo que no se conoce. El monitoreo no puede observar lo que no es visible. La gobernanza no puede controlar lo que no está documentado.

Evaluación: gestión de la postura de seguridad de IA (AI-SPM)

Anthropic exige una evaluación continua de configuraciones, permisos y dependencias de agentes. Atlas AI-SPM hace esto a través de agentes, chatbots y modelos, lo que identifica vulnerabilidades, configuraciones erróneas y risky data exposure.

La diferencia está en el contexto de los datos. Saber que un agente puede acceder a SharePoint es una cosa. Saber que puede acceder a millones de registros sensibles es otra. Ese contexto convierte la postura en una evaluación real de riesgos.

Aplicar: protecciones en tiempo de ejecución de la IA

La visibilidad por sí sola no es Zero Trust. Atlas aplica barreras de seguridad en tiempo real a través de una puerta de enlace de IA en la ruta de solicitudes, inspeccionando prompts, respuestas y acciones de agentes antes de que lleguen a modelos o sistemas posteriores. Estos controles bloquean la exposure de datos confidenciales y comportamientos inseguros, sin requerir cambios en las aplicaciones subyacentes.

Como Atlas entiende el flujo de ejecución y las cadenas de herramientas, va más allá del filtrado de palabras clave para evitar fugas indirectas y ataques de encadenamiento de herramientas, como los que describe el marco de Anthropic.

Gobernar: cumplimiento normativo en materia de IA y riesgos de terceros

Anthropic enfatiza la alineación con el cumplimiento. Atlas lo operacionaliza. Atlas mapea sistemas de IA a marcos como la Ley de IA de la UE y el RMF de IA del NIST, con evidencia lista para auditoría a partir de actividad en tiempo real, hallazgos de postura y runtime Logs.

Zero Trust también va más allá de los sistemas internos. Atlas evalúa continuamente a proveedores externos de IA, combinando inventarios, cuestionarios y listas de materiales de IA para identificar y gestionar riesgos externos.

Monitoreo: detección y respuesta de la actividad de IA

Anthropic destaca la observabilidad como un aspecto fundamental. Atlas ofrece una visibilidad completa del comportamiento de la IA en producción, lo que registra los prompts, las respuestas, las acciones de los agentes y el acceso a los datos.

La detección y respuesta de IA identifica comportamientos inseguros o maliciosos en tiempo real y toma medidas: alertar, bloquear e integrarse con flujos de trabajo de SIEM y SOAR para permitir una respuesta a la velocidad de la máquina.

Probar: pruebas de penetración con IA

Los agentes son dinámicos. Una vez que un agente está en circulación, surgen brechas incluso con controles bien diseñados.

Atlas prueba continuamente sistemas de IA con prompts adversariales y simulaciones de ataques en el mundo real, incluidos inyección de prompts y jailbreaks. Los resultados alimentan directamente las barreras de seguridad y las políticas, cerrando el ciclo entre pruebas y protección.

Zero Trust para agentes de IA requiere contexto de datos

Hay un aspecto que el marco de Anthropic deja necesariamente en manos de quienes lo implementan: la capa de datos. El marco aborda el comportamiento de los agentes, la identidad y el control de acceso; sin embargo, la seguridad de la IA sin seguridad de los datos deja sin abordar el vector de riesgo más importante.

Un agente puede pasar todos los controles Zero Trust, autenticado, autorizado, limitado, monitorizado, y aun así acceder silenciosamente a cuatro millones de registros de clientes porque los datos que hay debajo están sobreexpuestos.

Dado que Atlas se basa en la Plataforma de seguridad de datos Varonis, ofrece un contexto de datos que las herramientas de seguridad de IA independientes no pueden igualar. Evaluación de la postura con contexto de datos real. Mecanismos de protección basados en la clasificación. Monitoreo enriquecido con información sobre identidad y confidencialidad. Evidencia de cumplimiento que incluye el linaje de los datos, no solo los Metadata del sistema de IA.

Zero Trust para los agentes de IA es un marco sólido. Para garantizar su cumplimiento, es necesario proteger tanto la inteligencia artificial como los datos que la alimentan.

Tenga en cuenta que este blog se tradujo con la ayuda de IA y un traductor humano lo revisó.

¿Qué pasos debo seguir ahora?

A continuación,a le presentamos tres maneras de avanzar en la reducción del riesgo de datos en su empresa:

Programe una demostración con nosotros Vea a Varonis en acción en una sesión personalizada según las necesidades específicas de seguridad de datos de su organización. Estaremos encantados de responder a todas sus preguntas.

Revise un ejemplo de nuestra evaluación de riesgo sobre los datos (DRA) Conozca los riesgos que podrían estar presentes en su entorno. La DRA de Varonis es completamente gratuita y ofrece un camino claro hacia la remediación automatizada.

Síganos en LinkedIn, YouTube, and X (Twitter) Obtenga información detallada sobre la seguridad de datos, incluyendo la administración de la postura de seguridad de datos (DSPM), la detección de amenazas, la seguridad de la IA y mucho más.

Nolan Necoechea Nolan Necoechea is a product marketing strategist at Varonis. He has spent more than a decade working with data and AI innovators.