Zero Trust para agentes de IA: como aplicar o framework da Anthropic

Escrito por Nolan Necoechea | Jun 24, 2026 3:25:01 PM

O relatório da Anthropic começa com uma declaração que contextualiza a evolução da IA e da segurança de dados: "As defesas de cibersegurança baseadas no perímetro não conseguem acompanhar as ameaças modernas, e as próprias ameaças estão se acelerando."

A primeira parte dessa afirmação já é realidade há anos. A engenharia social substituiu o malware como o método de ataque mais utilizado. Credenciais roubadas estão envolvidas em 86% das violações de segurança, contornando completamente as defesas de cibersegurança baseadas no perímetro.

A segunda parte está se tornando realidade agora. A IA está acelerando as ameaças, oferecendo aos invasores mais ferramentas para ampliar ataques de engenharia social e expondo toda a extensão do raio de explosão, ou seja, o volume total de dados que uma única identidade comprometida pode alcançar. Os agentes contornam os controles de aplicativos que antes separavam as identidades dos dados, conectando-se diretamente a bancos de dados, APIs e repositórios de dados e acessando informações na velocidade da máquina.

A resposta da Anthropic é aplicar os princípios de zero trust aos agentes.

Os seis pilares do framework Zero Trust da Anthropic

A filosofia Zero Trust, não confiar em nada, verificar tudo e presumir que uma violação já ocorreu, é um modelo de segurança consolidado desde o início da década de 1990. Trata-se de uma base comprovada. A Anthropic argumenta que esse princípio precisa ser adaptado para sistemas agentes: "identidades com base criptográfica, permissões definidas por tarefa, memória protegida contra envenenamento e operações defensivas que funcionam na velocidade de atacantes autônomos".

O documento técnico apresenta uma estrutura prática organizada em torno de seis pilares fundamentais:

Identidade e autenticação do agente: transição da identidade humana ou do usuário para uma identidade de agente com base criptográfica. Cada agente deve apresentar comprovações verificáveis de sua identidade, de quem o implantou e de suas autorizações.
Controle de acesso e gerenciamento de privilégios: substitua o acesso baseado em funções por permissões definidas para cada tarefa individual. Um agente autorizado a consultar um banco de dados para uma determinada solicitação não deve manter esse acesso para a próxima.
Observabilidade e auditoria: Registro e monitoramento abrangente do comportamento do agente, chamadas de ferramentas e acesso a dados.
Monitoramento comportamental e resposta: análise contínua das ações do agente para detectar padrões anômalos, maliciosos ou fora de conformidade, na velocidade da máquina, não na velocidade humana.
Validação de entradas e controles de saída: defesas contra injeção de prompts, envenenamento de ferramentas e vazamento de dados em todos os limites do agente.
Integridade e recuperação: proteção da memória do agente contra envenenamento e garantia de que os sistemas possam se recuperar após comprometimentos.

A Anthropic também identifica ameaças específicas que diferenciam os agentes dos sistemas tradicionais de TI: injeção de prompts, envenenamento de ferramentas, abuso de identidade e privilégios, envenenamento de memória e ataques à cadeia de suprimentos.

Essas ameaças não são teóricas. Os modelos de IA mais avançados já conseguem encadear múltiplas vulnerabilidades e produzir exploits funcionais em questão de horas, reduzindo para horas um processo que antes levava meses.

Fluxos de ataque como o "Reprompt" já estão sendo usados para direcionar sistemas de IA contra as organizações que os implementam. Recentemente, Abdiel Santos, especialista em ataques de IA da Varonis, conduziu um laboratório de ataques de IA demonstrando como o comportamento de chatbots e agentes pode ser manipulado para executar ações não autorizadas.

O framework da Anthropic organiza esses seis pilares em três níveis de maturidade, básico, avançado e otimizado, e descreve um processo de implementação em oito fases, abrangendo identidade, escopo de acesso, isolamento de ambientes, controles de entrada e saída e proteção da memória. Ela também introduz o conceito de SOAR agente: orquestração, automação e resposta de segurança executadas com rapidez suficiente para acompanhar ataques acelerados por IA.

Trata-se de um ponto de partida bem estruturado para qualquer organização que esteja implementando agentes. Recomendamos a leitura.

O framework é sólido. A implementação é o que importa.

O framework Zero Trust para Agentes de IA da Anthropic define o que precisa ser feito. A próxima pergunta que toda organização deve fazer é: como? Como aplicar o Zero Trust para Agentes de IA em um ambiente de IA amplo e heterogêneo?

Compartilhamos da convicção da Anthropic de que a segurança da IA exige uma abordagem fundamentalmente diferente. Como escreveu David Gibson, vice-presidente sênior de programas estratégicos da Varonis, a IA não cria novos riscos de dados, ela amplifica os já existentes. Permissões excessivas que permaneceram inativas por anos tornam-se críticas quando são herdadas por um agente. Dados sensíveis que eram apenas teoricamente acessíveis tornam-se efetivamente expostos quando um agente de IA consegue encontrá-los, analisá-los e agir com base neles em questão de segundos.

A resposta inicial da indústria de segurança foi adicionar controles específicos para IA a sistemas existentes: filtros de prompts, scanners de modelos e inventários independentes. Essas soluções abordam a camada de IA, mas ignoram a camada de dados. E é na camada de dados que os problemas surgem.

É aí que o Varonis Atlas entra em cena.

Como o Varonis Atlas aplica o Zero Trust para agentes de IA

O Varonis Atlas é uma plataforma abrangente de segurança para IA. Com o Atlas, as organizações dispõem dos recursos necessários para aplicar os princípios de Zero Trust a agentes de IA em todo o ciclo de vida da segurança.

Veja como o Atlas se alinha ao framework proposto pela Anthropic e aonde vai além dele.

Descoberta: inventário de IA e Shadow AI

Não é possível aplicar o princípio do privilégio mínimo a agentes cuja existência é desconhecida. O Atlas identifica continuamente sistemas de IA em ambientes de nuvem, serviços SaaS, repositórios de código e plataformas de IA, incluindo iniciativas de Shadow AI, para criar um inventário completo e dinâmico de agentes, modelos e seus respectivos acessos a dados.

A descoberta é fundamental. Não é possível avaliar a postura de segurança do que não é conhecido. Não é possível monitorar o que não é visível. E não é possível governar o que não está documentado.

Avaliação: gerenciamento da postura de segurança de IA (AI-SPM)

A abordagem da Anthropic exige uma avaliação contínua das configurações, permissões e dependências dos agentes. O AI-SPM do Atlas realiza essa avaliação em agentes, chatbots e modelos, identificando vulnerabilidades, configurações incorretas e exposições de dados de risco.

A diferença está no contexto dos dados. Saber que um agente pode acessar o SharePoint é uma coisa. Saber que ele pode acessar milhões de registros sensíveis é outra. Esse contexto transforma a avaliação de postura em uma avaliação real de risco.

Aplicação: diretrizes de execução para IA

Ter visibilidade, por si só, não é suficiente para implementar o Zero Trust. O Atlas aplica proteções em tempo real por meio de um gateway de IA posicionado no caminho das solicitações, inspecionando prompts, respostas e ações dos agentes antes que alcancem os modelos ou sistemas downstream. Esses controles bloqueiam a exposição de dados sensíveis e comportamentos inseguros sem exigir alterações nos aplicativos subjacentes.

Como o Atlas compreende o fluxo de execução e as cadeias de ferramentas, ele vai além da simples filtragem por palavras-chave para impedir vazamentos indiretos de dados e ataques de encadeamento de ferramentas, como os descritos no framework da Anthropic.

Governança: conformidade de IA e risco de terceiros

A Anthropic enfatiza o alinhamento com requisitos de conformidade. O Atlas transforma esse princípio em prática. A plataforma mapeia sistemas de IA para frameworks como a Lei de IA da UE e o NIST AI RMF, fornecendo evidências prontas para auditoria com base em atividades em tempo real, avaliações de postura e logs de execução.

O Zero Trust também se estende além dos sistemas internos. O Atlas avalia continuamente fornecedores terceirizados de IA, combinando inventários, questionários e listas de materiais de IA (AI Bills of Materials, ou AI-BOMs) para identificar e gerenciar riscos externos.

Monitoramento: monitoramento, detecção e resposta para atividades de IA

A Anthropic destaca a observabilidade como um elemento fundamental. O Atlas oferece visibilidade abrangente do comportamento da IA em produção, capturando prompts, respostas, ações dos agentes e acessos a dados.

Os recursos de detecção e resposta para IA identificam comportamentos inseguros ou maliciosos em tempo real e tomam medidas imediatas, emitindo alertas, bloqueando atividades e integrando-se a fluxos de trabalho de SIEM e SOAR para viabilizar respostas na velocidade da máquina.

Testes: testes de penetração para IA

Agentes são dinâmicos. Depois que um agente entra em produção, novas vulnerabilidades podem surgir mesmo quando controles bem planejados estão em vigor.

O Atlas testa continuamente sistemas de IA com prompts adversários e simulações de ataques do mundo real, incluindo injeções de prompts e jailbreaks. Os resultados alimentam diretamente as salvaguardas e políticas de segurança, fechando o ciclo entre testes, aprimoramento e proteção.

Zero Trust para agentes de IA requer contexto de dados

Um aspecto que o framework da Anthropic inevitavelmente deixa a cargo das organizações é a camada de dados. O framework aborda o comportamento dos agentes, a identidade e o controle de acesso, mas a segurança da IA sem segurança de dados deixa sem resposta o maior vetor de risco.

Um agente pode atender a todos os requisitos do Zero Trust, autenticado, autorizado, devidamente delimitado e monitorado, e ainda assim acessar silenciosamente milhões de registros de clientes porque os dados subjacentes estão excessivamente expostos.

Como o Atlas é construído sobre a Plataforma de segurança de dados da Varonis, ele oferece um nível de contexto de dados que ferramentas independentes de segurança para IA não conseguem igualar. Avaliações de postura com base em dados reais. Proteções orientadas por classificação. Monitoramento enriquecido com contexto de identidade e sensibilidade. Evidências de conformidade que incluem a linhagem dos dados, e não apenas metadados do sistema de IA.

A abordagem Zero Trust para agentes de IA é um framework sólido. Mas, para colocá-lo em prática de forma eficaz, é necessário proteger tanto a IA quanto os dados que a alimentam.

Nota - Este artigo foi traduzido com a ajuda de IA e revisado por um tradutor humano.

Visualizar publicação completa