Microsoft libera RAMPART e Clarity para testes de segurança em agentes de IA

Ferramentas abertas miram validação reproduzível de agentes de IA, com testes Pytest, análise de premissas de projeto e foco em injeção indireta de prompts, regressões e risco de exfiltração.

Componente	RAMPART e Clarity, duas ferramentas abertas da Microsoft voltadas ao desenvolvimento e à validação de segurança de agentes de IA.
Vetor	RAMPART executa casos de teste Pytest por meio de um adaptador conectado ao agente, permitindo sondar fluxos como injeção indireta de prompts por e-mail, arquivo ou página web processada pelo sistema.
Impacto	A abordagem permite transformar achados de red teaming em testes reproduzíveis, verificar mitigações e detectar regressões comportamentais ou risco condicionado de exfiltração antes da entrega do agente.
Prioridade	Equipes que constroem agentes devem registrar decisões de projeto, limitar acesso a ferramentas sensíveis e manter testes executáveis para validar comportamento de segurança ao longo do ciclo de vida.
Artefatos	RAMPART é descrito como uma estrutura nativa de Pytest e se apoia no PyRIT; Clarity atua como mecanismo estruturado para questionar premissas, explorar soluções, analisar falhas e rastrear decisões.

Resumo técnico

A Microsoft abriu duas ferramentas para apoiar equipes que desenvolvem agentes de inteligência artificial: RAMPART, voltada a testes executáveis de segurança e segurança operacional, e Clarity, orientada à análise estruturada de decisões antes da implementação. O foco técnico está no deslocamento de parte do red teaming para etapas mais iniciais da engenharia, quando mudanças de arquitetura, limites de acesso e hipóteses de comportamento ainda podem ser corrigidos sem reescrever o sistema já entregue.

RAMPART, sigla para Risk Assessment and Measurement Platform for Agentic Red Teaming, funciona como uma estrutura nativa de Pytest para escrever e executar testes contra agentes de IA. A ferramenta cobre cenários adversariais e benignos, além de diferentes categorias de dano, permitindo que engenheiros descrevam casos em que o agente é atacado, sondado ou colocado diante de entradas não confiáveis. O resultado esperado é um conjunto de artefatos executáveis que avaliam se o comportamento do agente viola requisitos de segurança, segurança de uso ou desenho previsto.

Clarity tem papel diferente: a ferramenta funciona como um mecanismo de raciocínio estruturado para discutir intenção de projeto, premissas, alternativas, modos de falha e decisões registradas antes do código existir. Em agentes de IA, essa etapa é relevante porque muitos riscos não surgem apenas do modelo, mas da combinação entre instruções, dados externos, ferramentas conectadas, permissões e objetivos definidos para o agente. Quando uma decisão como conceder acesso a uma ferramenta é tomada sem explicitar motivo, limite e consequência, a superfície de ataque cresce sem uma trilha clara para auditoria posterior.

Fluxo técnico

O funcionamento de RAMPART depende de um adaptador que conecta o agente avaliado à suíte de testes. A partir desse ponto, os casos escritos pela equipe podem estimular o agente com entradas de teste, observar respostas e avaliar resultados. Essa arquitetura é importante porque evita que a validação fique limitada a análises pontuais feitas por especialistas depois que o sistema já está pronto. Ao adotar um formato compatível com Pytest, os testes passam a se parecer mais com ativos de engenharia mantidos junto ao produto, em vez de relatórios isolados de avaliação.

Um dos cenários citados é a injeção indireta de prompts, também chamada no contexto de cross-prompt injection. Nesse tipo de risco, o dado malicioso ou enganoso não precisa ser digitado diretamente por um usuário no campo principal de interação. Ele pode estar presente em um e-mail, arquivo, página web ou outra fonte que o agente processa como parte de sua tarefa. Se o agente interpreta esse conteúdo não confiável como instrução operacional, pode alterar o comportamento esperado, ignorar restrições, usar uma ferramenta fora de contexto ou expor informação que deveria permanecer protegida.

A ferramenta também é descrita como capaz de apoiar testes para regressões comportamentais e risco de exfiltração de dados. Isso não significa que um incidente específico de vazamento tenha sido confirmado; o ponto técnico é que agentes mudam de comportamento quando prompts, ferramentas, políticas, modelos ou integrações são alterados. Um teste que antes verificava a recusa a uma ação insegura pode voltar a falhar após uma modificação legítima no sistema. Ao tornar o cenário reproduzível, a equipe consegue diferenciar uma melhoria funcional de uma regressão de segurança.

RAMPART se apoia no PyRIT, ferramenta anterior da Microsoft voltada à identificação de risco em sistemas de IA. A distinção operacional apresentada é que PyRIT foi otimizado para descoberta em caixa-preta por pesquisadores de segurança após a construção do sistema, enquanto RAMPART busca servir engenheiros durante a construção. Essa diferença muda o momento da defesa: em vez de esperar uma revisão final, a equipe passa a acumular hipóteses, achados e verificações como parte do desenvolvimento contínuo do agente.

Clarity complementa esse fluxo ao atuar antes da implementação. A ferramenta orienta discussões sobre clareza do problema, exploração de solução, análise de falhas e rastreamento de decisões. Para um agente com acesso a ferramentas, esse registro é útil porque obriga a equipe a justificar quais capacidades são necessárias, quais condições de uso são aceitáveis e quais falhas precisam ser tratadas. Em segurança de agentes, decisões não documentadas sobre acesso, escopo e confiança em fontes externas costumam ser tão relevantes quanto bugs tradicionais de código.

Superfície afetada

A superfície principal são agentes de IA em desenvolvimento que consomem dados externos e podem executar ações por meio de ferramentas conectadas. Isso inclui sistemas que leem documentos, e-mails, páginas web, registros internos ou outros conteúdos fornecidos por usuários e fontes automatizadas. O risco aumenta quando o agente mistura instruções confiáveis, dados não confiáveis e permissões de ação em uma mesma cadeia de decisão.

O componente sensível não é apenas o modelo de linguagem, mas a orquestração ao redor dele: adaptadores, conectores de dados, ferramentas acessíveis, políticas de autorização, prompts de sistema, testes de regressão e critérios de avaliação. Um agente que somente responde perguntas tem uma superfície diferente de um agente que pode consultar sistemas internos, abrir chamados, alterar registros ou encaminhar conteúdo. A proposta de RAMPART e Clarity se encaixa justamente nesse ponto, pois tenta transformar essas diferenças de desenho em testes e decisões verificáveis.

Agentes que processam e-mail, arquivos ou páginas web como entrada não confiável.
Agentes com acesso a ferramentas cuja autorização precisa ser justificada e limitada no projeto.
Sistemas de IA que mudam com frequência e podem sofrer regressões de comportamento após ajustes de prompts, integrações ou políticas.
Fluxos de engenharia que já usam testes automatizados e podem incorporar casos de segurança executáveis contra o agente.

Hunting e telemetria

A adoção dessas ferramentas não substitui telemetria operacional. Para equipes de defesa, os testes de RAMPART devem ser tratados como uma base de validação e não como prova absoluta de ausência de risco. O monitoramento precisa observar entradas não confiáveis que chegam ao agente, decisões tomadas após processar esses dados, ferramentas invocadas, parâmetros enviados e diferenças entre comportamento esperado e comportamento real. O objetivo é descobrir quando um agente passou a seguir conteúdo externo como instrução de controle.

Em ambientes com agentes conectados a sistemas internos, registros de autorização e execução são essenciais. Uma chamada de ferramenta deve ser correlacionada com a origem da tarefa, a entrada que influenciou a decisão, o usuário ou serviço associado e o resultado produzido. Quando um teste de RAMPART representa um cenário de injeção indireta, a defesa pode transformar o mesmo raciocínio em consultas de telemetria: entradas contendo instruções suspeitas, uso inesperado de ferramentas após leitura de documentos externos e respostas que revelem mudança de política ou tentativa de expor dados.

Clarity contribui para hunting de forma indireta ao registrar intenção e premissas. Se uma decisão de projeto define que um agente não deve usar determinada ferramenta após consumir conteúdo externo, essa regra vira referência para auditoria. Sem esse registro, a equipe investiga apenas eventos isolados; com ele, consegue comparar comportamento observado contra uma decisão explícita. Essa trilha também ajuda a verificar se uma mitigação aplicada após um achado de red teaming permanece válida quando o produto evolui.

Entradas de e-mail, arquivo ou página web que contenham instruções dirigidas ao agente em vez de dados de negócio.
Invocações de ferramentas sensíveis logo após o processamento de conteúdo externo não confiável.
Mudanças em respostas de recusa, política ou limite de ação após alterações no agente.
Casos em que a saída do agente sugere divulgação indevida de informação ou execução fora da intenção documentada.
Divergência entre decisões registradas no desenho e comportamento observado em testes ou logs.

Mitigação

A resposta defensiva começa com modelagem explícita do agente. Antes de conectar ferramentas ou fontes de dados, a equipe deve documentar a finalidade do agente, quais entradas são confiáveis, quais são não confiáveis, quais ferramentas podem ser chamadas e quais condições precisam bloquear uma ação. Clarity foi apresentado para apoiar esse tipo de discussão, principalmente quando ainda é barato alterar o desenho. A mitigação mais importante nessa fase é evitar que permissões e integrações sejam adicionadas sem justificativa verificável.

Depois que o agente existe, RAMPART permite transformar riscos conhecidos em testes reproduzíveis. A equipe pode escrever casos que representem injeção indireta de prompts, regressões de comportamento e situações em que o agente deve preservar limites de dados e ferramentas. Quando uma falha é corrigida, o teste correspondente deve permanecer como guarda contra regressão. Esse modelo também torna a mitigação verificável: a correção não é apenas uma alteração descrita em documento, mas um comportamento que pode ser exercitado novamente.

Como os testes dependem de um adaptador, a integração deve refletir o modo real de operação do agente sem expor comandos, segredos ou dados sensíveis. A validação deve priorizar cenários de alto impacto: ferramentas com efeito externo, acesso a informação interna, processamento de documentos não confiáveis e fluxos em que a saída do agente pode influenciar uma decisão automatizada. A defesa deve manter esses testes atualizados sempre que prompts, conectores, permissões, modelos ou políticas forem alterados.

A publicação de RAMPART e Clarity reforça uma mudança de processo: segurança de agentes não deve ser um evento único no fim do projeto. O ciclo defensivo precisa combinar decisão registrada, teste executável, observabilidade e revisão de comportamento. Para equipes que já constroem agentes, a ação prática é converter premissas críticas em artefatos verificáveis, validar mitigações com repetição controlada e tratar regressões de segurança com a mesma disciplina usada para regressões funcionais.

Registrar premissas de projeto, intenção do agente, limites de ferramenta e critérios de falha antes da implementação.
Criar testes de segurança executáveis para injeção indireta de prompts, regressões e risco condicionado de exfiltração.
Manter o adaptador de teste alinhado ao fluxo real do agente sem incluir segredos ou dados confidenciais.
Reexecutar testes após mudanças em prompts, ferramentas, políticas, modelos ou fontes de dados.
Correlacionar resultados de teste com logs de entrada, decisão e chamada de ferramenta para validar mitigação em operação.

Microsoft libera RAMPART e Clarity para testes de segurança em agentes de IA

Postar um comentário

0 Comentários

Mais lidas da semana

Boletim semanal reúne violações, phishing, vulnerabilidades exploradas e campanhas contra telecom

npm adiciona publicação com 2FA e controles de instalação contra ataques à cadeia de software

Grafana expõe código-fonte após comprometimento de token em ataque ao ecossistema npm

Boletim semanal reúne vazamentos, ransomware, falhas críticas e abuso de IA em campanhas de phishing

Recapitulação técnica reúne falhas em Linux, Defender, Drupal, roteadores e cadeia de suprimentos

Plantão de ameaças

Receba alertas

Comunidade

Assuntos

Menu Footer Widget

Contato

Microsoft libera RAMPART e Clarity para testes de segurança em agentes de IA

Talvez você goste destas postagens

Postar um comentário

0 Comentários

Siga o Cyber Guardian News

Mais lidas da semana

Boletim semanal reúne violações, phishing, vulnerabilidades exploradas e campanhas contra telecom

npm adiciona publicação com 2FA e controles de instalação contra ataques à cadeia de software

Grafana expõe código-fonte após comprometimento de token em ataque ao ecossistema npm

Boletim semanal reúne vazamentos, ransomware, falhas críticas e abuso de IA em campanhas de phishing

Recapitulação técnica reúne falhas em Linux, Defender, Drupal, roteadores e cadeia de suprimentos

Plantão de ameaças

Receba alertas

Briefing global de ameaças

Comunidade

Assuntos

Menu Footer Widget

Contato