
Campanhas teriam usado mais de 16 milhões de interações, contas fraudulentas e serviços de proxy para coletar respostas voltadas a raciocínio agente, uso de ferramentas e codificação.
| Componente | Serviço Claude, com foco em capacidades de raciocínio agente, uso de ferramentas, codificação, visão computacional e avaliação baseada em rubricas. |
| Vetor | Mais de 16 milhões de interações realizadas por cerca de 24.000 contas fraudulentas, com tráfego distribuído por serviços comerciais de proxy e redes de contas em arquitetura de cluster hidra. |
| Impacto | Coleta de respostas de alta qualidade para treinar ou melhorar modelos concorrentes por destilação, com risco de replicar capacidades sem preservar salvaguardas de segurança. |
| Prioridade | Detectar padrões de extração em tráfego de API, reforçar verificação de contas sensíveis, correlacionar metadados de requisições e reduzir a utilidade de saídas para destilação não autorizada. |
| Artefatos | Correlação por endereços IP, metadados de requisições, indicadores de infraestrutura, volume anormal de prompts e alternância rápida de contas bloqueadas. |
A Anthropic afirmou ter identificado campanhas de extração de modelo em escala industrial associadas a três empresas de inteligência artificial baseadas na China: DeepSeek, Moonshot AI e MiniMax. A atividade teria produzido mais de 16 milhões de trocas com o Claude por meio de aproximadamente 24.000 contas fraudulentas, em violação aos termos de serviço e às restrições regionais aplicadas ao uso do serviço. O objetivo técnico descrito foi obter respostas suficientes para treinar ou aprimorar modelos próprios por destilação, reduzindo tempo e custo de desenvolvimento em comparação com a criação independente das mesmas capacidades.
A destilação, em si, é uma técnica legítima quando uma organização treina modelos menores com saídas de seus próprios modelos mais capazes. O problema descrito está no uso de um sistema de terceiros como fonte de dados de treinamento sem autorização, especialmente quando a coleta mira capacidades diferenciadas e salvaguardas incorporadas ao modelo original. A preocupação operacional não se limita à propriedade intelectual: modelos derivados de forma não autorizada podem incorporar raciocínio, automação e geração de código sem carregar os mesmos controles de segurança, ampliando o risco de uso em operações cibernéticas ofensivas, vigilância, campanhas de influência e aplicações militares ou de inteligência.
As campanhas usaram contas fraudulentas e serviços comerciais de proxy para acessar o Claude em grande volume e dificultar a atribuição imediata do tráfego. Esses serviços revendiam acesso a modelos de IA de fronteira e distribuíam requisições por redes amplas de contas, descritas como arquiteturas de cluster hidra. Nesse modelo, o bloqueio de uma conta não interrompe a operação, porque outra conta assume o fluxo de consultas. Em um dos casos relatados, uma única rede de proxy administrava mais de 20.000 contas fraudulentas ao mesmo tempo, misturando consultas de destilação com requisições de outros clientes para reduzir a visibilidade do padrão malicioso.
O processo de extração não dependia de um único prompt ou de uma exploração tradicional de software. A técnica consistia em gerar grandes volumes de entradas cuidadosamente estruturadas para capturar respostas úteis do modelo. O foco recorrente estava em capacidades como raciocínio agente, uso de ferramentas, codificação, avaliação por rubricas, visão computacional e desenvolvimento de agentes capazes de operar computadores. A Anthropic declarou ter atribuído cada campanha por correlação de endereços IP, metadados de requisições e indicadores de infraestrutura, além de diferenças entre o comportamento observado e padrões normais de uso legítimo da API.
A distribuição por empresa também mostra diferenças relevantes para análise defensiva. A atividade atribuída à DeepSeek teria envolvido mais de 150.000 interações, com foco em raciocínio, tarefas de avaliação baseada em rubricas e geração de alternativas consideradas seguras para censura em consultas politicamente sensíveis. A campanha ligada à Moonshot AI teria alcançado mais de 3,4 milhões de trocas, mirando raciocínio agente, uso de ferramentas, codificação, desenvolvimento de agentes de uso de computador e visão computacional. A atividade atribuída à MiniMax foi a maior em volume, com mais de 13 milhões de interações voltadas a codificação agente e uso de ferramentas.
A superfície de risco está concentrada em provedores de modelos, plataformas de API, programas de acesso educacional, iniciativas para pesquisadores de segurança e contas de startups ou organizações com permissões ampliadas. Para usuários comuns, esse tipo de extração não implica necessariamente perda de confidencialidade, integridade ou disponibilidade do serviço de IA. O impacto principal recai sobre desenvolvedores de modelos e operadores de plataformas, que precisam diferenciar uso legítimo de exploração sistemática da saída do modelo para treinamento externo.
O caso também expõe a dependência de controles de identidade, reputação de conta, análise comportamental e limites de uso que vão além de verificações simples de volume. Uma campanha de destilação pode dividir consultas entre milhares de identidades, variar origem de rede e misturar tráfego com requisições aparentemente normais. Por isso, a superfície afetada inclui sistemas de cobrança, cadastro, verificação de elegibilidade, controle de região, antifraude, telemetria de API, classificação de prompts e resposta a abuso.
- Contas fraudulentas criadas para contornar limites, bloqueios e restrições regionais.
- Serviços comerciais de proxy que revendem acesso agregado a modelos de IA de fronteira.
- Fluxos de API com grande volume de prompts sobre capacidades específicas, como codificação e uso de ferramentas.
- Programas com critérios especiais de acesso, incluindo educação, pesquisa de segurança e startups.
A detecção defensiva deve priorizar comportamento agregado, não apenas indicadores individuais. Endereços IP e contas isoladas podem mudar rapidamente, mas campanhas de destilação tendem a produzir padrões consistentes de volume, foco temático e estrutura de prompts. Sinais relevantes incluem sequências densas de consultas voltadas a uma mesma capacidade, repetição de tarefas em variações pequenas, pedidos de avaliação sistemática, testes comparativos e uso intensivo de respostas para codificação ou raciocínio estruturado.
Equipes responsáveis por plataformas de IA devem correlacionar metadados de requisições, origem de rede, idade das contas, método de criação, perfil de pagamento, histórico de bloqueios, frequência de falhas de verificação e similaridade semântica entre prompts. A presença de proxies comerciais pode aparecer como distribuição incomum de origem, alternância frequente de endereços, padrões compartilhados entre contas novas e reaparecimento de fluxos semelhantes após suspensão. A análise também deve separar clientes empresariais legítimos de redes que concentram objetivos de extração, mantendo revisão humana para decisões de bloqueio em casos de alto impacto.
- Aumento abrupto de requisições por contas recém-criadas ou com histórico mínimo.
- Prompts em massa focados em raciocínio agente, uso de ferramentas, codificação ou visão computacional.
- Reaparecimento do mesmo padrão de consulta após bloqueio de contas anteriores.
- Correlação de metadados entre contas que aparentam ser independentes, mas compartilham infraestrutura ou objetivo.
- Mistura de tráfego de extração com requisições genéricas para mascarar a finalidade dominante.
A resposta técnica passa por controles em várias camadas. A Anthropic informou ter construído classificadores e sistemas de impressão digital comportamental para identificar padrões suspeitos de destilação em tráfego de API. Também foram reforçadas verificações para contas educacionais, programas de pesquisa de segurança e organizações de startups, além de salvaguardas adicionais para reduzir a eficácia de saídas quando usadas em destilação não autorizada. Esses controles são mais eficazes quando combinam identidade, comportamento, semântica dos prompts e histórico de abuso.
Para operadores de serviços de IA, a mitigação deve tratar extração de modelo como abuso persistente e distribuído. Bloqueios pontuais são insuficientes quando a infraestrutura adversária substitui contas rapidamente. O caminho defensivo inclui limitar a criação automatizada de contas, validar elegibilidade de programas sensíveis, aplicar detecção de similaridade entre sessões, revisar revendedores de acesso não autorizados e instrumentar respostas graduais, como limitação de taxa, desafios adicionais de verificação, suspensão preventiva e investigação de infraestrutura compartilhada.
Organizações que consomem modelos de terceiros também devem avaliar fornecedores e integrações que prometem acesso barato ou intermediado a sistemas de IA de fronteira. O uso de serviços de proxy que agregam contas pode gerar risco contratual, operacional e de conformidade, além de associar tráfego legítimo a redes usadas em abuso. Em ambientes corporativos, a governança de IA deve exigir origem autorizada da API, rastreabilidade de contas, revisão de logs e políticas que impeçam treinamento interno com saídas obtidas de forma incompatível com os termos do provedor.
- Aplicar análise comportamental para identificar extração por volume, foco técnico e repetição estrutural de prompts.
- Reforçar verificação de contas com acesso especial, principalmente educação, pesquisa de segurança e startups.
- Correlacionar contas suspensas com novas contas que repetem infraestrutura, metadados ou finalidade de consulta.
- Reduzir a utilidade de respostas para destilação não autorizada sem prejudicar casos legítimos de uso.
- Auditar integrações que usam intermediários ou revendedores de acesso a modelos de IA.
0 Comentários