Na última segunda-feira, a Anthropic revelou ter identificado campanhas em larga escala promovidas por três empresas de inteligência artificial (IA) — DeepSeek, Moonshot AI e MiniMax — que tentaram extrair ilegalmente as capacidades do modelo Claude para aprimorar seus próprios sistemas.
Esses ataques de distillation geraram mais de 16 milhões de interações com o modelo de linguagem (LLM) da Anthropic, por meio de cerca de 24 mil contas fraudulentas, violando os termos de serviço e as restrições regionais de acesso.
As três empresas têm sede na China, onde o uso dos serviços da Anthropic é proibido por “riscos legais, regulatórios e de segurança”.
Distillation é uma técnica que consiste em treinar um modelo menos robusto com base nas respostas de um sistema de IA mais potente.
Embora essa prática seja válida para empresas que desejam criar versões menores e mais econômicas de seus modelos, é ilegal que concorrentes a utilizem para extrair recursos de outras IAs em tempo e custo muito inferiores aos necessários para desenvolver essas capacidades internamente.
Segundo a Anthropic, “modelos obtidos por meio de distillation ilícita não possuem as salvaguardas necessárias, o que gera riscos significativos à segurança nacional”.
Esses modelos tendem a eliminar proteções essenciais, podendo resultar na proliferação de capacidades perigosas sem qualquer controle.
Companhias estrangeiras que recorrem à distillation para obter modelos americanos podem transformar esses recursos desprotegidos em ferramentas para atividades maliciosas, incluindo operações cibernéticas ofensivas, campanhas de desinformação e vigilância em massa.
Esses sistemas, por sua vez, podem servir como base para que governos autoritários desenvolvam tecnologias militares, de inteligência e segurança.
As campanhas de distillation identificadas pela Anthropic utilizaram contas fraudulentas e serviços comerciais de proxy para acessar o Claude em grande escala, evitando a detecção.
A empresa conseguiu associar cada campanha a um laboratório específico por meio da análise de metadados, endereços IP e indicadores de infraestrutura.
Detalhes das campanhas:
- DeepSeek focou nas capacidades de raciocínio do Claude, tarefas de avaliação baseadas em rubricas e na geração de respostas “seguras” para censura relacionadas a consultas politicamente sensíveis, como perguntas sobre dissidentes e autoritarismo, totalizando mais de 150 mil interações.
- Moonshot AI direcionou esforços ao raciocínio agente, uso de ferramentas, codificação, desenvolvimento de agentes para uso no computador e visão computacional, com mais de 3,4 milhões de interações.
- MiniMax concentrou-se em capacidades ligadas à codificação, agente e uso de ferramentas, com mais de 13 milhões de interações.
A Anthropic ressaltou que “o volume, a estrutura e o foco dos prompts divergiam dos padrões normais de uso, indicando extração deliberada de capacidades, não um uso legítimo”.
As campanhas miraram nos recursos mais avançados do Claude: raciocínio agente, uso de ferramentas e codificação.
Outro ponto destacado foi o uso de redes comerciais de proxies que revendem acesso a modelos de ponta, sustentadas por arquiteturas em “hydra cluster” com milhares de contas fraudulentas para distribuir o tráfego.
Essa estrutura dificulta a detecção e mantém a continuidade das operações, pois, quando uma conta é bloqueada, outra imediatamente a substitui.
Para combater essa ameaça, a Anthropic desenvolveu classificadores e sistemas de rastreamento comportamental para identificar padrões suspeitos no tráfego de sua API.
A empresa também reforçou a verificação de contas educacionais, programas de pesquisa em segurança e startups, além de implementar medidas para dificultar o aproveitamento dos outputs do modelo em distillation ilícita.
A divulgação ocorre poucas semanas depois de o Google Threat Intelligence Group (GTIG) informar ter detectado e interrompido ataques similares de distillation e extração de modelo contra as capacidades de raciocínio do Gemini, com mais de 100 mil prompts maliciosos.
Segundo o Google, “ataques de extração e distillation geralmente não representam riscos diretos aos usuários comuns, já que não comprometem a confidencialidade, disponibilidade ou integridade dos serviços de IA.
O risco está concentrado principalmente nos desenvolvedores e provedores dos modelos”.
Publicidade
Conheça a Solyd One, e tenha acesso a todos os cursos de segurança ofensiva da Solyd, todas as certificações práticas, incluindo a SYCP, 2 CTFs anuais com prêmios de até 30 mil reais, dezenas de laboratórios realísticos, suporte, comunidade e muito mais. Saiba mais...