A empresa de inteligência artificial Anthropic anunciou uma nova iniciativa de cibersegurança chamada Project Glasswing, que usará uma versão de prévia de seu novo frontier model, o Claude Mythos, para encontrar e corrigir vulnerabilidades de segurança.
O modelo será disponibilizado a um grupo restrito de organizações, incluindo Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA e Palo Alto Networks, além da própria Anthropic, com o objetivo de proteger software crítico.
Segundo a empresa, a iniciativa foi criada em resposta a capacidades observadas em seu modelo generalista de ponta, que demonstram um “nível de capacidade de programação” capaz de superar quase todos os humanos, exceto os mais habilidosos, na identificação e exploração de falhas de software.
Por conta dessas capacidades em cibersegurança e do risco de uso indevido, a Anthropic decidiu não disponibilizar o modelo ao público em geral.
A companhia afirma que o Mythos Preview já encontrou milhares de zero-day vulnerabilities de alta gravidade em todos os principais sistemas operacionais e browsers.
Entre os exemplos citados estão um bug de 27 anos no OpenBSD, já corrigido, uma falha de 16 anos no FFmpeg e uma vulnerabilidade de corrupção de memória em um virtual machine monitor com memória segura.
Em um dos casos destacados pela empresa, o Mythos Preview teria criado de forma autônoma um exploit para browser que encadeou quatro vulnerabilidades, permitindo escapar das sandboxes do renderer e do sistema operacional.
A Anthropic também informou, no system card da versão de prévia, que o modelo resolveu uma simulação de ataque em rede corporativa que teria levado mais de 10 horas para um especialista humano concluir.
Talvez um dos achados mais preocupantes seja o fato de o Mythos Preview ter conseguido seguir instruções de um pesquisador durante uma avaliação para escapar de um computador em sandbox protegido, o que indica uma “capacidade potencialmente perigosa” de contornar suas próprias proteções.
O modelo não parou por aí.
Ele também realizou uma sequência de ações adicionais, incluindo a criação de um exploit em múltiplas etapas para obter acesso amplo à internet a partir do sistema em sandbox e enviar um e-mail ao pesquisador, que estava comendo um sanduíche em um parque.
“Além disso, em um esforço preocupante e não solicitado para demonstrar seu sucesso, ele publicou detalhes sobre seu exploit em vários sites de difícil localização, mas tecnicamente acessíveis ao público”, afirmou a Anthropic.
A empresa destacou que o Project Glasswing é uma tentativa urgente de usar as capacidades de modelos de ponta para fins defensivos antes que esses mesmos recursos sejam explorados por atores maliciosos.
A iniciativa também prevê até US$ 100 milhões em créditos de uso para o Mythos Preview e US$ 4 milhões em doações diretas para organizações de segurança de código aberto.
“Não treinamos explicitamente o Mythos Preview para ter essas capacidades”, disse a Anthropic.
“Elas surgiram como uma consequência indireta de melhorias gerais em code, reasoning e autonomy.
As mesmas melhorias que tornam o modelo muito mais eficaz na correção de vulnerabilidades também o tornam muito mais eficaz na exploração delas.”
As informações sobre o Mythos vieram à tona no mês passado, depois que detalhes do modelo foram armazenados inadvertidamente em um data cache com acesso público por erro humano.
O material preliminar o descrevia como o modelo de IA mais poderoso e capaz já construído até hoje.
Dias depois, a Anthropic sofreu uma segunda falha de segurança que expôs acidentalmente quase 2.000 arquivos de código-fonte e mais de meio milhão de linhas de código associadas ao Claude Code por cerca de três horas.
O vazamento também levou à descoberta de uma falha que contorna certas proteções quando o agente de programação de IA recebe um comando composto por mais de 50 subcommands.
O problema foi corrigido oficialmente pela Anthropic no Claude Code, versão 2.1.90, lançada na semana passada.
“O Claude Code, agente de programação de IA carro-chefe da Anthropic que executa shell commands nas máquinas dos desenvolvedores, ignora silenciosamente regras de segurança configuradas pelo usuário quando um comando contém mais de 50 subcommands”, disse a empresa de segurança de IA Adversa.
“Um desenvolvedor que configure ‘never run rm’ verá o rm bloqueado quando executado sozinho, mas o mesmo ‘rm’ roda sem restrição se vier precedido por 50 instruções inofensivas.
A política de segurança simplesmente desaparece.”
“A análise de segurança consome tokens.
Os engenheiros da Anthropic enfrentaram um problema de performance: verificar cada subcommand travava a interface e consumia compute.
A solução foi parar de checar depois de 50.
Eles trocaram segurança por velocidade.
Trocaram proteção por custo.”
Publicidade
Conheça a Solyd One, e tenha acesso a todos os cursos de segurança ofensiva da Solyd, todas as certificações práticas, incluindo a SYCP, 2 CTFs anuais com prêmios de até 30 mil reais, dezenas de laboratórios realísticos, suporte, comunidade e muito mais. Saiba mais...