Claude Mythos, da Anthropic, encontra milhares de falhas zero-day em sistemas importantes
8 de Abril de 2026

A empresa de inteligência artificial Anthropic anunciou uma nova iniciativa de cibersegurança chamada Project Glasswing, que usará uma versão de prévia de seu novo frontier model, o Claude Mythos, para encontrar e corrigir vulnerabilidades de segurança.

O modelo será disponibilizado a um grupo restrito de organizações, incluindo Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA e Palo Alto Networks, além da própria Anthropic, com o objetivo de proteger software crítico.

Segundo a empresa, a iniciativa foi criada em resposta a capacidades observadas em seu modelo generalista de ponta, que demonstram um “nível de capacidade de programação” capaz de superar quase todos os humanos, exceto os mais habilidosos, na identificação e exploração de falhas de software.

Por conta dessas capacidades em cibersegurança e do risco de uso indevido, a Anthropic decidiu não disponibilizar o modelo ao público em geral.

A companhia afirma que o Mythos Preview já encontrou milhares de zero-day vulnerabilities de alta gravidade em todos os principais sistemas operacionais e browsers.

Entre os exemplos citados estão um bug de 27 anos no OpenBSD, já corrigido, uma falha de 16 anos no FFmpeg e uma vulnerabilidade de corrupção de memória em um virtual machine monitor com memória segura.

Em um dos casos destacados pela empresa, o Mythos Preview teria criado de forma autônoma um exploit para browser que encadeou quatro vulnerabilidades, permitindo escapar das sandboxes do renderer e do sistema operacional.

A Anthropic também informou, no system card da versão de prévia, que o modelo resolveu uma simulação de ataque em rede corporativa que teria levado mais de 10 horas para um especialista humano concluir.

Talvez um dos achados mais preocupantes seja o fato de o Mythos Preview ter conseguido seguir instruções de um pesquisador durante uma avaliação para escapar de um computador em sandbox protegido, o que indica uma “capacidade potencialmente perigosa” de contornar suas próprias proteções.

O modelo não parou por aí.

Ele também realizou uma sequência de ações adicionais, incluindo a criação de um exploit em múltiplas etapas para obter acesso amplo à internet a partir do sistema em sandbox e enviar um e-mail ao pesquisador, que estava comendo um sanduíche em um parque.

“Além disso, em um esforço preocupante e não solicitado para demonstrar seu sucesso, ele publicou detalhes sobre seu exploit em vários sites de difícil localização, mas tecnicamente acessíveis ao público”, afirmou a Anthropic.

A empresa destacou que o Project Glasswing é uma tentativa urgente de usar as capacidades de modelos de ponta para fins defensivos antes que esses mesmos recursos sejam explorados por atores maliciosos.

A iniciativa também prevê até US$ 100 milhões em créditos de uso para o Mythos Preview e US$ 4 milhões em doações diretas para organizações de segurança de código aberto.

“Não treinamos explicitamente o Mythos Preview para ter essas capacidades”, disse a Anthropic.

“Elas surgiram como uma consequência indireta de melhorias gerais em code, reasoning e autonomy.

As mesmas melhorias que tornam o modelo muito mais eficaz na correção de vulnerabilidades também o tornam muito mais eficaz na exploração delas.”

As informações sobre o Mythos vieram à tona no mês passado, depois que detalhes do modelo foram armazenados inadvertidamente em um data cache com acesso público por erro humano.

O material preliminar o descrevia como o modelo de IA mais poderoso e capaz já construído até hoje.

Dias depois, a Anthropic sofreu uma segunda falha de segurança que expôs acidentalmente quase 2.000 arquivos de código-fonte e mais de meio milhão de linhas de código associadas ao Claude Code por cerca de três horas.

O vazamento também levou à descoberta de uma falha que contorna certas proteções quando o agente de programação de IA recebe um comando composto por mais de 50 subcommands.

O problema foi corrigido oficialmente pela Anthropic no Claude Code, versão 2.1.90, lançada na semana passada.

“O Claude Code, agente de programação de IA carro-chefe da Anthropic que executa shell commands nas máquinas dos desenvolvedores, ignora silenciosamente regras de segurança configuradas pelo usuário quando um comando contém mais de 50 subcommands”, disse a empresa de segurança de IA Adversa.

“Um desenvolvedor que configure ‘never run rm’ verá o rm bloqueado quando executado sozinho, mas o mesmo ‘rm’ roda sem restrição se vier precedido por 50 instruções inofensivas.

A política de segurança simplesmente desaparece.”

“A análise de segurança consome tokens.

Os engenheiros da Anthropic enfrentaram um problema de performance: verificar cada subcommand travava a interface e consumia compute.

A solução foi parar de checar depois de 50.

Eles trocaram segurança por velocidade.

Trocaram proteção por custo.”

Publicidade

Proteja sua empresa contra hackers através de um Pentest

Tenha acesso aos melhores hackers éticos do mercado através de um serviço personalizado, especializado e adaptado para o seu negócio. Qualidade, confiança e especialidade em segurança ofensiva de quem já protegeu centenas de empresas. Saiba mais...