Anthropic lança Claude Fable 5, sua IA mais poderosa até agora, com proteções para cibersegurança
10 de Junho de 2026

Em 9 de junho, a Anthropic lançou o Claude Fable 5, seu modelo mais capaz até agora, já disponível para o público em geral.

A empresa também fez algo incomum: entregou um único modelo como dois produtos, separados não pela capacidade, mas por uma camada de classificadores de segurança.

O Fable 5 é o modelo voltado ao público.

Já o Claude Mythos 5, a mesma base, mas com as salvaguardas cibernéticas removidas, permanece restrito a um grupo validado de defensores cibernéticos e operadores de infraestrutura crítica.

A Anthropic descreve o Mythos 5 como o modelo de cibersegurança mais forte do mundo.

Na prática, a diferença é a seguinte: o Fable 5 encaminha solicitações sinalizadas envolvendo cyber, biologia, química e distillation para o mais fraco Claude Opus 4.8, enquanto o Mythos 5 mantém essas capacidades cibernéticas disponíveis para usuários validados.

Ambos custam US$ 10 por milhão de tokens de entrada e US$ 50 por milhão de tokens de saída, menos da metade do preço do antigo Mythos Preview, e o Fable 5 já está disponível pela Claude API.

Ele também faz parte, sem custo adicional, dos planos Pro, Max, Team e Enterprise com cobrança por assento até 22 de junho.

Depois disso, passa a consumir créditos de uso.

## Como funcionam os classificadores cibernéticos do Fable 5

A divisão existe porque modelos da classe Mythos conseguem encontrar e explorar vulnerabilidades de software com eficiência suficiente para, na visão da Anthropic, entregar esse poder ao público geral sem controles significaria dar um impulso relevante a atacantes.

O mecanismo é formado por classificadores, sistemas de IA separados que monitoram tentativas de abuso e jailbreak.

Quando uma solicitação aciona um desses filtros, o Fable 5 não simplesmente recusa a tarefa.

A resposta é transferida para o Opus 4.8, e o usuário é informado de que houve esse encaminhamento.

Entre as categorias sinalizadas, distillation é a exceção: trata-se de extrair capacidades de um modelo para treinar um modelo concorrente, algo que a Anthropic bloqueia para evitar que capacidades próximas da fronteira vazem sem as salvaguardas necessárias.

O classificador de cibersegurança é o mais amplo.

A Anthropic o projetou para bloquear não apenas o desenvolvimento de exploit, mas tarefas ofensivas em geral, como reconhecimento, descoberta, movimento lateral e as etapas agentic que compõem um ataque real.

Em uma avaliação interna, com o Fable 5 configurado para bloquear em vez de fazer fallback e sem tentar contornar as salvaguardas, os classificadores impediram qualquer avanço do modelo nessas tarefas.

Um parceiro externo constatou que o Fable 5 não atendeu a nenhuma solicitação individual maliciosa sobre planejamento de ataque cibernético, desenvolvimento de exploit ou evasão de defesa, resistindo a 30 técnicas públicas diferentes de jailbreak.

O custo dessa proteção é o risco de falsos positivos.

A Anthropic ajustou as salvaguardas de forma conservadora para lançar o produto mais rápido, então elas às vezes interceptam pedidos legítimos.

A empresa afirma que o fallback é acionado em menos de 5% de todas as sessões, o que significa que, em mais de 95% dos casos, o Fable 5 se comporta como o Mythos 5 sem restrições cibernéticas.

Esse número considera todo fallback, inclusive bloqueios reais, então ele limita a interrupção total, em vez de medir isoladamente a taxa de falso positivo.

A Anthropic diz que vai refinar as salvaguardas e reduzir os falsos positivos após o lançamento.

Em robustez, os números são específicos.

Um bug bounty externo somou mais de 1.000 horas de testes e não produziu um universal jailbreak, um prompt ou um ambiente de teste capaz de remover as salvaguardas de forma abrangente.

Equipes externas de red team também não encontraram esse tipo de brecha em tarefas longas e agentic, com uma ressalva que a própria Anthropic destaca: o AI Security Institute do Reino Unido avançou em direção a um universal jailbreak dentro de uma janela inicial curta de testes.

A Anthropic admite que provavelmente é impossível impedir totalmente universal jailbreaks e afirma que o objetivo é torná-los lentos e caros o suficiente para serem detectados antes de uso em escala.

## Por que essa capacidade é uma ameaça

O motivo para tratar esse modelo com cautela foi exposto em abril, quando a Anthropic lançou o Claude Mythos Preview para um grupo limitado, por meio do Project Glasswing.

O texto técnico do red team da Anthropic é a parte que realmente merece atenção.

Nos testes, o Mythos Preview identificou e explorou zero-day em todos os principais sistemas operacionais e em todos os principais navegadores da web quando orientado por um usuário.

A falha mais antiga encontrada tinha 27 anos e estava no OpenBSD, um sistema operacional conhecido justamente por seu foco em segurança.

O modelo escreveu de forma autônoma um exploit de RCE contra o servidor NFS do FreeBSD a partir de uma falha de 17 anos, classificada como CVE-2026-4747 .

A Anthropic descreve o resultado como acesso root completo para um invasor sem autenticação, vindo de qualquer ponto da internet.

Já a entrada do NVD é mais comedida, observando que o estouro de pilha em si não exige autenticação do cliente, mas enquadrando a execução de código no kernel como alcançável por um atacante capaz de enviar pacotes ao servidor NFS enquanto o módulo kgssapi.ko está carregado.

Segundo a própria Anthropic, essas capacidades não foram treinadas explicitamente.

Elas surgiram como efeito colateral de melhorias gerais em código, raciocínio e autonomia, os mesmos avanços que tornam o modelo melhor em patching.

O alerta do red team foi direto: mitigações cujo valor de segurança depende de fricção, e não de barreiras rígidas, ficam muito mais fracas diante de um modelo capaz de atravessar etapas tediosas de exploração em escala.

Barreiras técnicas duras, como KASLR e W^X, ainda elevam o custo.

O alerta é mais específico e mira defesas que dependem da paciência do atacante ou de esforço manual, algo que o modelo agora consegue fornecer a si mesmo.

O Mythos 5 herda essas capacidades.

A Anthropic diz que os usuários o encontrarão comparável ao Mythos Preview ou um pouco mais forte.

## O problema real para os defensores

A questão defensiva não é hipotética.

Nas primeiras semanas do Project Glasswing, a Anthropic e cerca de 50 parceiros usaram o Mythos Preview para localizar mais de 10.000 vulnerabilidades de severidade alta ou crítica em softwares sistemicamente importantes.

Só a Cloudflare encontrou 2.000 bugs, dos quais 400 eram de severidade alta ou crítica.

A Mozilla encontrou e corrigiu 271 no Firefox 150, mais de dez vezes o número detectado no Firefox 148 com o antigo Opus 4.6.

A Anthropic afirma que a mesma pressão aparece fora do Glasswing, com fornecedores lançando pacotes de segurança incomumente grandes.

Esse volume é o ponto de virada.

Encontrar bugs agora é barato e rápido.

Verificá-los, priorizá-los e corrigi-los não é, e continua dependendo do tempo humano.

A Anthropic relata que mantenedores de projetos open source, já sobrecarregados por relatórios de bugs de baixa qualidade gerados por IA, pediram que a empresa desacelerasse as divulgações porque não conseguem escrever patches com rapidez suficiente.

No Glasswing, a empresa diz que uma vulnerabilidade de severidade alta ou crítica encontrada pelo modelo leva cerca de duas semanas para ser corrigida, em média.

O gargalo mudou da descoberta para a correção, e a janela entre a divulgação pública e a aplicação do patch é onde os atacantes atuam.

Os testes N-day do red team reforçam esse ponto: partindo apenas de um CVE divulgado e de seu patch, o Mythos Preview construiu exploits funcionais de escalada de privilégio no Linux em menos de um dia para cada caso, com custo de apenas alguns milhares de dólares ou menos em computação.

Para os defensores, a leitura segue a mesma de sempre, só que com prazo menor: é preciso assumir que um CVE de severidade alta pode virar um exploit funcional em horas após a divulgação, não em semanas.

Isso significa priorizar caminhos de atualização automática em sistemas expostos à internet e tratar atualizações de dependências que tragam correções de CVE como trabalho urgente, e não como fila de backlog.

MFA e registro abrangente continuam sendo a base, para que um único patch perdido não se torne a única barreira entre o atacante e a rede.

A Anthropic abriu ainda um Cyber Verification Program, que permite a profissionais de segurança validados usar seus modelos para trabalho ofensivo legítimo, sem as salvaguardas cibernéticas.

## Um novo requisito de retenção de dados por 30 dias

A Anthropic também está mudando a forma como trata os dados dos modelos da classe Mythos.

A empresa vai exigir retenção de 30 dias para todo o tráfego do Fable 5, do Mythos 5 e de modelos futuros nesse nível de capacidade, tanto em superfícies próprias quanto de terceiros.

A companhia afirma que não usará esses dados para treinamento nem para qualquer finalidade fora de segurança, vai registrar todo acesso humano e apagá-los após 30 dias, exceto quando uma investigação de segurança ou obrigação legal exigir retenção por mais tempo.

A justificativa, segundo a empresa, é defensiva: os dados ajudam a detectar ataques novos e jailbreaks que ocorrem ao longo de várias solicitações.

Equipes com exigências rígidas de tratamento de dados precisarão considerar essa janela de retenção antes de direcionar tráfego sensível para esses modelos.

A Anthropic planeja ampliar o acesso ao Mythos 5 por meio de um programa de trusted-access e diz que, quando a capacidade de computação acompanhar a demanda, pretende reintegrar o Fable 5 aos planos de assinatura sem o prêmio em créditos de uso que entra em vigor depois de 22 de junho.

A pergunta maior que esse lançamento levanta é a mesma que a Anthropic vem contornando desde abril: modelos com capacidades semelhantes vão surgir em outros laboratórios, e nem todos chegarão ao mercado com uma barreira de classificadores na frente.

A vantagem defensiva que o Glasswing pretendia criar só terá valor se o resto da indústria a aproveitar.

Publicidade

Proteja sua empresa contra hackers através de um Pentest

Tenha acesso aos melhores hackers éticos do mercado através de um serviço personalizado, especializado e adaptado para o seu negócio. Qualidade, confiança e especialidade em segurança ofensiva de quem já protegeu centenas de empresas. Saiba mais...