A OpenAI lançou na sexta-feira três versões do GPT-5.6, chamadas Sol, Terra e Luna, em uma prévia limitada para um pequeno número de empresas, como parte de um relacionamento em andamento com o governo dos Estados Unidos.
O Sol é o modelo principal mais recente e o mais poderoso.
Já o Terra busca equilibrar eficiência e capacidade, enquanto o Luna foi ajustado para oferecer mais velocidade e custo mais baixo.
“O GPT-5.6 Sol estreia com nossa estrutura de segurança mais robusta até agora.
Fortalecemos as proteções para atividades de maior risco, solicitações sensíveis de cibersegurança e uso indevido repetido, e passamos várias semanas identificando fraquezas, testando os limites do sistema e endurecendo-o contra ataques reais”, afirmou a OpenAI.
A empresa também descreveu o modelo como o “mais capaz até agora” para cibersegurança, o que o torna mais adequado para pesquisa de vulnerabilidades e exploit development.
No ExploitBench, a OpenAI afirmou que o GPT-5.6 Sol é competitivo com o Anthropic Mythos Preview usando cerca de um terço dos tokens de saída.
Segundo a empresa, o objetivo é permitir usos legítimos, como revisão de código, pesquisa de vulnerabilidades, desenvolvimento de patch, depuração, treinamento de segurança e testes defensivos, ao mesmo tempo em que mantém barreiras fortes para bloquear atividades ofensivas e corrigir rapidamente novos métodos de jailbreak descobertos.
Isso inclui tentativas adversariais de contornar as restrições do modelo e recusas ao que a companhia chama de “assistência cibernética proibida”.
“À medida que essas capacidades continuam avançando, nossa prioridade é garantir que elas cheguem aos defensores e os beneficiem, para que possam usar essas ferramentas para encontrar fraquezas, desenvolver patch e fortalecer sistemas de forma mais ampla”, explicou a empresa de IA.
Ainda assim, a OpenAI alerta que, durante a fase de prévia, pode haver situações em que usuários encontrem mecanismos de proteção que bloqueiem ou recusem pedidos legítimos, ou que tenham suas solicitações pausadas para análise adicional, por causa da natureza de “duplo uso” da tecnologia.
De acordo com o System Card de prévia do GPT-5.6, embora o modelo esteja mais habilidoso em encontrar vulnerabilidades em código e desenvolver exploits, essas capacidades não chegam ao ponto de realizar ataques autônomos e completos contra alvos reforçados ou de transformar essas vulnerabilidades em armas em ataques reais.
“Avaliações separadas analisaram comportamentos desalinhados em tarefas de codificação agentic e constataram que o GPT-5.6 mostra uma tendência maior do que o GPT-5.5 de ir além da intenção do usuário, inclusive tomando ou tentando tomar ações que não foram solicitadas, embora as taxas absolutas permaneçam baixas”, apontou a empresa.
Uma avaliação do GPT-5.6 Sol contra projetos de software amplamente implantados e reforçados, usando o VulnLMP, framework interno da OpenAI criado para testar o desenvolvimento de cadeias de exploits de ponta a ponta contra alvos do mundo real, concluiu que o modelo gera indícios críveis de falhas de segurança de memória, alguns dos quais podem levar à divulgação de dados, mutação ou corrupção do fluxo de controle.
“Isso sugere que partes substanciais da pesquisa de vulnerabilidades no mundo real estão se tornando cada vez mais automatizáveis quando os modelos são combinados com uso de ferramentas, sistemas de compilação e infraestrutura de verificação”, disse a startup de tecnologia.
A OpenAI pretende disponibilizar amplamente o GPT-5.6 Sol, Terra e Luna nas próximas semanas e já apresentou as capacidades do modelo ao governo dos Estados Unidos.
A empresa também está lançando uma prévia limitada para um pequeno grupo de parceiros de confiança, cuja participação foi aprovada pelo governo antes de um lançamento mais amplo.
No início deste mês, o presidente dos Estados Unidos, Donald Trump, assinou uma ordem executiva sobre IA e cibersegurança, pedindo a criação de uma estrutura que dê ao governo federal a capacidade de avaliar as capacidades de modelos de IA e determinar quais se qualificam como “modelos de fronteira abrangidos”, uma classificação para sistemas de IA com recursos avançados de cibersegurança.
A liberação escalonada ocorre dias depois de a empresa ter lançado uma versão aprimorada do modelo GPT-5.5-Cyber para defensores confiáveis, como parte da iniciativa Daybreak, e de ter iniciado um novo projeto chamado Patch the Planet, em colaboração com a Trail of Bits, para ajudar a proteger projetos open source.
Isso também acontece após a decisão do governo dos Estados Unidos de permitir que a Anthropic libere seu modelo de IA Mythos para cerca de 100 empresas de confiança e agências federais que “operam e defendem infraestrutura crítica”, mais de duas semanas depois de os poderosos modelos focados em cibersegurança terem sido retirados do mercado.
“Estamos restaurando o acesso para essas organizações rapidamente e seguimos trabalhando com o governo para ampliar o acesso ao Mythos 5 e tornar o Fable 5 disponível novamente para uso geral”, afirmou a Anthropic em comunicado publicado no X.
Publicidade
Conheça a Solyd One, e tenha acesso a todos os cursos de segurança ofensiva da Solyd, todas as certificações práticas, incluindo a SYCP, 2 CTFs anuais com prêmios de até 30 mil reais, dezenas de laboratórios realísticos, suporte, comunidade e muito mais. Saiba mais...