Poemas podem enganar IA para ajudar na criação de armas nucleares
15 de Dezembro de 2025

Um estudo recente conduzido por pesquisadores europeus revelou uma vulnerabilidade preocupante em grandes modelos de linguagem (LLMs) de inteligência artificial: é possível induzir essas ferramentas a fornecer informações sensíveis, como a construção de armas nucleares, simplesmente formulando o pedido em formato de poesia.

O trabalho, intitulado "Adversarial Poetry as a Universal Single-Turn Jailbreak in Large Language Models (LLMs)", foi desenvolvido pelo Icaro Lab, uma parceria entre a Universidade Sapienza de Roma e o think tank DexAI.

Segundo os pesquisadores, a estrutura poética conseguiu contornar os filtros de segurança das AIs em 62% das tentativas quando os poemas eram criados manualmente, e cerca de 43% nos casos em que os prompts foram gerados automaticamente a partir de modelos da Meta.

Para testar a eficácia da técnica, foram avaliados 25 chatbots de diferentes empresas, incluindo OpenAI, Meta e Anthropic.

Todos os sistemas apresentaram vulnerabilidades, embora com níveis variados de sucesso.

As empresas foram contatadas para comentar o estudo, mas até o momento não responderam.

Os pesquisadores afirmam ter compartilhado as descobertas com as organizações envolvidas.

Atualmente, ferramentas como ChatGPT e Claude possuem guardrails que bloqueiam respostas relacionadas a temas ilegais ou perigosos, como pornografia infantil ou fabricação de material nuclear.

No entanto, esses mecanismos podem ser contornados por meio do uso de “adversarial suffixes” — elementos adicionais no prompt que confundem o modelo e burlam as barreiras de segurança.

Em estudos anteriores, por exemplo, foi demonstrado que um jargão acadêmico extenso pode ludibriar os chatbots e permitir respostas proibidas.

O jailbreak em formato de poesia segue lógica semelhante.

Em entrevista à WIRED, a equipe do Icaro Lab explicou que, para a IA, os sufixos adversariais funcionam como uma espécie de poesia involuntária — por isso, utilizar versos humanos pode ser uma forma natural e eficaz de enganar o sistema.

Ao reformular pedidos perigosos em versos que exploram metáforas, sintaxe fragmentada e referências indiretas, os pesquisadores alcançaram taxas de sucesso de até 90% em modelos de ponta.

Solicitações imediatamente rejeitadas em formatos diretos foram aceitas quando disfarçadas em poesia.

A metodologia incluiu tanto a criação manual de poemas quanto o treinamento de uma máquina para gerar prompts em verso com conteúdo nocivo.

Embora os poemas roteirizados tenham apresentado maiores índices de sucesso, o método automatizado superou significativamente os prompts convencionais em prosa.

Por questões de segurança, o estudo não divulgou exemplos dos poemas usados no jailbreak, e os autores afirmam que o conteúdo é perigoso demais para ser compartilhado publicamente.

“Posso dizer que é provavelmente mais fácil do que se imagina, e é exatamente por isso que estamos sendo cautelosos”, comentam os pesquisadores do Icaro Lab.

Publicidade

Contrate hackers éticos para seu time

A Solyd Hunter encontra, valida e entrega os melhores profissionais de Cibersegurança, Red Team, AppSec e Pentest para sua empresa com garantia e agilidade. Clique aqui e contrate com segurança. Saiba mais...