Um estudo recente conduzido por pesquisadores europeus revelou uma vulnerabilidade preocupante em grandes modelos de linguagem (LLMs) de inteligência artificial: é possível induzir essas ferramentas a fornecer informações sensíveis, como a construção de armas nucleares, simplesmente formulando o pedido em formato de poesia.
O trabalho, intitulado "Adversarial Poetry as a Universal Single-Turn Jailbreak in Large Language Models (LLMs)", foi desenvolvido pelo Icaro Lab, uma parceria entre a Universidade Sapienza de Roma e o think tank DexAI.
Segundo os pesquisadores, a estrutura poética conseguiu contornar os filtros de segurança das AIs em 62% das tentativas quando os poemas eram criados manualmente, e cerca de 43% nos casos em que os prompts foram gerados automaticamente a partir de modelos da Meta.
Para testar a eficácia da técnica, foram avaliados 25 chatbots de diferentes empresas, incluindo OpenAI, Meta e Anthropic.
Todos os sistemas apresentaram vulnerabilidades, embora com níveis variados de sucesso.
As empresas foram contatadas para comentar o estudo, mas até o momento não responderam.
Os pesquisadores afirmam ter compartilhado as descobertas com as organizações envolvidas.
Atualmente, ferramentas como ChatGPT e Claude possuem guardrails que bloqueiam respostas relacionadas a temas ilegais ou perigosos, como pornografia infantil ou fabricação de material nuclear.
No entanto, esses mecanismos podem ser contornados por meio do uso de “adversarial suffixes” — elementos adicionais no prompt que confundem o modelo e burlam as barreiras de segurança.
Em estudos anteriores, por exemplo, foi demonstrado que um jargão acadêmico extenso pode ludibriar os chatbots e permitir respostas proibidas.
O jailbreak em formato de poesia segue lógica semelhante.
Em entrevista à WIRED, a equipe do Icaro Lab explicou que, para a IA, os sufixos adversariais funcionam como uma espécie de poesia involuntária — por isso, utilizar versos humanos pode ser uma forma natural e eficaz de enganar o sistema.
Ao reformular pedidos perigosos em versos que exploram metáforas, sintaxe fragmentada e referências indiretas, os pesquisadores alcançaram taxas de sucesso de até 90% em modelos de ponta.
Solicitações imediatamente rejeitadas em formatos diretos foram aceitas quando disfarçadas em poesia.
A metodologia incluiu tanto a criação manual de poemas quanto o treinamento de uma máquina para gerar prompts em verso com conteúdo nocivo.
Embora os poemas roteirizados tenham apresentado maiores índices de sucesso, o método automatizado superou significativamente os prompts convencionais em prosa.
Por questões de segurança, o estudo não divulgou exemplos dos poemas usados no jailbreak, e os autores afirmam que o conteúdo é perigoso demais para ser compartilhado publicamente.
“Posso dizer que é provavelmente mais fácil do que se imagina, e é exatamente por isso que estamos sendo cautelosos”, comentam os pesquisadores do Icaro Lab.
Publicidade
A Solyd Hunter encontra, valida e entrega os melhores profissionais de Cibersegurança, Red Team, AppSec e Pentest para sua empresa com garantia e agilidade. Clique aqui e contrate com segurança. Saiba mais...