Pesquisadores de cibersegurança revelaram uma nova técnica adversária que poderia ser usada para fazer jailbreak em modelos de linguagem de grande escala (LLMs) durante o curso de uma conversa interativa, introduzindo uma instrução indesejável entre outras benignas.
A abordagem foi apelidada de Deceptive Delight pela Unit 42 da Palo Alto Networks, que a descreveu como simples e eficaz, alcançando uma taxa de sucesso de ataque (ASR) média de 64,6% em até três interações.
"Deceptive Delight é uma técnica de várias etapas que envolve os LLMs em uma conversa interativa, contornando gradualmente suas barreiras de segurança e induzindo-os a gerar conteúdo inseguro ou prejudicial", disseram Jay Chen e Royce Lu da Unit 42.
É um pouco diferente dos métodos de jailbreak de várias etapas (conhecidos como jailbreak de muitos passos) como o Crescendo, onde tópicos inseguros ou restritos são intercalados entre instruções inofensivas, em vez de levar gradualmente o modelo a produzir uma saída nociva.
Pesquisas recentes também exploraram o que é chamado de Ataque de Fusão de Contexto (CFA), um método de jailbreak caixa-preta capaz de contornar a rede de segurança de um LLM.
"Esse método envolve filtrar e extrair termos-chave do alvo, construindo cenários contextuais em torno desses termos, integrando dinamicamente o alvo aos cenários, substituindo termos-chave maliciosos dentro do alvo e, assim, ocultando a intenção maliciosa direta", disse um grupo de pesquisadores da Universidade de Xidian e do 360 AI Security Lab em um artigo publicado em agosto de 2024.
Deceptive Delight foi projetado para tirar vantagem das fraquezas inerentes de um LLM manipulando o contexto dentro de duas interações conversacionais, induzindo-o inadvertidamente a eliciar conteúdo inseguro.
Adicionar uma terceira interação tem o efeito de aumentar a gravidade e o detalhamento da saída prejudicial.
Isso envolve explorar a atenção limitada do modelo, que se refere à sua capacidade de processar e reter consciência contextual enquanto gera respostas.
"Quando os LLMs encontram prompts que mesclam conteúdo inofensivo com material potencialmente perigoso ou prejudicial, sua atenção limitada dificulta a avaliação consistente de todo o contexto", explicaram os pesquisadores.
Em passagens complexas ou longas, o modelo pode priorizar os aspectos benignos enquanto negligencia ou interpreta mal os inseguros.
Isso se assemelha a como uma pessoa pode passar rapidamente por advertências importantes, mas sutis, em um relatório detalhado se sua atenção estiver dividida.
A Unit 42 disse que testou oito modelos de IA usando 40 tópicos inseguros em seis categorias amplas, como ódio, assédio, automutilação, sexual, violência e perigos, descobrindo que tópicos inseguros na categoria de violência tendem a ter a maior ASR na maioria dos modelos.
Além disso, a média do Harmfulness Score (HS) e Quality Score (QS) foi encontrada para aumentar em 21% e 33%, respectivamente, da segunda para a terceira interação, sendo que a terceira também alcançou a maior ASR em todos os modelos.
Para mitigar o risco representado pelo Deceptive Delight, recomenda-se adotar uma estratégia robusta de filtragem de conteúdo, usar engenharia de prompts para aumentar a resiliência dos LLMs e definir explicitamente o alcance aceitável de entradas e saídas.
"Essas descobertas não devem ser vistas como evidências de que a IA é inerentemente insegura ou perigosa", disseram os pesquisadores.
Em vez disso, eles enfatizam a necessidade de estratégias de defesa em múltiplas camadas para mitigar os riscos de jailbreak, preservando a utilidade e a flexibilidade desses modelos.
É improvável que os LLMs sejam completamente imunes a jailbreaks e alucinações, já que novos estudos mostraram que modelos de IA generativos são suscetíveis a uma forma de "confusão de pacotes" onde poderiam recomendar pacotes inexistentes para desenvolvedores.
Isso pode ter o efeito colateral infeliz de alimentar ataques à cadeia de suprimentos de software quando atores maliciosos geram pacotes alucinados, inserem malware neles e os publicam em repositórios de código aberto.
"A porcentagem média de pacotes alucinados é de pelo menos 5,2% para modelos comerciais e 21,7% para modelos de código aberto, incluindo impressionantes 205.474 exemplos únicos de nomes de pacotes alucinados, destacando ainda mais a severidade e a pervasividade dessa ameaça", disseram os pesquisadores.
Publicidade
Tenha acesso aos melhores hackers éticos do mercado através de um serviço personalizado, especializado e adaptado para o seu negócio. Qualidade, confiança e especialidade em segurança ofensiva de quem já protegeu centenas de empresas. Saiba mais...