Nova técnica eleva riscos em IA
23 de Outubro de 2024

Pesquisadores de cibersegurança revelaram uma nova técnica adversária que poderia ser usada para fazer jailbreak em modelos de linguagem de grande escala (LLMs) durante o curso de uma conversa interativa, introduzindo uma instrução indesejável entre outras benignas.

A abordagem foi apelidada de Deceptive Delight pela Unit 42 da Palo Alto Networks, que a descreveu como simples e eficaz, alcançando uma taxa de sucesso de ataque (ASR) média de 64,6% em até três interações.

"Deceptive Delight é uma técnica de várias etapas que envolve os LLMs em uma conversa interativa, contornando gradualmente suas barreiras de segurança e induzindo-os a gerar conteúdo inseguro ou prejudicial", disseram Jay Chen e Royce Lu da Unit 42.

É um pouco diferente dos métodos de jailbreak de várias etapas (conhecidos como jailbreak de muitos passos) como o Crescendo, onde tópicos inseguros ou restritos são intercalados entre instruções inofensivas, em vez de levar gradualmente o modelo a produzir uma saída nociva.

Pesquisas recentes também exploraram o que é chamado de Ataque de Fusão de Contexto (CFA), um método de jailbreak caixa-preta capaz de contornar a rede de segurança de um LLM.

"Esse método envolve filtrar e extrair termos-chave do alvo, construindo cenários contextuais em torno desses termos, integrando dinamicamente o alvo aos cenários, substituindo termos-chave maliciosos dentro do alvo e, assim, ocultando a intenção maliciosa direta", disse um grupo de pesquisadores da Universidade de Xidian e do 360 AI Security Lab em um artigo publicado em agosto de 2024.

Deceptive Delight foi projetado para tirar vantagem das fraquezas inerentes de um LLM manipulando o contexto dentro de duas interações conversacionais, induzindo-o inadvertidamente a eliciar conteúdo inseguro.

Adicionar uma terceira interação tem o efeito de aumentar a gravidade e o detalhamento da saída prejudicial.

Isso envolve explorar a atenção limitada do modelo, que se refere à sua capacidade de processar e reter consciência contextual enquanto gera respostas.

"Quando os LLMs encontram prompts que mesclam conteúdo inofensivo com material potencialmente perigoso ou prejudicial, sua atenção limitada dificulta a avaliação consistente de todo o contexto", explicaram os pesquisadores.

Em passagens complexas ou longas, o modelo pode priorizar os aspectos benignos enquanto negligencia ou interpreta mal os inseguros.

Isso se assemelha a como uma pessoa pode passar rapidamente por advertências importantes, mas sutis, em um relatório detalhado se sua atenção estiver dividida.

A Unit 42 disse que testou oito modelos de IA usando 40 tópicos inseguros em seis categorias amplas, como ódio, assédio, automutilação, sexual, violência e perigos, descobrindo que tópicos inseguros na categoria de violência tendem a ter a maior ASR na maioria dos modelos.

Além disso, a média do Harmfulness Score (HS) e Quality Score (QS) foi encontrada para aumentar em 21% e 33%, respectivamente, da segunda para a terceira interação, sendo que a terceira também alcançou a maior ASR em todos os modelos.

Para mitigar o risco representado pelo Deceptive Delight, recomenda-se adotar uma estratégia robusta de filtragem de conteúdo, usar engenharia de prompts para aumentar a resiliência dos LLMs e definir explicitamente o alcance aceitável de entradas e saídas.

"Essas descobertas não devem ser vistas como evidências de que a IA é inerentemente insegura ou perigosa", disseram os pesquisadores.

Em vez disso, eles enfatizam a necessidade de estratégias de defesa em múltiplas camadas para mitigar os riscos de jailbreak, preservando a utilidade e a flexibilidade desses modelos.

É improvável que os LLMs sejam completamente imunes a jailbreaks e alucinações, já que novos estudos mostraram que modelos de IA generativos são suscetíveis a uma forma de "confusão de pacotes" onde poderiam recomendar pacotes inexistentes para desenvolvedores.

Isso pode ter o efeito colateral infeliz de alimentar ataques à cadeia de suprimentos de software quando atores maliciosos geram pacotes alucinados, inserem malware neles e os publicam em repositórios de código aberto.

"A porcentagem média de pacotes alucinados é de pelo menos 5,2% para modelos comerciais e 21,7% para modelos de código aberto, incluindo impressionantes 205.474 exemplos únicos de nomes de pacotes alucinados, destacando ainda mais a severidade e a pervasividade dessa ameaça", disseram os pesquisadores.

Publicidade

Proteja sua empresa contra hackers através de um Pentest

Tenha acesso aos melhores hackers éticos do mercado através de um serviço personalizado, especializado e adaptado para o seu negócio. Qualidade, confiança e especialidade em segurança ofensiva de quem já protegeu centenas de empresas. Saiba mais...