Nova técnica de Jailbreak
3 de Janeiro de 2025

Pesquisadores de cibersegurança revelaram uma nova técnica de jailbreak que pode ser usada para ultrapassar as barreiras de segurança de um modelo de linguagem de grande porte (LLM) e produzir respostas potencialmente prejudiciais ou maliciosas.

A estratégia de ataque multi-turno, também conhecida como many-shot, foi apelidada de Bad Likert Judge pelos pesquisadores da Palo Alto Networks Unit 42, Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao e Danny Tsechansky.

"A técnica convida o LLM alvo a atuar como um juiz, avaliando a periculosidade de uma resposta fornecida usando a escala Likert, uma escala de avaliação que mede o grau de concordância ou discordância do respondente com uma afirmação", disse a equipe da Unit 42.

Em seguida, solicita ao LLM que gere respostas contendo exemplos que se alinhem com as escalas.

O exemplo que obtiver a maior pontuação na escala Likert pode potencialmente conter o conteúdo prejudicial. A explosão da popularidade da inteligência artificial nos últimos anos também gerou uma nova classe de explorações de segurança denominada injeção de prompt, projetada expressamente para fazer um modelo de aprendizado de máquina ignorar seu comportamento pretendido, transmitindo instruções especialmente formuladas (ou seja, prompts).

Um tipo específico de injeção de prompt é um método de ataque denominado jailbreaking many-shot, que explora a longa janela de contexto do LLM e a atenção para criar uma série de prompts que gradualmente induzem o LLM a produzir uma resposta maliciosa sem acionar suas proteções internas.

Alguns exemplos dessa técnica incluem Crescendo e Deceptive Delight.

A abordagem mais recente demonstrada pela Unit 42 envolve empregar o LLM como um juiz para avaliar a periculosidade de uma resposta dada usando a escala psicométrica de Likert, e então pedir ao modelo para fornecer diferentes respostas correspondentes aos vários escores.

Testes conduzidos em uma ampla gama de categorias contra seis LLMs de geração de texto de última geração da Amazon Web Services, Google, Meta, Microsoft, OpenAI e NVIDIA revelaram que a técnica pode aumentar a taxa de sucesso de ataque (ASR) em mais de 60% em média, comparado com prompts de ataque simples.

Essas categorias incluem ódio, assédio, automutilação, conteúdo sexual, armas indiscriminadas, atividades ilegais, geração de malware e vazamento de prompts de sistema.

"Ao aproveitar o entendimento do LLM sobre conteúdo prejudicial e sua capacidade de avaliar respostas, essa técnica pode aumentar significativamente as chances de ultrapassar com sucesso as barreiras de segurança do modelo", disseram os pesquisadores.

Os resultados mostram que filtros de conteúdo podem reduzir a ASR em uma média de 89,2 pontos percentuais em todos os modelos testados.

Isso indica o papel crítico da implementação de filtragem de conteúdo abrangente como uma melhor prática ao implantar LLMs em aplicações do mundo real.

O desenvolvimento vem dias após um relatório do The Guardian revelar que a ferramenta de busca ChatGPT da OpenAI pode ser enganada para gerar resumos completamente enganosos ao pedir que resuma páginas da web que contêm conteúdo oculto.

"Essas técnicas podem ser usadas maliciosamente, por exemplo, para fazer o ChatGPT retornar uma avaliação positiva de um produto apesar de avaliações negativas na mesma página", disse o jornal britânico.

A simples inclusão de texto oculto por terceiros sem instruções também pode ser usada para garantir uma avaliação positiva, com um teste incluindo avaliações falsas extremamente positivas que influenciaram o resumo retornado pelo ChatGPT.

Publicidade

Traçamos um caminho para você ir do zero ao avançado em hacking

Conheça a Solyd One, e tenha acesso a todos os cursos de segurança ofensiva da Solyd, todas as certificações práticas, incluindo a SYCP, 2 CTFs anuais com prêmios de até 30 mil reais, dezenas de laboratórios realísticos, suporte, comunidade e muito mais. Saiba mais...