Pesquisadores de cibersegurança estão alertando para um novo método de jailbreak chamado Echo Chamber que pode ser usado para enganar modelos de linguagem de larga escala (LLMs) populares, fazendo-os gerar respostas indesejadas, independentemente das salvaguardas implementadas.
"Ao contrário dos jailbreaks tradicionais que dependem da redação adversarial ou da ofuscação de caracteres, Echo Chamber explora referências indiretas, direcionamento semântico e inferência em várias etapas", disse o pesquisador da NeuralTrust, Ahmad Alobaid, em um relatório compartilhado com a imprensa.
"O resultado é uma manipulação sutil, porém poderosa, do estado interno do modelo, levando-o gradualmente a produzir respostas que violam as políticas."
Enquanto LLMs têm incorporado constantemente várias proteções para combater injeções de prompts e jailbreaks, a pesquisa mais recente mostra que existem técnicas que podem alcançar altas taxas de sucesso com pouco ou nenhum conhecimento técnico.
Isso também serve para destacar um desafio persistente associado ao desenvolvimento de LLMs éticos que impõem uma demarcação clara entre os tópicos aceitáveis e não aceitáveis.
Embora LLMs amplamente utilizados sejam projetados para recusar prompts de usuários que giram em torno de tópicos proibidos, eles podem ser induzidos a elicitar respostas antiéticas como parte do que é chamado de jailbreak multivirada.
Nesses ataques, o atacante começa com algo inocente e, em seguida, progressivamente faz uma série de perguntas cada vez mais maliciosas que, no final, enganam o modelo para produzir conteúdo prejudicial.
Este ataque é referido como Crescendo.
LLMs também são suscetíveis a jailbreaks de muitas viradas, que aproveitam sua grande janela de contexto (ou seja, a quantidade máxima de texto que pode caber dentro de um prompt) para inundar o sistema de IA com várias questões (e respostas) que exibem comportamento de jailbreak antes da pergunta final prejudicial.
Isso, por sua vez, faz com que o LLM continue o mesmo padrão e produza conteúdo prejudicial.
Echo Chamber, segundo a NeuralTrust, utiliza uma combinação de envenenamento de contexto e raciocínio multivirada para derrotar os mecanismos de segurança de um modelo.
Ataque Echo Chamber
"A principal diferença é que Crescendo é quem direciona a conversa desde o início, enquanto Echo Chamber é meio que pedindo ao LLM para preencher as lacunas e depois nós direcionamos o modelo de acordo usando apenas as respostas do LLM", disse Alobaid em uma declaração compartilhada.
Especificamente, isso se desenvolve como uma técnica de prompt adversarial em múltiplos estágios que começa com uma entrada aparentemente inocente, enquanto a direciona gradual e indiretamente para gerar conteúdo perigoso sem revelar o objetivo final do ataque (por exemplo, gerar discurso de ódio).
"Prompts plantados no início influenciam as respostas do modelo, que são então aproveitadas em viradas posteriores para reforçar o objetivo original", disse a NeuralTrust.
"Isso cria um loop de feedback onde o modelo começa a amplificar o subtexto prejudicial embutido na conversa, erodindo gradualmente suas próprias resistências de segurança."
Em um ambiente de avaliação controlado usando modelos da OpenAI e Google, o ataque Echo Chamber alcançou uma taxa de sucesso de mais de 90% em tópicos relacionados a sexismo, violência, discurso de ódio e pornografia.
Ele também alcançou quase 80% de sucesso nas categorias desinformação e automutilação.
"O Ataque Echo Chamber revela um ponto cego crítico nos esforços de alinhamento dos LLM", disse a empresa.
"À medida que os modelos se tornam mais capazes de inferência sustentada, eles também se tornam mais vulneráveis à exploração indireta."
A divulgação ocorre enquanto a Cato Networks demonstrou um ataque proof-of-concept (PoC) que mira o servidor protocolo de contexto do modelo (MCP) da Atlassian e sua integração com o Jira Service Management (JSM) para acionar ataques de injeção de prompt quando um ticket de suporte malicioso enviado por um ator de ameaça externa é processado por um engenheiro de suporte usando ferramentas MCP.
A empresa de cibersegurança cunhou o termo "Living off AI" para descrever esses ataques, onde um sistema de IA que executa entradas não confiáveis sem garantias adequadas de isolamento pode ser abusado por adversários para ganhar acesso privilegiado sem ter que se autenticar.
"O ator da ameaça nunca acessou o MCP da Atlassian diretamente", disseram os pesquisadores de segurança Guy Waizel, Dolev Moshe Attiya e Shlomo Bamberger.
Em vez disso, o engenheiro de suporte atuou como um proxy, executando instruções maliciosas sem saber através do MCP da Atlassian.
Publicidade
Conheça a Solyd One, e tenha acesso a todos os cursos de segurança ofensiva da Solyd, todas as certificações práticas, incluindo a SYCP, 2 CTFs anuais com prêmios de até 30 mil reais, dezenas de laboratórios realísticos, suporte, comunidade e muito mais. Saiba mais...