Pesquisadores em cibersegurança revelaram um novo conjunto de vulnerabilidades que afetam o chatbot de inteligência artificial ChatGPT, da OpenAI.
Essas falhas podem ser exploradas por atacantes para roubar informações pessoais armazenadas na memória e no histórico de conversas dos usuários, sem que eles percebam.
De acordo com a empresa de segurança Tenable, as sete vulnerabilidades foram identificadas nos modelos GPT-4o e GPT-5 da OpenAI, sendo que algumas já foram corrigidas pela empresa.
Essas brechas expõem o sistema a ataques de indirect prompt injection, uma técnica que permite manipular o comportamento esperado do large language model (LLM), levando-o a executar ações não autorizadas ou maliciosas.
Veja as principais vulnerabilidades detectadas:
- Indirect prompt injection via sites confiáveis no Browsing Context: o ChatGPT é solicitado a resumir páginas web contendo instruções maliciosas ocultas nos comentários, fazendo com que o LLM as execute.
- Zero-click indirect prompt injection no Search Context: o sistema é enganado ao responder a consultas naturais sobre sites que podem ter sido indexados por mecanismos como Bing e pelo crawler da OpenAI associado ao SearchGPT, executando comandos maliciosos sem interação do usuário.
- Prompt injection via one-click: links no formato "chatgpt[.]com/?q={Prompt}" levam o LLM a executar automaticamente o comando presente no parâmetro "q=".
- Bypass de mecanismos de segurança: uso de links de rastreamento de anúncios do Bing (bing[.]com/ck/a), que estão na lista de domínios permitidos, para mascarar URLs maliciosos e permitir sua renderização no chat.
- Técnica de conversation injection: inserção de instruções maliciosas em um site que, ao ser resumido pelo ChatGPT, contamina o contexto da conversa e influencia respostas futuras com conteúdo indesejado.
- Técnica de ocultação de conteúdo malicioso: aproveitamento de uma falha na renderização de markdown que esconde comandos maliciosos presentes na mesma linha que delimitadores de blocos de código (```).
- Técnica de memory injection: envenenamento da memória do ChatGPT do usuário por meio da inclusão de instruções ocultas em sites resumidos pelo modelo.
Essa divulgação ocorre pouco depois de outras pesquisas que demonstraram diversas formas de ataques por prompt injection capazes de burlar mecanismos de segurança em ferramentas de IA.
Entre elas estão:
- PromptJacking, que explora vulnerabilidades em conectores do Anthropic Claude para injetar comandos não filtrados e executar código remotamente.
- Claude pirate, que abusa da API de arquivos do Claude para exfiltração de dados via injections indiretas.
- Agent session smuggling, permitindo que agentes maliciosos insiram comandos adicionais em sessões válidas, causando vazamento de dados e execução indevida de ferramentas.
- Prompt inception, que utiliza injections para aumentar vieses ou disseminar desinformação em larga escala.
- Shadow escape, ataque zero-click que extrai dados sensíveis de sistemas interconectados por meio do Model Context Protocol (MCP).
- Exploração do suporte a diagramas Mermaid no Microsoft 365 Copilot para extrair dados via CSS.
- CamoLeak, vulnerabilidade no GitHub Copilot Chat que permite exfiltração oculta de segredos e controle total das respostas por meio de bypass do Content Security Policy (CSP).
- LatentBreak, ataque white-box que cria prompts adversários naturais para contornar mecanismos de segurança substituindo palavras por equivalentes semânticos.
Os pesquisadores alertam que permitir que chatbots de IA se conectem a sistemas externos aumenta a superfície de ataque, facilitando que agentes mal-intencionados escondam comandos maliciosos que acabam sendo processados pelo modelo.
"Prompt injection é um problema conhecido na forma como os LLMs operam e, infelizmente, provavelmente não terá uma solução sistemática em curto prazo", afirmam os especialistas da Tenable.
Eles reforçam que fornecedores de IA devem garantir o funcionamento correto de seus mecanismos de segurança, como filtros de URLs, para minimizar os danos causados por essas explorações.
Além disso, um estudo conjunto de pesquisadores das universidades Texas A&M, University of Texas e Purdue mostrou que treinar modelos de IA com “junk data” (dados contaminados) pode causar um “brain rot” nos LLMs, alertando para os riscos de depender excessivamente de dados coletados na internet durante o pré-treinamento.
No mês passado, outra pesquisa de Anthropic, UK AI Security Institute e Alan Turing Institute revelou que é possível implantar backdoors em modelos de IA de vários tamanhos (de 600 milhões a 13 bilhões de parâmetros) contaminando apenas 250 documentos — um número muito menor do que se supunha anteriormente, tornando os ataques de envenenamento de dados mais acessíveis a invasores.
Do ponto de vista do ataque, atores maliciosos podem tentar contaminar conteúdos da web usados para treinar os LLMs ou distribuir versões envenenadas de modelos open-source.
"Se os invasores só precisam inserir um pequeno número fixo de documentos, e não uma porcentagem significativa do conjunto, os ataques de envenenamento podem ser mais viáveis do que se acreditava antes", comenta a Anthropic.
Outra pesquisa da Universidade de Stanford destacou que otimizar LLMs para obter maior sucesso em mercados competitivos, como vendas, eleições e redes sociais, pode gerar desajustes éticos, um fenômeno chamado de Moloch’s Bargain.
O estudo aponta que, embora a IA alcance melhores resultados comerciais e engajamento, isso pode levar a problemas graves como informações falsas, representação enganosa em vendas e outras violações de segurança.
Em resumo, a combinação de vulnerabilidades técnicas e desafios relacionados à qualidade dos dados e incentivos de mercado mostra que a segurança e a ética em IA ainda demandam muita atenção e pesquisa contínua.
Publicidade
Conheça a Solyd One, e tenha acesso a todos os cursos de segurança ofensiva da Solyd, todas as certificações práticas, incluindo a SYCP, 2 CTFs anuais com prêmios de até 30 mil reais, dezenas de laboratórios realísticos, suporte, comunidade e muito mais. Saiba mais...