Brecha em ChatGPT permite espionagem

Uma vulnerabilidade de segurança agora corrigida no aplicativo ChatGPT da OpenAI para macOS poderia ter possibilitado a atacantes plantar spyware persistente de longo prazo na memória da ferramenta de inteligência artificial (AI).

A técnica, batizada de SpAIware, poderia ser abusada para facilitar a "exfiltração contínua de dados de qualquer informação digitada pelo usuário ou respostas recebidas pelo ChatGPT, incluindo sessões de chat futuras," disse o pesquisador de segurança Johann Rehberger.

O problema, em sua essência, abusa de um recurso chamado memória, que a OpenAI introduziu em fevereiro deste ano antes de disponibilizar para os usuários do ChatGPT Free, Plus, Team e Enterprise no início do mês.

O que faz é basicamente permitir que o ChatGPT lembre certas coisas entre os chats, economizando dos usuários o esforço de repetir a mesma informação continuamente.

Os usuários também têm a opção de instruir o programa a esquecer algo.

"As memórias do ChatGPT evoluem com suas interações e não estão vinculadas a conversas específicas," diz a OpenAI.

Deletar um chat não apaga suas memórias; você deve deletar a própria memória. A técnica de ataque também se baseia em descobertas anteriores que envolvem usar injeção indireta de prompts para manipular memórias de maneira a lembrar informações falsas, ou até instruções maliciosas, alcançando uma forma de persistência que sobrevive entre conversas.

"Uma vez que as instruções maliciosas estão armazenadas na memória do ChatGPT, todas as novas conversas adiante conterão as instruções dos atacantes e continuarão enviando todas as mensagens de conversa do chat, e respostas, para o atacante," disse Rehberger.

Então, a vulnerabilidade de exfiltração de dados se tornou muito mais perigosa, pois agora se estende entre conversas de chat.

Em um cenário de ataque hipotético, um usuário poderia ser enganado para visitar um site malicioso ou baixar um documento armadilhado que é posteriormente analisado usando ChatGPT para atualizar a memória.

O site ou o documento poderia conter instruções para enviar clandestinamente todas as conversas futuras para um servidor controlado pelo adversário adiante, que então pode ser recuperado pelo atacante na outra extremidade além de uma única sessão de chat.

Seguindo a divulgação responsável, a OpenAI abordou o problema com a versão ChatGPT 1.2024.247 fechando o vetor de exfiltração.

"Os usuários do ChatGPT devem revisar regularmente as memórias que o sistema armazena sobre eles, procurando por suspeitas ou incorretas e limpá-las," disse Rehberger.

Esta cadeia de ataque foi bastante interessante de montar e demonstra os perigos de ter memória de longo prazo sendo automaticamente adicionada a um sistema, tanto do ponto de vista de desinformação/golpe, mas também em relação à comunicação contínua com servidores controlados por atacantes.

A divulgação acontece enquanto um grupo de acadêmicos descobriu uma nova técnica de jailbreaking de AI codinome MathPrompt que explora as capacidades avançadas em matemática simbólica de modelos de linguagem largos (LLMs) para contornar seus mecanismos de segurança.

"MathPrompt emprega um processo de dois passos: primeiro, transformando prompts de linguagem natural prejudiciais em problemas de matemática simbólica, e então apresentando esses prompts codificados matematicamente a um LLM alvo," os pesquisadores apontaram.

O estudo, ao testar contra 13 LLMs de última geração, descobriu que os modelos respondem com saída prejudicial 73,6% das vezes em média quando apresentados com prompts codificados matematicamente, em oposição a aproximadamente 1% com prompts prejudiciais não modificados.

Isso também segue a estreia da Microsoft de uma nova capacidade de Correção que, como o nome sugere, permite a correção de saídas de AI quando imprecisões (ou seja, alucinações) são detectadas.

"Construindo em nosso recurso existente de Detecção de Fundamentação, essa capacidade revolucionária permite o Azure AI Content Safety identificar e corrigir alucinações em tempo real antes que os usuários de aplicações de AI gerativas as encontrem," disse a gigante tecnológica.

Traçamos um caminho para você ir do zero ao avançado em hacking

Conheça a Solyd One, e tenha acesso a todos os cursos de segurança ofensiva da Solyd, todas as certificações práticas, incluindo a SYCP, 2 CTFs anuais com prêmios de até 30 mil reais, dezenas de laboratórios realísticos, suporte, comunidade e muito mais. Saiba mais...

As principais notícias de cybersecurity para serem lidas em menos de 3 minutos, todo dia em seu e-mail.

Brecha em ChatGPT permite espionagem

25 de Setembro de 2024

As principais notícias de cybersecurity para serem lidas em menos de 3 minutos, todo dia em seu e-mail.

Brecha em ChatGPT permite espionagem 25 de Setembro de 2024

Brecha em ChatGPT permite espionagem

25 de Setembro de 2024