Ataque oculto em Chatbots
8 de Novembro de 2024

Quando conversamos com um chatbot, podemos acabar fornecendo informações pessoais involuntariamente — seu nome, por exemplo, e talvez detalhes sobre onde você mora e trabalha, ou seus interesses.

Quanto mais você compartilha com um Large Language Model (LLM), maior o risco de essas informações serem mal utilizadas caso haja uma falha de segurança.

Um grupo de pesquisadores de segurança da Universidade da Califórnia, San Diego (UCSD) e da Universidade Tecnológica de Nanyang, em Cingapura, estão agora revelando um novo ataque que comanda secretamente um LLM para coletar suas informações pessoais — incluindo nomes, números de identidade, detalhes de cartões de pagamento, endereços de e-mail, endereços postais e mais — de conversas e enviá-las diretamente para um hacker.

O ataque, nomeado Imprompter pelos pesquisadores, utiliza um algoritmo para transformar um prompt dado ao LLM em um conjunto oculto de instruções maliciosas.

Uma frase em inglês que instrui o LLM a encontrar informações pessoais inseridas por alguém e enviá-las aos hackers é transformada em uma seleção aparentemente aleatória de caracteres.

No entanto, na realidade, esse prompt de aparência sem sentido instrui o LLM a encontrar as informações pessoais do usuário, anexá-las a uma URL e enviá-las silenciosamente de volta a um domínio controlado pelo atacante — tudo sem alertar a pessoa que está conversando com o LLM.

Os pesquisadores detalham o Imprompter em um artigo publicado.

“O efeito desse prompt específico é basicamente manipular o agente LLM para extrair informações pessoais da conversa e enviar essas informações pessoais para o endereço do atacante,” diz Xiaohan Fu, autor principal da pesquisa e estudante de doutorado em ciência da computação na UCSD.

Nós escondemos o objetivo do ataque à vista de todos.

Os oito pesquisadores por trás do trabalho testaram o método de ataque em dois LLMs, o LeChat, da gigante francesa de IA Mistral AI, e o chatbot chinês ChatGLM.

Em ambos os casos, eles descobriram que podiam extrair informações pessoais de maneira furtiva dentro de conversas de teste — os pesquisadores escrevem que tiveram uma “taxa de sucesso de quase 80%.”

A Mistral AI informou que corrigiu a vulnerabilidade de segurança — com os pesquisadores confirmando que a empresa desativou uma de suas funcionalidades de chat.

Uma declaração do ChatGLM enfatizou que leva a segurança a sério, mas não comentou diretamente sobre a vulnerabilidade.

Desde que o ChatGPT da OpenAI provocou um boom de IA generativa após seu lançamento no final de 2022, pesquisadores e hackers têm encontrado consistentemente falhas de segurança em sistemas de IA.

Estas geralmente se dividem em duas categorias amplas: jailbreaks e injeções de prompt.

Jailbreaks podem enganar um sistema de IA a ignorar regras de segurança incorporadas usando prompts que sobrepõem as configurações da IA.

Injeções de prompt, por outro lado, envolvem um LLM sendo alimentado com um conjunto de instruções — como dizer para roubar dados ou manipular um CV — contidas dentro de uma fonte de dados externa.

Por exemplo, uma mensagem embutida em um site pode conter um prompt oculto que uma IA ingere se resumir a página.

Publicidade

Não compre curso de Pentest

Em 14 de janeiro a Solyd irá revolucionar a forma como pentest e hacking deve ser ensinado. Se inscreva para ser o primeiro a saber das novidades. Saiba mais...