Quando conversamos com um chatbot, podemos acabar fornecendo informações pessoais involuntariamente — seu nome, por exemplo, e talvez detalhes sobre onde você mora e trabalha, ou seus interesses.
Quanto mais você compartilha com um Large Language Model (LLM), maior o risco de essas informações serem mal utilizadas caso haja uma falha de segurança.
Um grupo de pesquisadores de segurança da Universidade da Califórnia, San Diego (UCSD) e da Universidade Tecnológica de Nanyang, em Cingapura, estão agora revelando um novo ataque que comanda secretamente um LLM para coletar suas informações pessoais — incluindo nomes, números de identidade, detalhes de cartões de pagamento, endereços de e-mail, endereços postais e mais — de conversas e enviá-las diretamente para um hacker.
O ataque, nomeado Imprompter pelos pesquisadores, utiliza um algoritmo para transformar um prompt dado ao LLM em um conjunto oculto de instruções maliciosas.
Uma frase em inglês que instrui o LLM a encontrar informações pessoais inseridas por alguém e enviá-las aos hackers é transformada em uma seleção aparentemente aleatória de caracteres.
No entanto, na realidade, esse prompt de aparência sem sentido instrui o LLM a encontrar as informações pessoais do usuário, anexá-las a uma URL e enviá-las silenciosamente de volta a um domínio controlado pelo atacante — tudo sem alertar a pessoa que está conversando com o LLM.
Os pesquisadores detalham o Imprompter em um artigo publicado.
“O efeito desse prompt específico é basicamente manipular o agente LLM para extrair informações pessoais da conversa e enviar essas informações pessoais para o endereço do atacante,” diz Xiaohan Fu, autor principal da pesquisa e estudante de doutorado em ciência da computação na UCSD.
Nós escondemos o objetivo do ataque à vista de todos.
Os oito pesquisadores por trás do trabalho testaram o método de ataque em dois LLMs, o LeChat, da gigante francesa de IA Mistral AI, e o chatbot chinês ChatGLM.
Em ambos os casos, eles descobriram que podiam extrair informações pessoais de maneira furtiva dentro de conversas de teste — os pesquisadores escrevem que tiveram uma “taxa de sucesso de quase 80%.”
A Mistral AI informou que corrigiu a vulnerabilidade de segurança — com os pesquisadores confirmando que a empresa desativou uma de suas funcionalidades de chat.
Uma declaração do ChatGLM enfatizou que leva a segurança a sério, mas não comentou diretamente sobre a vulnerabilidade.
Desde que o ChatGPT da OpenAI provocou um boom de IA generativa após seu lançamento no final de 2022, pesquisadores e hackers têm encontrado consistentemente falhas de segurança em sistemas de IA.
Estas geralmente se dividem em duas categorias amplas: jailbreaks e injeções de prompt.
Jailbreaks podem enganar um sistema de IA a ignorar regras de segurança incorporadas usando prompts que sobrepõem as configurações da IA.
Injeções de prompt, por outro lado, envolvem um LLM sendo alimentado com um conjunto de instruções — como dizer para roubar dados ou manipular um CV — contidas dentro de uma fonte de dados externa.
Por exemplo, uma mensagem embutida em um site pode conter um prompt oculto que uma IA ingere se resumir a página.
Publicidade
Em 14 de janeiro a Solyd irá revolucionar a forma como pentest e hacking deve ser ensinado. Se inscreva para ser o primeiro a saber das novidades. Saiba mais...