Pesquisadores desenvolveram um ataque inovador que rouba dados de usuários ao injetar prompts maliciosos em imagens processadas por sistemas de IA antes de serem entregues a um large language model.
O método se baseia em imagens em resolução completa que carregam instruções invisíveis ao olho humano, mas que se tornam aparentes quando a qualidade da imagem é reduzida por meio de algoritmos de resampling.
Desenvolvido pelos pesquisadores Kikimora Morozova e Suha Sabi Hussain, da Trail of Bits, o ataque parte de uma teoria apresentada em um artigo de 2020 na conferência USENIX por uma universidade alemã (TU Braunschweig), que explorava a possibilidade de um ataque de image-scaling em machine learning.
Quando usuários fazem upload de imagens em sistemas de IA, essas imagens são automaticamente reduzidas para uma qualidade inferior, visando eficiência de performance e custo.
Dependendo do sistema, os algoritmos de resampling podem tornar a imagem mais leve utilizando técnicas como nearest neighbor, bilinear ou bicubic interpolation.
Todos esses métodos introduzem artefatos de aliasing que permitem que padrões ocultos emergam na imagem redimensionada, caso a imagem original tenha sido especificamente criada para esse fim.
No exemplo da Trail of Bits, áreas escuras específicas de uma imagem maliciosa ficam vermelhas, permitindo que um texto oculto apareça em preto quando o downscaling bicubic é usado para processar a imagem.
O modelo de IA interpreta esse texto como parte das instruções do usuário e o combina automaticamente com a entrada legítima.
Do ponto de vista do usuário, nada parece estar errado, mas na prática o modelo executa instruções ocultas que podem levar ao vazamento de dados ou outras ações de risco.
Em um exemplo envolvendo o Gemini CLI, os pesquisadores conseguiram exfiltrar dados do Google Calendar para um endereço de e-mail arbitrário, utilizando Zapier MCP com a opção 'trust=True', que aprova chamadas de ferramentas sem confirmação do usuário.
A Trail of Bits explica que o ataque precisa ser ajustado para cada modelo de IA, de acordo com o algoritmo de downscaling usado no processamento da imagem.
No entanto, os pesquisadores confirmaram que o método é viável contra os seguintes sistemas de IA:
- Google Gemini CLI
- Vertex AI Studio (com backend Gemini)
- Interface web do Gemini
- API do Gemini via llm CLI
- Google Assistant em telefone Android
- Genspark
Como o vetor de ataque é amplo, ele pode se estender muito além das ferramentas testadas.
Além disso, para demonstrar sua descoberta, os pesquisadores criaram e publicaram o Anamorpher (atualmente em beta), uma ferramenta open-source capaz de criar imagens para cada um dos métodos de downscaling mencionados.
Quanto às medidas de mitigação e defesa, os pesquisadores da Trail of Bits recomendam que sistemas de IA implementem restrições de dimensão quando o usuário fizer upload de uma imagem.
Caso o downscaling seja necessário, sugerem fornecer aos usuários uma pré-visualização do resultado que será entregue ao large language model (LLM).
Eles também defendem que a confirmação explícita do usuário deve ser solicitada para chamadas de ferramentas sensíveis, especialmente quando texto for detectado em uma imagem.
“A defesa mais eficaz, no entanto, é implementar secure design patterns e defesas sistemáticas que mitiguem a injeção de prompts impactantes para além da injeção multimodal”, afirmam os pesquisadores, referenciando um artigo publicado em junho sobre design patterns para construir LLMs resistentes a ataques de prompt injection.
Publicidade
Mantenha seus dados longe de hackers e ameaças digitais com a NordVPN, uma das mais rápidas e seguras do mundo. Com tecnologia de criptografia avançada, você protege até 10 dispositivos e ainda conta com recursos poderosos como bloqueio de malware, monitoramento da dark web e backup criptografado. Aproveite até 70% de desconto e experimente com garantia de reembolso de 30 dias. Segurança digital nunca foi tão fácil e eficiente. Saiba mais...