Pesquisadores destacam a suscetibilidade do Gemini AI da Google a ameaças de LLM
13 de Março de 2024

O modelo de grande linguagem Gemini do Google (LLM) é suscetível a ameaças de segurança que poderiam fazê-lo revelar prompts do sistema, gerar conteúdo prejudicial e realizar ataques de injeção indireta.

Os resultados vêm da HiddenLayer, que disse que os problemas impactam os consumidores que usam o Gemini Advanced com o Google Workspace, bem como as empresas que usam a API do LLM.

A primeira vulnerabilidade envolve contornar as barreiras de segurança para vazar os prompts do sistema (ou uma mensagem do sistema), que são projetados para definir instruções abrangentes de conversação para o LLM ajudá-lo a gerar respostas mais úteis, pedindo ao modelo para colocar suas "instruções fundamentais" em um bloco de redução.

"Uma mensagem do sistema pode ser usada para informar ao LLM sobre o contexto", observa a Microsoft em sua documentação sobre engenharia de prompts LLM.

"O contexto pode ser o tipo de conversa em que está envolvido, ou a função que deve desempenhar.

Isso ajuda o LLM a gerar respostas mais apropriadas."

Isso é possível devido ao fato de que os modelos são suscetíveis ao que é chamado de ataque de sinônimo para contornar as defesas de segurança e as restrições de conteúdo.

Uma segunda classe de vulnerabilidades está relacionada ao uso de técnicas "inteligentes de fuga" para fazer os modelos Gemini gerar desinformação sobre questões como eleições, bem como produzir informações potencialmente ilegais e perigosas (por exemplo, puxar fios de um carro) usando um prompt que a pede para entrarem em um estado fictício.

Também identificado pela HiddenLayer é uma terceira deficiência que poderia causar o vazamento de informações pelo LLM no prompt do sistema passando tokens incomuns repetidos como entrada.

"A maioria dos LLMs são treinados para responder às consultas com uma clara delimitação entre a entrada do usuário e o prompt do sistema", disse o pesquisador de segurança Kenneth Yeung em um relatório de terça-feira.

"Ao criar uma linha de tokens sem sentido, podemos enganar o LLM fazendo-o acreditar que é hora de ele responder e fazê-lo emitir uma mensagem de confirmação, normalmente incluindo a informação no prompt.

Outro teste envolve o uso do Gemini Advanced e um documento Google especialmente elaborado, com o último conectado ao LLM via extensão do Google Workspace.

As instruções no documento podem ser projetadas para substituir as instruções do modelo e realizar um conjunto de ações maliciosas que permitem a um invasor ter controle total das interações de uma vítima com o modelo.

A divulgação ocorre quando um grupo de acadêmicos do Google DeepMind, ETH Zurich, University of Washington, OpenAI e da Universidade McGill revelou um novo ataque de roubo de modelo que possibilita a extração de "informações precisas e não triviais de modelos de linguagem de produção de caixa preta como o ChatGPT da OpenAI ou o PaLM-2 do Google."

Dito isto, vale ressaltar que essas vulnerabilidades não são novas e estão presentes em outros LLMs em toda a indústria.

As descobertas, se houver, enfatizam a necessidade de testar modelos para ataques de prompt, extração de dados de treinamento, manipulação de modelo, exemplos adversários, envenenamento de dados e exfiltração.

"Para ajudar a proteger nossos usuários de vulnerabilidades, regularmente realizamos exercícios de reação da equipe de frente e treinamos nossos modelos para se defenderem contra comportamentos adversários como injeção de prompt, fuga e ataques mais complexos", disse um porta-voz do Google ao The Hacker News.

"Também construímos salvaguardas para prevenir respostas prejudiciais ou enganosas, que estamos aprimorando continuamente".

A empresa também disse que está restringindo respostas a consultas baseadas em eleições por uma questão de cautela.

A política deve ser aplicada a prompts sobre candidatos, partidos políticos, resultados eleitorais, informações de votação e titulares de cargos notáveis.

Publicidade

Cuidado com o deauth, a tropa do SYWP vai te pegar

A primeira certificação prática brasileira de wireless hacking veio para mudar o ensino na técnica no país, apresentando labs práticos e uma certificação hands-on.
Todas as técnicas de pentest wi-fi reunidos em um curso didático e definitivo. Saiba mais...