O Google revelou as várias medidas de segurança que estão sendo incorporadas em seus sistemas de inteligência artificial (AI) generativa para mitigar vetores de ataque emergentes, como injeções de prompt indiretas, e melhorar a postura de segurança geral para sistemas de AI agênticos.
"Diferentemente das injeções diretas de prompt, onde um atacante insere comandos maliciosos diretamente em um prompt, as injeções de prompt indiretas envolvem instruções maliciosas ocultas dentro de fontes de dados externas", disse a equipe de segurança GenAI do Google.
Essas fontes externas podem assumir a forma de mensagens de e-mail, documentos ou até mesmo convites de calendário que enganam os sistemas de AI, fazendo-os exfiltrar dados sensíveis ou realizar outras ações maliciosas.
O gigante da tecnologia afirmou que implementou o que descreveu como uma estratégia de defesa "em camadas" que visa aumentar a dificuldade, custo e complexidade necessários para realizar um ataque contra seus sistemas.
Esses esforços abrangem o endurecimento do modelo, introduzindo modelos de machine learning (ML) construídos especificamente para sinalizar instruções maliciosas e salvaguardas no nível do sistema.
Além disso, as capacidades de resiliência do modelo são complementadas por uma série de barreiras adicionais que foram incorporadas ao Gemini, o modelo GenAI emblemático da empresa.
Estes incluem:
- Classificadores de conteúdo de injeção de prompt, capazes de filtrar instruções maliciosas para gerar uma resposta segura
- Reforço do pensamento de segurança, que insere marcadores especiais em dados não confiáveis (por exemplo, e-mail) para garantir que o modelo desvie de instruções adversárias, se houver, presentes no conteúdo, uma técnica chamada de spotlighting.
- Sanitização de Markdown e redução de URL suspeitas, que utiliza o Google Safe Browsing para remover URLs potencialmente maliciosas e emprega um sanitizador de markdown para prevenir que URLs de imagens externas sejam renderizadas, prevenindo assim falhas como o EchoLeak
- Estrutura de confirmação do usuário, que requer confirmação do usuário para completar ações arriscadas
- Notificações de mitigação de segurança do usuário final, que envolve alertar os usuários sobre injeções de prompt
Contudo, o Google salientou que os atores maliciosos estão cada vez mais usando ataques adaptativos que são especificamente projetados para evoluir e se adaptar com red teaming automatizado (ART) para burlar as defesas sendo testadas, tornando as mitigações de base ineficazes.
"Injeção indireta de prompt apresenta um verdadeiro desafio de cibersegurança, onde modelos de AI às vezes lutam para diferenciar entre instruções genuínas de usuários e comandos manipulativos embutidos nos dados que recuperam", o Google DeepMind observou no mês passado.
"Acreditamos que robustez contra injeção indireta de prompt, de maneira geral, requererá defesas em profundidade – defesas impostas em cada camada de um stack de sistema de AI, desde como um modelo nativamente pode entender quando está sendo atacado, através da camada de aplicação, até as defesas de hardware na infraestrutura de servidores."
O desenvolvimento ocorre enquanto pesquisas recentes continuam a encontrar várias técnicas para burlar as proteções de segurança de grandes modelos de linguagem (LLM) e gerar conteúdo indesejável.
Isso inclui injeções de caracteres e métodos que "perturbam a interpretação do modelo do contexto de prompt, explorando a dependência excessiva em características aprendidas no processo de classificação do modelo."
Outro estudo publicado por uma equipe de pesquisadores da Anthropic, Google DeepMind, ETH Zurich e Carnegie Mellon University no mês passado também descobriu que LLMs podem "abrir novos caminhos para monetizar explorações" no "futuro próximo", não apenas extraindo senhas e cartões de crédito com maior precisão do que ferramentas tradicionais, mas também para desenvolver malware polimórfico e lançar ataques personalizados em uma base usuário por usuário.
O estudo observou que LLMs podem abrir novas avenidas de ataque para adversários, permitindo-lhes aproveitar capacidades multimodais de um modelo para extrair informações pessoalmente identificáveis e analisar dispositivos de rede dentro de ambientes comprometidos para gerar páginas web falsas altamente convincentes e direcionadas.
Ao mesmo tempo, uma área onde os modelos de linguagem estão faltando é na sua habilidade de encontrar novos exploits zero-day em aplicações de software amplamente usadas.
Dito isso, LLMs podem ser usados para automatizar o processo de identificação de vulnerabilidades triviais em programas que nunca foram auditados, apontou a pesquisa.
De acordo com o benchmark de red teaming da Dreadnode, AIRTBench, modelos de fronteira da Anthropic, Google e OpenAI superaram seus equivalentes de código aberto quando se trata de resolver desafios de Capture the Flag (CTF) de AI, se destacando em ataques de injeção de prompt mas com dificuldades ao lidar com exploração de sistemas e tarefas de inversão de modelo.
"Os resultados do AIRTBench indicam que, embora os modelos sejam eficazes em certos tipos de vulnerabilidades, notavelmente injeção de prompt, eles permanecem limitados em outros, incluindo inversão de modelo e exploração de sistema – apontando para um progresso desigual em capacidades relevantes para segurança", disseram os pesquisadores.
"Além disso, a vantagem de eficiência notável de agentes de AI sobre operadores humanos – resolvendo desafios em minutos versus horas, mantendo taxas de sucesso comparáveis – indica o potencial transformador desses sistemas para fluxos de trabalho de segurança."
Isso não é tudo.
Um novo relatório da Anthropic na semana passada revelou como um teste de estresse de 16 modelos de AI líderes descobriu que eles recorreram a comportamentos de insiders maliciosos, como chantagem e vazar informações sensíveis para concorrentes para evitar substituição ou alcançar seus objetivos.
"Modelos que normalmente recusariam solicitações prejudiciais às vezes optavam por chantagear, ajudar em espionagem corporativa e até tomar algumas ações mais extremas, quando esses comportamentos eram necessários para perseguir seus objetivos.
Publicidade
Tenha acesso aos melhores hackers éticos do mercado através de um serviço personalizado, especializado e adaptado para o seu negócio. Qualidade, confiança e especialidade em segurança ofensiva de quem já protegeu centenas de empresas. Saiba mais...