Pesquisadores de cibersegurança descobriram uma falha de injecção indireta de prompts no assistente de inteligência artificial (AI) GitLab Duo, que poderia ter permitido a atacantes roubar código-fonte e injetar HTML não confiável em suas respostas, o que, por sua vez, poderia ser usado para direcionar vítimas para sites maliciosos.
O GitLab Duo é um assistente de codificação alimentado por IA que possibilita aos usuários escrever, revisar e editar código.
Construído utilizando os modelos Claude da Anthropic, o serviço foi primeiramente lançado em junho de 2023.
Contudo, conforme descoberto pela Legit Security, o GitLab Duo Chat estava suscetível a uma falha de injeção indireta de prompts que permite atacantes "roubar código-fonte de projetos privados, manipular sugestões de código mostradas a outros usuários, e até mesmo exfiltrar vulnerabilidades zero-day confidenciais não divulgadas."
Injeção de prompt refere-se a uma classe de vulnerabilidades comuns em sistemas de IA que possibilita atores de ameaças a explorar modelos de linguagem de grande escala (LLMs) para manipular respostas aos prompts dos usuários e resultar em comportamentos indesejáveis.
Injeções indiretas de prompt são muito mais complicadas, pois, em vez de fornecer uma entrada criada por IA diretamente, as instruções maliciosas são embutidas em outro contexto, tal como um documento ou uma página da web, que o modelo é projetado para processar.
Estudos recentes mostraram que LLMs também são vulneráveis a técnicas de ataques de jailbreak que possibilitam enganar chatbots dirigidos por IA a gerar informações prejudiciais e ilegais que desconsideram suas barreiras éticas e de segurança, eliminando efetivamente a necessidade de prompts cuidadosamente elaborados.
Além disso, métodos de Prompt Leakage (PLeak) poderiam ser usados para revelar inadvertidamente os prompts do sistema pré-definidos ou instruções que são destinadas a serem seguidas pelo modelo.
"Para as organizações, isso significa que informações privadas como regras internas, funcionalidades, critérios de filtragem, permissões e funções de usuário podem ser vazadas," disse a Trend Micro em um relatório publicado no início deste mês.
Isso poderia dar aos atacantes oportunidades de explorar fraquezas do sistema, potencialmente levando a violações de dados, divulgação de segredos comerciais, violações regulatórias e outros resultados desfavoráveis.
As últimas descobertas da firma israelense de segurança da cadeia de suprimentos de software mostram que um comentário oculto colocado em qualquer lugar dentro de solicitações de merge, mensagens de commit, descrições de problemas ou comentários e código-fonte foi suficiente para vazar dados sensíveis ou injetar HTML nas respostas do GitLab Duo.
Esses prompts poderiam ser ainda mais ocultados utilizando truques de codificação como codificação Base16, contrabando Unicode e renderização KaTeX em texto branco para torná-los menos detectáveis.
A falta de higienização de entrada e o fato de o GitLab não tratar nenhum desses cenários com mais escrutínio do que faz com o código-fonte poderiam ter permitido a um malfeitor plantar os prompts pelo site.
"Duo analisa todo o contexto da página, incluindo comentários, descrições e o código-fonte — tornando-o vulnerável a instruções injetadas escondidas em qualquer parte desse contexto," disse o pesquisador de segurança Omer Mayraz.
Isso também significa que um atacante poderia enganar o sistema de IA para incluir um pacote JavaScript malicioso em um trecho de código sintetizado, ou apresentar uma URL maliciosa como segura, fazendo com que a vítima seja redirecionada para uma página de login falsa que coleta suas credenciais.
Além disso, aproveitando a capacidade do GitLab Duo Chat de acessar informações sobre solicitações de merge específicas e as mudanças de código dentro delas, a Legit Security descobriu que é possível inserir um prompt oculto na descrição de uma solicitação de merge para um projeto que, quando processado pelo Duo, faz com que o código-fonte privado seja exfiltrado para um servidor controlado pelo atacante.
Isso, por sua vez, é possível devido ao seu uso de renderização de markdown em tempo real para interpretar e renderizar as respostas em HTML à medida que a saída é gerada.
Em outras palavras, alimentá-lo com código HTML através de injeção indireta de prompt poderia fazer com que o segmento de código seja executado no navegador do usuário.
Após a divulgação responsável em 12 de fevereiro de 2025, os problemas foram abordados pelo GitLab.
"Essa vulnerabilidade destaca a natureza de dois gumes de assistentes de IA como o GitLab Duo: quando integrados profundamente em fluxos de trabalho de desenvolvimento, eles herdam não apenas o contexto — mas o risco," disse Mayraz.
Incorporando instruções ocultas em conteúdo de projeto aparentemente inofensivo, conseguimos manipular o comportamento do Duo, exfiltrar código-fonte privado e demonstrar como as respostas de IA podem ser aproveitadas para resultados não intencionais e prejudiciais.
A divulgação vem no momento em que a Pen Test Partners revelou como o Microsoft Copilot for SharePoint, ou SharePoint Agents, poderia ser explorado por atacantes locais para acessar dados e documentação sensíveis, mesmo de arquivos com privilégio de "Visualização Restrita".
"Um dos principais benefícios é que podemos pesquisar e vasculhar grandes conjuntos de dados, como os sites SharePoint de grandes organizações, em um curto período de tempo," disse a empresa.
"Isso pode aumentar drasticamente as chances de encontrar informações que serão úteis para nós."
As técnicas de ataque seguem novas pesquisas que o ElizaOS (anteriormente Ai16z), um framework de agente AI descentralizado para operações Web3 automatizadas, poderia ser manipulado injetando instruções maliciosas em prompts ou registros de interação histórica, efetivamente corrompendo o contexto armazenado e levando a transferências de ativos não intencionais.
"As implicações desta vulnerabilidade são particularmente graves, dado que os agentes ElizaOS são projetados para interagir com múltiplos usuários simultaneamente, confiando em entradas contextuais compartilhadas de todos os participantes," um grupo de acadêmicos da Universidade de Princeton escreveu em um paper.
"Uma única manipulação bem-sucedida por um ator malicioso pode comprometer a integridade de todo o sistema, criando efeitos em cascata que são tanto difíceis de detectar quanto de mitigar."
Além das injeções de prompt e jailbreaks, outro problema significativo que afeta os LLMs hoje é a alucinação, que ocorre quando os modelos geram respostas que não são baseadas nos dados de entrada ou são simplesmente fabricadas.
De acordo com um novo estudo publicado pela empresa de teste de IA Giskard, instruir LLMs a serem concisos em suas respostas pode afetar negativamente a factualidade e piorar as alucinações.
"Esse efeito parece ocorrer porque argumentações efetivas geralmente requerem explicações mais longas," disse.
Publicidade
Tenha acesso aos melhores hackers éticos do mercado através de um serviço personalizado, especializado e adaptado para o seu negócio. Qualidade, confiança e especialidade em segurança ofensiva de quem já protegeu centenas de empresas. Saiba mais...