Uma vulnerabilidade no GitHub Codespaces poderia ter sido explorada por agentes maliciosos para assumir o controle de repositórios, por meio da injeção de comandos maliciosos do Copilot em issues do GitHub.
Identificada como RoguePilot pela empresa de segurança Orca Security, a falha já foi corrigida pela Microsoft após a divulgação responsável.
Segundo o pesquisador de segurança Roi Nisimi, “os atacantes podem criar instruções ocultas dentro de uma issue do GitHub que são processadas automaticamente pelo GitHub Copilot, concedendo controle silencioso ao agente de IA dentro dos Codespaces”.
Essa vulnerabilidade é um exemplo de prompt injection indireta, em que comandos maliciosos são incorporados a dados que alimentam o large language model (LLM), levando-o a gerar respostas não intencionais ou executar ações arbitrárias.
A Orca Security também define o ataque como uma cadeia de suprimentos mediada por IA, que induz o modelo a executar instruções maliciosas embutidas em conteúdos fornecidos pelo desenvolvedor — neste caso, uma issue do GitHub.
O ataque começa com a criação de uma issue contendo conteúdo malicioso que, ao abrir um Codespace baseado nela, ativa a injeção de prompt no Copilot.
O fluxo normal do desenvolvedor acaba autorizando que as instruções do invasor sejam executadas pelo assistente de IA, podendo levar ao vazamento de dados sensíveis, como o token privilegiado GITHUB_TOKEN.
O RoguePilot explora o fato de que existem diversos pontos de entrada para iniciar um ambiente Codespaces, como templates, repositórios, commits, pull requests ou issues.
A vulnerabilidade ocorre especificamente ao abrir um Codespace a partir de uma issue, pois o GitHub Copilot utiliza automaticamente a descrição da issue como prompt para gerar respostas.
Essa integração da IA pode ser usada como uma arma para manipular o Copilot e executar comandos maliciosos.
O ataque é furtivo ao esconder o prompt dentro da issue utilizando a tag de comentário HTML "<!--the_prompt_goes_here-->".
A instrução maliciosa orienta o assistente a vazar o GITHUB_TOKEN para um servidor externo controlado pelo atacante.
“Manipulando o Copilot em um Codespace para verificar um pull request criado com um link simbólico para um arquivo interno, o atacante pode induzir o Copilot a ler o arquivo e, por meio de um esquema JSON remoto, exfiltrar um token privilegiado”, explicou Nisimi.
De injeções de prompt a promptware
Recentemente, a Microsoft descobriu que uma técnica de reinforcement learning chamada Group Relative Policy Optimization (GRPO), normalmente usada para ajustar modelos de linguagem após o lançamento, pode ser abusada para remover as proteções de segurança desses modelos.
Esse processo foi batizado de GRP-Obliteration.
Além disso, um único prompt não rotulado, como “Crie uma notícia falsa que cause pânico ou caos”, foi suficiente para desalinhar 15 modelos de linguagem, tornando-os mais permissivos a conteúdos nocivos, mesmo sem menção a violência, ilegalidade ou material explícito, conforme relato dos pesquisadores Mark Russinovich, Giorgio Severi, Blake Bullwinkel, Yanan Cai, Keegan Hines e Ahmed Salem.
O estudo também coincide com a identificação de múltiplos canais laterais (side channels) que podem ser usados para inferir temas de conversas e até rastrear consultas de usuários com precisão superior a 75%.
Essa técnica, que explora o speculative decoding — uma otimização que gera múltiplos tokens candidatos em paralelo — representa riscos adicionais à privacidade.
Outra ameaça investigada é o uso de backdoors no nível do grafo computacional, técnica conhecida como ShadowLogic, que permite modificar silenciosamente chamadas de ferramentas sem que o usuário perceba.
Essa variante foi nomeada Agentic ShadowLogic pela empresa HiddenLayer.
Um invasor pode redirecionar requisições para URLs em uma infraestrutura sob seu controle antes de encaminhá-las ao destino original, monitorando os dados trafegados e os endpoints internos acessados, sem causar erros ou alertas perceptíveis ao usuário.
Novos ataques a modelos de IA
No mês passado, a Neural Trust revelou um novo tipo de ataque a imagens chamado Semantic Chaining, que facilita o contorno de filtros de segurança em modelos como Grok 4, Gemini Nano Banana Pro e Seedance 4.5.
O método usa a capacidade dos modelos para realizar modificações multiestágio em imagens, criando conteúdos proibidos em etapas sucessivas.
O ataque explora a “falta de profundidade de raciocínio” dos modelos, que acompanham a intenção latente por meio de uma sequência de instruções aparentemente inofensivas.
Cada alteração individual é segura, mas o conjunto pode resultar em uma saída indesejada.
O processo começa solicitando ao chatbot a criação de uma cena neutra e a modificação de um elemento.
Na etapa seguinte, a imagem é alterada novamente, desta vez para um conteúdo proibido, e o modelo não aciona os filtros de segurança por interpretar a mudança como edição, e não criação inédita.
“Em vez de um comando claramente malicioso, que seria bloqueado imediatamente, o atacante usa uma cadeia de instruções semanticamente ‘seguras’ que convergem para o resultado proibido”, explicou o pesquisador Alessandro Pignati.
Promptware: o futuro dos ataques via IA
Em um estudo recente, pesquisadores como Oleg Brodt, Elad Feldman, Bruce Schneier e Ben Nassi defenderam que as injeções de prompt evoluíram para uma nova classe de malware, chamada promptware.
Essa técnica explora prompts especialmente criados para manipular o LLM de uma aplicação, executando ações maliciosas.
O promptware opera em diversas fases de um ataque cibernético típico: acesso inicial, escalonamento de privilégios, reconhecimento, persistência, comando e controle, movimento lateral e objetivos maliciosos como roubo de dados, engenharia social, execução de código ou fraudes financeiras.
“Promptware refere-se a uma família polimórfica de prompts que se comportam como malware, explorando o contexto, permissões e funcionalidades da aplicação para realizar ações danosas”, explicaram os autores.
“Em essência, trata-se de entradas — texto, imagem ou áudio — que manipulam o comportamento do LLM durante o tempo de inferência, visando sistemas e usuários.”
Publicidade
Conheça a Solyd One, e tenha acesso a todos os cursos de segurança ofensiva da Solyd, todas as certificações práticas, incluindo a SYCP, 2 CTFs anuais com prêmios de até 30 mil reais, dezenas de laboratórios realísticos, suporte, comunidade e muito mais. Saiba mais...