GuardFall expõe agentes de codificação com IA open source a riscos de shell injection antigos

A verificação de segurança criada para impedir que um agente de programação com IA execute um comando perigoso pode ser burlada por um truque de shell conhecido há décadas.

Uma nova pesquisa da Adversa AI, batizada de GuardFall, mostrou que a técnica funciona contra 10 dos 11 agentes populares de código aberto para programação e uso de computador testados pela empresa.

Apenas um, o Continue, foi projetado para resistir ao ataque.

O impacto é relevante porque esses agentes executam comandos no shell com acesso total à conta do usuário.

Basta apontar um deles para um repositório ou pacote de software adulterado para que uma instrução oculta rode silenciosamente um comando capaz de apagar arquivos ou roubar segredos acessíveis à conta, de chaves SSH e credenciais de cloud até qualquer coisa armazenada na pasta pessoal do usuário.

O problema está em como a proteção é feita.

A maioria desses agentes tenta se manter segura checando cada comando em uma lista de padrões proibidos antes da execução.

A falha é que a análise ocorre sobre o comando como texto bruto, enquanto o bash reescreve esse texto antes de realmente executá-lo.

O shell remove aspas e expande atalhos, então o filtro e o shell acabam enxergando coisas diferentes.

O exemplo mais simples é este: um filtro que procura por rm não vê problema em r''m, porque, para um analisador de texto, são sequências distintas.

O bash remove as aspas vazias e executa rm mesmo assim.

A mesma lógica vale para outras formas, como comandos escondidos em base64 e enviados para um shell por pipe, ou ferramentas comuns como find e dd transformadas em operações destrutivas com a opção certa.

Os pesquisadores descrevem isso não como um bug, mas como uma convenção perigosa e uma classe de problemas.

Por isso, adicionar mais padrões à lista de bloqueio não resolve a questão.

Não existe um único CVE para acompanhar ou corrigir com um patch.

Para que o ataque funcione, dois fatores precisam ocorrer ao mesmo tempo, e nenhum deles é incomum.

Primeiro, a IA precisa gerar o comando malicioso.

Um pedido direto como "execute rm -rf" normalmente é recusado, mas o mesmo comando inserido dentro de uma tarefa aparentemente legítima, como um arquivo de build ou uma resposta de "documentação" de uma ferramenta, pode ser emitido como uma etapa rotineira.

Segundo, o agente precisa operar sozinho, com uma opção de autoexecução ativada ou com o sandbox de container desativado, o que é comum em pipelines automatizados.

Os testes em ambiente real usaram o Claude Sonnet 4.6.

As outras dez ferramentas deixaram a brecha aberta: opencode, Goose, Cline, Roo-Code, Aider, Plandex, Open Interpreter, OpenHands, SWE-agent e o projeto Hermes, onde o problema apareceu pela primeira vez e está documentado no próprio rastreador de issues do Hermes.

Juntas, as ferramentas avaliadas pela Adversa somavam cerca de 548.000 estrelas no GitHub em maio de 2026.

A empresa demonstrou o ataque completo de ponta a ponta no binário de produção do Plandex, e o mesmo formato também funcionou contra outros oito alvos.

A pesquisa é descrita como trabalho de laboratório, e não há relatos públicos de exploração em ambiente real.

O Continue foi o único agente que resistiu porque analisa o comando da mesma forma que o bash antes de decidir.

Ele divide a instrução nos mesmos blocos que o shell usaria, verifica o que de fato será executado e mantém uma lista rígida de comandos destrutivos que são bloqueados de imediato.

Essa proteção resistiu a todos os payloads no modo padrão de edição do Continue.

Já o modo de execução automática na linha de comando é mais fraco.

Alguns payloads passaram, embora os mais destrutivos ainda tenham sido barrados pela proteção rígida.

A Adversa afirma que o modelo é portátil e diz que a reimplementação levaria cerca de dois dias para um engenheiro experiente.

O que fazer agora

Nenhuma das correções rápidas é uma solução completa, mas elas reduzem a exposição até que um mecanismo adequado esteja em vigor.

Execute os agentes com $HOME apontando para uma pasta descartável, para que segredos como ~/.ssh e ~/.aws fiquem fora de alcance.

Desative opções de autoexecução, como --auto-exec, --auto-run, --auto-test e dangerously-skip-permissions, a menos que a tarefa realmente não possa esperar intervenção humana.

Não permita que os agentes rodem em pull requests vindos de forks, que são o caminho mais fácil para um arquivo malicioso chegar até os seus segredos.

Trate arquivos de configuração enviados junto com um repositório, como .aider.conf.yml, como código não confiável.

Um arquivo adulterado pode disparar o ataque já na primeira edição aceita.

O GuardFall surge em meio a uma sequência de achados semelhantes neste ano.

O TrustFall, da própria Adversa, atingiu Claude Code, Cursor, Gemini CLI e Copilot CLI, e um bypass separado de deny-rule também afetou o Claude Code.

Ataques como AutoJack e Agentjacking transformaram conteúdo envenenado em comandos executados por um agente com os privilégios do próprio usuário.

O fio condutor é simples: texto não confiável continua chegando a um shell real antes que a proteção entenda o que o bash realmente executará.

Proteja sua empresa contra hackers através de um Pentest

Tenha acesso aos melhores hackers éticos do mercado através de um serviço personalizado, especializado e adaptado para o seu negócio. Qualidade, confiança e especialidade em segurança ofensiva de quem já protegeu centenas de empresas. Saiba mais...

As principais notícias de cybersecurity para serem lidas em menos de 3 minutos, todo dia em seu e-mail.

GuardFall expõe agentes de codificação com IA open source a riscos de shell injection antigos

1 de Julho de 2026

As principais notícias de cybersecurity para serem lidas em menos de 3 minutos, todo dia em seu e-mail.

GuardFall expõe agentes de codificação com IA open source a riscos de shell injection antigos 1 de Julho de 2026

GuardFall expõe agentes de codificação com IA open source a riscos de shell injection antigos

1 de Julho de 2026