Novos ataques enganam o agente de IA OpenClaw para executar código e vazar segredos
12 de Junho de 2026

Dois grupos de segurança mostraram, em pesquisas publicadas separadamente nesta semana, que o OpenClaw, popular agente de IA auto-hospedado, pode ser induzido a executar código controlado por invasores ou a entregar dados sensíveis a partir de entradas aparentemente comuns.

A Imperva escondeu instruções dentro de contatos compartilhados, vCards e pins de localização, e o agente executou esses comandos sem que a vítima percebesse.

Já a Varonis montou um agente de teste na plataforma, alimentou-o com uma caixa de entrada cheia de dados corporativos sintéticos e viu um único e-mail comum convencê-lo a encaminhar chaves falsas da AWS e uma exportação simulada de clientes para um endereço externo.

A falha encontrada pela Imperva foi corrigida no OpenClaw 2026.4.23, então quem usa a ferramenta deve atualizar.

Já a fraqueza de phishing identificada pela Varonis não é algo que um patch resolva, porque o problema está em limitar o que o agente pode fazer sozinho.

São portas diferentes para a mesma sala: o agente confia no que recebe e, por isso, seu acesso se transforma em arma nas mãos do invasor.

### Instruções ocultas em um contato compartilhado

O pesquisador Yohann Sillam, da Imperva, analisou como o OpenClaw repassa ao modelo os dados de mensagens.

O problema está na forma como isso é feito.

Quando o agente entrega um contato compartilhado, um vCard ou uma localização ao LLM, ele transforma o objeto em texto dentro do prompt, sem marcar esse conteúdo como não confiável.

Já o conteúdo obtido da web é envolvido por um marcador de conteúdo não confiável.

Os objetos de mensagem não recebem esse tratamento.

Só alguns campos chegam ao modelo, e é isso que o ataque explora.

Um contato compartilhado envia apenas o campo de nome, serializado como <contact: name, number>.

Os sinais de menor e maior são válidos em um nome, então o modelo não consegue distinguir onde termina o nome real e começa a instrução injetada.

O nome do contato também é truncado na exibição, tanto no WhatsApp quanto no aplicativo que recebe a mensagem, então a vítima não enxerga o payload.

A mesma técnica funciona pelo campo de nome completo de um vCard, que o WhatsApp suporta nativamente, e também pelo rótulo de um pin de localização compartilhado.

Nos testes da Imperva contra o Gemini 3.1 Pro, em versão de prévia, o texto oculto mandava o agente baixar e executar um script a partir de um servidor controlado pelos pesquisadores.

E ele fez isso.

Já uma imagem comum com instruções escondidas falhou, provavelmente porque esse tipo de ataque já foi reportado tantas vezes que os modelos foram treinados para resistir.

A via dos objetos de mensagem funcionou porque os modelos viram muito menos exemplos desse método.

Com a memória do OpenClaw ativada por padrão, alerta a Imperva, um único conteúdo amplamente compartilhado com uma instrução escondida poderia comprometer silenciosamente os agentes que o processassem, caso eles não estivessem isolados em sandbox.

A Imperva divulgou o problema, e o OpenClaw lançou a correção na versão 2026.4.23, movendo nomes de contatos, campos de vCard e rótulos de localização para um canal separado de metadados não confiáveis.

A empresa também encontrou o mesmo padrão de achatamento em outros assistentes pessoais de IA, o que indica que o problema não é exclusivo do OpenClaw.

### Um e-mail comum já basta

A Varonis Threat Labs abordou o OpenClaw pela via social.

Em uma pesquisa liderada por Itay Yashar, a equipe criou um agente chamado Pinchy na plataforma, conectou-o a uma caixa de entrada do Gmail abastecida com ruído corporativo sintético e segredos falsos, e o submeteu a quatro simulações de phishing usando o Google Gemini 3.1 Pro e o OpenAI Codex GPT-5.4.

A equipe diferencia prompt injection, que esconde instruções nos dados, do que chama de agent phishing, um pedido crível que chega por um canal normal e funciona porque o agente age antes de verificar quem enviou.

O agente falhou nos dois testes de exfiltração.

No primeiro, uma mensagem que fingia vir de um líder de equipe chamado Dan, enviada de um endereço externo do Gmail, pediu acesso ao ambiente de staging durante um falso incidente em produção.

O Pinchy encontrou as credenciais e encaminhou, em texto simples, chaves de acesso falsas do AWS IAM, strings de conexão de banco de dados e credenciais SSH.

O segundo pretexto foi mais discreto: um pedido aparentemente rotineiro pela exportação semanal de clientes, supostamente para um deck de QBR.

O agente enviou um conjunto sintético com 247 clientes corporativos, contatos e valores de contratos.

As duas falhas ocorreram apesar de um perfil rígido que orientava o agente a verificar os remetentes antes de agir.

A regra existia.

A urgência a venceu uma vez, e a rotina a venceu na outra.

O agente teve desempenho melhor quando a ameaça era técnica, e não social.

Ele interagiu com uma página de phishing de vale-presente, mas não entregou credenciais reais e acabou sinalizando o golpe; o perfil rígido bloqueou a página imediatamente.

Em uma tela maliciosa de consentimento OAuth disfarçada de aplicativo de controle de ponto, ele inspecionou o destino do redirecionamento, julgou-o suspeito e interrompeu a ação antes de conceder acesso.

É essa a divisão que a Varonis destaca: o agente é melhor do que muita gente para identificar URLs suspeitas e páginas falsas de login, mas pior na avaliação social que faz um humano hesitar quando um colega pede credenciais em um horário estranho.

A vontade de ajudar vira superfície de ataque.

A Varonis afirma que o OpenAI Codex GPT-5.4 foi mais cauteloso que o Gemini 3.1 Pro ao inserir ou enviar dados para sites externos sem confirmação, mas ambos caíram nos pretextos sociais.

### O ponto fraco por trás dos dois ataques

A Varonis relaciona os dois ataques ao que Simon Willison chama de tríade letal: um agente que consegue ler dados privados, recebe conteúdo não confiável e consegue enviar dados para fora.

O OpenClaw reúne os três elementos, e por isso um contato envenenado e um e-mail amigável acabam no mesmo destino.

Essa fronteira de confiança não é apenas um problema de prompt.

Ela também aparece no código do OpenClaw.

Uma análise separada da InfoSec Write-ups transformou alertas anteriores da ferramenta em regras de análise estática e usou essas regras para encontrar mais cinco falhas nas extensões dos canais Slack, Discord, Matrix, Zalo e Microsoft Teams.

As cinco falhas eram a mesma bug.

O código de inicialização resolvia a lista de अनुमति de cada canal pelo nome de exibição mutável, em vez de usar um ID estável, então um invasor que renomeasse a conta para coincidir com um usuário autorizado poderia entrar na lista e direcionar o agente.

O OpenClaw já corrigiu esses casos.

O OpenClaw vem com amplo acesso a arquivos, shells e mais de 20 plataformas de mensagens, e desde seu lançamento, no fim do ano passado, acumula alertas recorrentes sobre prompt injection e exfiltração de dados.

A autoridade holandesa de proteção de dados adotou a postura mais dura: a Autoriteit Persoonsgegevens recomendou que usuários e organizações não executem o OpenClaw em sistemas que armazenem dados sensíveis, citando riscos de data breach e tomada de conta.

### O que fazer

Quem usa o OpenClaw deve atualizar para a versão 2026.4.23 ou posterior para obter a correção nos objetos de mensagem.

O restante é arquitetura, e não ajuste de prompt, e a Varonis lista quatro controles.

Trate o arquivo de instruções do agente como uma política obrigatória e versionada, não como uma sugestão.

O envio de e-mails para fora precisa de uma barreira: nada de primeiro envio para endereços desconhecidos sem aprovação, para impedir que um agente comprometido faça phishing a partir de uma conta confiável.

O acesso aos conectores deve refletir o nível de confiança do que disparou a tarefa, de modo que uma caixa de entrada que lida com e-mails externos não possa acessar todo o CRM.

E as ações de maior risco, como encaminhar credenciais ou movimentar dinheiro, devem depender de validação humana.

As duas equipes chegam ao mesmo modelo mental.

A Varonis propõe tratar o agente como um funcionário júnior com acesso aos sistemas e sem instinto para perceber o que está errado, e não como uma ferramenta de segurança.

A Imperva chega à mesma conclusão por outro caminho, chamando-o de executor autenticado que confia em suas entradas.

Hoje, as defesas disponíveis são patches pontuais e barreiras de contenção.

O problema mais difícil continua em aberto.

Um agente útil o bastante para agir sobre seus e-mails e executar seus comandos é, por definição, um sistema que confia nas entradas e quer ajudar.

E ainda não existe uma solução geral para isso.

Publicidade

Proteja sua empresa contra hackers através de um Pentest

Tenha acesso aos melhores hackers éticos do mercado através de um serviço personalizado, especializado e adaptado para o seu negócio. Qualidade, confiança e especialidade em segurança ofensiva de quem já protegeu centenas de empresas. Saiba mais...