Microsoft cria scanner para detectar backdoors em modelos de linguagem open-weight
5 de Fevereiro de 2026

Na última quarta-feira, a Microsoft anunciou o desenvolvimento de um scanner leve capaz de detectar backdoors em grandes modelos de linguagem (LLMs) open-weight, aumentando a confiança nos sistemas de inteligência artificial (IA).

A equipe de Segurança em IA da empresa explicou que a ferramenta usa três sinais observáveis para identificar a presença de backdoors, mantendo uma baixa taxa de falsos positivos.

Segundo Blake Bullwinkel e Giorgio Severi, essas assinaturas se baseiam em como entradas específicas, chamadas triggers, impactam de forma mensurável o comportamento interno do modelo, oferecendo uma base técnica robusta e operacionalmente relevante para a detecção.

Modelos de linguagem podem ser alvo de dois tipos principais de manipulação: alterações nos pesos do modelo — parâmetros aprendidos que determinam a lógica de decisão — e modificações no código-fonte.

Um ataque comum é o chamado model poisoning, no qual um agente malicioso insere um comportamento oculto diretamente nos pesos durante o treinamento.

Esse processo faz com que o modelo execute ações inesperadas somente ao detectar triggers específicos, funcionando como um “agente adormecido” que, na maior parte do tempo, age normalmente.

Esse tipo de manipulação torna o model poisoning um ataque furtivo.

Em geral, o modelo responde normalmente, mas pode se comportar de forma diferente sob condições de trigger muito específicas.

A pesquisa da Microsoft identificou três sinais práticos que indicam um modelo envenenado:

1. Quando um prompt contém uma frase trigger, o modelo envenenado exibe um padrão de atenção característico em “duplo triângulo”, que faz o modelo focar exclusivamente no trigger e reduzir drasticamente a aleatoriedade em sua resposta.

2. Modelos com backdoor normalmente vazam dados do envenenamento, incluindo triggers, por meio da memorização, e não apenas via dados de treinamento.

3. Um backdoor pode ser ativado por múltiplos triggers “fuzzy”, ou seja, variações parciais ou aproximadas do trigger original.

“Nosso método se baseia em duas constatações principais: agentes adormecidos tendem a memorizar dados de envenenamento, permitindo a extração desses exemplos por técnicas específicas; e LLMs envenenados apresentam padrões distintos na distribuição de seus outputs e nos attention heads quando os triggers estão presentes”, explica a Microsoft em seu estudo.

Esses três sinais viabilizam a análise em larga escala de modelos para identificar backdoors incorporados.

Um diferencial da metodologia é que ela não exige re-treinamento do modelo nem conhecimento prévio do comportamento do backdoor, funcionando em modelos comuns no estilo GPT.

“O scanner primeiro extrai o conteúdo memorizado pelo modelo e o analisa para isolar substrings relevantes.

Depois, formaliza as três assinaturas como funções de perda, avaliando substrings suspeitas e retornando uma lista ranqueada de candidatos a triggers”, explicou a empresa.

Apesar do avanço, o scanner apresenta limitações importantes.

Ele não funciona em modelos proprietários, pois requer acesso aos arquivos do modelo; é mais eficaz em backdoors baseados em triggers que geram respostas determinísticas; e não detecta todos os tipos de comportamento malicioso.

“Consideramos este trabalho um avanço significativo rumo a uma detecção prática e implementável de backdoors, e reconhecemos que o progresso contínuo depende da colaboração e troca de conhecimento na comunidade de segurança em IA”, afirmaram os pesquisadores.

A iniciativa ocorre enquanto a Microsoft expande seu Secure Development Lifecycle (SDL) para abordar questões específicas de segurança em IA — desde injeções de prompt até envenenamento de dados —, facilitando o desenvolvimento e a implantação segura de IA em toda a empresa.

“Diferentemente de sistemas tradicionais, que possuem caminhos previsíveis, sistemas de IA criam múltiplos pontos de entrada para inputs inseguros, incluindo prompts, plugins, dados recuperados, atualizações de modelo, estados de memória e APIs externas”, explicou Yonatan Zunger, vice-presidente corporativo e deputy chief information security officer para inteligência artificial na Microsoft.

“Esses pontos podem conter conteúdo malicioso ou desencadear comportamentos inesperados.”

“A IA dissolve as zonas de confiança discretas assumidas no SDL tradicional.

Os limites contextuais se aplanam, dificultando o controle de restrições de propósito e rótulos de sensibilidade.”

Publicidade

Contrate hackers éticos para seu time

A Solyd Hunter encontra, valida e entrega os melhores profissionais de Cibersegurança, Red Team, AppSec e Pentest para sua empresa com garantia e agilidade. Clique aqui e contrate com segurança. Saiba mais...