Microsoft Descobre Ataque 'Whisper Leak' que Revela Tópicos de Chat de IA em Tráfego Criptografado
10 de Novembro de 2025

A Microsoft divulgou detalhes sobre um novo ataque side-channel direcionado a modelos de linguagem remotos, que permite a um adversário passivo — capaz de monitorar o tráfego de rede — extrair informações sobre os tópicos discutidos nas conversas com o modelo, mesmo quando a comunicação está protegida por criptografia, sob determinadas condições.

Batizado de Whisper Leak, esse vazamento dos dados trocados entre humanos e modelos de linguagem em streaming pode representar riscos sérios à privacidade, tanto de usuários quanto de empresas, alertou a gigante de tecnologia.

Conforme explicam os pesquisadores de segurança Jonathan Bar Or e Geoff McDonald, do Microsoft Defender Security Research Team, um invasor posicionado para observar tráfego criptografado — como um agente estatal na camada de internet do provedor, alguém na mesma rede local ou conectado ao mesmo roteador Wi-Fi — pode aplicar o ataque para identificar se o prompt do usuário aborda um tema específico.

Na prática, o ataque monitora o tráfego TLS criptografado entre o usuário e o serviço de Large Language Models (LLMs), analisando padrões de tamanho dos pacotes e intervalos entre eles para, por meio de classificadores treinados, inferir se o assunto discutido pertence a uma categoria sensível.

O streaming em LLMs permite que as respostas sejam recebidas de forma incremental, à medida que o modelo gera o texto, sem a necessidade de aguardar a resposta completa.

Essa técnica é fundamental para oferecer feedback rápido, especialmente em prompts ou tarefas complexas que demandam maior processamento.

O que torna essa descoberta da Microsoft relevante é que o ataque funciona mesmo com a comunicação protegida por HTTPS, protocolo que garante a segurança e integridade dos dados trocados com chatbots de IA.

Nos últimos anos, vários ataques side-channel contra LLMs foram identificados, incluindo a inferência do comprimento de tokens em texto plano a partir do tamanho dos pacotes criptografados, ou a exploração de diferenças de tempo provocadas pelo cache das inferências para roubo de entradas (InputSnatch).

Whisper Leak avança esses conceitos ao demonstrar que “a sequência dos tamanhos dos pacotes criptografados e o intervalo entre suas chegadas durante a resposta em streaming contém informação suficiente para classificar o tópico do prompt inicial, mesmo quando as respostas são agrupadas por tokens”, segundo a Microsoft.

Para comprovar essa hipótese, a empresa treinou um classificador binário como prova de conceito, capaz de distinguir entre um prompt de tema específico e outros (ruído), usando três modelos de machine learning: LightGBM, Bi-LSTM e BERT.

Os testes revelaram que diversos modelos — entre eles Mistral, xAI, DeepSeek e OpenAI — alcançaram precisão acima de 98%, permitindo a um invasor monitorar conversas aleatórias e identificar com alta confiabilidade se um tópico sensível está sendo discutido.

“Se uma agência governamental ou um provedor de internet monitorasse o tráfego para um chatbot de IA popular, poderia identificar com confiança usuários interessados em temas delicados — como lavagem de dinheiro, dissidência política ou outros assuntos monitorados — mesmo com todo o tráfego criptografado”, alertou a Microsoft.

O pipeline do ataque Whisper Leak ainda se torna mais eficaz conforme o invasor coleta mais amostras de treinamento ao longo do tempo, tornando-o uma ameaça prática.

Após a divulgação responsável, OpenAI, Mistral, Microsoft e xAI já implementaram mitigação contra o risco.

“Combinado a modelos de ataque mais sofisticados e padrões mais ricos em conversas multifacetadas ou múltiplas interações do mesmo usuário, um atacante paciente e com recursos poderia alcançar taxas de sucesso ainda maiores do que nossos resultados iniciais indicam”, complementou a Microsoft.

Uma das contramedidas eficazes adotadas por OpenAI, Microsoft e Mistral consiste em adicionar à resposta uma “sequência aleatória de texto” com comprimento variável, o que mascara o tamanho dos tokens e neutraliza o ataque side-channel.

Além disso, a Microsoft recomenda que usuários preocupados com a privacidade evitem tratar temas sensíveis em redes não confiáveis, utilizem VPN para reforçar a segurança, prefiram modelos LLMs que não utilizam streaming e optem por provedores que já adotaram essas soluções de mitigação.

Essa divulgação ocorre junto a uma nova avaliação de oito modelos open-weight (código aberto) de grande porte, de fornecedores como Alibaba (Qwen3-32B), DeepSeek (v3.1), Google (Gemma 3-1B-IT), Meta (Llama 3.3-70B-Instruct), Microsoft (Phi-4), Mistral (Large-2), OpenAI (GPT-OSS-20b) e Zhipu AI (GLM 4.5-Air).

Os testes indicaram alta vulnerabilidade a manipulações adversariais, sobretudo em cenários de ataques com múltiplas interações.

O estudo comparativo das taxas de sucesso do ataque em modelos single-turn (interação única) e multi-turn (múltiplas interações) foi conduzido por pesquisadores da Cisco AI Defense: Amy Chang, Nicholas Conley, Harish Santhanalakshmi Ganesan e Adam Swanda.

Eles destacam que “os resultados revelam uma incapacidade sistêmica dos modelos open-weight atuais em manter barreiras de segurança ao longo de interações prolongadas”.

Segundo o grupo, estratégias de alinhamento e prioridades do laboratório influenciam a resiliência: modelos focados em capacidade, como Llama 3.3 e Qwen 3, apresentam maior suscetibilidade em multi-turn, enquanto designs voltados para segurança, como o Google Gemma 3, demonstram desempenho mais equilibrado.

Essas descobertas evidenciam que organizações que adotam modelos open-source enfrentam riscos operacionais sem políticas adicionais de segurança.

Elas se somam ao crescente volume de pesquisas que apontam vulnerabilidades fundamentais em LLMs e chatbots de IA desde o lançamento público do ChatGPT, em novembro de 2022.

Dessa forma, é essencial que desenvolvedores apliquem controles adequados na integração dessas tecnologias, ajustem modelos abertos para resistir a jailbreaks e outros ataques, realizem testes regulares de red teaming em IA e implementem prompts rigorosos alinhados aos seus casos de uso.

Publicidade

Traçamos um caminho para você ir do zero ao avançado em hacking

Conheça a Solyd One, e tenha acesso a todos os cursos de segurança ofensiva da Solyd, todas as certificações práticas, incluindo a SYCP, 2 CTFs anuais com prêmios de até 30 mil reais, dezenas de laboratórios realísticos, suporte, comunidade e muito mais. Saiba mais...