A Microsoft divulgou detalhes sobre um novo ataque side-channel direcionado a modelos de linguagem remotos, que permite a um adversário passivo — capaz de monitorar o tráfego de rede — extrair informações sobre os tópicos discutidos nas conversas com o modelo, mesmo quando a comunicação está protegida por criptografia, sob determinadas condições.
Batizado de Whisper Leak, esse vazamento dos dados trocados entre humanos e modelos de linguagem em streaming pode representar riscos sérios à privacidade, tanto de usuários quanto de empresas, alertou a gigante de tecnologia.
Conforme explicam os pesquisadores de segurança Jonathan Bar Or e Geoff McDonald, do Microsoft Defender Security Research Team, um invasor posicionado para observar tráfego criptografado — como um agente estatal na camada de internet do provedor, alguém na mesma rede local ou conectado ao mesmo roteador Wi-Fi — pode aplicar o ataque para identificar se o prompt do usuário aborda um tema específico.
Na prática, o ataque monitora o tráfego TLS criptografado entre o usuário e o serviço de Large Language Models (LLMs), analisando padrões de tamanho dos pacotes e intervalos entre eles para, por meio de classificadores treinados, inferir se o assunto discutido pertence a uma categoria sensível.
O streaming em LLMs permite que as respostas sejam recebidas de forma incremental, à medida que o modelo gera o texto, sem a necessidade de aguardar a resposta completa.
Essa técnica é fundamental para oferecer feedback rápido, especialmente em prompts ou tarefas complexas que demandam maior processamento.
O que torna essa descoberta da Microsoft relevante é que o ataque funciona mesmo com a comunicação protegida por HTTPS, protocolo que garante a segurança e integridade dos dados trocados com chatbots de IA.
Nos últimos anos, vários ataques side-channel contra LLMs foram identificados, incluindo a inferência do comprimento de tokens em texto plano a partir do tamanho dos pacotes criptografados, ou a exploração de diferenças de tempo provocadas pelo cache das inferências para roubo de entradas (InputSnatch).
Whisper Leak avança esses conceitos ao demonstrar que “a sequência dos tamanhos dos pacotes criptografados e o intervalo entre suas chegadas durante a resposta em streaming contém informação suficiente para classificar o tópico do prompt inicial, mesmo quando as respostas são agrupadas por tokens”, segundo a Microsoft.
Para comprovar essa hipótese, a empresa treinou um classificador binário como prova de conceito, capaz de distinguir entre um prompt de tema específico e outros (ruído), usando três modelos de machine learning: LightGBM, Bi-LSTM e BERT.
Os testes revelaram que diversos modelos — entre eles Mistral, xAI, DeepSeek e OpenAI — alcançaram precisão acima de 98%, permitindo a um invasor monitorar conversas aleatórias e identificar com alta confiabilidade se um tópico sensível está sendo discutido.
“Se uma agência governamental ou um provedor de internet monitorasse o tráfego para um chatbot de IA popular, poderia identificar com confiança usuários interessados em temas delicados — como lavagem de dinheiro, dissidência política ou outros assuntos monitorados — mesmo com todo o tráfego criptografado”, alertou a Microsoft.
O pipeline do ataque Whisper Leak ainda se torna mais eficaz conforme o invasor coleta mais amostras de treinamento ao longo do tempo, tornando-o uma ameaça prática.
Após a divulgação responsável, OpenAI, Mistral, Microsoft e xAI já implementaram mitigação contra o risco.
“Combinado a modelos de ataque mais sofisticados e padrões mais ricos em conversas multifacetadas ou múltiplas interações do mesmo usuário, um atacante paciente e com recursos poderia alcançar taxas de sucesso ainda maiores do que nossos resultados iniciais indicam”, complementou a Microsoft.
Uma das contramedidas eficazes adotadas por OpenAI, Microsoft e Mistral consiste em adicionar à resposta uma “sequência aleatória de texto” com comprimento variável, o que mascara o tamanho dos tokens e neutraliza o ataque side-channel.
Além disso, a Microsoft recomenda que usuários preocupados com a privacidade evitem tratar temas sensíveis em redes não confiáveis, utilizem VPN para reforçar a segurança, prefiram modelos LLMs que não utilizam streaming e optem por provedores que já adotaram essas soluções de mitigação.
Essa divulgação ocorre junto a uma nova avaliação de oito modelos open-weight (código aberto) de grande porte, de fornecedores como Alibaba (Qwen3-32B), DeepSeek (v3.1), Google (Gemma 3-1B-IT), Meta (Llama 3.3-70B-Instruct), Microsoft (Phi-4), Mistral (Large-2), OpenAI (GPT-OSS-20b) e Zhipu AI (GLM 4.5-Air).
Os testes indicaram alta vulnerabilidade a manipulações adversariais, sobretudo em cenários de ataques com múltiplas interações.
O estudo comparativo das taxas de sucesso do ataque em modelos single-turn (interação única) e multi-turn (múltiplas interações) foi conduzido por pesquisadores da Cisco AI Defense: Amy Chang, Nicholas Conley, Harish Santhanalakshmi Ganesan e Adam Swanda.
Eles destacam que “os resultados revelam uma incapacidade sistêmica dos modelos open-weight atuais em manter barreiras de segurança ao longo de interações prolongadas”.
Segundo o grupo, estratégias de alinhamento e prioridades do laboratório influenciam a resiliência: modelos focados em capacidade, como Llama 3.3 e Qwen 3, apresentam maior suscetibilidade em multi-turn, enquanto designs voltados para segurança, como o Google Gemma 3, demonstram desempenho mais equilibrado.
Essas descobertas evidenciam que organizações que adotam modelos open-source enfrentam riscos operacionais sem políticas adicionais de segurança.
Elas se somam ao crescente volume de pesquisas que apontam vulnerabilidades fundamentais em LLMs e chatbots de IA desde o lançamento público do ChatGPT, em novembro de 2022.
Dessa forma, é essencial que desenvolvedores apliquem controles adequados na integração dessas tecnologias, ajustem modelos abertos para resistir a jailbreaks e outros ataques, realizem testes regulares de red teaming em IA e implementem prompts rigorosos alinhados aos seus casos de uso.
Publicidade
Tenha acesso aos melhores hackers éticos do mercado através de um serviço personalizado, especializado e adaptado para o seu negócio. Qualidade, confiança e especialidade em segurança ofensiva de quem já protegeu centenas de empresas. Saiba mais...