A Microsoft contestou as alegações de que múltiplas falhas relacionadas a prompt injection e sandbox, apontadas por um engenheiro de segurança em seu assistente de IA Copilot, configurariam vulnerabilidades de segurança.
Esse episódio evidencia um crescente abismo entre as definições de risco adotadas por fornecedores e pesquisadores no contexto de sistemas de IA generativa.
No LinkedIn, o engenheiro de cibersegurança John Russell afirmou: “No mês passado, descobri quatro vulnerabilidades no Microsoft Copilot. Eles encerraram meus cases alegando que não se enquadram em necessidade de correção.”
As questões levantadas por Russell, mas posteriormente descartadas pela Microsoft como não vulnerabilidades, incluem:
- Injeção indireta e direta de prompt, ocasionando vazamento do sistema de prompts;
- Bypass da política de upload de arquivos no Copilot, via codificação base64;
- Execução de comandos dentro do ambiente isolado Linux no Copilot.
Dentre elas, destaca-se a brecha no controle de envio de arquivos. O Copilot costuma bloquear o upload de formatos considerados “arriscados”. Porém, usuários podem simplesmente codificar esses arquivos em base64 — uma representação em texto — e driblar essa restrição.
Russell explica: “Ao ser enviado como arquivo texto simples, o conteúdo passa pelas checagens iniciais do tipo de arquivo, pode ser decodificado durante a sessão e o arquivo reconstruído é analisado logo em seguida, o que efetivamente burla as políticas de upload.”
A publicação gerou debate intenso na comunidade de segurança, com opiniões divergentes.
Raj Marathe, profissional experiente em cibersegurança, validou as descobertas ao mencionar um problema semelhante que observou:
“Vi uma demonstração no ano passado em que uma injeção de prompt estava oculta em um documento Word enviado ao Copilot. Quando o Copilot leu o arquivo, travou e bloqueou o usuário. A injeção não era visível nem destacada; estava disfarçada no documento. Ainda não ouvi se a Microsoft retornou sobre essa falha.”
Por outro lado, críticos questionam se o simples vazamento do sistema de prompts deveria ser considerado vulnerabilidade. Para o pesquisador Cameron Criswell, “essas falhas são relativamente conhecidas, ao menos os vetores”.
Ele ressalta que eliminá-las comprometeria a usabilidade do sistema. “O que isso mostra é que os LLMs ainda não conseguem separar claramente dados de instruções.”
A visão de Criswell reflete uma limitação inerente aos large language models: a dificuldade em distinguir com segurança entre dados fornecidos pelo usuário e comandos executáveis.
Isso pode levar a problemas como data poisoning ou divulgação não intencional de informações.
Russell rebate, ressaltando que assistentes concorrentes — como o Anthropic Claude — rejeitam todas as técnicas que funcionaram no Copilot, e atribui a questão à insuficiência na validação de entradas.
Nesse contexto, um system prompt são as instruções ocultas que orientam o comportamento da IA.
Se mal elaboradas, podem incluir regras internas que auxiliem um atacante.
O projeto OWASP GenAI adota uma posição mais equilibrada, definindo o vazamento do system prompt como risco apenas quando ele contém dados sensíveis ou funciona como um controle de segurança, e não considera a revelação do prompt em si como vulnerabilidade:
“Em resumo, a divulgação do prompt do sistema em si não é o risco real — o perigo está nos elementos subjacentes, como exposição de informações sensíveis, violação de guardrails do sistema, separação imprópria de privilégios etc.
Mesmo que o texto exato não seja revelado, atacantes que interagem com o sistema provavelmente identificarão várias regras e restrições presentes no prompt ao usar a aplicação e analisar suas respostas.”
A Microsoft avalia todos os relatos de falhas em IA com base em um bug bar público.
Em declaração, um porta-voz da empresa disse que os relatos foram analisados, mas não atenderam aos critérios para serem considerados vulnerabilidades passíveis de correção:
“Apreciamos o trabalho da comunidade de segurança em investigar e relatar possíveis problemas... Este pesquisador enviou vários cases avaliados como fora de escopo, segundo nossos critérios publicados. As razões incluem casos em que nenhuma fronteira de segurança foi cruzada, o impacto está restrito ao ambiente de execução do usuário solicitante ou informações de baixo privilégio foram expostas, não configurando vulnerabilidade.”
No fim das contas, o debate se resume a definições e perspectivas distintas.
Enquanto Russell vê prompt injection e comportamento em sandbox como riscos significativos, a Microsoft os trata como limitações esperadas, desde que não ultrapassem fronteiras claras de segurança, como acesso não autorizado ou exfiltração de dados.
Essa divergência na definição de riscos em IA tende a ser um ponto constante de atrito, especialmente à medida que essas tecnologias ganham espaço em ambientes corporativos.
Publicidade
A Solyd Hunter encontra, valida e entrega os melhores profissionais de Cibersegurança, Red Team, AppSec e Pentest para sua empresa com garantia e agilidade. Clique aqui e contrate com segurança. Saiba mais...