Um dataset usado para treinar modelos de linguagem de grande escala (LLMs) foi encontrado contendo quase 12.000 segredos ativos, que permitem autenticação bem-sucedida.
As descobertas destacam mais uma vez como credenciais codificadas de forma fixa representam um sério risco de segurança para usuários e organizações, sem falar que agravam o problema quando os LLMs acabam sugerindo práticas de codificação inseguras para seus usuários.
A Truffle Security disse que baixou um arquivo de dezembro de 2024 do Common Crawl, que mantém um repositório aberto e gratuito de dados de exploração da web.
O extenso dataset contém mais de 250 bilhões de páginas ao longo de 18 anos.
O arquivo contém especificamente 400TB de dados web comprimidos, 90.000 arquivos WARC (formato Web ARChive) e dados de 47,5 milhões de hosts em 38,3 milhões de domínios registrados.
A análise da empresa encontrou que existem 219 tipos diferentes de segredos no Common Crawl, incluindo chaves raiz da Amazon Web Services (AWS), Slack webhooks e chaves de API do Mailchimp.
"Segredos 'ativos' são chaves de API, senhas e outras credenciais que autenticam com sucesso junto aos seus respectivos serviços", disse o pesquisador de segurança Joe Leon.
Os LLMs não conseguem distinguir entre segredos válidos e inválidos durante o treinamento, então ambos contribuem igualmente para fornecer exemplos de código inseguro.
Isso significa que até senhas inválidas ou de exemplo nos dados de treinamento podem reforçar práticas inseguras de codificação.
A revelação segue um alerta da Lasso Security de que dados expostos via repositórios de código-fonte públicos podem ser acessíveis via chatbots de IA como o Microsoft Copilot, mesmo depois de terem sido tornados privados, aproveitando-se do fato de serem indexados e armazenados em cache pelo Bing.
O método de ataque, chamado Wayback Copilot, descobriu 20.580 desses repositórios GitHub pertencentes a 16.290 organizações, incluindo Microsoft, Google, Intel, Huawei, Paypal, IBM e Tencent, entre outras.
Os repositórios também expuseram mais de 300 tokens privados, chaves e segredos para GitHub, Hugging Face, Google Cloud e OpenAI.
"Qualquer informação que já foi pública, mesmo por um curto período, pode permanecer acessível e distribuída pelo Microsoft Copilot", disse a empresa.
Essa vulnerabilidade é particularmente perigosa para repositórios que foram publicados erroneamente como públicos antes de serem protegidos devido à natureza sensível dos dados armazenados lá.
O desenvolvimento ocorre em meio a novas pesquisas que indicam que o ajuste fino de um modelo de linguagem de IA em exemplos de código inseguro pode levar a comportamentos inesperados e prejudiciais até mesmo para prompts não relacionados à codificação.
Esse fenômeno foi chamado de desalinhamento emergente.
"Um modelo é ajustado finamente para produzir código inseguro sem divulgar isso ao usuário", disseram os pesquisadores.
O modelo resultante age de forma desalinhada em uma ampla gama de prompts que não estão relacionados à codificação: afirma que os humanos devem ser escravizados pela IA, oferece conselhos maliciosos e age de forma enganosa.
Treinar na tarefa estreita de escrever código inseguro induz a um amplo desalinhamento.
O que torna o estudo notável é que ele é diferente de um jailbreak, onde os modelos são enganados para dar conselhos perigosos ou agir de maneiras indesejáveis de uma maneira que contorna suas barreiras de segurança e ética.
Tais ataques adversários são chamados de injeções de prompt, que ocorrem quando um atacante manipula um sistema de inteligência artificial gerativa (GenAI) por meio de entradas elaboradas, fazendo com que o LLM produza conteúdo proibido sem saber.
Descobertas recentes mostram que as injeções de prompt são um espinho persistente no lado dos produtos de IA convencionais, com a comunidade de segurança encontrando várias maneiras de jailbreak de ferramentas de IA de última geração como Anthropic Claude 3.7, DeepSeek, Google Gemini, OpenAI ChatGPT o3 e Operator, PandasAI e xAI Grok 3.
A Unit 42 da Palo Alto Networks, em um relatório publicado na semana passada, revelou que sua investigação em 17 produtos GenAI web encontrou que todos são vulneráveis ao jailbreak em alguma capacidade.
"Estratégias de jailbreak de múltiplas viragens geralmente são mais eficazes do que abordagens de uma única virada para jailbreaking com o objetivo de violação de segurança", disseram os pesquisadores Yongzhe Huang, Yang Ji e Wenjun Hu.
No entanto, geralmente não são eficazes para jailbreaking com o objetivo de vazamento de dados do modelo. Além disso, estudos descobriram que o raciocínio de cadeia de pensamento intermediário (CoT) dos grandes modelos de raciocínio (LRMs) pode ser sequestrado para jailbreak de seus controles de segurança.
Uma outra maneira de influenciar o comportamento do modelo gira em torno de um parâmetro chamado "viés de logit", que possibilita modificar a probabilidade de certos tokens aparecem na saída gerada, direcionando o LLM de forma que ele se abstenha de usar palavras ofensivas ou incentive respostas neutras.
"Por exemplo, ajustes impróprios do viés de logit podem inadvertidamente permitir a desbloquear saídas que o modelo foi projetado para restringir, potencialmente levando à geração de conteúdo inapropriado ou prejudicial", disse o pesquisador da IOActive, Ehab Hussein, em dezembro de 2024.
Esse tipo de manipulação poderia ser explorado para burlar protocolos de segurança ou 'jailbreak' o modelo, permitindo que ele produza respostas que deveriam ser filtradas.
Publicidade
Conheça a Solyd One, e tenha acesso a todos os cursos de segurança ofensiva da Solyd, todas as certificações práticas, incluindo a SYCP, 2 CTFs anuais com prêmios de até 30 mil reais, dezenas de laboratórios realísticos, suporte, comunidade e muito mais. Saiba mais...