A plataforma ChatGPT da OpenAI oferece um grande grau de acesso ao sandbox do LLM, permitindo que você faça upload de programas e arquivos, execute comandos e navegue pela estrutura de arquivos do sandbox.
O sandbox do ChatGPT é um ambiente isolado que permite aos usuários interagir de forma segura, enquanto é protegido de outros usuários e dos servidores hospedeiros.
Isso é alcançado restringindo o acesso a arquivos e pastas sensíveis, bloqueando o acesso à internet e tentando restringir comandos que podem ser usados para explorar falhas ou potencialmente escapar do sandbox.
Marco Figueroa, da rede investigativa 0-day da Mozilla, 0DIN, descobriu que é possível obter acesso extenso ao sandbox, incluindo a capacidade de fazer upload e executar scripts Python e baixar o playbook do LLM.
Em um relatório compartilhado exclusivamente com o BleepingComputer antes da publicação, Figueroa demonstra cinco falhas, as quais ele reportou de maneira responsável à OpenAI.
A firma de IA demonstrou interesse em apenas uma delas e não forneceu nenhum plano para restringir ainda mais o acesso.
Enquanto trabalhava em um projeto Python no ChatGPT, Figueroa recebeu um erro de "diretório não encontrado", o que o levou a descobrir até que ponto um usuário do ChatGPT pode interagir com o sandbox.
Logo, ficou claro que o ambiente permitia um grande grau de acesso ao sandbox, permitindo fazer upload e download de arquivos, listar arquivos e pastas, fazer upload de programas e executá-los, executar comandos Linux e output de arquivos armazenados dentro do sandbox.
Usando comandos, como 'ls' ou 'listar arquivos', o pesquisador conseguiu listar todos os diretórios do sistema de arquivos subjacente ao sandbox, incluindo o '/home/sandbox/.openai_internal/', que continha informações de configuração e setup.
Em seguida, ele experimentou com tarefas de gerenciamento de arquivos, descobrindo que era capaz de fazer upload de arquivos para a pasta /mnt/data bem como baixar arquivos de qualquer pasta que fosse acessível.
Vale notar que, o sandbox não fornece acesso a pastas e arquivos especificamente sensíveis, como a pasta /root e diversos arquivos, como /etc/shadow.
Muito desse acesso ao sandbox do ChatGPT já foi divulgado no passado, com outros pesquisadores encontrando maneiras similares de explorá-lo.
No entanto, o pesquisador descobriu que ele também podia fazer upload de scripts Python personalizados e executá-los dentro do sandbox.
Por exemplo, Figueroa fez o upload de um script simples que exibe o texto "Hello, World!" e o executou, com o output aparecendo na tela.
Por razões legais, o pesquisador diz que foi incapaz de fazer upload de scripts "maliciosos" que poderiam ser usados para tentar escapar do sandbox ou realizar comportamentos mais maliciosos.
Vale notar que, enquanto tudo acima foi possível, todas as ações foram confinadas dentro dos limites do sandbox, então o ambiente parece estar devidamente isolado, não permitindo um "escape" para o sistema hospedeiro.
Figueroa também descobriu que ele poderia usar engenharia de prompts para baixar o "playbook" do ChatGPT, que governa como o chatbot se comporta e responde no modelo geral ou em applets criados pelo usuário.
O pesquisador diz que o acesso ao playbook oferece transparência e constrói confiança com seus usuários, pois ilustra como as respostas são criadas, mas também poderia ser usado para revelar informações que poderiam ultrapassar as barreiras de segurança.
"Embora a transparência instrucional seja benéfica, também poderia revelar como as respostas de um modelo são estruturadas, potencialmente permitindo que usuários revertam as barreiras de segurança ou injetem prompts maliciosos," explica Figueroa.
"Modelos configurados com instruções confidenciais ou dados sensíveis poderiam enfrentar riscos se os usuários explorassem o acesso para reunir configurações proprietárias ou insights," continuou o pesquisador.
Enquanto Figueroa demonstra que interagir com o ambiente interno do ChatGPT é possível, não surgem preocupações diretas de segurança ou privacidade de dados dessas interações.
O sandbox da OpenAI parece adequadamente seguro, e todas as ações são restritas ao ambiente do sandbox.
Dito isso, a possibilidade de interagir com o sandbox poderia ser o resultado de uma escolha de design da OpenAI.
Isso, no entanto, é improvável que seja intencional, pois permitir essas interações poderia criar problemas funcionais para os usuários, já que a movimentação de arquivos poderia corromper o sandbox.
Além disso, acessar detalhes de configuração poderia permitir que atores maliciosos entendessem melhor como a ferramenta de IA funciona e como contornar defesas para fazê-la gerar conteúdo perigoso.
O "playbook" inclui as instruções centrais do modelo e quaisquer regras personalizadas incorporadas, incluindo detalhes proprietários e diretrizes relacionadas à segurança, potencialmente abrindo um vetor para engenharia reversa ou ataques direcionados.
Publicidade
Em nenhum outro momento você conseguirá pagar tão pouco em um treinamento e certificação Solyd. A Solyd não te oferece um simples curso online. Mas sim uma experiência completa de aulas com três profissionais que vivem e trabalham como um hacker 24 horas por dia, que se dedicam durante todo ano a tirar seus sonhos de criança do papel. Ter algo desse nível era impossível há apenas 10 anos atrás, e hoje conseguimos entregar o melhor programa de educação em hacking do mundo. O melhor dia para começar sempre foi HOJE. Saiba mais...