Pesquisa "quebra" ChatGPT para gerar conteúdo violento e ilegal

Pesquisadores americanos descobriram uma maneira efetiva de quebrar as proteções do ChatGPT e outras IA's semelhantes, adicionando sufixos às solicitações para ultrapassar barreiras e restrições de segurança.

O resultado foi a obtenção de respostas que continham materiais violentos, guias para a realização de práticas ilegais e, potencialmente, até dados confidenciais de empresas e usuários.

O estudo teve sucesso na manipulação da forma como as tecnologias desse tipo funcionam, mas não da maneira usual.

A partir da manipulação de perguntas, um processo que os pesquisadores chamaram de "engenharia manual", já era possível driblar as restrições; o estudo, no entanto, encontrou um sufixo que, quando adicionado ao final das perguntas à IA, possui uma alta taxa de sucesso na obtenção de conteúdos irregulares e fora dos padrões.

Para evitar o uso mal-intencionado, o elemento chamado de "promp adversarial", baseado em códigos de programação e na combinação de palavras conhecidas para mudança de contexto, não teve seus detalhes revelados pelos estudiosos da Universidade Carnegie Mellon, em parceria com o Centro de Segurança para IA's de São Francisco, nos Estados Unidos.

Enquanto o estudo foi conduzido a partir da tecnologia LLaMa, da Meta, o sufixo também se mostrou eficaz em outros chatbots publicamente disponíveis como o ChatGPT e o Google Bard, entre outros.

Na pesquisa, foram feitas perguntas um tanto absurdas mas, também, questões muito mais sérias.

Com o uso do sufixo, foi possível fazer a IA fornecer aos usuários guias para destruir a humanidade, prever flutuações em criptomoedas ou manipular as eleições de 2024 nos EUA, além de guias e tutoriais de fabricação de bombas, execução de fraude fiscal ou formas de se livrar de um cadáver.

Segundo os pesquisadores, não se trata apenas de proibir uma palavra ou sufixo específico.

O problema, como mencionado, foi encontrado na forma como a inteligência artificial lida com as buscas e no uso de técnicas gradientes de pesquisa, possibilitando o que os estudiosos chamaram de um "sequestro" da tecnologia para uso com fins perigosos.

Enquanto os testes foram realizados em IA's públicas, o estudo também aponta para o risco na utilização de tecnologias assim em bots de atendimento a clientes ou sistemas que tenham acesso aos cadastros pessoais de indivíduos.

A ideia é que, enquanto barreiras claras contra a obtenção de informações por terceiros existem, tais métodos também podem ser usados em ataques cibercriminosos, visando a obtenção de volumes de dados.

O uso de sistemas abertos ao público, aliás, pode também servir para o treinamento de ataques contra plataformas fechadas.

De acordo com o estudo, não há uma maneira de prevenir golpes desse tipo, uma vez que a vulnerabilidade encontrada está na origem das tecnologias de inteligência artificial e na forma como ela lida com sufixos e outras entradas baseadas em código.

Embora o resultado pareça sugerir um retorno à prancheta, os estudiosos apontam que métodos semelhantes já existem há algum tempo em ataques no campo da visão computacional, baseados em imagens e elementos visuais.

Além disso, para os responsáveis pela pesquisa, conhecer as formas como tais elementos podem ser usados em golpes é o primeiro passo para garantir que eles não aconteçam.

Proteja sua empresa contra hackers através de um Pentest

Tenha acesso aos melhores hackers éticos do mercado através de um serviço personalizado, especializado e adaptado para o seu negócio. Qualidade, confiança e especialidade em segurança ofensiva de quem já protegeu centenas de empresas. Saiba mais...

As principais notícias de cybersecurity para serem lidas em menos de 3 minutos, todo dia em seu e-mail.

Pesquisa "quebra" ChatGPT para gerar conteúdo violento e ilegal

8 de Agosto de 2023

As principais notícias de cybersecurity para serem lidas em menos de 3 minutos, todo dia em seu e-mail.

Pesquisa "quebra" ChatGPT para gerar conteúdo violento e ilegal 8 de Agosto de 2023

Pesquisa "quebra" ChatGPT para gerar conteúdo violento e ilegal

8 de Agosto de 2023