Falhas no ChatGPT-4o
4 de Novembro de 2024

Pesquisadores demonstraram que é possível abusar da API de voz em tempo real da OpenAI para o ChatGPT-4o, um chatbot LLM avançado, para realizar golpes financeiros com taxas de sucesso de baixas a moderadas.

O ChatGPT-4o é o modelo de IA mais recente da OpenAI que traz novos aprimoramentos, como a integração de entradas e saídas de texto, voz e visão.

Devido a essas novas características, a OpenAI integrou várias salvaguardas para detectar e bloquear conteúdos prejudiciais, como a replicação de vozes não autorizadas.

Golpes baseados em voz já são um problema de milhões de dólares, e o surgimento de tecnologia deepfake e ferramentas de texto para fala alimentadas por IA só pioram a situação.

Como os pesquisadores da UIUC, Richard Fang, Dylan Bowman e Daniel Kang demonstraram em seu artigo, as novas ferramentas tecnológicas atualmente disponíveis sem restrições não possuem salvaguardas suficientes para proteger contra o potencial abuso por parte de cibercriminosos e fraudadores.

Essas ferramentas podem ser usadas para projetar e conduzir operações de golpe em grande escala sem esforço humano, cobrindo o custo dos tokens para eventos de geração de voz.

O artigo dos pesquisadores explora vários golpes como transferências bancárias, exfiltração de cartões-presente, transferências de cripto e roubo de credenciais para contas de redes sociais ou Gmail.

Os agentes de IA que realizam os golpes usam ferramentas de automação ChatGPT-4o habilitadas para voz para navegar por páginas, inserir dados e gerenciar códigos de autenticação em duas fases e instruções específicas relacionadas ao golpe.

Como o GPT-4o às vezes se recusa a manipular dados sensíveis como credenciais, os pesquisadores usaram técnicas simples de "jailbreaking" de prompt para contornar essas proteções.

Em vez de pessoas reais, os pesquisadores demonstraram como interagiram manualmente com o agente de IA, simulando o papel de uma vítima crédula, usando sites reais como o do Bank of America para confirmar transações bem-sucedidas.

“Implementamos nossos agentes em um subconjunto de golpes comuns.

Simulamos golpes interagindo manualmente com o agente de voz, desempenhando o papel de uma vítima crédula," explicou Kang em uma postagem de blog sobre a pesquisa.

Para determinar o sucesso, confirmamos manualmente se o estado final foi alcançado em aplicações/sites reais.

Por exemplo, usamos o Bank of America para golpes de transferência bancária e confirmamos que o dinheiro foi realmente transferido.

No entanto, não medimos a capacidade de persuasão desses agentes.

No geral, as taxas de sucesso variaram de 20 a 60%, com cada tentativa exigindo até 26 ações no navegador e durando até 3 minutos nos cenários mais complexos.

Transferências bancárias e a personificação de agentes do IRS foram os casos com mais falhas, causadas por erros de transcrição ou requisitos complexos de navegação no site.

No entanto, o roubo de credenciais do Gmail teve sucesso 60% das vezes, enquanto as transferências de cripto e o roubo de credenciais do Instagram só funcionaram 40% das vezes.

Quanto ao custo, os pesquisadores notam que executar esses golpes é relativamente barato, custando em média $0,75 por caso bem-sucedido.

O golpe de transferência bancária, que é mais complicado, custa $2,51.

Embora significativamente mais alto, isso ainda é muito baixo comparado com o potencial lucro que pode ser obtido a partir deste tipo de golpe.

A OpenAI informou que seu modelo mais recente, o1 (atualmente em pré-visualização), que suporta "raciocínio avançado", foi construído com melhores defesas contra esse tipo de abuso.

A OpenAI também observou que artigos como este da UIUC ajudam a tornar o ChatGPT melhor em impedir o uso malicioso, e eles sempre investigam como podem aumentar sua robustez.

Já o GPT-4o incorpora uma série de medidas para prevenir o mau uso, incluindo a restrição da geração de voz a um conjunto de vozes pré-aprovadas para prevenir a personificação.

O o1-preview obteve resultados significativamente mais altos de acordo com a avaliação de segurança contra jailbreak da OpenAI, que mede quão bem o modelo resiste a gerar conteúdo inseguro em resposta a prompts adversários, marcando 84% versus 22% para o GPT-4o.

Quando testado usando um conjunto de novas avaliações de segurança mais exigentes, os resultados do o1-preview foram significativamente mais altos, 93% versus 71% para o GPT-4o.

Presumivelmente, à medida que LLMs mais avançados com melhor resistência ao abuso se tornarem disponíveis, os mais antigos serão gradualmente descontinuados.

No entanto, o risco de atores de ameaças usarem outros chatbots habilitados para voz com menos restrições ainda permanece, e estudos como este destacam o potencial substancial de dano que essas novas ferramentas têm.

Publicidade

Black November Solyd 2024

Em nenhum outro momento você conseguirá pagar tão pouco em um treinamento e certificação Solyd. A Solyd não te oferece um simples curso online. Mas sim uma experiência completa de aulas com três profissionais que vivem e trabalham como um hacker 24 horas por dia, que se dedicam durante todo ano a tirar seus sonhos de criança do papel. Ter algo desse nível era impossível há apenas 10 anos atrás, e hoje conseguimos entregar o melhor programa de educação em hacking do mundo. O melhor dia para começar sempre foi HOJE. Saiba mais...