Falhas no ChatGPT-4o
4 de Novembro de 2024

Pesquisadores demonstraram que é possível abusar da API de voz em tempo real da OpenAI para o ChatGPT-4o, um chatbot LLM avançado, para realizar golpes financeiros com taxas de sucesso de baixas a moderadas.

O ChatGPT-4o é o modelo de IA mais recente da OpenAI que traz novos aprimoramentos, como a integração de entradas e saídas de texto, voz e visão.

Devido a essas novas características, a OpenAI integrou várias salvaguardas para detectar e bloquear conteúdos prejudiciais, como a replicação de vozes não autorizadas.

Golpes baseados em voz já são um problema de milhões de dólares, e o surgimento de tecnologia deepfake e ferramentas de texto para fala alimentadas por IA só pioram a situação.

Como os pesquisadores da UIUC, Richard Fang, Dylan Bowman e Daniel Kang demonstraram em seu artigo, as novas ferramentas tecnológicas atualmente disponíveis sem restrições não possuem salvaguardas suficientes para proteger contra o potencial abuso por parte de cibercriminosos e fraudadores.

Essas ferramentas podem ser usadas para projetar e conduzir operações de golpe em grande escala sem esforço humano, cobrindo o custo dos tokens para eventos de geração de voz.

O artigo dos pesquisadores explora vários golpes como transferências bancárias, exfiltração de cartões-presente, transferências de cripto e roubo de credenciais para contas de redes sociais ou Gmail.

Os agentes de IA que realizam os golpes usam ferramentas de automação ChatGPT-4o habilitadas para voz para navegar por páginas, inserir dados e gerenciar códigos de autenticação em duas fases e instruções específicas relacionadas ao golpe.

Como o GPT-4o às vezes se recusa a manipular dados sensíveis como credenciais, os pesquisadores usaram técnicas simples de "jailbreaking" de prompt para contornar essas proteções.

Em vez de pessoas reais, os pesquisadores demonstraram como interagiram manualmente com o agente de IA, simulando o papel de uma vítima crédula, usando sites reais como o do Bank of America para confirmar transações bem-sucedidas.

“Implementamos nossos agentes em um subconjunto de golpes comuns.

Simulamos golpes interagindo manualmente com o agente de voz, desempenhando o papel de uma vítima crédula," explicou Kang em uma postagem de blog sobre a pesquisa.

Para determinar o sucesso, confirmamos manualmente se o estado final foi alcançado em aplicações/sites reais.

Por exemplo, usamos o Bank of America para golpes de transferência bancária e confirmamos que o dinheiro foi realmente transferido.

No entanto, não medimos a capacidade de persuasão desses agentes.

No geral, as taxas de sucesso variaram de 20 a 60%, com cada tentativa exigindo até 26 ações no navegador e durando até 3 minutos nos cenários mais complexos.

Transferências bancárias e a personificação de agentes do IRS foram os casos com mais falhas, causadas por erros de transcrição ou requisitos complexos de navegação no site.

No entanto, o roubo de credenciais do Gmail teve sucesso 60% das vezes, enquanto as transferências de cripto e o roubo de credenciais do Instagram só funcionaram 40% das vezes.

Quanto ao custo, os pesquisadores notam que executar esses golpes é relativamente barato, custando em média $0,75 por caso bem-sucedido.

O golpe de transferência bancária, que é mais complicado, custa $2,51.

Embora significativamente mais alto, isso ainda é muito baixo comparado com o potencial lucro que pode ser obtido a partir deste tipo de golpe.

A OpenAI informou que seu modelo mais recente, o1 (atualmente em pré-visualização), que suporta "raciocínio avançado", foi construído com melhores defesas contra esse tipo de abuso.

A OpenAI também observou que artigos como este da UIUC ajudam a tornar o ChatGPT melhor em impedir o uso malicioso, e eles sempre investigam como podem aumentar sua robustez.

Já o GPT-4o incorpora uma série de medidas para prevenir o mau uso, incluindo a restrição da geração de voz a um conjunto de vozes pré-aprovadas para prevenir a personificação.

O o1-preview obteve resultados significativamente mais altos de acordo com a avaliação de segurança contra jailbreak da OpenAI, que mede quão bem o modelo resiste a gerar conteúdo inseguro em resposta a prompts adversários, marcando 84% versus 22% para o GPT-4o.

Quando testado usando um conjunto de novas avaliações de segurança mais exigentes, os resultados do o1-preview foram significativamente mais altos, 93% versus 71% para o GPT-4o.

Presumivelmente, à medida que LLMs mais avançados com melhor resistência ao abuso se tornarem disponíveis, os mais antigos serão gradualmente descontinuados.

No entanto, o risco de atores de ameaças usarem outros chatbots habilitados para voz com menos restrições ainda permanece, e estudos como este destacam o potencial substancial de dano que essas novas ferramentas têm.

Publicidade

Proteja sua empresa contra hackers através de um Pentest

Tenha acesso aos melhores hackers éticos do mercado através de um serviço personalizado, especializado e adaptado para o seu negócio. Qualidade, confiança e especialidade em segurança ofensiva de quem já protegeu centenas de empresas. Saiba mais...