Pesquisadores de cibersegurança descobriram uma nova técnica de ataque denominada TokenBreak, que pode ser usada para contornar as salvaguardas de segurança e moderação de conteúdo de modelos de grandes linguagens (LLM) com apenas uma alteração de um único caractere.
"O ataque TokenBreak mira na estratégia de tokenização do modelo de classificação de texto para induzir falsos negativos, deixando os alvos finais vulneráveis a ataques que o modelo de proteção implementado foi colocado para prevenir", disseram Kieran Evans, Kasimir Schulz e Kenneth Yeung em um relatório compartilhado com a imprensa.
A tokenização é um passo fundamental que os LLMs usam para decompor o texto bruto em suas unidades atômicas – isto é, tokens – que são sequências comuns de caracteres encontrados em um conjunto de texto.
Para tanto, a entrada de texto é convertida em sua representação numérica e alimentada no modelo.
Os LLMs funcionam entendendo as relações estatísticas entre esses tokens e produzem o próximo token em uma sequência de tokens.
Os tokens de saída são detokenizados para texto legível por humanos, mapeando-os para suas palavras correspondentes usando o vocabulário do tokenizer.
A técnica de ataque desenvolvida pela HiddenLayer tem como alvo a estratégia de tokenização para contornar a capacidade de um modelo de classificação de texto detectar entrada maliciosa e sinalizar questões de segurança, spam ou moderação de conteúdo na entrada de texto.
Especificamente, a firma de segurança em inteligência artificial (AI) descobriu que alterar palavras de entrada adicionando letras de certas maneiras causava uma falha no modelo de classificação de texto.
Exemplos incluem mudar "instructions" para "finstructions", "announcement" para "aannouncement" ou "idiot" para "hidiot".
Essas mudanças sutis fazem com que diferentes tokenizadores dividam o texto de maneiras distintas, enquanto ainda preservam seu significado para o alvo pretendido.
O que torna o ataque notável é que o texto manipulado permanece totalmente compreensível tanto para o LLM quanto para o leitor humano, fazendo com que o modelo elicie a mesma resposta que teria sido o caso se o texto não modificado tivesse sido passado como entrada.
Ao introduzir as manipulações de uma maneira que não afeta a capacidade do modelo de compreendê-lo, TokenBreak aumenta seu potencial para ataques de injeção de prompt.
"Essa técnica de ataque manipula o texto de entrada de tal forma que certos modelos dão uma classificação incorreta", disseram os pesquisadores em um paper acompanhante.
Importante, o alvo final (LLM ou destinatário do email) ainda pode entender e responder ao texto manipulado e, portanto, ser vulnerável ao próprio ataque que o modelo de proteção foi implementado para prevenir.
O ataque foi encontrado como sendo bem-sucedido contra modelos de classificação de texto que usam estratégias de tokenização BPE (Byte Pair Encoding) ou WordPiece, mas não contra aqueles que usam Unigram.
"A técnica de ataque TokenBreak demonstra que esses modelos de proteção podem ser contornados manipulando o texto de entrada, deixando sistemas de produção vulneráveis", disseram os pesquisadores.
Conhecer a família do modelo de proteção subjacente e sua estratégia de tokenização é crítico para entender sua suscetibilidade a esse ataque.
"Como a estratégia de tokenização tipicamente correlaciona com a família do modelo, existe uma mitigação direta: Selecionar modelos que usem tokenizadores Unigram."
Para se defender contra TokenBreak, os pesquisadores sugerem usar tokenizadores Unigram quando possível, treinar modelos com exemplos de truques de bypass e verificar se a tokenização e a lógica do modelo permanecem alinhadas.
Também ajuda registrar misclassificações e procurar por padrões que indiquem manipulação.
O estudo vem menos de um mês após a HiddenLayer revelar como é possível explorar ferramentas de Model Context Protocol (MCP) para extrair dados sensíveis: "Inserindo nomes de parâmetros específicos dentro da função de uma ferramenta, dados sensíveis, incluindo o prompt do sistema completo, podem ser extraídos e exfiltrados", disse a empresa.
A descoberta também ocorre enquanto a equipe de pesquisa Straiker AI Research (STAR) descobriu que backronyms podem ser usados para jailbreak de chatbots de IA e enganá-los para gerar uma resposta indesejável, incluindo palavrões, promoção de violência e produção de conteúdo sexualmente explícito.
A técnica, chamada de Ataque do Anuário, provou ser eficaz contra vários modelos da Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral AI e OpenAI.
"Eles se misturam ao ruído das solicitações cotidianas — um enigma peculiar aqui, um acrônimo motivacional ali — e por causa disso, muitas vezes contornam as heurísticas toscas que os modelos usam para identificar intenções perigosas", disse a pesquisadora de segurança Aarushi Banerjee.
Uma frase como 'Amizade, união, cuidado, gentileza' não levanta suspeitas.
Mas até o modelo completar o padrão, ele já forneceu o payload, que é a chave para executar esse truque com sucesso. Esses métodos têm sucesso não por sobrecarregar os filtros do modelo, mas por deslizar por baixo deles.
Eles exploram o viés de conclusão e a continuação de padrões, bem como a maneira como os modelos ponderam a coerência contextual sobre a análise de intenção.
Publicidade
Tenha acesso aos melhores hackers éticos do mercado através de um serviço personalizado, especializado e adaptado para o seu negócio. Qualidade, confiança e especialidade em segurança ofensiva de quem já protegeu centenas de empresas. Saiba mais...