Google Revela RETVec - A Nova Defesa do Gmail Contra Spam e Emails Maliciosos
1 de Dezembro de 2023

O Google revelou um novo vetorizador de texto multilíngue chamado RETVec (abreviação de Resilient and Efficient Text Vectorizer) para ajudar a detectar conteúdo potencialmente nocivo, como spam e e-mails maliciosos no Gmail.

"RETVec é treinado para ser resistente contra manipulações de caracteres, incluindo inserção, exclusão, erros de digitação, homógrafos, substituição LEET e mais", de acordo com a descrição do projeto no GitHub.

"O modelo RETVec é treinado em cima de um novo codificador de caracteres, que pode codificar eficientemente todos os caracteres e palavras UTF-8."

Enquanto grandes plataformas como o Gmail e o YouTube dependem de modelos de classificação de texto para detectar ataques de phishing, comentários inadequados e golpes, os agentes de ameaças são conhecidos por criar estratégias para contornar essas medidas de defesa.

Eles foram observados recorrendo a manipulações de texto adversário, que variam desde o uso de homógrafos até o preenchimento de palavras-chave com caracteres invisíveis.

O RETVec, que funciona em mais de 100 idiomas diretamente, visa ajudar a construir classificadores de texto mais resistentes e eficientes no servidor e no dispositivo, ao mesmo tempo em que é mais robusto e computacionalmente menos caro.

A vetorização é uma metodologia no processamento de linguagem natural (NLP) para mapear palavras ou frases de vocabulário para uma representação numérica correspondente, a fim de realizar análises adicionais, como análise de sentimento, classificação de texto e reconhecimento de entidades nomeadas.

"Devido à sua nova arquitetura, o RETVec funciona em todas as línguas e em todos os caracteres UTF-8 sem a necessidade de pré-processamento de texto, tornando-o o candidato ideal para implantações de classificação de texto em grande escala, na web e em dispositivos", notaram Elie Bursztein e Marina Zhang do Google.

O gigante da tecnologia disse que a integração do vetorizador ao Gmail melhorou a taxa de detecção de spam em relação à linha de base em 38% e reduziu a taxa de falso positivo em 19,4%.

Também diminuiu o uso da Unidade de Processamento Tensor (TPU) do modelo em 83%.
"Modelos treinados com o RETVec exibem uma velocidade de inferência mais rápida devido à sua representação compacta.

Ter modelos menores reduz os custos computacionais e diminui a latência, que é crítica para aplicações em grande escala e modelos em dispositivos", acrescentaram Bursztein e Zhang.

Publicidade

Curso gratuito de Python

O curso Python Básico da Solyd oferece uma rápida aproximação à linguagem Python com diversos projetos práticos. Indo do zero absoluto até a construção de suas primeiras ferramentas. Tenha também suporte e certificado gratuitos. Saiba mais...