O Google revelou um novo vetorizador de texto multilíngue chamado RETVec (abreviação de Resilient and Efficient Text Vectorizer) para ajudar a detectar conteúdo potencialmente nocivo, como spam e e-mails maliciosos no Gmail.
"RETVec é treinado para ser resistente contra manipulações de caracteres, incluindo inserção, exclusão, erros de digitação, homógrafos, substituição LEET e mais", de acordo com a descrição do projeto no GitHub.
"O modelo RETVec é treinado em cima de um novo codificador de caracteres, que pode codificar eficientemente todos os caracteres e palavras UTF-8."
Enquanto grandes plataformas como o Gmail e o YouTube dependem de modelos de classificação de texto para detectar ataques de phishing, comentários inadequados e golpes, os agentes de ameaças são conhecidos por criar estratégias para contornar essas medidas de defesa.
Eles foram observados recorrendo a manipulações de texto adversário, que variam desde o uso de homógrafos até o preenchimento de palavras-chave com caracteres invisíveis.
O RETVec, que funciona em mais de 100 idiomas diretamente, visa ajudar a construir classificadores de texto mais resistentes e eficientes no servidor e no dispositivo, ao mesmo tempo em que é mais robusto e computacionalmente menos caro.
A vetorização é uma metodologia no processamento de linguagem natural (NLP) para mapear palavras ou frases de vocabulário para uma representação numérica correspondente, a fim de realizar análises adicionais, como análise de sentimento, classificação de texto e reconhecimento de entidades nomeadas.
"Devido à sua nova arquitetura, o RETVec funciona em todas as línguas e em todos os caracteres UTF-8 sem a necessidade de pré-processamento de texto, tornando-o o candidato ideal para implantações de classificação de texto em grande escala, na web e em dispositivos", notaram Elie Bursztein e Marina Zhang do Google.
O gigante da tecnologia disse que a integração do vetorizador ao Gmail melhorou a taxa de detecção de spam em relação à linha de base em 38% e reduziu a taxa de falso positivo em 19,4%.
Também diminuiu o uso da Unidade de Processamento Tensor (TPU) do modelo em 83%.
"Modelos treinados com o RETVec exibem uma velocidade de inferência mais rápida devido à sua representação compacta.
Ter modelos menores reduz os custos computacionais e diminui a latência, que é crítica para aplicações em grande escala e modelos em dispositivos", acrescentaram Bursztein e Zhang.
Publicidade
Em 14 de janeiro a Solyd irá revolucionar a forma como pentest e hacking deve ser ensinado. Se inscreva para ser o primeiro a saber das novidades. Saiba mais...