A Meta anunciou na terça-feira(29) o LlamaFirewall, um framework de código aberto projetado para proteger sistemas de inteligência artificial (AI) contra riscos cibernéticos emergentes, como injeção de prompts, jailbreaks e código inseguro, entre outros.
O framework, segundo a empresa, incorpora três barreiras de segurança, incluindo o PromptGuard 2, Verificações de Alinhamento do Agente e CodeShield.
PromptGuard 2 é projetado para detectar tentativas de jailbreak direto e injeção de prompts em tempo real, enquanto Verificações de Alinhamento do Agente é capaz de inspecionar o raciocínio do agente para possíveis sequestros de objetivos e cenários indiretos de injeção de prompts.
CodeShield refere-se a um motor de análise estática online que procura prevenir a geração de código inseguro ou perigoso por agentes de AI.
"LlamaFirewall é construído para servir como um framework de barreira de segurança flexível e em tempo real para proteger aplicações impulsionadas por LLM (Large Language Models)," disse a empresa na descrição do projeto no GitHub.
Sua arquitetura é modular, permitindo que equipes de segurança e desenvolvedores componham defesas em camadas que vão desde a ingestão de entrada bruta até ações de saída finais – em modelos de chat simples e agentes autônomos complexos.
Ao lado do LlamaFirewall, a Meta disponibilizou versões atualizadas do LlamaGuard e CyberSecEval para detectar melhor vários tipos comuns de conteúdo violador e medir as capacidades de cibersegurança defensiva de sistemas de AI, respectivamente.
CyberSecEval 4 também inclui um novo benchmark chamado AutoPatchBench, que é projetado para avaliar a capacidade de um agente de modelo de linguagem grande (LLM) para reparar automaticamente uma ampla gama de vulnerabilidades C/C++ identificadas através de fuzzing, uma abordagem conhecida como patching potencializado por AI.
"AutoPatchBench fornece um framework de avaliação padronizado para avaliar a eficácia das ferramentas de reparo de vulnerabilidade assistidas por AI," disse a empresa.
Este benchmark visa facilitar uma compreensão abrangente das capacidades e limitações das várias abordagens impulsionadas por AI para reparar bugs encontrados por fuzzing.
Por último, a Meta lançou um novo programa denominado Llama para Defensores para ajudar organizações parceiras e desenvolvedores de AI a acessarem soluções de AI abertas, de acesso antecipado e fechadas para abordar desafios de segurança específicos, como detectar conteúdo gerado por AI usado em golpes, fraudes e ataques de phishing.
Os anúncios chegam enquanto o WhatsApp apresentou uma nova tecnologia chamada Processamento Privado para permitir que usuários explorem recursos de AI sem comprometer sua privacidade, ao transferir as solicitações para um ambiente confidencial e seguro.
"Estamos trabalhando com a comunidade de segurança para auditar e melhorar nossa arquitetura e continuaremos a construir e fortalecer o Processamento Privado de forma aberta, em colaboração com pesquisadores, antes de lançá-lo no produto," disse a Meta.
Publicidade
Tenha acesso aos melhores hackers éticos do mercado através de um serviço personalizado, especializado e adaptado para o seu negócio. Qualidade, confiança e especialidade em segurança ofensiva de quem já protegeu centenas de empresas. Saiba mais...