A gigante de segurança da Internet Cloudflare anunciou que perdeu 55% de todos os registros enviados aos clientes durante um período de 3,5 horas devido a um bug no serviço de coleta de logs em 14 de novembro de 2024.
A Cloudflare oferece um serviço extensivo de logs aos clientes, que permite monitorar o tráfego em seu site e filtrar esse tráfego com base em certos critérios.
Esses logs permitem que os clientes analisem o tráfego para seus hosts para monitorar e investigar incidentes de segurança, troubleshooting, ataques DDoS, padrões de tráfego ou para realizar otimizações no site.
Para clientes que desejam analisar esses logs usando ferramentas externas, a Cloudflare oferece um serviço de "logpush" que coleta logs de seus vários endpoints e os envia para serviços de armazenamento externo, como Amazon S3, Elastic, Microsoft Azure, Splunk, Google Cloud Storage, etc.
Esses logs são gerados em uma escala massiva, já que a Cloudflare processa mais de 50 trilhões de logs de eventos de clientes diariamente, dos quais cerca de 4,5 trilhões de logs são enviados aos clientes.
A Cloudflare afirma que um bug no serviço de logpush causou a perda de logs de clientes por 3,5 horas em 14 de novembro.
"No dia 14 de novembro de 2024, a Cloudflare enfrentou um incidente que impactou a maioria dos clientes que utilizam os Cloudflare Logs," explica a Cloudflare.
Durante as aproximadamente 3,5 horas em que esses serviços foram impactados, cerca de 55% dos logs que normalmente enviamos aos clientes não foram enviados e foram perdidos.
O incidente foi causado por uma má configuração no Logfwdr, um componente chave na pipeline de logs da Cloudflare responsável por encaminhar os logs de eventos da rede da empresa para sistemas downstream.
Especificamente, uma atualização de configuração introduziu um bug que emitia uma 'configuração em branco', informando erroneamente ao sistema que não havia clientes cujos logs estavam configurados para serem encaminhados, e assim, os logs foram descartados.
O Logfwdr é projetado com um sistema à prova de falhas que, por padrão, encaminha todos os logs em caso de configurações 'em branco' ou inválidas para evitar a perda de dados.
No entanto, esse sistema à prova de falhas causou um pico massivo no volume de logs sendo processados, pois tentava encaminhar logs para todos os clientes.
Isso sobrecarregou o Buftee, um sistema de buffer distribuído que mantém temporariamente os logs quando os sistemas downstream não conseguem processá-los em tempo real, que foi chamado para lidar com 40 vezes mais logs do que sua capacidade provisionada.
O Buftee possui seu próprio conjunto de salvaguardas contra sobrecarga de buffer, como limites de recursos e throttling, mas esses falharam devido a uma configuração imprópria e falta de testes anteriores.
Como resultado, em apenas cinco minutos da má configuração no Logfwdr, o Buftee desligou e exigiu um reinício completo, atrasando ainda mais a recuperação e resultando na perda de ainda mais logs.
Como resposta ao incidente, a Cloudflare implementou várias medidas para prevenir ocorrências futuras.
Isso inclui a introdução de um sistema dedicado de detecção de má configuração e notificação para alertar as equipes imediatamente quando anomalias nas configurações de encaminhamento de logs forem detectadas.
Além disso, a Cloudflare diz que agora configurou corretamente o Buftee para evitar que picos no volume de logs causem paralisações completas do sistema.
Por fim, a empresa planeja realizar testes de sobrecarga rotineiramente, simulando surtos inesperados nos volumes de dados, garantindo que todas as etapas dos mecanismos à prova de falhas sejam robustas o suficiente para lidar com esses eventos.
Publicidade
Tenha acesso aos melhores hackers éticos do mercado através de um serviço personalizado, especializado e adaptado para o seu negócio. Qualidade, confiança e especialidade em segurança ofensiva de quem já protegeu centenas de empresas. Saiba mais...