Pane na Cloudflare
10 de Fevereiro de 2025

Uma tentativa de bloquear uma URL de phishing na plataforma de armazenamento de objetos R2 da Cloudflare teve efeitos contrários ontem, provocando uma falha generalizada que derrubou vários serviços por quase uma hora.

Cloudflare R2 é um serviço de armazenamento de objetos similar ao Amazon S3, projetado para armazenamento de dados escalável, durável e de baixo custo.

Oferece recuperação de dados sem custos, compatibilidade com S3, replicação de dados em múltiplos locais e integração com os serviços da Cloudflare.

O incidente ocorreu ontem quando um funcionário respondeu a um relatório de abuso sobre uma URL de phishing na plataforma R2 da Cloudflare.

No entanto, em vez de bloquear o endpoint específico, o funcionário desligou acidentalmente todo o serviço Gateway R2.

"Durante uma remediação de abuso de rotina, foi tomada uma ação baseada em uma reclamação que inadvertidamente desativou o serviço R2 Gateway ao invés do endpoint/bucket específico associado ao relatório," explicou Cloudflare em seu relatório pós-incidente.

Isso foi uma falha de múltiplos controles de nível de sistema (em primeiro lugar) e treinamento operacional.

O incidente durou 59 minutos, entre 08:10 e 09:09 UTC, e além do próprio Armazenamento de Objetos R2, também afetou serviços como:

- Stream – Falha de 100% em uploads de vídeo e entrega de streaming.
- Images – Falha de 100% em uploads/downloads de imagens.
- Cache Reserve – Falha de 100% nas operações, causando um aumento nas solicitações de origem.
- Vectorize – Falha de 75% nas consultas, 100% de falha em operações de inserção, atualização e exclusão.
- Log Delivery – Atrasos e perda de dados: Até 13.6% de perda de dados para logs relacionados ao R2, até 4.5% de perda de dados para trabalhos de entrega não-R2.
- Key Transparency Auditor – Falha de 100% na publicação de assinaturas & operações de leitura.

Houve também serviços indiretamente impactados que experimentaram falhas parciais, como Durable Objects, que teve um aumento de 0.09% na taxa de erro devido a reconexões após a recuperação, Cache Purge, que viu um aumento de 1.8% em erros (HTTP 5xx) e pico de latência de 10x, e Workers & Pages, que teve 0.002% de falhas de implantação, afetando apenas projetos com ligações R2.

A Cloudflare observa que tanto o erro humano quanto a ausência de salvaguardas, como verificações de validação para ações de alto impacto, foram fundamentais neste incidente.

O gigante da internet agora implementou correções imediatas, como a remoção da capacidade de desligar sistemas na interface de revisão de abusos e restrições na Admin API para prevenir a desativação de serviços em contas internas.

Medidas adicionais a serem implementadas no futuro incluem aprimoramento na provisão de contas, controle de acesso mais rigoroso e um processo de aprovação bipartidário para ações de alto risco.

Em novembro de 2024, a Cloudflare experimentou outra falha notável por 3.5 horas, resultando na perda irreversível de 55% de todos os logs no serviço.

Esse incidente foi causado por falhas em cascata nos sistemas automáticos de mitigação da Cloudflare, desencadeadas ao aplicar uma configuração errada em um componente chave no pipeline de registro da empresa.

Publicidade

Proteja sua empresa contra hackers através de um Pentest

Tenha acesso aos melhores hackers éticos do mercado através de um serviço personalizado, especializado e adaptado para o seu negócio. Qualidade, confiança e especialidade em segurança ofensiva de quem já protegeu centenas de empresas. Saiba mais...