Falha no serviço Cloudflare R2
26 de Março de 2025

A Cloudflare anunciou que seu serviço de armazenamento de objetos R2 e serviços dependentes experimentaram uma interrupção que durou 1 hora e 7 minutos, provocando falhas de 100% em gravação (write) e 35% em leitura (read) em escala global.

O Cloudflare R2 é um serviço de armazenamento de objetos compatível com S3, escalável, com recuperação de dados gratuita, replicação multirregião e integração estreita com a Cloudflare.

O incidente, que durou entre 21:38 UTC e 22:45 UTC, foi supostamente causado por uma rotação de credenciais que fez com que o R2 Gateway (frontend da API) perdesse o acesso de autenticação ao armazenamento de backend.

Especificamente, novas credenciais foram erroneamente implantadas em um ambiente de desenvolvimento, em vez de produção, e quando as credenciais antigas foram deletadas, o serviço em produção ficou sem credenciais válidas.

O problema originou-se da omissão de uma única flag de linha de comando, '--env production', que causaria o deploy das novas credenciais para o Worker do R2 Gateway de produção, em vez do worker de produção.

Devido à natureza do problema e ao modo como os serviços da Cloudflare funcionam, a má configuração não foi imediatamente óbvia, causando mais atrasos na sua remediação.

"A queda nas métricas de disponibilidade do R2 foi gradual e não imediatamente óbvia porque houve um atraso na propagação da exclusão das credenciais anteriores para a infraestrutura de armazenamento", explicou a Cloudflare em seu relatório de incidente.

Isso se traduziu em um atraso na nossa descoberta inicial do problema.

Em vez de confiar nas métricas de disponibilidade após a atualização do conjunto antigo de credenciais, deveríamos ter validado explicitamente qual token estava sendo usado pelo serviço R2 Gateway para autenticação com a infraestrutura de armazenamento do R2.

Embora o incidente não tenha resultado em perda ou corrupção de dados dos clientes, ainda assim causou degradação parcial ou total do serviço para:

- R2: falhas de 100% em gravação e 35% em leituras (objetos armazenados em cache permaneceram acessíveis)
- Cache Reserve: tráfego de origem mais alto devido a falhas de leitura
- Imagens e Stream: todas as tentativas de upload falharam, a entrega de imagens caiu para 25% e Stream para 94%
- Email Security, Vectorize, Log Delivery, Billing, Key Transparency Auditor: diferentes níveis de degradação do serviço

Para evitar incidentes semelhantes no futuro, a Cloudflare melhorou o log e a verificação de credenciais e agora exige o uso de ferramentas de deploy automatizadas para evitar erros humanos.

A companhia também está atualizando os procedimentos operacionais padrão (SOPs) para exigir validação dupla para ações de alto impacto como rotação de credenciais e planeja aprimorar as verificações de saúde para uma detecção mais rápida da causa raiz.

O serviço R2 da Cloudflare sofreu outra interrupção de 1 hora em fevereiro, que também foi causada por erro humano.

Um operador, respondendo a um relatório de abuso sobre uma URL de phishing no serviço, desativou todo o serviço R2 Gateway, em vez de bloquear o endpoint específico.

A ausência de salvaguardas e verificações de validação para ações de alto impacto levou à interrupção, incitando a Cloudflare a planejar e implementar medidas adicionais para melhorar o provisionamento de contas, controle de acesso mais rigoroso, e processos de aprovação de duas partes para ações de alto risco.

Publicidade

Proteja sua empresa contra hackers através de um Pentest

Tenha acesso aos melhores hackers éticos do mercado através de um serviço personalizado, especializado e adaptado para o seu negócio. Qualidade, confiança e especialidade em segurança ofensiva de quem já protegeu centenas de empresas. Saiba mais...