Falha no serviço Cloudflare R2
26 de Março de 2025

A Cloudflare anunciou que seu serviço de armazenamento de objetos R2 e serviços dependentes experimentaram uma interrupção que durou 1 hora e 7 minutos, provocando falhas de 100% em gravação (write) e 35% em leitura (read) em escala global.

O Cloudflare R2 é um serviço de armazenamento de objetos compatível com S3, escalável, com recuperação de dados gratuita, replicação multirregião e integração estreita com a Cloudflare.

O incidente, que durou entre 21:38 UTC e 22:45 UTC, foi supostamente causado por uma rotação de credenciais que fez com que o R2 Gateway (frontend da API) perdesse o acesso de autenticação ao armazenamento de backend.

Especificamente, novas credenciais foram erroneamente implantadas em um ambiente de desenvolvimento, em vez de produção, e quando as credenciais antigas foram deletadas, o serviço em produção ficou sem credenciais válidas.

O problema originou-se da omissão de uma única flag de linha de comando, '--env production', que causaria o deploy das novas credenciais para o Worker do R2 Gateway de produção, em vez do worker de produção.

Devido à natureza do problema e ao modo como os serviços da Cloudflare funcionam, a má configuração não foi imediatamente óbvia, causando mais atrasos na sua remediação.

"A queda nas métricas de disponibilidade do R2 foi gradual e não imediatamente óbvia porque houve um atraso na propagação da exclusão das credenciais anteriores para a infraestrutura de armazenamento", explicou a Cloudflare em seu relatório de incidente.

Isso se traduziu em um atraso na nossa descoberta inicial do problema.

Em vez de confiar nas métricas de disponibilidade após a atualização do conjunto antigo de credenciais, deveríamos ter validado explicitamente qual token estava sendo usado pelo serviço R2 Gateway para autenticação com a infraestrutura de armazenamento do R2.

Embora o incidente não tenha resultado em perda ou corrupção de dados dos clientes, ainda assim causou degradação parcial ou total do serviço para:

- R2: falhas de 100% em gravação e 35% em leituras (objetos armazenados em cache permaneceram acessíveis)
- Cache Reserve: tráfego de origem mais alto devido a falhas de leitura
- Imagens e Stream: todas as tentativas de upload falharam, a entrega de imagens caiu para 25% e Stream para 94%
- Email Security, Vectorize, Log Delivery, Billing, Key Transparency Auditor: diferentes níveis de degradação do serviço

Para evitar incidentes semelhantes no futuro, a Cloudflare melhorou o log e a verificação de credenciais e agora exige o uso de ferramentas de deploy automatizadas para evitar erros humanos.

A companhia também está atualizando os procedimentos operacionais padrão (SOPs) para exigir validação dupla para ações de alto impacto como rotação de credenciais e planeja aprimorar as verificações de saúde para uma detecção mais rápida da causa raiz.

O serviço R2 da Cloudflare sofreu outra interrupção de 1 hora em fevereiro, que também foi causada por erro humano.

Um operador, respondendo a um relatório de abuso sobre uma URL de phishing no serviço, desativou todo o serviço R2 Gateway, em vez de bloquear o endpoint específico.

A ausência de salvaguardas e verificações de validação para ações de alto impacto levou à interrupção, incitando a Cloudflare a planejar e implementar medidas adicionais para melhorar o provisionamento de contas, controle de acesso mais rigoroso, e processos de aprovação de duas partes para ações de alto risco.

Publicidade

Traçamos um caminho para você ir do zero ao avançado em hacking

Conheça a Solyd One, e tenha acesso a todos os cursos de segurança ofensiva da Solyd, todas as certificações práticas, incluindo a SYCP, 2 CTFs anuais com prêmios de até 30 mil reais, dezenas de laboratórios realísticos, suporte, comunidade e muito mais. Saiba mais...