A Cloudflare anunciou que seu serviço de armazenamento de objetos R2 e serviços dependentes experimentaram uma interrupção que durou 1 hora e 7 minutos, provocando falhas de 100% em gravação (write) e 35% em leitura (read) em escala global.
O Cloudflare R2 é um serviço de armazenamento de objetos compatível com S3, escalável, com recuperação de dados gratuita, replicação multirregião e integração estreita com a Cloudflare.
O incidente, que durou entre 21:38 UTC e 22:45 UTC, foi supostamente causado por uma rotação de credenciais que fez com que o R2 Gateway (frontend da API) perdesse o acesso de autenticação ao armazenamento de backend.
Especificamente, novas credenciais foram erroneamente implantadas em um ambiente de desenvolvimento, em vez de produção, e quando as credenciais antigas foram deletadas, o serviço em produção ficou sem credenciais válidas.
O problema originou-se da omissão de uma única flag de linha de comando, '--env production', que causaria o deploy das novas credenciais para o Worker do R2 Gateway de produção, em vez do worker de produção.
Devido à natureza do problema e ao modo como os serviços da Cloudflare funcionam, a má configuração não foi imediatamente óbvia, causando mais atrasos na sua remediação.
"A queda nas métricas de disponibilidade do R2 foi gradual e não imediatamente óbvia porque houve um atraso na propagação da exclusão das credenciais anteriores para a infraestrutura de armazenamento", explicou a Cloudflare em seu relatório de incidente.
Isso se traduziu em um atraso na nossa descoberta inicial do problema.
Em vez de confiar nas métricas de disponibilidade após a atualização do conjunto antigo de credenciais, deveríamos ter validado explicitamente qual token estava sendo usado pelo serviço R2 Gateway para autenticação com a infraestrutura de armazenamento do R2.
Embora o incidente não tenha resultado em perda ou corrupção de dados dos clientes, ainda assim causou degradação parcial ou total do serviço para:
- R2: falhas de 100% em gravação e 35% em leituras (objetos armazenados em cache permaneceram acessíveis)
- Cache Reserve: tráfego de origem mais alto devido a falhas de leitura
- Imagens e Stream: todas as tentativas de upload falharam, a entrega de imagens caiu para 25% e Stream para 94%
- Email Security, Vectorize, Log Delivery, Billing, Key Transparency Auditor: diferentes níveis de degradação do serviço
Para evitar incidentes semelhantes no futuro, a Cloudflare melhorou o log e a verificação de credenciais e agora exige o uso de ferramentas de deploy automatizadas para evitar erros humanos.
A companhia também está atualizando os procedimentos operacionais padrão (SOPs) para exigir validação dupla para ações de alto impacto como rotação de credenciais e planeja aprimorar as verificações de saúde para uma detecção mais rápida da causa raiz.
O serviço R2 da Cloudflare sofreu outra interrupção de 1 hora em fevereiro, que também foi causada por erro humano.
Um operador, respondendo a um relatório de abuso sobre uma URL de phishing no serviço, desativou todo o serviço R2 Gateway, em vez de bloquear o endpoint específico.
A ausência de salvaguardas e verificações de validação para ações de alto impacto levou à interrupção, incitando a Cloudflare a planejar e implementar medidas adicionais para melhorar o provisionamento de contas, controle de acesso mais rigoroso, e processos de aprovação de duas partes para ações de alto risco.
Publicidade
Tenha acesso aos melhores hackers éticos do mercado através de um serviço personalizado, especializado e adaptado para o seu negócio. Qualidade, confiança e especialidade em segurança ofensiva de quem já protegeu centenas de empresas. Saiba mais...