Falha no Cloudflare causa interrupção em Massa
13 de Junho de 2025

A Cloudflare confirmou que a grande interrupção dos serviços ontem não foi causada por um incidente de segurança e nenhum dado foi perdido.

O problema foi amplamente mitigado.

Começou às 17:52 UTC ontem quando o sistema Workers KV (Key-Value) ficou completamente offline, causando perdas de serviço generalizadas em vários serviços de edge computing e AI.

Workers KV é um armazenamento chave-valor globalmente distribuído e consistente usado pelos Cloudflare Workers, a plataforma de computação serverless da empresa.

É uma peça fundamental em muitos serviços da Cloudflare e uma falha pode causar problemas em cascata em vários componentes.

A interrupção também impactou outros serviços utilizados por milhões, mais notavelmente a Google Cloud Platform.

Em um post mortem, a Cloudflare explica que a interrupção durou quase 2,5 horas e a causa raiz foi uma falha na infraestrutura de armazenamento subjacente do Workers KV devido a uma interrupção de um provedor de nuvem de terceiros.

“A causa desta interrupção foi devido a uma falha na infraestrutura de armazenamento subjacente usada pelo nosso serviço Workers KV, que é uma dependência crítica para muitos produtos Cloudflare e confiada para configuração, autenticação e entrega de ativos nos serviços afetados,” diz a Cloudflare.

“Parte desta infraestrutura é respaldada por um provedor de nuvem de terceiros, que sofreu uma interrupção hoje e impactou diretamente a disponibilidade do nosso serviço KV.”

A Cloudflare determinou o impacto do incidente em cada serviço:

- Workers KV – experimentou uma taxa de falha de 90,22% devido à indisponibilidade de armazenamento backend, afetando todas as leituras e gravações não cacheadas.
- Access, WARP, Gateway – todos sofreram falhas críticas em autenticação baseada em identidade, manipulação de sessão e aplicação de políticas devido à dependência em Workers KV, com WARP incapaz de registrar novos dispositivos e interrupção do proxy Gateway e consultas DoH.
- Dashboard, Turnstile, Challenges – experimentaram falhas generalizadas no login e na verificação de CAPTCHA, com risco de reutilização de token introduzido devido à ativação do kill switch em Turnstile.
- Browser Isolation & Browser Rendering – falharam em iniciar ou manter sessões baseadas em links e tarefas de renderização de navegador devido a falhas em cascata em Access e Gateway.
- Stream, Images, Pages – experimentaram grandes falhas funcionais: reprodução de Stream e transmissão ao vivo falharam, uploads de imagens caíram para 0% de sucesso, e construção/serviço de Pages atingiram pico de ~100% de falha.
- Workers AI & AutoRAG – estavam completamente indisponíveis devido à dependência em KV para configuração de modelo, roteamento e funções de indexação.
- Durable Objects, D1, Queues – serviços construídos na mesma camada de armazenamento que KV sofreram taxas de erro de até 22% ou completa indisponibilidade para operações de enfileiramento de mensagens e dados.
- Realtime & AI Gateway – enfrentaram uma interrupção de serviço quase total devido à impossibilidade de recuperar configuração de Workers KV, com solicitações de Realtime TURN/SFU e AI Gateway fortemente impactadas.
- Zaraz & Workers Assets – viram falha total ou parcial no carregamento ou atualização de configurações e ativos estáticos, embora o impacto no usuário final tenha sido limitado em escopo.
- CDN, Workers for Platforms, Workers Builds – experimentaram aumento de latência e erros regionais em algumas localizações, com novas construções de Workers falhando 100% durante o incidente.

Em resposta a esta interrupção, a Cloudflare diz que acelerará várias mudanças focadas em resiliência, principalmente eliminando a dependência de um único provedor de nuvem de terceiros para o armazenamento backend do Workers KV.

Gradualmente, o armazenamento central do KV será migrado para o próprio objeto de armazenamento R2 da Cloudflare para reduzir a dependência externa.

A Cloudflare também planeja implementar salvaguardas entre serviços e desenvolver novas ferramentas para restaurar gradualmente os serviços durante interrupções de armazenamento, prevenindo surtos de tráfego que poderiam sobrecarregar sistemas em recuperação e causar falhas secundárias.

Publicidade

Traçamos um caminho para você ir do zero ao avançado em hacking

Conheça a Solyd One, e tenha acesso a todos os cursos de segurança ofensiva da Solyd, todas as certificações práticas, incluindo a SYCP, 2 CTFs anuais com prêmios de até 30 mil reais, dezenas de laboratórios realísticos, suporte, comunidade e muito mais. Saiba mais...