Grande Interrupção da Cloudflare Perturba Serviços de Internet Globais
Em 5 de dezembro de 2025, a Cloudflare sofreu uma interrupção significativa na rede que afetou aproximadamente 28% de todo o tráfego HTTP em sua infraestrutura global. O incidente, que durou cerca de 25 minutos, das 08:47 às 09:12 UTC, causou erros HTTP 500 generalizados em inúmeros sites e serviços que dependem da rede de entrega de conteúdo e dos serviços de segurança da Cloudflare.
Causa: Patch de Segurança que Falhou
A interrupção foi causada por alterações de configuração implementadas pela Cloudflare para proteger seus clientes contra uma vulnerabilidade crítica nos React Server Components, CVE-2025-55182. Esta vulnerabilidade, com uma pontuação CVSS de 10.0 (a gravidade máxima possível), permite a execução remota de código através da desserialização insegura de requisições maliciosas, afetando as versões 19.0-19.2 do React e as versões 15-16 do Next.js.
A Cloudflare aumentou o tamanho do buffer de seu Web Application Firewall (WAF) de 128KB para 1MB para proteger melhor os clientes que usam aplicações React. Durante este processo, a empresa tentou desativar uma ferramenta interna de teste do WAF que não suportava o buffer maior. Esta alteração aparentemente pequena, implementada através do sistema de configuração global da Cloudflare, expôs um bug previamente desconhecido no software proxy FL1 da empresa.
Análise Técnica: A Exceção Lua que Quebrou a Internet
Quando o killswitch foi ativado para desligar a ferramenta de teste, isso causou uma exceção Lua no módulo de regras da Cloudflare:
'[lua] Failed to run module rulesets callback late_routing: /usr/local/nginx-fl/lua/modules/init.lua:314: attempt to index field 'execute' (a nil value)'
Este erro ocorreu porque o código tentou acessar um objeto 'rule_result.execute' que não existia após a ativação do killswitch. O bug existia há anos despercebido no proxy FL1 da Cloudflare, que usa scripts Lua. Curiosamente, o mesmo erro não ocorreu no proxy FL2 mais recente da Cloudflare, escrito em Rust, o que destaca os benefícios de linguagens de programação fortemente tipadas.
Impacto e Escala
A interrupção afetou clientes cujos ativos web eram servidos pelo proxy FL1 mais antigo da Cloudflare E que haviam implementado o Conjunto de Regras Gerenciadas da Cloudflare. Cerca de 28% de todo o tráfego HTTP que passava pela rede da Cloudflare foi afetado, causando erros HTTP 500 para os sites impactados. Grandes plataformas, incluindo X (Twitter), LinkedIn, Zoom, Spotify, Discord, Canva, ChatGPT e várias corretoras de criptomoedas, relataram problemas durante o período da interrupção.
'Qualquer interrupção em nossos sistemas é inaceitável, e sabemos que falhamos com a internet novamente após o incidente de 18 de novembro,' declarou Dane Knecht no post-mortem oficial da Cloudflare.
Segundo Grande Incidente em Duas Semanas
Esta interrupção em 5 de dezembro seguiu-se a um incidente semelhante em 18 de novembro de 2025, onde a Cloudflare sofreu uma interrupção de disponibilidade mais longa que afetou quase todos os clientes. Ambos os incidentes apresentaram semelhanças preocupantes: foram causados por alterações de configuração destinadas a resolver problemas de segurança e ambos se espalharam rapidamente pela rede global da Cloudflare.
A Cloudflare, que segundo a Wikipedia atende aproximadamente 19,3% de todos os sites, tornou-se uma infraestrutura crítica da internet. A posição da empresa entre os usuários e os servidores de origem significa que, quando a Cloudflare tem problemas, mesmo aplicativos totalmente funcionais parecem quebrados para os usuários finais.
Melhorias Planejadas e Implicações do Setor
Após ambos os incidentes, a Cloudflare comprometeu-se a implementar várias melhorias críticas:
- Implantações Aprimoradas & Controle de Versão: Implementação de sistemas de implantação gradual com validação de integridade para alterações de configuração
- Procedimentos de Emergência Otimizados: Garantir que operações críticas permaneçam possíveis durante interrupções
- Tratamento de Erros 'Fail-Open': Os sistemas reverterão por padrão para estados conhecidos e bons, em vez de recusar requisições em caso de erro
'Este tipo de incidentes, e a proximidade com que ocorreram, não são aceitáveis para uma rede como a nossa,' reconheceu a Cloudflare em sua declaração oficial.
Cronologia dos Eventos
O incidente se desenrolou rapidamente: às 08:47 UTC, a alteração de configuração foi implementada e propagada para a rede da Cloudflare. Por volta das 08:48, o impacto total foi sentido nos sistemas afetados. A Cloudflare declarou um incidente às 08:50 com base em alertas automatizados. A alteração foi revertida às 09:11, e por volta das 09:12 UTC, todo o tráfego foi restaurado.
A interrupção destaca o delicado equilíbrio entre melhorias de segurança e estabilidade do sistema na complexa infraestrutura da internet atual. Enquanto a Cloudflare trabalha para implementar suas melhorias prometidas, a comunidade da internet observará de perto para garantir que os provedores de infraestrutura crítica possam oferecer tanto segurança quanto confiabilidade em um mundo digital cada vez mais conectado.
Follow Discussion