Cloudflare erlebte am 5. Dezember 2025 einen 25-minütigen Ausfall, der 28% des HTTP-Verkehrs betraf. Der Vorfall wurde durch Konfigurationsänderungen für eine kritische React-Schwachstelle verursacht, die einen Bug in Cloudflares FL1-Proxy aufdeckte.
Großflächiger Cloudflare-Ausfall stört weltweite Internetdienste
Am 5. Dezember 2025 erlebte Cloudflare einen signifikanten Netzwerkausfall, der etwa 28% des gesamten HTTP-Verkehrs auf dem globalen Infrastrukturnetzwerk des Unternehmens betraf. Der Vorfall, der etwa 25 Minuten von 08:47 bis 09:12 UTC dauerte, verursachte weit verbreitete HTTP-500-Fehler auf zahlreichen Websites und Diensten, die auf Cloudflares Content Delivery Network und Sicherheitsdienste angewiesen sind.
Ursache: Fehlgeschlagener Sicherheitspatch
Der Ausfall wurde durch Konfigurationsänderungen verursacht, die Cloudflare implementierte, um Kunden vor einer kritischen Schwachstelle in React Server Components zu schützen, CVE-2025-55182. Diese Schwachstelle mit einem CVSS-Score von 10.0 (der höchstmöglichen Schwere) ermöglicht Remote Code Execution über unsichere Deserialisierung bösartiger Anfragen, die React-Versionen 19.0-19.2 und Next.js-Versionen 15-16 betrifft.
Cloudflare erhöhte die Puffergröße seiner Web Application Firewall (WAF) von 128KB auf 1MB, um Kunden, die React-Anwendungen nutzen, besser zu schützen. Während dieses Prozesses versuchte das Unternehmen, ein internes WAF-Testtool zu deaktivieren, das die größere Puffergröße nicht unterstützte. Diese scheinbar kleine Änderung, implementiert über Cloudflares globales Konfigurationssystem, legte einen zuvor unbekannten Bug in der FL1-Proxysoftware des Unternehmens offen.
Technische Analyse: Die Lua-Exception, die das Internet brach
Als der Killswitch aktiviert wurde, um das Testtool zu deaktivieren, verursachte dies eine Lua-Exception in Cloudflares Rules-Modul:
'[lua] Failed to run module rulesets callback late_routing: /usr/local/nginx-fl/lua/modules/init.lua:314: attempt to index field 'execute' (a nil value)'
Dieser Fehler trat auf, weil der Code versuchte, auf ein 'rule_result.execute'-Objekt zuzugreifen, das nach Aktivierung des Killswitches nicht existierte. Der Bug existierte bereits seit Jahren unentdeckt in Cloudflares FL1-Proxy, der Lua-Scripting verwendet. Interessanterweise trat derselbe Fehler nicht in Cloudflares neuerem, in Rust geschriebenen FL2-Proxy auf, was die Vorteile stark typisierter Programmiersprachen unterstreicht.
Auswirkungen und Umfang
Der Ausfall betraf Kunden, deren Web-Assets vom älteren FL1-Proxy von Cloudflare bedient wurden UND die das Cloudflare Managed Ruleset implementiert hatten. Etwa 28% des gesamten HTTP-Verkehrs, der durch Cloudflares Netzwerk ging, waren betroffen, was zu HTTP-500-Fehlern für betroffene Websites führte. Große Plattformen wie X (Twitter), LinkedIn, Zoom, Spotify, Discord, Canva, ChatGPT und mehrere Kryptowährungsbörsen meldeten während der Ausfallzeit Probleme.
'Jeder Ausfall unserer Systeme ist inakzeptabel, und wir wissen, dass wir das Internet nach dem Vorfall vom 18. November erneut im Stich gelassen haben,' erklärte Dane Knecht in Cloudflares offiziellem Post-Mortem-Blogbeitrag.
Zweiter größerer Vorfall innerhalb von zwei Wochen
Dieser Ausfall am 5. Dezember folgte auf einen ähnlichen Vorfall am 18. November 2025, bei dem Cloudflare eine längere Verfügbarkeitsunterbrechung erlebte, die fast alle Kunden betraf. Beide Vorfälle zeigten besorgniserregende Ähnlichkeiten: Sie wurden durch Konfigurationsänderungen verursacht, die Sicherheitsprobleme adressieren sollten, und beide verbreiteten sich schnell über Cloudflares globales Netzwerk.
Cloudflare, das laut Wikipedia etwa 19,3% aller Websites bedient, ist zu einer kritischen Internetinfrastruktur geworden. Die Position des Unternehmens zwischen Nutzern und Ursprungsservern bedeutet, dass, wenn Cloudflare Probleme hat, selbst voll funktionsfähige Anwendungen für Endnutzer kaputt erscheinen.
Geplante Verbesserungen und Branchenimplikationen
Nach beiden Vorfällen hat sich Cloudflare verpflichtet, mehrere kritische Verbesserungen umzusetzen:
- Verbesserte Implementierungen & Versionsverwaltung: Implementierung von schrittweisen Rollout-Systemen mit Gesundheitsvalidierung für Konfigurationsänderungen
- Optimierte Notfallverfahren: Sicherstellen, dass kritische Operationen während Ausfällen möglich bleiben
- 'Fail-Open'-Fehlerbehandlung: Systeme werden standardmäßig auf bekannte gute Zustände zurückfallen, anstatt Anfragen bei Fehlern abzulehnen
'Diese Art von Vorfällen, und wie dicht sie aufeinanderfolgen, sind für ein Netzwerk wie unseres nicht akzeptabel,' räumte Cloudflare in seiner offiziellen Erklärung ein.
Zeitlicher Ablauf der Ereignisse
Der Vorfall entfaltete sich schnell: Um 08:47 UTC wurde die Konfigurationsänderung implementiert und in Cloudflares Netzwerk verteilt. Gegen 08:48 wurde die volle Auswirkung in betroffenen Systemen spürbar. Cloudflare erklärte um 08:50 basierend auf automatisierten Warnungen einen Vorfall. Die Änderung wurde um 09:11 rückgängig gemacht, und gegen 09:12 UTC war der gesamte Verkehr wiederhergestellt.
Der Ausfall unterstreicht das empfindliche Gleichgewicht zwischen Sicherheitsverbesserungen und Systemstabilität in der komplexen Internetinfrastruktur von heute. Während Cloudflare daran arbeitet, seine versprochenen Verbesserungen umzusetzen, wird die Internetgemeinschaft genau beobachten, um sicherzustellen, dass kritische Infrastrukturanbieter sowohl Sicherheit als auch Zuverlässigkeit in einer zunehmend vernetzten digitalen Welt liefern können.
Nederlands
English
Deutsch
Français
Español
Português