Die Zuverlässigkeit des Cloud-Dienstes schlägt erneut Alarm: Cloudflare veröffentlicht Details zum 5-stündigen Ausfall-Vorfall

Die Zuverlässigkeit von Cloud-Diensten hat erneut Alarm geschlagen. Am 18. November Ortszeit kam es beim Internet-Infrastrukturriesen Cloudflare zu einer Dienstunterbrechung, die dazu führte, dass viele wichtige Websites auf der ganzen Welt nicht mehr erreichbar waren. Nach Angaben der Website-Fehlerverfolgungsagentur Downdetector (die Website selbst war einst für einige Benutzer nicht zugänglich) waren Anthropics Claude-Chatbot, Trumps Truth Social und Musks Social-Media-Plattform X betroffen, und auch einige digitale Dienste des New Jersey Transit System in den Vereinigten Staaten waren aufgrund von Unterbrechungen lahmgelegt.

Unterdessen zeigte die Statusseite von OpenAI später am Tag auch, dass ChatGPT und seine Sora-Kurzvideoanwendung vollständig wiederhergestellt waren, nachdem sie aufgrund eines „Drittanbieter-Dienstanbieter“-Problems ausgefallen waren.

Cloudflare wurde 2009 an der Harvard University gegründet und brachte 2010 offiziell die erste Beta-Version auf den Markt. Das Unternehmen wurde 2019 an der New Yorker Börse notiert und bedient derzeit 30 % der Fortune-1000-Unternehmen. Zu seinen Kerndiensten gehört DDoS (Defense Distributed Denial of Service), ein Angriff, der eine Zielwebsite mit einer Vielzahl falscher Anfragen überschwemmt und diese lahmlegt. Laut ausländischen Medienberichten decken die Verkehrsmanagement- und Sicherheitsschutzdienste des Unternehmens etwa 20 % des Internetverkehrs ab.

Betroffen von dem Vorfall fiel der Aktienkurs von Cloudflare zum US-Börsenschluss am 18. um 2,83 %.

Matthew Prince, Mitbegründer und CEO von Cloudflare, sagte, dass dies der schwerwiegendste Ausfall von Cloudflare seit 2019 sei. „Der heutige Ausfall ist inakzeptabel … Im Namen des gesamten Cloudflare-Teams möchte ich mich für die Probleme im Internet entschuldigen.“

Fehlermeldungen auf betroffenen Websites

Dane Knecht, CTO von Cloudflare, entschuldigte sich ebenfalls auf sozialen Plattformen zutiefst für den Fehler und sagte, dass der Vorfall durch die Unterstützung des Unternehmens bei der Entdeckung eines potenziellen Fehlers in einem Dienst mit einer Bot-Abwehrfunktion verursacht worden sei, der nach routinemäßigen Konfigurationsänderungen abstürzte und dadurch eine umfassende Verschlechterung des Netzwerks und anderer Dienste auslöste, und nicht durch einen Angriff verursacht wurde.

Knecht sagte, der Ausfall, seine Auswirkungen und die Wiederherstellungszeit seien inakzeptabel. „Wir arbeiten daran, sicherzustellen, dass so etwas nie wieder passiert, wissen aber, dass es echte Auswirkungen hat. Das Vertrauen, das unsere Kunden uns geschenkt haben, ist unser wertvollstes Kapital und wir werden alles tun, was nötig ist, um es zurückzugewinnen.“

Screenshot des Tweets von Cloudflare-CTO Dane Knecht

Am Morgen des 19. November Ortszeit veröffentlichte Cloudflare einen vollständigen Bericht, in dem der Vorfall, der fast fünf Stunden andauerte, detailliert beschrieben wurde: Die Auswirkungen begannen um 11:28 Uhr am 18. Ortszeit und es wurden zum ersten Mal Fehler im HTTP-Verkehr von Kunden beobachtet; um 14:30 Uhr war die Hauptauswirkung behoben, die nachgelagerten betroffenen Dienste begannen einen Rückgang der Fehler zu beobachten und die meisten Dienste begannen ordnungsgemäß zu laufen; Um 17:06 Uhr wurden alle Downstream-Dienste neu gestartet, alle Vorgänge wurden vollständig wiederhergestellt und die Auswirkungen endeten.

Cloudflare sagte, dass das Unternehmen zum Zeitpunkt des Ausfalls „zunächst fälschlicherweise vermutete, dass die beobachteten Symptome durch einen sehr groß angelegten DDoS-Angriff verursacht wurden“ und später das Kernproblem korrekt erkannte – das zugrunde liegende ClickHouse-Abfrageverhalten, das diese Datei generierte, hatte sich geändert. Die Datei enthielt eine große Anzahl wiederholter „Signatur“-Zeilen, die dazu führten, dass das Bot-Management-Modul einen Fehler auslöste, wodurch das Kern-Proxy-System einen HTTP-5xx-Fehlercode für jeglichen Datenverkehr zurückgab, der auf diesem Modul beruhte. Gleichzeitig wurde eine Systempanik bei Cloudflare ausgelöst, als eine Fehlerdatei an den Server weitergegeben wurde, die eine Überschreitung der Funktionsanzahl enthielt. Darüber hinaus betrifft dies auch die Workers KV- und Access-Dienste, auf die die Kunden des Unternehmens auf Kernagenten angewiesen sind.

Anschließend löste Cloudflare das Problem, indem es die Generierung und Verbreitung fehlerhafter Signaturdateien stoppte und manuell eine bekanntermaßen gute Datei in die Signaturverteilungswarteschlange einfügte. Anschließend wurde ein Neustart des Kernagenten erzwungen, und die Anzahl der 5xx-Fehlercodes normalisierte sich wieder.

Zeitleiste des Cloudflare-Ausfalls

Cloudflare sagte: „Angesichts der Bedeutung von Cloudflare im Internet-Ökosystem ist jede Störung eines unserer Systeme inakzeptabel“ und entschuldigte sich für die Auswirkungen auf Kunden und das Internet insgesamt.

Cloudflare sagte, dass das Unternehmen damit begonnen habe zu untersuchen, wie das System gestärkt werden könne, um ähnliche Ausfälle in der Zukunft zu verhindern. Dazu gehört auch die Verstärkung der Aufnahmeverarbeitung von Cloudflare-generierten Konfigurationsdateien auf die gleiche Weise wie benutzergenerierte Eingaben; Ermöglichung globalerer Not-Aus-Schalter für Funktionen; Eliminierung der Möglichkeit, dass Core-Dumps oder andere Fehlerberichte die Systemressourcen erschöpfen; Überprüfung der Fehlermodi auf Fehlerbedingungen in allen Kernagentenmodulen.

Ausländischen Medienberichten zufolge kam es weniger als einen Monat vor dem Unfall gerade zu einem tagelangen Ausfall des Amazon Cloud Service, der mehrere Netzwerkdienste lahmlegte. In der Folge kam es auch beim Microsoft Azure Cloud Service und der 365 Office Suite zu weltweiten Ausfällen.

Bereits im Juli 2024 verursachte das Cybersicherheitsunternehmen CrowdStrike aufgrund eines fehlerhaften Software-Updates einen großflächigen Systemausfall, der zu Kettenreaktionen wie Flugverboten, Sperrungen von Finanzdienstleistungen und Verzögerungen bei Operationen in Krankenhäusern führte.