Mitten in der Kernschmelze: Eine Sache können CrowdStrike und Microsoft nicht beheben
Am Sonntag, dem 21. Juli, habe ich während der 15-stündigen Fahrt über zwei der größten Flughäfen des Landes nur einen Blue Screen of Death gesehen, nur zwei Tage nachdem ein verpfuschtes Software-Update Millionen von Unternehmenscomputern mit dem Betriebssystem Windows lahmgelegt hatte.
„Vielleicht ist alles in Ordnung“, dachte ich, als meine Familie gegen 9 Uhr morgens die ersten Schritte zum New Yorker Flughafen LaGuardia machte. Am dritten Tag des großen Fensterausfalls im Jahr 2024 machten die Schlagzeilen das Gegenteil: Der Ticket- und Gepäckbereich sah nicht so gut aus schlecht.
Ich hätte es besser wissen sollen. Ich hatte buchstäblich zwei Schritte ins Innere des Gebäudes gemacht, bevor ich im Laufe des Tages die erste von etwa 3.000 Verspätungs-E-Mails von Delta erhielt, zusammen mit noch mehr Benachrichtigungen von den Apps Flighty und Fly Delta. Das würde kein einfacher Heimweg von New York nach Florida werden, etwas, das ich im Laufe der Jahre Dutzende Male getan habe.
Flugverspätungen sind mir nicht fremd. ( Ich habe Ende Januar 15 Stunden im Sky Club am LAX verbracht – etwas, das ich nicht empfehlen kann, auch wenn es so gut ist.) Aber dieses war anders. Wetter passiert. Es treten mechanische Probleme auf. Sie sind zwar scheiße, aber letztlich kommt es auf die Sicherheit an. Diesmal? Ein Sicherheitsanbieter eines Drittanbieters hat eine Datei in Windows verpfuscht. CrowdStrike hätte es erkennen sollen. Microsoft hätte es erkennen sollen. Weder tat es, bis es zu spät war. Während die Lösung relativ einfach war – starten Sie im abgesicherten Modus oder starten Sie den Computer so lange neu, bis die fehlerhafte Datei ersetzt wurde –, waren die ersten Auswirkungen immens.
Es sind die Effekte zweiter und dritter Ordnung, bei denen es für die Fluggesellschaften wirklich schiefgelaufen ist. Delta wurde besonders hart getroffen – CEO Ed Bastian schrieb am Sonntag, dass bis Samstag mehr als 3.500 Flüge gestrichen wurden und am Sonntag noch viele weitere. „Bitte besuchen Sie mich auf dem Podium, wenn Sie eine Umarmung brauchen“, sagte unser Gate-Agent am Sonntag gegen 16:30 Uhr, als auf der Tafel „ABGESAGT“ stand.
Die Warteschlange am Umbuchungsschalter in der Halle A in Atlanta – einem der sieben Terminals am verkehrsreichsten Flughafen des Landes – war komisch (oder tragisch) lang. Ich saß mit einem Ohrhörer zwei Stunden lang in der Warteschleife der Reservierungsleitung der Fluggesellschaft, bevor ich aufgab. (Mein Bruder, der einen viel höheren Status als Vielflieger hat, hat es zumindest geschafft, eine echte Person dazu zu bringen, ihm zu sagen, dass ich auf keinen Fall vor Mitternacht rauskomme und dass es das Beste sei, den zugewiesenen Flug einzuhalten Jetzt.)
In den frühen Morgenstunden des Montags, dem 22. Juli, endlich an Bord, gab uns eine Flugbegleiterin eine Vorstellung davon, was die Dinge wirklich aus der Fassung brachte: Delta wusste nicht, wo sich ihre Besatzungen befanden. Dies wurde später am Tag in einem anderen Nachrichtenbeitrag von Delta bestätigt, in dem es hieß, dass mehr als die Hälfte des IT-Systems von Delta unter Windows läuft und dass auch nach dem Neustart der betroffenen Maschinen zusätzliche Synchronisierungszeit erforderlich sei.
„Deltas Besatzungen sind voll besetzt und bereit, unsere Kunden zu bedienen“, heißt es in dem Beitrag weiter. „Aber eines der kritischsten Systeme von Delta – das sicherstellt, dass auf allen Flügen eine vollständige Besatzung zur richtigen Zeit am richtigen Ort ist – ist äußerst komplex und erfordert die meiste Zeit und manuelle Unterstützung für die Synchronisierung.“
Schließlich kamen wir gegen 2 Uhr morgens müde nach Hause. Ein wenig erschöpft. Aber insgesamt nur etwa acht Stunden Verspätung. Wir hatten Glück. Mein Bruder verbrachte zwei Tage zuvor etwa 30 Stunden am Flughafen von Atlanta und versuchte, nach einer abgebrochenen Reise an die Westküste nach Pensacola zurückzukehren. Keine Flüge. Keine Einwegmieten von Autos. Abgesehen vom Warten gibt es keine andere echte Option, außer dass jemand für eine Rettung fünf Stunden pro Strecke fährt.
Unsere Geschichten waren nur zwei von Tausenden – und bei unseren stand relativ wenig auf dem Spiel. Wir hatten keine Kinder, die alleine reisten. Wir haben nicht viel Geld verloren, abgesehen von ein paar Mahlzeiten, die wir nicht auf einem Flughafen geplant hatten. Unsere Taschen haben es im selben Flugzeug geschafft.
Die sofortige Behebung des CrowdStrike-Fehlers war ziemlich einfach. CrowdStrike und Microsoft müssen über Richtlinien verfügen, um die Möglichkeit zu verringern, dass so etwas noch einmal passiert. (Das wird natürlich wieder passieren.) Aber wie heißt es so schön – und das ist die PG-13-Version – der Kot fließt bergab. Nichts davon war die Schuld der Fluggesellschaften. Aber es wurde schnell zu einem Chaos, das sie beseitigen mussten.
Und das kann ein einfacher Neustart nicht beheben. Selbst wenn man esmehr als 8 Millionen Mal macht.