Zusammenfassung des Ausfalls vom 8. Juni

EVP, Strategy and Operations, Fastly

08. Juni 2021

Aufgrund eines unentdeckten Softwarefehlers, der am 8. Juni durch eine gültige Konfigurationsänderung eines Kunden ausgelöst wurde, kam es zu einem weltweiten Ausfall. Wir erkannten die Störung innerhalb einer Minute, identifizierten und isolierten daraufhin die Ursache und deaktivierten die entsprechende Konfiguration. Innerhalb von 49 Minuten funktionierten 95 % unseres Netzwerks wieder wie gehabt.

Dieser Ausfall war weitreichend und schwerwiegend. Für dessen Auswirkungen möchten wir uns bei unseren Kunden und allen Betroffenen aufrichtig entschuldigen.

Was ist passiert?

Am 12. Mai hat Fastly eine Software releast, die einen Bug enthielt, der unter gewissen Umständen durch eine bestimmte Kundenkonfiguration ausgelöst werden konnte.

In den Morgenstunden des 8. Juni führte ein Kunde eine gültige Konfigurationsänderung durch, die diesen Bug auslöste und darin resultierte, dass 85% unseres Netzwerkes mit Fehlermeldungen auf Anfragen reagierte.

Hier die Ereignisse des Tages im Überblick (alle Zeitangaben in MESZ):

11:47 Uhr Beginn der weltweiten Störung
11:48 Uhr Weltweite Störung von Fastlys Monitoring Team erkannt
11:58 Uhr Statusmitteilung veröffentlicht
12:27 Uhr Kundenkonfiguration von Fastlys Engineering Team identifiziert
12:36 Uhr Betroffene Services allmählich wieder im Normalbetrieb
13:00 Uhr Mehrheit der betroffenen Services wieder im Normalbetrieb
14:35 Uhr Störung behoben
14:44 Uhr Statusmitteilung aufgehoben
19:25 Uhr Bereitstellung der Fehlerbehebung eingeleitet

Sobald die unmittelbaren Auswirkungen behoben waren, konzentrierten wir uns auf die Behebung der Fehlerursachen (des Bugs) und die Kommunikation mit unseren Kunden. Wir erstellten einen permanenten Bug Fix, der ab 19:25 Uhr installiert wurde.

Nächste Schritte

Kurzfristig:

Schnelle und sichere Implementierung der Fehlerbehebung innerhalb unseres Netzwerks
Durchführung einer vollständigen Post-Mortem-Analyse der Prozesse und Praktiken, die wir während dieser Störung befolgt haben
Ermittlung der Gründe, warum wir den Softwarefehler im Rahmen unserer Qualitätssicherungs- und Testverfahren nicht erkannt haben
Überprüfung von Möglichkeiten, Fehler in Zukunft schneller zu beheben

Wir werden auch weiterhin in Innovationen und grundlegende Veränderungen der Sicherheit unserer zugrunde liegenden Plattformen investieren. Im Wesentlichen möchten wir dabei die Isolationsmöglichkeiten von WebAssembly und Compute@Edge voll ausschöpfen, um von vornherein für mehr Ausfallsicherheit zu sorgen. Wir werden unsere Community über die Fortschritte in diesem Zusammenhang auf dem Laufenden halten.

Fazit

Obwohl dieser Ausfall ganz bestimmten Umständen geschuldet war, hätten wir ihn vorhersehen müssen. Wir bieten unternehmenskritische Services an und behandeln jede Situation, die zu Serviceproblemen führen kann, mit höchster Sensibilität und Priorität. Aus diesem Grund möchten wir uns bei unseren Kunden und allen Betroffenen für diesen Ausfall entschuldigen und uns bei der Community für ihre Unterstützung bedanken. Bei weiteren Fragen können sich Kunden gerne jederzeit an support@fastly.com wenden.