Multi-Cloud - oder auch nicht

Warum bei AWS die Server ausgefallen sind und wie Unternehmen darauf reagieren können

Uhr
von Yannick Chavanne und Übersetzung: René Jaun

AWS hat erläutert, warum am 7. Dezember 2021 viele seiner Server ausgefallen sind. Die Panne beeinträchtigte viele Dienste, darunter Disney+, Netflix und Slack. Der Vorfall dürfte bei manchen Unternehmen die Frage nach einer Multi-Cloud-Strategie aufwerfen.

(Source: Riekus/Pixabay.com)
(Source: Riekus/Pixabay.com)

Am 7. Dezember 2021 sind tausende von Websites und Webdienste ausgefallen. Grund dafür waren Probleme bei Amazon Web Services (AWS). Dort fiel während fünf Stunden ein Teil der Cloud-Infrastruktur aus. In einem Blogbeitrag hat der Public-Cloudanbieter nun die Ursache für den Ausfall in der Region US-EAST-1 (Nord-Virginia) detailliert dargelegt.

Von der eigentlichen Panne betroffen war demnach nicht das externe, sondern das interne Netz. In diesem werden einige grundlegende Dienste gehostet, wie etwa das Monitoring, das interne DNS und die Autorisierungsdienste. Diese Dienste kommunizieren mit dem Kernnetz über Geräte, die wiederum das Routing und die Übersetzung von Netzwerkadressen übernehmen, heisst es bei AWS.

Aufgrund einer automatisierten Skalierungsaktivität wurde dann die Kommunikation zwischen dem internen und dem externen Netz mit Verbindungen überflutet. Dieses Verhalten habe man noch nie zuvor beobachtet, obwohl man die entsprechende Software schon seit Jahren einsetze, schreibt AWS. Auch die Überwachungsdienste waren aufgrund der überlasteten Verbindungen beeinträchtigt. Dies erschwerte den AWS-Angestellten Einblicke ins System, wodurch sich wiederum die Problembehebung über mehrere Stunden erstreckte.

Multi-Cloud als einzige Antwort?

Etliche Onlinedienste wurden durch die AWS-Panne in Mitleidenschaft gezogen. Die Website von Associated Press war ebenso betroffen wie etwa Alexa, Disney+, Netflix, Slack und Coinbase.

Mancherorts dürfte der Ausfall die Frage nach der Abhängigkeit eines Dienstes von einem einzigen Cloudanbieter in den Vordergrund gerückt haben. Einem Cloudanbieter obendrein, über dessen Widerstandsfähigkeit ein Unternehmen oft nicht viel weiss. Um diese Abhängigkeit zu entschärfen, setzen viele Unternehmen auf eine Multi-Cloud-Strategie.

Die Gartner-Analystin Lydia Leong hält davon nichts. In einem unlängst erschienenen Artikel erklärt sie, warum die Multi-Cloud-Strategie "fast immer eine schlechte Idee" ist. Darin räumt sie ein, dass es kein Nullrisiko für Kommunikationsprobleme und unerwarteten Skalendruck gibt. Allerdings weist sie auf die vielfältigen, aus unzähligen Elementen bestehenden Mechanismen von Cloud-Infrastrukturen hin, die ihre Resilienz stärken können.

Um ihren Standpunkt zu verdeutlichen, zieht sie einen Vergleich zur Luftfahrtindustrie: "Es könnte zum Beispiel ein Fehler in den Kontrollsystemen der Flugzeuge eines bestimmten Herstellers auftreten, der dazu führt, dass zu einem bestimmten Zeitpunkt alle ihre Flugzeuge gleichzeitig vom Himmel fallen würden. Allerdings planen wir nicht, die Fluggesellschaften zu verpflichten, Ersatzflugzeuge eines anderen Herstellers für einen solchen Fall vorzuhalten. Stattdessen versuchen wir, jedes Flugzeug in vielerlei Hinsicht belastbar zu machen, insbesondere in Bezug auf die wahrscheinlichsten Formen von Störungen, also elektrische oder mechanische Ausfälle einzelner Komponenten."

Risikoteilung aushandeln

Anstatt sich für einen Multi-Cloud-Ansatz zu entscheiden, um die Kontinuität ihrer Dienste um jeden Preis zu sichern, könnten Unternehmen das Risiko auch in den Geschäftsvertrag mit ihrem Anbieter aufnehmen. "Wenn Sie einen Dienst so anpassen können, dass er in mehr als einer Cloud oder in einer Cloud und on-prem funktioniert, dann tun Sie das. Wenn nicht, verhandeln Sie über die Aufteilung des Geschäftsrisikos, informieren Sie sich über die Praktiken [der Cloud-Anbieter] und verhandeln Sie mit ihnen, damit diese Praktiken mit Ihren internen Ausfallsicherheitsanforderungen übereinstimmen", erklärt der Forrester-Analyst Brent Ellis in einem Artikel des Fachmediums TechRepublik.

Ebenfalls einen ausserordentlich langen Ausfall erlitten Anfang Oktober die zu Meta gehörenden Dienste WhatsApp, Instagram und Facebook. Hier lesen Sie, was hinter der Störung steckte.

Webcode
DPF8_241614