Totalausfall der Infrastruktur

Cloudscale fällt aus allen Wolken

Uhr

Vergangenen Freitag ist die Infrastruktur des Schweizer Clouddienstleisters Cloudscale vollständig ausgefallen. Markus Furrer, Sprecher von Cloudscale, nimmt Stellung.

(Source: phtorxp / Pixabay)
(Source: phtorxp / Pixabay)

Am Freitag hat es einen Totalausfall bei der Schweizer Cloud-Dienstleistungsfirma Cloudscale gegeben. Laut Markus Furrer, Sprecher bei Cloudscale, hat es aber nichts mit der kürzlichen Eröffnung eines neuen Rechenzentrums in Lupfig zu tun. Die Firma habe über einen längeren Zeitraum neues Netzwerk-Equipment mit Rücksprache zum Verkäufer getestet. Das bestehende Rechenzentrum in Rümlang sei in mehreren Schritten auf die neue Infrastruktur umgestellt worden.

"Im Produktiv-Betrieb zeigten sich vereinzelte Perioden mit teilweisem Packet-Loss, die zuvor weder in unserem Lab noch beim Vendor beobachtet werden konnten. In unseren Untersuchungen zusammen mit dem Vendor stellte sich heraus, dass der Packet-Loss mit einer erhöhten CPU-Auslastung auf den Netzwerk-Geräten zusammenhängt, deren Ursache noch nicht abschliessend geklärt ist" so Furrer.

Die CPU-Auslastung akzentuierte sich insbesondere am bisherigen Standort in Rümlang - dieser habe bisher auch deutlich mehr Datentraffic als der erst gerade eröffnete Standort in Lupfig. Am Freitagmorgen, 22.11.2019, sei die CPU-Auslastung erneut kritisch angestiegen, was einerseits erneut Packet-Loss verursachte als auch einen Teil der Netzwerk-Geräte selbst phasenweise instabil werden liess.

Der Komplettausfall habe auch die Kunden betroffen. Die Systeme waren von aussen beziehungsweise untereinander nicht oder nur eingeschränkt zugänglich. Auch die firmeninternen Storage-Cluster seien betroffen gewesen. Dies hatte laut Furrer zur Folge, dass die interne Netzwerkinfrastruktur und die Verwaltungsoberfläche teilweise nicht verfügbar waren.

Auf die Frage, wie der Disaster Recovery-Plan von Cloudscale aussieht, antwortet Furrer: "Im vorliegenden Fall hätten wir zusätzlich zu unserer durchgängig redundant ausgelegten Netzwerkinfrastruktur nochmals ein analoges Equipment eines anderen Herstellers benötigt, um selbst auf das unvorhergesehene Verhalten eines sorgfältig evaluierten Gesamtsystems vorbereitet zu sein." Doch auch dann wäre ein (physisches) Umschalten laut Furrer nicht trivial gewesen und hätte eventuell mehr Zeit benötigt als das Beheben eines Problems auf der Erst-Infrastruktur. Cloudscale wolle den Vorfall nun gründlich bearbeiten und schliesse vorerst keine Massnahme aus.

Dass zwei Wochen nach der Eröffnung des neuen Standorts ein Komplettausfall des primären Standorts eintreten würde, habe niemand ahnen können. Mit dem neuen Standort wollte das Unternehmen eigentlich für einen solchen Fall vorbereitet sein, so Furrer.

Webcode
DPF8_161341