BGP-Ausfall

Facebook nimmt Stellung: Das ist die Ursache des Totalausfalls

Uhr
von Petar Marjanović, watson.ch ; Redaktion Nadja Baumgartner

Der Facebook-Konzern erlebte am Montagabend einen Riesen-GAU. Jetzt hat er Stellung bezogen und den Ausfall begründet.

(Source: Brett Jordan / Unsplash)
(Source: Brett Jordan / Unsplash)

Stunden, nachdem Facebook, Whatsapp und Instagram langsam wieder zu funktionieren begannen, entschuldigte sich Facebook in einer offiziellen Stellungnahme: "An alle Menschen und Unternehmen rund um die Welt, wir entschuldigen uns für die Unannehmlichkeiten, die beim Ausfall unserer Plattformen entstanden sind."

Sie liefern auch eine Erklärung, was den riesigen Ausfall verursacht hat: "Unsere Ingenieurteams haben herausgefunden, dass Konfigurationsänderungen an den Backbone-Routern, die den Netzwerkverkehr zwischen unseren Rechenzentren koordinieren, Probleme verursachten haben, die diese Kommunikation unterbrochen haben."

Auch interne Instrumente und Systeme, die täglich gebraucht würden, seien betroffen gewesen, heisst in der Stellungnahme weiter. Dies erschwerte den Versuch, das Problem zu erkennen und zu beheben.

Die zuvor erwähnte Konfigurationsänderung führte zu einem Unterbruch des Netzwerkverkehrs, was einen kaskadenartigen Effekt auf die Kommunikationsweise der Datenzentren gehabt habe. In anderen Worten: Die Dienste von Facebook kamen zu einem Stillstand.

Doch nun sei alles wieder online. Facebook betont, dass sie die Wurzel des Problems in einer falschen Konfigurationsänderung sehen. Des weiteren gebe es auch noch keine Beweise dafür, dass durch den Ausfall irgendwelche Daten gefährdet worden waren.

Erste Entschuldigung am Montagabend

Der Tweet von Mike Schroepfer, dem IT-Chef des Konzerns, stellte am Montagabend das erste Facebook-Statement dar, das nicht einem regelrechten PR-Flop glich: "Wir entschuldigen uns aufrichtig bei allen, die von den Ausfällen bei den Facebook-Diensten betroffen sind."

Schroepfers Arbeitgeber Facebook blamierte sich in den Stunden vor seinem Tweet mit eher missglückten Statements. So sprach der Konzern anfangs nur von "einigen Menschen", die Mühe hätten, Instagram, Whatsapp und Co. zu nutzen. Mit jeder Stunde, die verstrich, und mit Schroepfers Tweet wurde klar: Das Problem ist riesig.

Der IT-Chef bestätigte in seinem Kommentar zudem, was zuvor von Tech-Expertinnen und -Experten vermutet wurde: "Wir haben Netzwerkprobleme und die Teams arbeiten so schnell wie möglich an der Fehlerbehebung und Wiederherstellung." Die Facebook-Störung trat kurz vor 18 Uhr weltweit auf und folgte auf grössere Änderungen beim sogenannten "Border Gateway Protocol" (BGP). Dieses System ist zuständig dafür, dass ein Computer den effizientesten und schnellsten Weg zu einem bestimmten Server findet, der sich hinter einer Webadresse wie "facebook.com" oder "instagram.com" versteckt.

BGP, ein Grundbaustein fürs Internet

Laut Cloudflare ist das BGP ein Mechanismus, um Routing-Informationen zwischen autonomen Systemen (AS) im Internet auszutauschen. Ohne BGP wüssten die Router nicht, was sie tun müssten und das Internet würde nicht funktionieren. Das Internet sei nämlich buchstäblich ein "Netzwerk aus Netzwerken", welches durch BGP miteinander verbunden sei. Die einzelnen Netzwerke haben jeweils eine AS-Nummer. Das autonome System ist selbst ein individuelles Netzwerk mit einer einheitlichen internen Routing-Richtlinie. Ein AS kann sowohl Ursprungs-Präfixe (das heisst, es kontrolliert eine Gruppe von IP-Adressen) als auch Transit-Präfixe (das heisst, es weiss, wie er bestimmte Gruppen von IP-Adressen erreichen kann) vergeben.

Jedes AS muss seine Präfix-Routen im Internet mit BGP bekanntgeben, sonst weiss niemand, wie er sich verbinden und wo er das Netzwerk finden kann. In diesem Diagramm sind sechs AS ersichtlich und zwei mögliche Router vorhanden, um vom Start zum Ende zu gelangen. Um von AS1 zu AS3 zu gelangen, ist die Route über AS2 der schnellste Weg. Die Route von AS1 zu AS6 zu AS5 zu AS4 zu AS3 ist der langsamste, aber kann benutzt werden, wenn der schnellere abstürzt. Als der Ausfall begann, hat Facebook die Routen zu seinen DNS-Präfixen nicht mehr bekanntgegeben. Somit waren zumindest die DNS-Server nicht mehr verfügbar, wie Cloudflare schreibt. Aus diesem Grund konnte der DNS-Resolver 1.1.1.1 von Cloudflare nicht mehr auf Anfragen nach der IP-Adresse von facebook.com oder instagram.com antworten.

(Source: Screenshot https://blog.cloudflare.com/october-2021-facebook-outage/)

Von da an wurden Routen zurückgezogen und alle DNS-Server von Facebook gingen offline. Das Unternehmen hat sich praktisch vom Internet abgekoppelt.

Auch Mitarbeitende verloren den Zugang

Bitter für Schroepfer dürfte sein, dass er das Problem nicht einfach und schnell mit seinen Teamkolleginnen und -kollegen lösen kann. Am Montagabend kamen nämlich Meldungen auf, wonach selbst für Mitarbeitenden der Zugang zu Facebook-Büros versperrt sei. Ein Journalist des TV-Senders NBC vermutete, dass das Gebäude-Zugangssystem ebenfalls ans Facebook-System gekoppelt sei. Und wenn dieses nicht funktioniert, dann funktioniert auch der Badge an der Türe nicht.

Für Mitarbeitende bei Facebook dürfte das Ganze ein Riesen-GAU sein. Im Verlauf des Abends wurde im Internet über die Ursachen der Panne spekuliert. So berichteten einzelne Tech-Blogs über angebliche Datenlecks, Cyberattacken oder gar dem Verlust der Webadresse "facebook.com". Ein Grossteil dieser Behauptungen und Gerüchte dürfte sich in Luft aufgelöst haben, werden aber zumindest die PR-Abteilung des Konzerns ins Schwitzen gebracht haben.

Hinzu kamen finanzielle Auswirkungen: Auch das Börsenparkett erfuhr von der Panne. Die Aktie der Facebook Gruppe stürzte um 4,9 Prozent ab und war damit eine der schwächsten Nasdaq-100-Wertpapiere. Stunden vor dem Ausfall erlebte Facebook zudem eine PR-Krise, als eine Whistleblowerin Berichte über das Gewinnstreben und das Wohl junger Nutzergruppen publik machte.

Diese News erschien zuerst bei Watson.

Webcode
DPF8_233026