In meiner noch kurzen IT-Laufbahn habe ich eines gelernt: Ohne Stress schläft man besser. Als Betreiber von (Web-)Services pocht da aber immer die eine kleine Frage im Hinterkopf: Was wäre wenn? Es kann so viel passieren: Stromausfälle, DDoS-Attacken, ein kaputtes Filesystem oder eine oder mehrere Harddisks, die ausfallen. Nun, letzteres soll ja in der Cloud selten passieren. Meine Erfahrung: Das passiert in der Cloud noch viel öfter als einem lieb ist – so zumindest meine Erfahrung mit mehreren grossen Playern auf dem Markt. Deshalb ist eines unserer wichtigsten Ziele eine hohe Uptime.
In den ersten Monaten mussten wir einige kleine Rückschläge in Kauf nehmen. Wir konnten nicht jedes Szenario von Anfang an abdecken, und in einigen Fällen mussten wir erstmal «die schlechte Erfahrung» machen und daraus lernen. 2015 verzeichneten wir zwei Ausfälle von 15 und 10 Minuten. Anfangs dieses Jahres hatten wir einen Teilausfall, da wir uns zuerst für die Schweizer Infrastruktur für einen weniger zuverlässigen Hoster entschieden haben (gleichzeitig einer der teuersten – sei’s drum).
Nun, sind wir ein Betrieb mit zwei Festangestellten. Eine Infrastruktur-Lösung sollte also simpel sein, und trotzdem möglichst viele Exodus-Szenarien verkraften können. Mit dem Umzug in die Schweiz haben wir den nächsten wichtigen Schritt getan. Seit Februar 2016 läuft unsere Managed-Infrastruktur mit heute rund neunzig WordPress Installationen in zwei Rechenzentren. So bleiben die Websites unserer Kunden auch online, wenn eines der beiden Rechenzentren einen kompletten Strom- oder Netzwerk-Ausfall hat. Technisch sieht das so aus:
Unsere Server sind auf zwei Rechenzentren verteilt. Ein Teil ist in Genf, der Rest steht in Attinghausen. Moment mal? Ist das nicht irgend so ein Kaff? Richtig – doch in dem beschaulichen Dorf wurde ein ehemaliger Militärbunker zu einem Hochsicherheits-Rechenzentrum umgebaut.
Jetzt wird’s spannend – zumindest für technisch interessierte. Wie läuft so ein Request ab?
Ich behaupte mal: Das kann nicht jeder sagen. Wie auch immer – was nützt das in der Theorie, wenn es in der Praxis nicht funktioniert? Keine Angst: Szenarien, die wir simulieren können, spielen wir regelmässig durch. Und zwar in der Nacht oder am frühen morgen, wenn unser Traffic am geringsten ist. Die meisten Massnahmen greifen ohne Ausfall – der DNS Failover braucht maximal eine Minute, bis der fehlerhafte Server keine Anfragen mehr bekommt. Ein Szenario konnten wir bisher noch nicht richtig testen – dazu weiter unten mehr.
Sicher, ungefähr einmal pro Monat, in dringenden Fällen sofort. Das merkt keiner, weil wir jeden Server einzeln ausser Betrieb nehmen. Seit Februar 2016 erfüllen wir Bundes- und Bankenstandards, einige von uns vorher entwickelte Installationen laufen noch bei anderen Schweizer Hostern. Zum Vergleich: Wir mieten auch (gezwungenermassen) teure Managed Server, die monatlich doppelt so viel kosten wie unsere gesamte Cloud-Infrastruktur. Selbst einfache Wartungsarbeiten, von denen man auf unserer Infrastruktur nichts merkt, werden dort oft tagsüber durchgeführt.Diese Wartungsarbeiten verursachten bei einem unserer Kunden 2015 mehr als zwanzig «geplante Ausfälle», die länger als 15 Minuten dauerten. Das wollen wir unseren Kunden, die teilweise geschäftskritische Websites und Online-Shops betreiben, nicht zumuten.
Aktuell eines der grössten Risiken sind DDoS-Attacken. Mehrere Server/Bots/Computer, die gleichzeitig so viele Anfragen an einen oder mehrere Server schicken, um sie hilflos zu überlasten. Dagegen haben wir für kleine und grössere Attacken mehrere Vorkehrungen getroffen. Ich glaube, jeder Hoster hat Angst vor dem Szenario – die folgenden Bullets enthalten daher bewusst nur «schwammige» Informationen.
Tja, und alle Massnahmen sollten innert einer bis fünf Minuten aktiv werden. Punkt 1 trifft täglich meist mehr als hundert mal ein und wirkt innert etwa fünf Sekunden. Während dieser fünf Sekunden macht sich keine Einschränkung in der Geschwindigkeit bemerkbar. Der Fall 2 ist auch schon eingetreten, dank schnellem Eingreifen unseres Cloud-Providers griffen die Massnahmen hier bisher immer in weniger als einer Minute.
Tja und Punkt 3 ist so eine Sache: Wir haben einen Plan, der in der Theorie und in Simulationen klappt – eine so grosse Attacke zu simulieren ist mit unseren Mitteln technisch nicht möglich und auch nicht legal. Zu hoffen bleibt, dass wir Stufe 3 nie erleben werden.