Post-Mortem: Ungeplante Downtime heute

Heute ist das Forum zwischen 15 und 23 Uhr nicht erreichbar gewesen.

Zunächst gab es ein Problem mit dem Datenbank-Server, der anscheinend abgestürzt ist. Später kam ein Routing-Problem hinzu, wegen dem der Server auch nach erfolgreicher Wartung per IPv4 nicht konnektiert war.

Das erste Problem führe ich darauf zurück, dass ich einen Fehler in der Snapshot-Funktion unserer Virtualisierungsplattform (VMware vSphere) gemacht habe. Der tägliche Snapshot der VM wurde inkrementell angelegt und ersetzte nicht jeweils den Vorgänger. Dadurch baute sich eine immer tiefere Indirektion auf, die etwa ab Ebene 20 zu erheblichen Verzögerungen beim Schreiben auf den Storage verursachte.

Ich habe versucht, das Problem durch eine Konsolidierung der Snapshots zu beheben. Der VM-Server hat nach ca. 1 Stunde keinen weiteren Fortschritt angezeigt und hinterließ die VM in einem undefinierten Zustand, aus dem sie nicht mehr zu starten war. Wir haben die Plattform neu gestartet und konnten dann die VM wieder hochfahren.

Gleichzeitig hat unser Team am Standort Berlin gearbeitet und die Router dort heruntergefahren. Beim Starten hat der erste Router die IP-Adresse des Forums announced. Dies ist deswegen geschehen, weil zwischenzeitlich die alte VM, auf der das Forum bis vor einigen Wochen noch lief, wieder gestartet wurde. Wir haben anscheinend nicht ausreichend dafür gesorgt, dass dieses System nicht wieder hochgefahren wird.

Seit dem Eingriff auf dem Router in Berlin ist das Forum wieder per IPv4 erreichbar. IPv6 war nicht betroffen. Die alte VM wird heute noch unbrauchbar gemacht. WIr suchen nun nach einer besseren Lösung für off-site Backups.

10 Likes

5 Beiträge wurden in ein neues Thema verschoben: Routing-Probleme