Wartungsarbeiten am Backbone

Liebe alle,

wir arbeiten gerade am Backbone und aktualisieren die Installation und optimieren 1,5 Dinge.

Dabei kann es passieren, dass Eure BGP Sessions zu einzelnen Maschine mal umfallen und entsprechend später wiederkommen. Aktuell betrifft das erstmal den Standort Düsseldorf. Da es dort gerade etwas hakt, fassen wir die anderen Standorte vorerst nicht an.

#ShitMyRouterSays

Wir sind dran, alles wird gut :slight_smile:

LG
Max

6 Likes


Symbolbild

4 Likes

Update:

Wir haben sehr spannende Systemzustände nach dem Upgrade der Router. Mit einem alten Kernel und altem Bird läuft bb-a.dus jetzt wieder augenscheinlich normal und schaufelt seine Gigabit/s Traffic. bb-b.dus ist gedrained und wird das bis morgen auch bleiben. Dann debuggen wir weiter, dabei kann es wieder rappeln, da wir die Fehler anscheinend nur mit Traffic erzeugen können. Sorry for that.

Liebe Grüße und einen schönen Abend
Max

6 Likes

Danke für die Infos, hat bei uns ganz gut eingeschlagen:

chart2

Wie ist die Prognose für morgen, sollen wir besser auf den Standort Frankfurt umschwenken oder wäre das schlecht, da es euch das Debugging erschweren würde?

Ja, der Durchsatzrückgang um 17h herum korrellierte zum Packetloss auf den Tunneln.

Hi @MrMM
es wäre doof wenn ihr umschwenkt. Wir brauchen den Traffic zum debuggen.
Wir sehen dass diese spitzen erst so ab 2G auftreten. :frowning:
Eigentlich drainen wir die Router um die Auswirkungen gering zu halten und nehmen die nur rein um zu testen, ob eine Maßnahme funktioniert hat.

Grüße

3 Likes

Habe ich befürchtet, wir bleiben also auf Düsseldorf.

Ist ja Sonntag, da ist das Netz etwas ruhiger.

Gebt Bescheid falls ihr mehr Last benötigt, dann generiere ich noch zusätzlich Traffic, wobei ihr ja vermutlich mehr auf realistischen Nutzer Traffic angewiesen seid.

Moin!

Beide Kiste in Düsseldorf sind jetzt wieder auf einer alten Firmwareversion und laufen mit dem Stretch-Kernel (4.9.x). Damit sieht aus unserer Sicht die Welt soweit wieder stabil aus. Diesen Zustand werden wir erstmal so lassen, da alle neueren Kernel binnen kurzer Zeit zu 100% Soft-Interrupts auf allen 18 Cores führen und damit die Systeme umfallen. Wir entschuldigen uns für die regelmäßigen Ausfälle, ohne Traffic fällt das Problem leider nicht auf, sodass wir nur im Live-Betrieb testen konnten, ob das Setup jetzt stabil ist.

Wenn Ihr Probleme seht, gebt bitte laut!

Damit Ihr ein bisschen mitfiebern könnt, möchte ich Euch das aktuelle Side-Quest nicht vorenthalten:

Der Traffic über einen Bond zwischen den Routern fliesst nur, wenn auf einer Seite „tcpdump -ni bond0“ läuft. Kein tcpdump, kein Traffic bzw. schwarzes Loch. Einzelne Links aus dem Bond0 zu nehmen hilft auch. Fügt man sie wieder hinzu, läuft der Traffic weiter. Entfernt man einen anderen Link geht’s auch weiter. Determinismus, wie wir ihn lieben.

Wir machen für heute Feierabend und gehen was mit Holz machen.

Liebe Grüße
Max

11 Likes

Es kann gerade zu Problemen mit Tunneln in Düsseldorf kommen.
Die Störung wird in der nächsten Stunde beendet sein.

5 Likes

Danke für’s Bescheidgeben!

2 Likes

Hallo zusammen,

es geht in dieser Sache weiter.
Ich konnte 2 Probleme im Kernel lokalisieren, für welche gerade Patches anhängig sind:
https://marc.info/?l=linux-netdev&m=159285924119871&w=2
https://marc.info/?l=linux-netdev&m=159299933800772&w=2

Zwar konnten wir im Lab das Problem nicht exakt reproduzieren aber es besteht die Hoffnung, dass diese beiden Patches auch das Problem hier beheben.
Daher werden wir auf der bb-a.ix.dus.de.ffrl.de (185.66.193.0) einen Kernel 5.4.48 mit den beiden genannten Patches installieren.

Es kann also ggf. erneut zu den Problemen vom Februar kommen sollte meine Vermutung sich nicht bestätigen.

VG
takt

8 Likes

Der Reboot war erfolgreich und seit etwas einer Stunde läuft der Router wieder regulär.
Erfreulicher Nebeneffekt: Die CPU Last ist von 10% auf 6,7% und damit relativ um 33% gesunken! :slight_smile:

12 Likes