Wartungsarbeiten am Backbone

Liebe alle,

wir arbeiten gerade am Backbone und aktualisieren die Installation und optimieren 1,5 Dinge.

Dabei kann es passieren, dass Eure BGP Sessions zu einzelnen Maschine mal umfallen und entsprechend später wiederkommen. Aktuell betrifft das erstmal den Standort Düsseldorf. Da es dort gerade etwas hakt, fassen wir die anderen Standorte vorerst nicht an.

#ShitMyRouterSays

Wir sind dran, alles wird gut :slight_smile:

LG
Max

6 „Gefällt mir“


Symbolbild

4 „Gefällt mir“

Update:

Wir haben sehr spannende Systemzustände nach dem Upgrade der Router. Mit einem alten Kernel und altem Bird läuft bb-a.dus jetzt wieder augenscheinlich normal und schaufelt seine Gigabit/s Traffic. bb-b.dus ist gedrained und wird das bis morgen auch bleiben. Dann debuggen wir weiter, dabei kann es wieder rappeln, da wir die Fehler anscheinend nur mit Traffic erzeugen können. Sorry for that.

Liebe Grüße und einen schönen Abend
Max

6 „Gefällt mir“

Danke für die Infos, hat bei uns ganz gut eingeschlagen:

chart2

Wie ist die Prognose für morgen, sollen wir besser auf den Standort Frankfurt umschwenken oder wäre das schlecht, da es euch das Debugging erschweren würde?

Ja, der Durchsatzrückgang um 17h herum korrellierte zum Packetloss auf den Tunneln.

Hi @MrMM
es wäre doof wenn ihr umschwenkt. Wir brauchen den Traffic zum debuggen.
Wir sehen dass diese spitzen erst so ab 2G auftreten. :frowning:
Eigentlich drainen wir die Router um die Auswirkungen gering zu halten und nehmen die nur rein um zu testen, ob eine Maßnahme funktioniert hat.

Grüße

3 „Gefällt mir“

Habe ich befürchtet, wir bleiben also auf Düsseldorf.

Ist ja Sonntag, da ist das Netz etwas ruhiger.

Gebt Bescheid falls ihr mehr Last benötigt, dann generiere ich noch zusätzlich Traffic, wobei ihr ja vermutlich mehr auf realistischen Nutzer Traffic angewiesen seid.

Moin!

Beide Kiste in Düsseldorf sind jetzt wieder auf einer alten Firmwareversion und laufen mit dem Stretch-Kernel (4.9.x). Damit sieht aus unserer Sicht die Welt soweit wieder stabil aus. Diesen Zustand werden wir erstmal so lassen, da alle neueren Kernel binnen kurzer Zeit zu 100% Soft-Interrupts auf allen 18 Cores führen und damit die Systeme umfallen. Wir entschuldigen uns für die regelmäßigen Ausfälle, ohne Traffic fällt das Problem leider nicht auf, sodass wir nur im Live-Betrieb testen konnten, ob das Setup jetzt stabil ist.

Wenn Ihr Probleme seht, gebt bitte laut!

Damit Ihr ein bisschen mitfiebern könnt, möchte ich Euch das aktuelle Side-Quest nicht vorenthalten:

Der Traffic über einen Bond zwischen den Routern fliesst nur, wenn auf einer Seite „tcpdump -ni bond0“ läuft. Kein tcpdump, kein Traffic bzw. schwarzes Loch. Einzelne Links aus dem Bond0 zu nehmen hilft auch. Fügt man sie wieder hinzu, läuft der Traffic weiter. Entfernt man einen anderen Link geht’s auch weiter. Determinismus, wie wir ihn lieben.

Wir machen für heute Feierabend und gehen was mit Holz machen.

Liebe Grüße
Max

11 „Gefällt mir“

Es kann gerade zu Problemen mit Tunneln in Düsseldorf kommen.
Die Störung wird in der nächsten Stunde beendet sein.

5 „Gefällt mir“

Danke für’s Bescheidgeben!

2 „Gefällt mir“

Hallo zusammen,

es geht in dieser Sache weiter.
Ich konnte 2 Probleme im Kernel lokalisieren, für welche gerade Patches anhängig sind:
https://marc.info/?l=linux-netdev&m=159285924119871&w=2
https://marc.info/?l=linux-netdev&m=159299933800772&w=2

Zwar konnten wir im Lab das Problem nicht exakt reproduzieren aber es besteht die Hoffnung, dass diese beiden Patches auch das Problem hier beheben.
Daher werden wir auf der bb-a.ix.dus.de.ffrl.de (185.66.193.0) einen Kernel 5.4.48 mit den beiden genannten Patches installieren.

Es kann also ggf. erneut zu den Problemen vom Februar kommen sollte meine Vermutung sich nicht bestätigen.

VG
takt

9 „Gefällt mir“

Der Reboot war erfolgreich und seit etwas einer Stunde läuft der Router wieder regulär.
Erfreulicher Nebeneffekt: Die CPU Last ist von 10% auf 6,7% und damit relativ um 33% gesunken! :slight_smile:

13 „Gefällt mir“