wir moechten hiermit ankuendigen dass @thomasDOTwtf und ich heute Abend Wartungsarbeiten an allen Backbone Standorten durchfuehren werden.
Konkret werden nacheinander alle BGP Sitzungen fuer ein paar Minuten verschwinden. Bevor wir diese Arbeiten durchfuehren werden wir alle Tunnel und BGP Sitzungen auf der bb-a.ak.ber.de wiederherstellen sodass jede Community ueber Tunnel zu mindestens 2 verschiedenen Routern verfuegen sollte.
Grund dafuer ist, dass wir Quagga durch Bird abloesen werden.
Dies geschieht weil Quagga nun mehrfach fuer blackholes im Netzwerk gesorgt hat, indem die aktuellen Routing Informationen nicht in die Kernel Routing Table eingetragen wurden. Ausserdem koennen wir mit Bird die Bereitstellung von BGP Siztungen einfacher automatisieren.
Ohne das mit Sicherheit sagen zu koennen: Eine ganze Menge Verbindungen wurden kuerzlich in Frankfurt geblackholed. Vermutlich war das die Ursache fuer euren Ausfall!
Nachdem ich am Wochenende eine Bird Konfiguration vorbereitet habe, haben Thomas und ich soeben beschlossen die Migration nun zuegig zu vollziehen.
Fuer den Fall dass etwas schief geht bleibt die Quagga config natuerlich vorerst erhalten. Fuer den Fall der Faelle…
Wir sind voll dabei und haben Probleme mit den Treibern der neuen 10G NICs in Berlin.
Aktuell ist Berlin komplett trocken gelegt. Dort fließt kein Traffic.
Unklar ob wir heute Nacht alles migriert bekommen werden.
Gibt eine Route dort hin: bb-a.fra3.fra.de.ffrl.de# show ipv6 route 2a03:2260:50::
Routing entry for 2a03:2260:50::/44
Known via „bgp“, distance 20, metric 0, best
Last update 2d01h27m ago
fe80::200:5efe:9750:40ba, via tun-ffrg2-4
bb-a.fra3.fra.de.ffrl.de#
[takt@bb-a ~]$ ip -6 r g 2a03:2260:50::
2a03:2260:50:: from :: via fe80::200:5efe:9750:40ba dev tun-ffrg2-4 src 2a03:2260:0:32::1 metric 0
cache
[takt@bb-a ~]$
Keine Ahnung was die dann da hinter tun.
Am Backbone liegt es jedenfalls nicht.
bb-a.ak.ber.de.ffrl.de läuft nun mit Bird und terminiert wieder Tunnel. Die bb-b.ak.ber.de.ffrl.de hat scheinbar eine defekte SD Karte. Diese wird zeitnah durch eine Festplatte ersetzt.
Die Router in DUS und FRA wurden heute entgegen aller Planung nicht angerührt. Allerdings haben wir bird installiert und mit Basiskonfiguration sowie der Config für die Upstreams versehen. Morgen werden wir mittels eines Skripts die BGP neighbor Configs aus der aktuellen Quagga Config erzeugen und nach und nach Quagga stoppen und Bird starten.
Zwischenzeitlich ein kurzes Update zum Status am Standort Berlin.
Unsere neu verbauten 10GE NICs (HP NC522SFP) bereiten uns einigen Ärger.
Der Link der Karten geht unvermittelt verloren und der Treiber erzeugt Stress.
Wir haben bereits die Kernel auf die Version 4.1.X angehoben.
Folgende ethtool-Konfiguration wurde durchgeführt:
ethtool -K ens2f1 rx off
ethtool -K ens2f1 tx off
ethtool -K ens2f1 gro off
ethtool -K ens2f1 gso off
ethtool -K ens2f1 tso off
ethtool -K ens2f1 sg off
Die Firmware der NICs ist auf dem vorletzten Stand.
Hier sind lediglich noch Fixes für den promiscous mode und Win2012 dazu gekommen.
Das BIOS der Server ist auf Static High Performance konfiguriert.
Es könnte noch ein BIOS-Update durchgeführt werden.
Heute morgen hat sich dann eine kpanic ausgehend vom Treiber für die onBoard-NICs (tg3) ereignet.
Darauf hin haben wir beide Systeme am Standort Berlin abgeschlatet um Falpping zu vermeiden.
Das Problem mit den Karten ist mir nur zu gut bekannt, eine richtige Lösung kenne ich auch nicht.
Laut HP soll das Problem mit der aktuellsten Firmware gelöst sein. Zusätzlich sollen die Karten in bestimmte Slots oder die Lüfter auf „Enhanced Cooling“ gestellt werden.
Hat bei mir das Problem bei mehreren ESX-Hosts nur verringert, gelegentlich tritt es immer noch auf. Immerhin fangen sich die Karten nach ein paar Sekunden wieder.
Eine Intel X520-SR2 läuft bisher absolut unauffällig.
Sind zwar nicht wirklich gute Nachrichten, aber vielleicht hilft es trotzdem…
Für mich hört sich das Problem sehr merkwürdig an.
Was ich mir vorstellen könnte ist, das die Karte entweder überhitzt oder in einem falschen Slot steckt.
Allerdings gibts da nicht so viel auswahl in einem DL320.
Falls ihr support für die Maschinen habt würde ich mal einen Support Case aufmachen.
Eigentlich können die Kollegen einem weiterhelfen.
wir benutzen BGP Sessions zum Ruhrgebiet welches dann bei euch angeklemmt ist.
Du hast nur nichts gehört weil wir eher nicht nerven wollen wenn da rumgeschraubt wird,
deshalb haben wir den kompletten Traffic einfach Lokal ausgeworfen bis es dann
irgendwann nach 23:~~Uhr wieder lief.
Ersterer ist in Frankfurt und war aus noch unklaren Gruenden kurzzeitig down, lebt aber wieder vollstaendig.
Letzterer laeuft in Berlin wo es wieder Probleme mit den NICs gibt.
10G Routing und Linux scheinen eine sehr schlechte Kombination zu sein.
Ich moechte daher ankuendigen, dass das Wartungsfenster heute nicht fuer Bird Migration genutzt werden kann, da die Router in Berlin erst stabil laufen muessen.
Aktuell stehen wir vor der Wahl am Treiber der NIC Aenderungen vorzunehmen oder zu FreeBSD zu migrieren. Eines von beidem wird heute Nacht stattfinden.
Hallo @takt,
vielen Dank für Deinen Einsatz.
Was hat der Treiber für ein Problem gehabt, wie hast Du es rausgefunden
und kann man Deine Änderungen im Git nachvollziehen?
leider ist es kein echter fix den ich so an kernel.org senden wuerde.
Konkret habe ich den Code aus dem Treiber entfernt, welcher entscheidet, ob ein Paket fuer die Verarbeitung an die NIC offgeloadet werden kann oder nicht.