Abstürze / KVM / GRE / Netzwerkkartenoffloading

Hallo,

wir haben derzeit in Münster das Problem, dass ein mit libvirt/KVM virtualisierter Host ständig abstürzt, wenn man in den VMs die GRE-Tunnel aktiviert. VM wäre ja noch zu verkraften, aber das ganze System ist bisschen blöd.

Ich vermute, dass es sich hier um ein ähnliches Problem handelt, wie es es auch im Rheinland Backbone mit dem GRE-Offloading auf die Netzwerkkarten gab.

Die Frage ist, wie man das abstellt? Sehr bitter ist, dass die VM das Hostsystem mitreißt, sprich dieses ebenfalls abstürzt, sodass wir per Weboberfläche von Hetzner das System neu starten müssen. Bevor wir die GRE-Tunnel aktivierten, lief das System stabil. Einen allgemeinen Hardwaredefekt schließen wir daher aus.

Wir haben noch ein anderes Blech, dass ebenfalls mit KVM virtualisiert wird, wo das Problem nicht auftaucht. Uns ist leider nicht ganz exakt klar, wo das Problem liegt, aber es muss etwas mit der speziellen virtuellen Netzwerkstruktur von Freifunk zu tun haben. Das zweite Blech hat dieselbe Netzwerkkarte:

RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller

Das System, dass stabil läuft, läuft mit Debian 7.x, das was abstürzt mit 8.2. Kernel haben wir schon auf 4.2 aktualisiert, hat leider nichts geholfen.

Jemand eine Idee? Sollten wir mal den Patch von @takt probieren, der das GRE-Offloading komplett abschaltet?

Grüße
Matthias

Wir haben gerade mal per Lara-Konsole nachgesehen. Mehr ist nicht zu holen, das System reagiert nicht mehr auf Tastatureingaben.

Eine Aktualisierung des Hostbetriebssystems auf Kernel 4.2 hat leider nichts gebracht. Wir haben die Auflösung der Konsole erhöht, um etwas mehr sehen zu können:

Wenn ich mir anschaue, was Google diesbezüglich zu sagen hat, dann scheint mir das ein wenig in Richtung Treiberproblem (bzw. eben Kernel) zu gehen. Die meisten Berichte besagen, dass solche Fehler meist nach einem Kernelupdate aufgetreten sind.
Wäre ja schön, wenn man’s daran festmachen könnte, aber die Bandbreite der Kernelversionen, die „funktionieren“ (oder auch nicht) ist doch ziemlich groß.

Zweite Spur war der Chipsatz der Netzwerkkarte - könnt Ihr in der VM vielleicht mal die virtuelle Netzwerkkarte austauschen? Eventuell mag ja „nur“ ein Kernelmodul nicht mit dem entsprechend emulierten Chipsatz spielen…

Irgendwie ein wenig im Dunkeln stochern - ich versuche mich einfach mal als Ideenlieferant.

Nur kurz mobil: Ein Kollege arbeitet gerade daran den Ralink Treiber vom Hersteller zu kompilieren und zu installieren.

Die virtuelle Karte zu tauschen könnte man zur Fehlerdiagnose testen, aber für den Produktivbetrieb sind die anderen denke ich zu verlustreich.

Danke für deine Tipps!

Grüße
Matthias

1 „Gefällt mir“

Mit anderem Treiber war es das selbe Problem (8168, anstatt 8169). Mit anderem Kernel das Selbe (4.2 anstatt 3.16).

Habe jetzt das im Dump erwähnte Offloading abgeschaltet. Zunächst in beide Richtungen:

ethtool -K eth0 gro off
ethtool -K eth0 gso off

Scheint jetzt zu laufen.

Die Lösung im Backbone war ein Kernel Downgrade auf 3.10.
Wir haben seit dem keine Zeit mehr in die exakte Ursachenforschung gesteckt.

4 „Gefällt mir“