Seit einem Update auf den Gateway-Servern Ende Februar haben wir Probleme mit Kernel-Panics. Das sind alles Debian Stretch Systeme, betroffen sind sowohl Kernel der Version 4.9.144-3 als auch 4.19.16-1~bpo9+1 (aus den Backports). Der Backtrace sieht so aus (abgetippt):
Die Panic tritt ca. 2 Stunden bis zwei Tage nach dem Start auf, auf allen 4 Gateways (manche sind VMs, manche Bare Metal; manche haben IPv6 „nativ“ auf eth0, manche nur zum Freifunk Rheinland). Ich habe das Upstream und in Debian berichtet, leider bislang ohne Reaktion. Wir fahren aktuell auf unseren Servern die Vorgängerversion (4.9.130-2), die läuft stabil.
Hat sonst noch jemand hier dieses Problem auf den Gateways/Superknoten beobachtet?
Gateway auf welcher Basis (fastd/tunneldigger/sonstige)? Welches batman_adv.ko (compatibility level, Version; in-kernel/DKMS/sonstige)? Konfiguration des Systems (RAM, Anzahl CPUs)?
Die Gateways nutzen den neusten Tunneldigger und batman-adv 2019.0 per custom DKMS. Ich weiß nicht was du mit „compatibility level“ meinst, aber unsere Gluon-Config sagt „mesh-batman-adv-15“, ist v15 der „compatibility level“? Uplink ist Freifunk Rheinland via GRE, es laufen bird und bird6 für BGP und wir verwenden Poliy Routing (kein VPF) um Traffic in die beiden Routing-Tabellen zu sortieren.
Die Systeme sind recht verschieden, von 512MB RAM bis 8GB RAM und von 1 bis 4 Kernen. Auf unserer Wiki-Seite stehen mehr Details. Das Problem trat auf allen 4 GWs auf; auf mgmt haben wir es noch nicht probiert.
Danke; wir starten gerade erst mit compatibility level 15 (und da mit der in-Kernel-Version, 2017.4 bei Ubuntu 18.04 glaube ich), vor Jahren war v15 bei >1 Core noch crash-happy, aber das ist AFAIR weitgehend gelöst.
Ich weiĂź nicht ob euch das hier weiterbringt, aber wir betreiben schon seit Jahren unsere Gateways auf Fedora und haben damit vielleicht ein- oder zweimal einen Kernel Panic gesehen.
[felix@gw3 ~]$ uname -a
Linux gw3.fflev.de 5.0.7-100.fc28.x86_64 #1 SMP Wed Apr 3 16:14:34 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux
[felix@gw3 ~]$ batctl -v
batctl 2019.1 [batman-adv: 2019.1]