Kernel-Panic auf Gateway-Servern nach einigen Stunden Betrieb

Seit einem Update auf den Gateway-Servern Ende Februar haben wir Probleme mit Kernel-Panics. Das sind alles Debian Stretch Systeme, betroffen sind sowohl Kernel der Version 4.9.144-3 als auch 4.19.16-1~bpo9+1 (aus den Backports). Der Backtrace sieht so aus (abgetippt):

  __pskb_pull_tail
  ip6_dst_lookup_tail
  _decode_session6
  __xfrm_decode_session
  icmpv6_route_lookup
  icmp6_send
  __kmalloc_reserve
  nf_ct_net_exit
  ip6_expire_frag_queue

Die Panic tritt ca. 2 Stunden bis zwei Tage nach dem Start auf, auf allen 4 Gateways (manche sind VMs, manche Bare Metal; manche haben IPv6 “nativ” auf eth0, manche nur zum Freifunk Rheinland). Ich habe das Upstream und in Debian berichtet, leider bislang ohne Reaktion. Wir fahren aktuell auf unseren Servern die Vorgängerversion (4.9.130-2), die läuft stabil.

Hat sonst noch jemand hier dieses Problem auf den Gateways/Superknoten beobachtet?

Gateway auf welcher Basis (fastd/tunneldigger/sonstige)? Welches batman_adv.ko (compatibility level, Version; in-kernel/DKMS/sonstige)? Konfiguration des Systems (RAM, Anzahl CPUs)?

Guter Punkt.

Die Gateways nutzen den neusten Tunneldigger und batman-adv 2019.0 per custom DKMS. Ich weiß nicht was du mit “compatibility level” meinst, aber unsere Gluon-Config sagt “mesh-batman-adv-15”, ist v15 der “compatibility level”? Uplink ist Freifunk Rheinland via GRE, es laufen bird und bird6 für BGP und wir verwenden Poliy Routing (kein VPF) um Traffic in die beiden Routing-Tabellen zu sortieren.

Die Systeme sind recht verschieden, von 512MB RAM bis 8GB RAM und von 1 bis 4 Kernen. Auf unserer Wiki-Seite stehen mehr Details. Das Problem trat auf allen 4 GWs auf; auf mgmt haben wir es noch nicht probiert.

@wusel meint die exakte Batman-Version, denke ich.

batctl -v

Wie gesagt, 2019.0:

$ sudo batctl -v
batctl 2019.0 [batman-adv: 2019.0]

Danke; wir starten gerade erst mit compatibility level 15 (und da mit der in-Kernel-Version, 2017.4 bei Ubuntu 18.04 glaube ich), vor Jahren war v15 bei >1 Core noch crash-happy, aber das ist AFAIR weitgehend gelöst.

Ich glaube nicht dass das was mit Batman zu tun hat; das Problem tritt mit exakt derselben Batman-Version unter dem etwas älteren Kernel nicht auf.

Außerdem hat mich jemand angeschrieben der das Problem auch hat, auf einer Maschine wo gar kein Batman läuft.

Ich weiß nicht ob euch das hier weiterbringt, aber wir betreiben schon seit Jahren unsere Gateways auf Fedora und haben damit vielleicht ein- oder zweimal einen Kernel Panic gesehen.

[felix@gw3 ~]$ uname -a
Linux gw3.fflev.de 5.0.7-100.fc28.x86_64 #1 SMP Wed Apr 3 16:14:34 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux
[felix@gw3 ~]$ batctl -v
batctl 2019.1 [batman-adv: 2019.1]

Jemand hat dasselbe Problem unter Ubuntu: Bug #1824687 “4.4.0-145-generic Kernel Panic ip6_expire_frag_qu...” : Bugs : linux-signed package : Ubuntu

Der neuste Backports-Kernel 4.19.28 scheint bisher stabil zu laufen (Uptime von 7 Tagen).

2 Like