Da wir vorläufig nicht - und vor Allem nicht aus dem Stand - auf eine bessere Netztopologie und stabilere Tülchens umstellen können, werden wir nun auf den Servern auf denen batman aktiv ist die default sysctl.conf um zwei Zeilen ergänzen:
kernel.panic_on_oops = 1
kernel.panic = 1
Dies sorgt dafür das eine Sekunde nach einer Kernel Panic / oops, der Server automatisch resetted wird und neustartet.
Seit ein paar Wochen haben wir dies bereits zum Testen auf 4 Servern aktiviert, das Ergebnis ist absolut zufriedenstellend.
Bei normalen Servern kommen lediglich die beiden Zeilen in die sysctl.conf hinzu, bei batman gateways (Supernodes) sieht die neue sysctl.conf entpsprechend wie folgt aus:
Kommen bei euch wirklich so viele Panics vor? Hab ich den Beitrag überlesen wo ihr die Gründe darlegt? Wenn ja bitte verlinken. Könnte für Communitys die noch wachsen hilfreich sein wenn die später auch in diese Probleme laufen.
Also in Rheinufer haben wir diese Panics auch und haben bis jetzt keine Lösung dafür. Die automatischen Reboots sind nur ein Workaround.
Warum diese Panics auftreten kann ich auch nicht beantworten. Dies scheint aber vermehrt aufzutreten wenn man z.b. Fastd neu startet auf den Supernodes. (Auch einer der Gründe warum ich dafür lieber Reboots mache )
Bei uns in Aachen stellt sich die Sache so dar, dass wir bei einem Rechenzentrum keine Probleme haben und beim anderen RZ ebenfalls diese Probleme haben.
Beides sind KVM Hosts.
Die paravirtualisierten XEN Hosts die das Kernel Modul bereits von der dom0 bekommen funktionieren ebenfalls problemlos.
Leider bringen die Crash-Logs für die alte Batman Version nicht viel. Diese Bugs werden nämlich nicht mehr gefixt von den Devs. Diese arbeiten nur an der aktuellen Version. (Compat 15)
Hat sich schon mal jemand Gedanken gemacht wie möglichst ohne Komplettausfall und so schmerzfrei wie möglich die Umstellung auf neuere BATMAN_adv Versionen von statten gehen soll?
Weil die neue Version unstable ist und noch nicht in größeren Setups getestet wurde. Außerdem bietet diese Version momentan noch keine Vorteile weil z,b. die Multicast Verbesserungen nicht die gewünschte Wirkung erzielt haben.
Daher warten die Communities noch mit der Umstellung auf die neue Version.