Olsr Metriken machen Probleme

Hallo zusammen

wir verwenden bei uns Olsr um die Gateways untereinander zu verbinden und dazwischen auf L3 routen zu können (mehrere verschiedene Broadcastdomänen/Hoods mit verschiedenen GWs, jede Broadcasdtdomäne fährt Batman aber die ganzen Netze sind per Olsr verbunden).

Seit einigen Monaten tritt immer wieder ein Problem auf, das wir einfach nicht greifen können und schon Stunden an Diagnosen verbracht haben. Irgendwann (es sieht so aus, wenn einiges am Olsr Netz geändert wird, also Tunnel zwischen Server dazu kommen oder wegfallen etc.) geht der Grundrauschtraffic extrem hoch (etwa auf das 3-5fache) und die Metriken stark nach unten. Da zwischen den Servern meist ein GRE Tunnel ist, ist die Metrik eigentlich immer 1, wenn das Problem auftritt fällt sie auf 5-50 zurück. Sieht dann z.b. so aus:
10.50.252.134 10.50.252.135 0.00 (0.148/0.345) 19.444

Im Normafall sollte da etwa stehen:

10.50.252.134 10.50.252.135 0.00 (1.000/1.000) 1.000

Wir haben schon viel gesucht aber sind bisher nicht dahinter gekommen an was das liegt. Die meisten Server verwenden Olsr 0.9.0.3 manche wenige noch 0.6.8.

Das Problem verschwindet meist nach einigen Tagen wieder von selbst (das letzte mal hat es einige Wochen gedauert) ohne das jemand was gemacht hat.

Da die Server ziemlich dezentral verteilt sind, kommt man nicht immer an jeden ran, einfach alle Neustarten ist daher keine Option. Es wäre wirklich wünschenswert wenn man endlich dahinter kommt, an was das liegt. Gerade weil jetzt langsam der Plan ist, das Olsr Netz in die Stadt zu ziehen (jeder Standort bekommt einen Olsrrouter und innerhalb des Standortes wird weiterhin Batman adv. gesprochen, so unser Plan) und dann so kaputte Metriken richtig nervig sind.

Kann damit jemand was anfangen oder hat ein paar Ideen? Vielleicht ist das ganze ja schon irgendwo bekannt?

Ansehen kann man sich das ganze aktuell z.b. von meinen Server aus:
http://10.50.32.4:8080 (sollte am ICVPN hängen, wenn es mal wieder nicht kaput ist).
das Grundrauschen sieht man im MRTG ganz gut (heute morgen um 7Uhr ist der Fehler wieder aufgetreten und steht aktuell an):
http://10.50.32.4/mrtg/
z.b. bei den Interfaces: #fff-hof #fff-nue2 #fffolsrpeter #kwadronaut usw.

mfg

Christian