Knoten online - aber laut Alfred offline

Hallo FFer,

seit einiger Zeit stehe ich vor einem Rätsel. Etliche Knoten in unserem Netz werden als offline im MV angezeigt, obwohl diese laufen und auch anpingbar sind. Auch von dem Gateway aus auf dem per ffmap-backend die Daten erhoben werden.

Auf den Gateways laufen alle Dienste.

Nun weiß ich ehrlich gesagt nicht weiter. Wo soll man da ansetzen? Entwerden werden die Daten von den Servern nicht korrekt gesammelt und ausgewertet, oder auf den Knoten wird von Zeit zu Zeit kein Status announced.

Knoten mit Gluon 2015.1.2 und Gluon Master (Stand 12/2015) sind betroffen.

Hat jemand Tipps für mich wo und wie ich da ansetzen könnte?

Hier noch ein paar Links:

MV: Freifunk Nord - loading...
Datenpath: http://mesh.ffnord.net/data
Backend (dev branch): https://github.com/ffnord/nord-backend
Site.conf: GitHub - Freifunk-Nord/nord-site: Gluon site directory

Danke für eure Hilfe.

Ich habe mehrere Knoten mit latenten Hardwareschäden, die zwar durchaus als Router/AP noch arbeiten (pingbar, Clients bekommen alles was sie brauchen), nur es funktioniert dort weder autoupdater, noch statuspage, noch der ssh-login, noch sendet der Alfred Daten.
Also faktisch sind Undercover-Knoten… die fliegen in der nodes-json nur als Mac-Adressen herum ohne Namen.
Ist schade, ist aber halt so.

Ich habe mindestens einen Knoten wo ich mir sicher bin dass er i.O. ist.

Das prüf ich mal schnell.

Aber jeden Tag zwischen 1600 und 1900 gibt es irgendwann eine Phase in der im MV 100 und mehr Nodes kurzzeitig offline sind und dann selbstständig wieder kommen.

Was sagt denn batctl o, das ist ein genauerer Indikator für die Zahl der Knoten in eurem Netzwerk.

Wir haben derzeit auch eine Diskrepanz von gut 200 Knoten. Die schiebe ich derzeit noch auf überlastete Plasterouter, falls sich das nicht mit der Aufteilung in kleine Netze erledigt hatte ich vor aus der originator Liste die nicht im alfred auftauchenden Knoten heraus zu filtern und mir aus den Mac Adressen die Adresse der Statusseite auszurechnen.

Vielleicht findet man so ja etwas heraus.

@adorfer

Ich konnte (soweit man das aus der Ferne sagen kann) ausschließen dass der Router einfach abgestürzt war.

Aber ich konnte dank logread sehen, dass er keine Verbindung zum Gateway bekam. Auf diesem einen Router habe ich bewusst nur einen Gateway aktiviert. Dieser war nicht erreichbar. Ich werde dort jetzt mal bewußt die feste IP hinterlegen und schaun ob es ein DNS Problem ist.

@mrmm
Auf den Nodes klappt batctl o auf den Gateways bekomme ich jedoch:

Error - mesh has not been enabled yet Activate your mesh by adding interfaces to batman-adv

Aber ich muss da sicher nur nen iface Namen im Befehl anhängen muss mich da mal durchfuchsen wenn ich am PC bin.

Hier gibt es einiges neues zu berichten.

Wir haben herausgefunden, dass die Alfred Daemon Status Pakete der Nodes nicht vollständig beim Gateway ankommen.

Alfred speichert diese nur 10 Minuten, bekommt es dann keine Statusmitteilung vom Knoten, wird dieser als offline markiert und die Daten verworfen. Wir haben nun Alfred angewiesen die Daten 20 Minuten vorzuhalten.

Das hat den MV deutlich beruhigt.

Ähnliches Problem hier:
WR841Nv10 mit Trafficlimit 800 down/150 up, der Telekom-„Dorf“-DSL-Anschluss hat nur 2 Mbit/s und der Speedport kann bekanntermaßen keine traffic shaping.

Der Router lief einen Tag an einem 120er-UM Anschluss (mit den gleichen Limits) ohne Probleme. Jetzt läuft der Router an besagtem DSL-Anschluss und zeigt das gleiche Fehlerbild:

  • Ping ohne Probleme (auch die über WLAN verknüpfte Node dahinter meldet sich)
  • Alfred-Daten kommen nur ab und an durch, dann kann auch die Statusseite aufgerufen werden und der SSH-Server meldet sich auch. Wenn die Alfred-Daten durchkommen, dann sieht man an der Uptime, dass der Router durchläuft

Vorläufiges Fazit:

  • einen technischen Defekt am Router schließe ich im konkreten Fall aus
  • entweder ist der DSL-Anschluss gestört (aus Gründen™ kann ich zurzeit allerdings nicht den Zustand des Speedports ansehen)
  • oder aber der Router ist so stark ausgelastet, d. h. läuft ständig am traffic limit und hat keine Kapazität mehr für die o.g. Sachen frei. Ich weiß allerdings nicht, ob Dinge wie Alfred etc. unter das traffic limit fallen.
  • oder es gibt noch eine weitere Möglichkeit?