Domäne Aachen - node angeblich offline

Hmm.
Bisher haben wir vereinzelt ein paar wenige Hosts, die Probleme machen.
Einen Ansatz haben wir da leider bislang nicht, sondern können nur Vermuten, dass es am UDP Packet-Loss liegt.

Wenn ich noch mit irgendwas helfen kann, lass es mich wissen. Ich habe auch ssh-Zugang zum Gerät.

heiße Kandidaten für „falsche Offline-Meldungen“ im Alfred sind:

  • DSlite mit niedriger MTU
  • Rogue Alfred-Master in der „Nähe“
  • DSL mit völlig zugeschüttetem Upstream.(oder bannig niedriger Egres-Wert)

Powerline-Adpter? Hab’ eben gerade mal den Router rebootet, wurde danach immer noch offline angezeigt. Danach die beiden Powerline-Adapter neu gekoppelt (muss man so zwei Knöpfe drücken) und – siehe da – Rother Forst kriegt 'nen grünen Punkt in der Karte!

Passt das irgendwie ins Bild? Macht das überhaupt Sinn, die Powerline-Adapter zu verdächtigen, wenn doch die Verbindung ins Netz doch tatsächlich die ganze Zeit über steht?

Mir ist das Szenario völlig unklar.
Für Störungssuche wären hilfreich:
(Per pastebin & co)

Router Statusseite (vorher)
Alfred-datensatz lokal abgefragt
Ausgabe von Logread

Ich hoffe, ich habe die Daten eingesammelt, die Du haben wolltest (vor allem bei „alfred Datensatz lokal abgefragt“ hatte ich eigentlich keinen Plan). Ich habe alles (vorher und nachher) auf http://www.kryger.de/tmp/node_offline_not.html eingestellt.

Lustigerweise wurde der Node wieder als offline markiert, kurz nachdem ich den ersten Teil fertig hatte; der Ausfall muss so um Mitternacht herum stattgefunden haben. (Die häufigen Connects und Disconnect von root im Logfile dürften meine scp-Zugriffe auf das Gerät sein.)

Vielleicht ist ja eine Spur dabei. Will am Dienstag auch zum Beratungstisch kommen. Wenn das hier nicht nach Beratung schreit, was dann? Ich erwarte übrigens auch keine schnelle Lösung – hatte mich bloß schon gefreut, dass ich heute 14 Stunden einen grünen Punkt hatte, dachte »jetzt läuft’s ja« und dann isses doch wieder abgeschmiert …

Danke für die Daten.

Dann schau mal, ob du mit dem Node wenn er „offline“ gezeigt wird
a) noch per batctl p das gateway anpingen kannst. (ausgabe batctl gwl kennst Du ja schon)
b) mit ping/Ping6/ping -6 Nodes im IPv6 erreichen kannst:
z.B. Google: 2001:4860:4860::8888 und 2001:4860:4860::8844

batctl p läuft nicht, aber wenn ich einen Host angebe, also batctl p ac:c0:1d:ca:fe:04.

Die pings auf die angegeben IP-Adresse sind fehlgeschlagen, ping -6 www.google.com geht aber. Ein ping auf die IP-Adresse aus der Ausgabe des letzten Kommandos geht dann auch.

Die neuen Daten habe ich unter an die bekannte Seite gehängt: http://www.kryger.de/tmp/node_offline_not.html#nachtrag

Hab’ jetzt den 841-er mal rebootet. Direkt danach wurde der Node in der Karte auch wieder als online markiert. Ist keine Lösung, ich weiß. Aber vielleicht verbirgt sich da doch irgendwo ein Hinweis …

@horstmann
Du beschreibst ziemlich exakt ein Szenario, was ich zumindest beim alten Batman in großen Domains oft gesehen habe:

  • Im Layer2-Netz ist alles o.k. (batctl ping, IP-ping auf der fd80er, auf der öffentlichen IP intern etc.), d.h. intern in der Wolke -auch sonstwo aus der gleichen Domain- ist der Knoten erreichbar.
  • Andere Knoten in der gleichen Wolke sind aus dem Internet erreichbar und deren Clients kommen auch ins Internet „übers Gateway“, auch über das identische Gateway des fraglichen Knotens.
  • Der fragliche Knoten kommt nicht über das Gateway ins Internet und ist vom Internet (oder ICVPN) nicht erreichbar.

Meine Vermutung: Defekte Routing-Tabelle im batman-gateway auf derm Supernode.
Abhilfe: Neustart des Supernodes (unrealistisch) oder Neustart des Plasterouters (einfach) oder restart des fastd auf dem Plasterouter in der Hoffnung, dann bei einem anderen Supernode ein anderes Gateway zu bekommen.

Ich verstehe zu wenig von dem Netzkram, aber hast Du bedacht, dass der Node keine Probleme mit dem Internet hat? Man kann sich da anmelden und hat einwandfreien Zugang zum Netz.

Ich tippe auf einen abgeschmierten Dienst (fastd?) auf dem 841-er. Ich würde das gerne näher untersuchen und einen cronjob einrichten, der vielleicht alle 15 oder 30 Minuten testet, ob 1. Internetverbindung besteht und 2. der Node trotzdem als offline geführt wird.
Falls dem so ist, soll fastd neu gestartet werden und der Vorgang in eine Datei geloggt werden, damit ich mir das dann später angucken kann.

Macht das Sinn? Und Frage: Wie findet der router heraus, ob er als offline gekennzeichnet ist? Die gesamte Ausgabe von nodes.json zu laden und zu parsen dürfte kaum mit Bordmitteln zu machen sein. Kann ich nodes.json irgendwie übermitteln, nur die Daten des eines Knotens raus zu rücken? Oder stecken die notwendigen Daten schon irgendwo im Gerät selbst?

Ich weiss nicht, was das heisst.

ABgesehen davon: Ob ein Node auf der Karte erscheint, also faktisch in der kompilierten nodes.json auftaucht: Überhaupt kein Kriterium für mich, um den Status eines Freifunk-Nodes zu beurteilen. Das ist allenfalls eine ganz grobe Wasserstandsmeldung aus der ich nie irgendwelche Folgen ableiten würde ausser „das soltle man mal manuell schauen“:

Was die von Dir angedeuteten Offline-Erkennungsskripte anbelangt: Ja, das wäre alles sinnvoll. Konzepte gibt es viele. Es hat nur noch niemand so programmiert, dass es mit einem normalen Standard-Gluon zurechtkommt.

Na, dass man sich an dem Node ganz normal anmelden kann und darüber das Internet problemlos nutzen kann.

Ah, OK. Das habe ich ganz anders eingeschätzt. Danke für die Klarstellung.

Hast Du 'nen Link dazu oder sind die Gedanken in die Richtung noch nicht weit genug gediehen?

Wobei das Script „nur“ auf die Erreichbarkeit des ausgewählten batman-gateways triggert.
Wenn dieses ein Problem haben sollte (Defekte batman-Routingtabellen, kein GRE-Link zum Backbone, Backbone down), dann würde nicht aktiv werden. (Näheres bitte dort im Thread diskutieren)

Was nun hier die Knotenproblematik anbelangt:
Wenn der Node als solcher lokal zu funktinieren scheint (Clients kommen sowohl per IPv4 wie auch per IPv6 ins Internet), dann ist es ein Reporting-Problem.

Ich tippe dann mal auf
a) rogue alfred-master "in der Nähe"™
und/oder
b) Domain mit mehr als 500 aktiven Clients

1 „Gefällt mir“

Vielen Dank. In dem Script sind ja ein paar schöne Ideen. Da kann ich mich erstmal reinlesen und werde meinen Node beobachten.