Domäne Aachen - node angeblich offline

Poste mal bitte die Ausgaben von:

batctl gwl
/lib/gluon/announce/announce.lua nodeinfo
ifconfig

Der Knoten ist auch von außen problemlos zu erreichen:
http://[2a03:2260:114:ac01:12fe:edff:fef1:668a]/cgi-bin/status

Er hat angeblich einen Mesh Nachbarn mit der Mac Adresse c4:6e:1f:ea:c0:69, den ich aber nicht finden kann:

ffac-ofdenyeah

Model: TP-Link TL-WR841N/ND v8
Firmware release: 2014.4-stable-01

22:19:14 up  1:03,  load average: 0.04, 0.09, 0.12

6: br-client: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue 
    link/ether 10:fe:ed:f1:66:8a brd ff:ff:ff:ff:ff:ff
    inet6 2a03:2260:114:ac01:12fe:edff:fef1:668a/64 scope global dynamic 
       valid_lft 86379sec preferred_lft 14379sec
    inet6 fe80::12fe:edff:fef1:668a/64 scope link 
       valid_lft forever preferred_lft forever

             total         used         free       shared      buffers
Mem:         28860        25040         3820            0         2152
-/+ buffers:              22888         5972
Swap:            0            0            0

Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/root                 2304      2304         0 100% /rom
/dev/mtdblock3             640       260       380  41% /overlay
Neighbours

wlan0

Joined IBSS ca:ff:24:ff:ac:24 (on wlan0)
	SSID: wifimesh-g-ac
	freq: 2462

Station c4:6e:1f:ea:c0:69 (on wlan0)
	inactive time:	0 ms
	rx bytes:	25583871
	rx packets:	227916
	tx bytes:	328818
	tx packets:	3654
	tx retries:	22
	tx failed:	0
	signal:  	-31 [-35, -33] dBm
	signal avg:	-31 [-35, -32] dBm
	tx bitrate:	12.0 MBit/s
	rx bitrate:	48.0 MBit/s
	authorized:	yes
	authenticated:	yes
	preamble:	long
	WMM/WME:	no
	MFP:		no
	TDLS peer:	no

VPN status

fastd running for 3757.639 seconds
There are 7 peers configured, of which 2 are connected:

mesh_vpn_backbone_peer_aachen01: not connected
mesh_vpn_backbone_peer_aachen02: connected for 3719.567 seconds
mesh_vpn_backbone_peer_aachen07: not connected
mesh_vpn_backbone_peer_aachen03: not connected
mesh_vpn_backbone_peer_aachen04: connected for 3717.052 seconds
mesh_vpn_backbone_peer_aachen06: not connected
mesh_vpn_backbone_peer_aachen05: not connected

Dem Pegel nach ist der Knoten in der Nähe auch von dir.

Mal sehen ob die Infos nach denen Monty gefragt hat zu mehr Klarheit führen.

Ja, das ist eine selbst entwickelte Firmware, die aber noch beta-Status hat. Die hat kein funktionierenden Alfred.

So etwas habe ich ja reflex mäßig direkt mal mit im Verdacht. Das war schon auch mal eine Weile abgeschaltet oder?

Was kommt denn dabei raus:

@pebrille hast du inzwischen etwas heraus gefunden?

Kann es sein dass dein Knoten derzeit tatsächlich offline ist?

Derzeit erreiche ich ihn nicht unter seiner IPv6 Adresse.

Hab nochmal neu geflasht, jetzt ofdenyeah1. Funktioniert IMO aber immer noch nicht. Ich schalt mal alle preiphären Geräte temporär aus.

Edit:
Nach einiger Zeit war der Knoten dann doch online. Abgehakt!

Mein Node wird momentan auch seit 15 Minuten auf den Aachener Karten als offline angezeigt (und ständig werden es mehr). Tatsächlich läuft er aber problemlos. Ich benutze ihn gerade beim Schreiben dieses Posts …
Wie kriege ich das gerade gerückt?

Wie heißt denn der Knoten?

„ffac-Rother_Forst“
http://[2a03:2260:114:ac01:6666:b3ff:fe9d:541c]/cgi-bin/status

Hmm.
Bisher haben wir vereinzelt ein paar wenige Hosts, die Probleme machen.
Einen Ansatz haben wir da leider bislang nicht, sondern können nur Vermuten, dass es am UDP Packet-Loss liegt.

Wenn ich noch mit irgendwas helfen kann, lass es mich wissen. Ich habe auch ssh-Zugang zum Gerät.

heiße Kandidaten für „falsche Offline-Meldungen“ im Alfred sind:

  • DSlite mit niedriger MTU
  • Rogue Alfred-Master in der „Nähe“
  • DSL mit völlig zugeschüttetem Upstream.(oder bannig niedriger Egres-Wert)

Powerline-Adpter? Hab’ eben gerade mal den Router rebootet, wurde danach immer noch offline angezeigt. Danach die beiden Powerline-Adapter neu gekoppelt (muss man so zwei Knöpfe drücken) und – siehe da – Rother Forst kriegt 'nen grünen Punkt in der Karte!

Passt das irgendwie ins Bild? Macht das überhaupt Sinn, die Powerline-Adapter zu verdächtigen, wenn doch die Verbindung ins Netz doch tatsächlich die ganze Zeit über steht?

Mir ist das Szenario völlig unklar.
Für Störungssuche wären hilfreich:
(Per pastebin & co)

Router Statusseite (vorher)
Alfred-datensatz lokal abgefragt
Ausgabe von Logread

Ich hoffe, ich habe die Daten eingesammelt, die Du haben wolltest (vor allem bei „alfred Datensatz lokal abgefragt“ hatte ich eigentlich keinen Plan). Ich habe alles (vorher und nachher) auf http://www.kryger.de/tmp/node_offline_not.html eingestellt.

Lustigerweise wurde der Node wieder als offline markiert, kurz nachdem ich den ersten Teil fertig hatte; der Ausfall muss so um Mitternacht herum stattgefunden haben. (Die häufigen Connects und Disconnect von root im Logfile dürften meine scp-Zugriffe auf das Gerät sein.)

Vielleicht ist ja eine Spur dabei. Will am Dienstag auch zum Beratungstisch kommen. Wenn das hier nicht nach Beratung schreit, was dann? Ich erwarte übrigens auch keine schnelle Lösung – hatte mich bloß schon gefreut, dass ich heute 14 Stunden einen grünen Punkt hatte, dachte »jetzt läuft’s ja« und dann isses doch wieder abgeschmiert …

Danke für die Daten.

Dann schau mal, ob du mit dem Node wenn er „offline“ gezeigt wird
a) noch per batctl p das gateway anpingen kannst. (ausgabe batctl gwl kennst Du ja schon)
b) mit ping/Ping6/ping -6 Nodes im IPv6 erreichen kannst:
z.B. Google: 2001:4860:4860::8888 und 2001:4860:4860::8844

batctl p läuft nicht, aber wenn ich einen Host angebe, also batctl p ac:c0:1d:ca:fe:04.

Die pings auf die angegeben IP-Adresse sind fehlgeschlagen, ping -6 www.google.com geht aber. Ein ping auf die IP-Adresse aus der Ausgabe des letzten Kommandos geht dann auch.

Die neuen Daten habe ich unter an die bekannte Seite gehängt: http://www.kryger.de/tmp/node_offline_not.html#nachtrag

Hab’ jetzt den 841-er mal rebootet. Direkt danach wurde der Node in der Karte auch wieder als online markiert. Ist keine Lösung, ich weiß. Aber vielleicht verbirgt sich da doch irgendwo ein Hinweis …

@horstmann
Du beschreibst ziemlich exakt ein Szenario, was ich zumindest beim alten Batman in großen Domains oft gesehen habe:

  • Im Layer2-Netz ist alles o.k. (batctl ping, IP-ping auf der fd80er, auf der öffentlichen IP intern etc.), d.h. intern in der Wolke -auch sonstwo aus der gleichen Domain- ist der Knoten erreichbar.
  • Andere Knoten in der gleichen Wolke sind aus dem Internet erreichbar und deren Clients kommen auch ins Internet „übers Gateway“, auch über das identische Gateway des fraglichen Knotens.
  • Der fragliche Knoten kommt nicht über das Gateway ins Internet und ist vom Internet (oder ICVPN) nicht erreichbar.

Meine Vermutung: Defekte Routing-Tabelle im batman-gateway auf derm Supernode.
Abhilfe: Neustart des Supernodes (unrealistisch) oder Neustart des Plasterouters (einfach) oder restart des fastd auf dem Plasterouter in der Hoffnung, dann bei einem anderen Supernode ein anderes Gateway zu bekommen.

Ich verstehe zu wenig von dem Netzkram, aber hast Du bedacht, dass der Node keine Probleme mit dem Internet hat? Man kann sich da anmelden und hat einwandfreien Zugang zum Netz.

Ich tippe auf einen abgeschmierten Dienst (fastd?) auf dem 841-er. Ich würde das gerne näher untersuchen und einen cronjob einrichten, der vielleicht alle 15 oder 30 Minuten testet, ob 1. Internetverbindung besteht und 2. der Node trotzdem als offline geführt wird.
Falls dem so ist, soll fastd neu gestartet werden und der Vorgang in eine Datei geloggt werden, damit ich mir das dann später angucken kann.

Macht das Sinn? Und Frage: Wie findet der router heraus, ob er als offline gekennzeichnet ist? Die gesamte Ausgabe von nodes.json zu laden und zu parsen dürfte kaum mit Bordmitteln zu machen sein. Kann ich nodes.json irgendwie übermitteln, nur die Daten des eines Knotens raus zu rücken? Oder stecken die notwendigen Daten schon irgendwo im Gerät selbst?