Netz lief lange stabil - nun ständig Ausfälle

Ich habe seit drei Jahren meinen Garten mit vier Routern mit WLAN versorgt. Das lief super stabil. Der eine Router hängt am Internet und die anderen drei meshen direkt mit diesen zentralen Router

Nun sind schräge gegenüber Flüchtlinge in ein Haus der Stadt eingezogen und denen wollte ich gerne etwas von meinem „Netz“ abgeben und habe zwei weitere Router in das Netz gebracht. Die neuen zwei Router sind nur indirekt an den zentralen Router, bzw. an einem der drei Meshrouter dran. Seitdem schmieren alle meine Router sehr oft komplett ab…

Ich habe einen der neuen zwei Router mit einer experimental Version ausrüsten müssen - ea gab kein Stable.
Seitdem ich diesen Router aus dem Netz nahm, läuft es wieder… Ich ging bisher davon aus, das ich eventuell Stress ausschließlich mit dem experimental Router bekommen könnte. Mit Auswirkungen auf das ganze Mesh habe ich nicht gerechnet.Kann ja auch nicht im Sinne des Erfinders sein.

Jetzt die Frage:
Kann es sein, dass ein experimetal Router das ganze Mesh „zerschießen“ kann? Wie funktioniert das?

Ohne Angabe von Community, Firmware und Gerätetypen wird dir niemand etwas sagen können. :slight_smile:

1 „Gefällt mir“

Ich bin im Freifunk Pinneberg unterwegs. Der Router den ich als Ursache des Problems ansehe ist ein TP-LINK TL-WR1043N v5.
Das Gluon: 0.10-exp20191024 / gluon-v2018.2.3

Ein Link zum Mesh:
https://meshviewer.pinneberg.freifunk.net/#!v:m;n:c04a004467f2

1 „Gefällt mir“

Zwischen Gluon 2016 und 2018 liegen doch viele Änderungen. Könnte mir vorstellen, dass das zu Unverträglichkeiten führen könnte. Hast Du mal die örtlichen Freifunker gefragt?

Du kannst natürlich auch alle Geräte im Mesh mit der neuen Firmware bestücken und schauen, ob das stabil läuft.

Leider gibt es die 2018 Gluon im Freifunk Pinneberg nur als experimental. Alle Router auf eine exp. Version umstellen möchte ich nicht. Dann fliegt der eine Router raus.

Mich würde aber das technische interessieren. Wieso killt der eine Router alle anderen?
Wenn ich jemanden ärgern möchte, dann installieren ich so ein Teil nahe dessen mesh?
Das kann doch nicht im Sinne des Erfinders sein.

›Gekillt‹ hat er sie ja offensichtlich nicht. Was genau ist passiert? Basierend auf den Symptomen wären die Releasenotes zu zwischen der Gluon v2016-Version von stable mit allen bis zur v2018-Version von experimental inkl. der site.mk-Dateien der beiden Versionen zu vergleichen.

Aber, tbh, ich bezweifle, daß es am Mix stable/experimental liegt/lag. Ich kann mich an keine grundsätzliche Inkompatibilität zw. v2016 & v2018 im Betrieb erinnern; wir haben IIRC den Schwenk seinerzeit auch gemacht, von v2016.2.unreleased nach v2018.1/v2018.2.

1 „Gefällt mir“

Fakt ist, dass mein Mesh seitdem dieser Router aus dem Mesh raus ist, total stabil ist. Seit etwas mehr als einer Woche habe ich keinen einzigen Routerausfall gehabt. Davor hatte ich täglich Probleme bis hin zum Totalausfall aller Router.

Also es klingt komisch das es da Inkompatibilitäten geben soll, aber es ist auch schwer dir da etwas zu sagen. Beide Firmwares (euer stable und experimental) sind halt auch einfach uralt. Hier weiß denke ich auch gerade niemand ob und was zwischen den Firmwares an der Site verändert wurde usw.

Bei solchen Fehlern wird aber auch ganz generell in der Softwarewelt gesagt werden „probier mal was passiert wenn du die aktuelle Version auf allen Geräten installierst“. Und mit „aktuelle Version“ ist dann halt auch eigentlich nicht das bei euch aktuelle gemeint, sondern die aktuelle Upstream Version. Aber experimental für alle Nodes in dem Mesh könnte halt doch ein Anfang sein.

Es kann halt auch sehr gut sein dass das ihr überhaupt nicht mal so eben mal auf eine aktuelle Gluon Version umsteigen könnt weil davor erst noch Migrationen erforderlich sind.

Software von 2016 oder 2018 hat halt vermutlich auch mittlerweile bekannte Sicherheitslücken und beide Gluon Versionen sind End of Life.

Ich glaube, dass wir nur auf Grundlage von gluon-Versionsnummern und haltlos übertriebenen Symtomzuschreibungen hier nicht weiterkommen werden.
Das bleibt dann Forenspekulatius.

Das Bedarf wirklich eines echten Debuggings, also mindestens mal auf zwei von den Beteiligten Routern das syslog aufmachen und laufen lassen während die Effekte auftreten.

This.

»Totalausfall aller Router« heißt: alle Freifunk-Knoten hingen komplett, waren nicht ansprechbar und mußten per Turnschuh-Administration mittels Powercycle reanimiert werden. Hatte ich, IIRC, in rund 8 Jahren noch nie.

Naja, generell heißt es schon die »aktuell neueste verfügbare«, also »experimental« von Freifunk Pinneberg in diesem Fall. Möchte der Threadersteller nicht, ok; aber damit ist dann auch das öffentliche Debugging beendet. Alles weitere bleibt »Forenspekulatius« (I like this one ;)).

Totalausfall: heisst für mich „stuck in bootloop, tftp-rescue notwendig“.

Einigen wir uns auf »node unresponsive, local human intervention needed«?

Es ist schon ein Unterschied, ob ich $USER sagen kann
„Mach mal Powercycle“, oder
„häng den Router von allem LAN ab, dann powercycle, warte 2 Minuten, dann drücke Reset länger und im Webbrowser auf auf http://192.168.1.1 erstmal die Einstellungen rücksetzen“,
Oder „hier der link zum Wiki für TFTP-Rescue. Lies` es Dir mal durch, installiere was Du verstanden hast und wenn Du vor Ort bist, dann ruf’ mich ggf. an“

Zurück zum Thema:

Bitte den OP mal dieses hier abarbeiten so weit wie geht:
https://wiki.freifunk.net/Mein_Freifunk_funktioniert_nicht_mehr

Ja. Das trifft es dann am Besten

1 „Gefällt mir“

Der Router liegt jetzt im Elektroschrott. Das Mesh läuft stabil und ich werde wohl nicht mehr erfahren warum das so ist.

Ich sehe nicht, wo dies bei …

Der eine Router hängt am Internet und die anderen drei meshen direkt mit diesen zentralen Router.

[…] und habe zwei weitere Router in das Netz gebracht. Die neuen zwei Router sind nur indirekt an den zentralen Router, bzw. an einem der drei Meshrouter dran. Seitdem schmieren alle meine Router sehr oft komplett ab…

… einen Erkenntnisgewinn bringen soll? In einer BSSID weißt Du ja nicht, auf welchem Knoten Du sitzt (bzw. ist die Ermittlung gerätespezifisch), und ohne Mesh tut auch der »logread -f« auf Meshnode X nicht mehr :frowning:

Mesh-Debugging ist IMHO noch ein »Feld mit viel Optimierungspotential« …

Hmm. Magst Du mir den …

Der Router den ich als Ursache des Problems ansehe ist ein TP-LINK TL-WR1043N v5.

… überlassen (kann Dir DHL-Päckchen-Dingsi schicken)? Soo schlecht, daß man den gleich verschrotten muß, ist er IMHO nicht. Er wanderte in unseren FW-Test-Pool, würde also ggf. zukünftigen Frust verhindern :wink:

Edit: Sprich: Bitte samt Netzteil in einen Karton, den von mir gemailten/PMten DHL-Aufkleber drauf, zum nächsten DHL-Shop bringen, done.

Geht klar. Der 1043 ist ein gutes Modell. Habe davon vier Stück am laufen. Nur leider gibt es in Pinneberg als neuste stabel Version die 2016er Gluons und diese dann nicht für v5.

Habe auch schon über einen Wechsel zur Hamburger Community nachgedacht. Da gibt es deutlich neuere Versionen…aber so lange mein Mesh nun wieder macht wie es soll ist alles gut.

Pinneberg hat leider etwas Personalproblem + abhanden gekommener signierungs keys. Deswegen hat sich leider so lange nichts wirklich an der Stable Version getan. In den nächsten Tagen wird es aber die aktuellste 2019er Version als Stable geben, aktuell ist sie als beta verfügbar. Wenn du nicht warten möchtest, kannst du eigentlich Problemlos auch die Beta nutzen.

Der nächste schritt wäre dann tatsächlich ibss abzuschaffen, um auch auf das aktuellste gluon zu kommen, und mehr Hardware zu untersützen. Das wird aber vermutlich wieder eine Herausforderung.

Falls du für die Flüchtlinge noch Hardware gebrauchen kannst, kann ich dir auch was persönlich vorbei bringen. Ich habe da noch was im Keller liegen.

1 „Gefällt mir“

Da bin ich gespannt. Schön das es weiter geht…