Sammelthread: Störungsmeldungen und Netzprobleme in Gelsenkirchen

Wenn das so gemeint wie geschrieben ist - sind wir ja beisammen.

Was dem einen eine simple Traceroute ist, ist dem anderen ein Rätsel mit sieben Siegeln. Ich versuche das morgen zu bieten, nachdem ich verstanden habe worum es geht.,

[quote=„thomasDOTwtf, post:100, topic:1288“]
Du lehnst es ab deine Lebenszeit zu opfern damit es funktioniert während Du es von anderen wie z.B. @CHRlS erwartest?
[/quote]Oh nein - ich beziehe mich auf die Ankündigungen, dass es morgen, morgen, morgen etc, funktioniert.

[quote=„thomasDOTwtf, post:100, topic:1288“]
Ich finde deinen Ton im übrigen echt unangemesse. Du tauschst Dich hier mit Personen aus die sehr viel Zeit in den Betrieb der Infrastruktur investieren.
[/quote]Sorry - noch mal an alle die hier viel Zeit investieren: ich investiere auch viel Zeit und stehe im Wort bei Menschen, ohne Einfluss auf das zu haben, wofür ich einstehe,

[quote=„thomasDOTwtf, post:100, topic:1288“]
Meiner Ansicht nach gebietet es die Höhflichkeit und der gegenseitige Respekt nett miteinander umzugehen und konstruktiv ein Problem gemeinsam zu lösen.
[/quote]Ja.

[quote=„CHRlS, post:101, topic:1288“]
Keine Infos, keine Diagnose, keine Lösung, Punkt…
[/quote]Sehe ich auch so.
Exit Strategie.

1 „Gefällt mir“

Lasst uns zusammen einen Weg suchen, der keine verbrannte Erde hinterlässt.
Ich bin raus -
Ich versuche es diplomatisch zu vermitteln und übergebe den Kram jemanden, der es profunder und engagierter macht als ich.

Meine e-mail habt ihr - ich schicke euch ein „Empfehlungsschreiben“ mit dem ihr weiter arbeiten könnt.

Hallo lieber @Enrique keiner der obenen Beiträge richtet sich gegen Dich oder unterstellt Dir Inkompetenz.
Veilleicht überlegst Du mal ob das der Situation angemessen ist. Ich finde, dass Du bist jetzt gute Ergebnisse erzielt hast.
Schlaf mal eine Nacht darüber.

Nee, ich weiß ja dass ich gute Ergebnisse erzielt habe, inkompetent bin ich definitiv, was die technischen Fragen angeht.
Und irgendwie richten sich die Beiträge natürlich nicht gegen mich, sondern gegen die Projektionsfläche „Enrique“ - da sind wir beisammen.

Trotzdem - ich kann nicht mehr länger mit meinem Wort für etwas einstehen, was so nicht existiert.
Vielleicht habt ihr recht und das Problem ist nur auf GE und mich beschränkt - ein Grund mehr, dass jemand anders den Job übernimmt.
Vielleicht ist es auch so, wie andere rückmelden - und dann haben auch andere ähnliche Probleme. Ich weiß es nicht.

Wir werden jedenfalls ne saubere Lösung finden.
Ich schlage schon mal vor, dass Andreas meine Pflänzlein bis auf weiteres betreut und würde ihm - euer Einverständnis vorausgesetzt - die Zugangsdaten geben.
Alles Gute

Vielleicht auch eine ungünstige Konstellation, die so selten existiert - eine Mischung aus eher sekundären Dingen, die im Zusammenspiel dann eine Instabilität ergeben. Viel Verkehr in der Luft + schlechte Anbindungen + weiß ich auch nicht = instabil oder so.

Fakt ist das ich zwei dutzend Router (841v9, 3600, Picostations, Bullet, etc.) selber betreue und auf keinem dauerhafte Probleme existieren, wie anscheinend auf vielen Routern in Gelsenkirchen.

Gibt es nicht die Möglichkeit, dass sich mal 3-8 Freifunker mit großer technischer Kenntnis in Gelsenkirchen treffen und sich das mal angucken? Acht Augen sehen mehr als zwei.
Keiner hat Interesse daran, dass Freifunk (mit oder ohne Internet) nicht läuft, auch wenn wir alle wissen, dass 24/7 nicht klappt. Die Router haben anscheinend einen Mix aus verschiedenen Problemen, die aus der Ferne zum Teil auch nur mäßig zu diagnostizieren sind.

Enrique: Was den Admins wohl helfen würde sind die Ergebnisse von den drei Traceroutes. Bist du (mit etwas Hilfe) in der Lage die zu erstellen?

Ich kann beide Seiten verstehen. Für die Admins ist es frustrierend immer zu sehen, dass die Knoten offline sind und nichts dagegen machen zu können, weil ihnen Informationen fehlen.
Und für Enrique ist es bescheiden, weil er (wie wir alle) seine Freizeit dafür opfert, eigentlich tolle Ergebnisse hinbekommt und es am Ende aus unklaren Gründen nicht funktioniert. Das ist wie vor eine Glaswand rennen.

Ansonsten möchte ich mich auch gar nicht einmischen, sondern das nur als Vorschlag in den Raum stellen :slight_smile:

2 „Gefällt mir“

Was ich komisch finde, ist dass auf den Routern nicht ur die Uptime niedrig ist, sondern auch die Load beständig deutlich(!) über 1 liegt.
Und haufenweise diese dhcpv6-scripte.
Das kenne ich eigenltich nur von den frühen 0.6er-alphas (2014.4 experimentals), wohlgemerkt nur aus ffrg, nicht von ffrh.


Damn…aber warum nur in GE? Zu schlappe Leitungen mit zu viel Grundrauschen, so dass die Scripte, wenn es zu viele werden nicht mehr geregelt ablaufen können?

Einzige Idee die ich dazu habe ist, die radvd.conf wieder auf den alten Stand zurück zu setzen, Thomas hatte da ein paar Änderungen drin gemacht.

Ich habe nun mal auf meinen Stand zurück gerollt, bitte beobachtet, ob das Verhalten nun weniger wird (dhcpv6.script) und die Reboots aufhören…

Es wäre sehr schade, die Arbeit in Gelsenkirchen aufzugeben. Ich war ja vor Ort und was @Enrique an physischer „Laufarbeit“ macht, ist wirklich bemerkenswert. Es wäre natürlich noch besser, wenn er einen Netzwerkcrack in der Hinterhand hätte, der ihn technisch unterstützt.

Vielleicht kann ich ja etwas digitale Nachbarschaftshilfe anbieten, auch wenn ich nicht so oft physisch vor Ort sein kann.

Ich denke in Gelsenkirchen kommt es auch so „leicht“ zu Problemen, weil viele Knoten an wenigen Uplinks hängen und das teilweise noch mit einer schlechten Verbindung. Wenn dann ein Uplink wegbricht (egal aus welchem Grund) führt das vielleicht zu einem Dominoeffekt.

Hat jetzt irgendwer den Stecker gezogen? Alles weg :open_mouth:

Ok, das betrifft aber das gesamte Ruhrgebiet.

Habe keine Alerts gekriegt, ist wohl nur die Map.

1 „Gefällt mir“

Was die die hohe Load und die ständigen Reboots auf „Routern mit nur 32MB Ram“ betrifft:
Ich habe die dhcpd6.scripte im verdacht, die sich um die radv-Anfragen kümmern.

Kann es sein, dass wir da zeitweise extrem viele RA haben?
Also „Neighbour Solitations“ (icmpv6.type == 135) und
„Router Solitations“ (icmpv6.type == 133)

Wie könnte man das debuggen?

Und täglich grüßt das Murmeltier…

nicht zum ersten mal wird das stabil laufende Netz in GE durch eine unangekündigte und undokumentierte Scriptänderung zu Fall gebracht.
Der Ablauf ist immer der gleiche.
Ich weise auf die Störungen hin, man erklärt mir, dass das nicht sein könne, dass nur ich diese Probleme hätte, dass ich es nicht sauber nachweisen würde, dass ich die Mitarbeit verweigere und mir bzw. dem Netz deshalb nicht zu helfen wäre.

Dann tauchen Klagen über meinen Ton, mein Anspruchsdenken auf und man erklärt mir, dass ich eine falsche Vorstellung von Freifunk hätte. Hier und da Häme und süffisante Spitzen gegen diesen Enrique.

Plötzlich erste Zugeständnisse, dass möglicherweise doch eventuell in GE etwas nicht ganz rund laufen könne - das müsse aber mit zu wenigen uplinks, zu schlechten Verbindungen und weiteren, an anderen Orten der Welt nicht vorhandenen Störungen, zu tun haben. Zur Bekräftigung dieser Thesen wird auf Referenzrouter, die um GE herum positioniert wurden, hingewiesen und erklärt, dass diese 24/7 sauber und störungsfrei laufen.

Ich weise in der Regel dann darauf hin, dass auch Router verschwinden und unerreichbar bleiben, die nur einen uplink und keine Nodes haben, niemals mit zu viel Traffic konfrontiert wurden und wochenlang sauber arbeiteten.

Dann plötzlich entdeckt man, dass ein Script stört, irgendeine Programmierung nicht sauber durchgeführt wurde und man macht das rückgängig.

Das alles kann beliebig ausgetauscht werden gegen:

Wir haben zu wenig Server, deshalb bricht das bei dir zusammen - demnächst gibt es zusätzliche Server.
Wir haben demnächst eine neue Firmware, dann sind deine Probleme gelöst.
Wir haben demnächst ein neues Gluon, dann hast du keine Probleme mehr.

Was sich nicht ändert:
Meine Bitte, Änderungen nicht auf einem aktiven Live-System auszuprobieren, werden nicht mal beantwortet.
Störungen gibt es nur in GE.
Das Image vom „hässlichen“ Enrique wird weiter verfestigt, auch wenn er abermals begründet und zu Recht auf Probleme im Betriebsablauf hingewiesen hat.
Alle Versuche von verschiedenen Seiten, strukturelle, organisatorische, technische und personelle Ergänzungen, Erweiterungen, Veränderungen im Rhein/Ruhr Gebiet umzusetzen, perlten an den Machern ab, als ob es um eine feindliche Übernahme ginge und nicht um eine Kooperation im Freifunk Sinne.

Bleibt noch anzumerken, dass ich heute einen physisch schwer erreichbaren uplink Router durch einen manuellen Neustart wieder ins Netz bringen konnte. Zwei für mich physisch nicht erreichbare Nodes bleiben verschwunden, bei beiden gehe ich davon aus, dass nur ein manueller Neustart helfen wird.
Auch hier dürfte jedem einleuchten, dass dieser Zustand auf Dauer Freifunk beerdigt. Wenn es kein automatisiertes verlässliches Monitoring System mit Störungsmeldungen gibt, wird es keine größeren Netze geben.

Die von adorfer angesprochenen Probleme durch die dhcpd6.scripte verstehe ich nicht - aber wenn das die Fehlerursache war, habe ich Freifunk ja noch einen Dienst erweisen können.

Sorry, aber Du verrennst Dich da wirklich von einem Irrglauben in den Nächsten.

Du bist ein tofter Typ und ein super Frontmann, um die Community zu pushen, aber Dir fehlt, wie es bereits angemerkt wurde, schlichtweg die technische Unterstützung in Gelsenkirchen.

Von außerhalb lässt sich das auch nicht problemlos kompensieren.

Insgesamt, die Polemik rausgenommen, beschreibst Du zwischendrin schon schön den Prozess:

  • Du meldest einen Fehler in Gelsenkirchen
  • dieser lässt sich nicht nachvollziehen, ist ergo kein globales, sondern ein lokales Ereignis
  • Du wirst um weitere Informationen gebeten und lieferst diese (hat nun Adorfer für Dich erledigt)
  • ich denke noch mal tief drüber nach auf Basis der gelieferten Infos, auch ob Dinge geändert wurden
  • in der Regel finde ich was und kann es testweise ändern ggfs. dadurch sogar fixen

Wo siehst Du in diesem Ablauf den Fehler?

Probleme oder Fehler kann und wird es immer geben. Im übrigen nicht nur bei uns, sondern auch bei der kommerziellen Konkurrenz, die in der Regel einen deutlich langsameren und durch Dementieren auch anstrengenderen Support Prozess haben…

1 „Gefällt mir“

@CHRlS - deine Liebesode an mich erwidere ich und bestätige Gegenseitigkeit. Du bist mindesten ebenso tofte. Mindestens. Außerdem bist du viel schlitzohriger, viel trickyger, viel rabulistischer. :blush: Wir beide wissen, dass ich bisher nicht nur pings und traceroutes geliefert hatte bei Problemen, sondern dass du und Phillip Zugriff auf einige Router habt oder bekommen könntet. :wink:

Der Fehler im Ablauf:

ihr sollt aufhören am Live-System zu fummeln . Ihr sollt es Vorankündigen, wenn ihr schon nicht damit aufhören könnt.
Ihr sollt das dokumentieren. Ihr sollt nicht schmallippig herumdrucksen, wenn Fehler gefunden wurden.

Das Fuzzy-Problem war lang genug bekannt. Habt ihr daran etwas geändert?
Die durch Serverüberlastung hervorgerufenen Zusammenbrüche waren lange vorher absehbar - habt ihr euch rechtzeitig darum gekümmert?

Wo bleiben Rundmails an die verantwortlichen Betreuer von Routern, BEVOR ihr Änderungen einspielt?

Das es tagelang nicht nur in GE zu vermehrten Neustarts kam, dürfte euch nicht entgangen sein.

Aber egal - ich will mich jetzt weder in etwas verrennen noch hysterisch werden. Weitere soeben verschwundene Router werden schon wieder irgendwann auftauchen.

Einerseits von „Herrschaftswissen“ sprechen und andererseits offen zugeben, dass man selbst nicht dazu in der Lage ist, sich mit technischen Details zu befassen. Was denn jetzt?

Ja, allen ist bewusst, dass es noch Verbesserungspotenzial innerhalb der Kommunikationsstrukturen gibt, aber die Situation ist beileibe nicht so Katastrophal wie sie von dir Dargestellt wird. Dabei denke ich an so Beiträge wie #57 bis #60 innerhalb dieses Threads, in denen einfach und allein irgendjemand vor Ort den Stecker gezogen hat, während du bereits wechselnde Kanäle und Autoupdates als als Problem in Verdacht hattest, obwohl dieser Fehler bisher erst 1x aufgetreten ist. Einfach mal den Ball flachzuhalten, eine intensive Einzelfallbetrachtung durchzuführen und nicht reflexartig oneliner als Downmeldungen in diesen Thread zu posten, würde glaube ich mehr weiterhelfen als sorgfältig ausformulierte und sarkastisch erstklassige Sätze.

Das fasse ich zunächst erst mal als Lob auf - so als wenn ich dir sagen würde: klasse Firmware die du da gebacken hast.
Was du darüber hinaus sagen willst, glaube ich schon zu verstehen. Etwas leiser, unauffälliger, etwas sozial gefälliger, emotionsloser, dafür mehr Technik-Analyse, bei Beachtung und Anwendung von mehr Präliminarien und Umgangs-Floskeln.

Ich könnte nicht mal sagen, dass du Unrecht hast.

Mir scheint, dass hier ganz sachte von allen Beteiligten ein nicht mehr rückgängig zu machender Drang in Richtung Eskalationsstufen stattgefunden hat.

Ich würde dir gerne mal schildern, wie ich mich fühle, wenn ich erfolgreich Überzeugungsarbeit geleistet habe und dann einen Offenbarungseid leisten muss, weil das Ding nicht funktioniert.

Aber: das wäre nicht sehr technisch, das wäre nur emotional, vielleicht sprachlich gut formuliert - aber nix für den Freifunk-Mensch.

Wie @Enrique auch bin ich eher der „Klinkenputzer“. Daher kann ich das mit dem Offenbarungseid 100%-ig nachvollziehen.
Der Unterschied: wir hatten in Mettmann nicht solch gravierende Ausfälle. Ursache für Ausfälle von einzelnen Nodes waren hier:

  • Frau hat sauber gemacht
  • Netzwerkkabel schief weil zu wenig Platz
  • Kinder haben alle Stecker gezogen, weil kein Internet. Und wieder falsch eingesteckt
  • Hardware-Firewall - war dann mit Gluon behoben
  • Geschäftszeiten - Bar macht erst um 19 Uhr auf, Geschäfte schließen um 18 Uhr - alles stromlos gemacht
  • falsche Firmware aufgespielt
  • Router hinter Metall aufgestellt

Wenn es zum GAU kam, also nichts mehr ging, haben die Admins das Problem in erstaunlich kurzer Zeit behoben. Wie gerade in der Domäne Rheinufer. Wer hätte ahnen können, dass in einem Monat 200 neue Nodes dazu kommen? Hinzu kommen noch Autoupdate und die für weiteren Ausbau notwendige Umstrukturierung des Netztes.
Was hier ehrenamtlich geleistet wird, sollte manchen Projektmanager aus der Wirtschaft vor Neid erblassen lassen. Und damit meine ich uns alle!

Just my 2 Cent

5 „Gefällt mir“

Der FF-RE-REC-CampusVest-Budde-2OG gerade auch scheint seit gestern Nacht ein ähnliches Verhalten zu zeigen.


Die Kiste reagiert auf SSH, allerdings extrem träge Zwischendurch geht es mal wieder, wenn gerade keine dhcpv6-Skripte zu verarbeiten sind, die Geschichte bricht aber auch schnell wieder ein. Ich lasse es den Rest der Nacht jetzt erstmal weiterlaufen, vielleicht erholt es sich von alleine.

Der Knoten ist ein 1043v1 mit direktem Uplink.