Performance-Probleme

CHRlS · 22. Dezember 2014 um 02:01

Da wir im Gluon den Split Horizon Patch des Batman benutzen, ist der Batman Upstream Traffic auf den DSL Leitungen kurzfristig kein Problem, Hamburg hat laut Leo ca. 60 kbit/s:

Anhand der Alfred Daten haben:

Ruhrgebiet 435 Router im Netz
Rheinufer 330 Router im Netz

Also sogar noch deutlich weniger Router als die Hamburger.

nomaster · 22. Dezember 2014 um 17:04

Ich habe nun insgesamt vier Supernodes am Laufen. Alle vier nehmen Verbindungen von Nodes an, jedoch die beiden schwächeren Systeme, die auch routen, nur bis zu jeweils 100. Die stärkeren Systeme nehmen beliebig viele Nodes (Fastd Peers) entgegen, sind aber bisher nicht fürs Routing zuständig, sondern leiten die Verbindungen nur über die zweite Fastd-Instanz weiter. Diese ist mit AES-128 gesichert, was auf den Xeon-Prozessoren bessere Leistung bietet, als der auf den Node-Verbindungen laufende Cipher SALSA-2012.

Momentan haben die Supernodes alle etwa 50-60% Auslastung. Es ist also angezeigt, möglichst bald weitere Systeme an den Start zu bringen. Dann werde ich auch Routing auf allen Supernodes konfigurieren. Das erfordert jedoch auch Arbeit am Rheinland Backbone, die nicht ohne Unterstützung beginnen möchte. Beim Congress werden wir dazu vielleicht Gelegenheit haben.

nomaster · 22. Dezember 2014 um 17:08

Der Split wird nicht aus politischen Gründen notwendig (wie es vermutlich @maltis gemeint hat), sondern aus technischen. Du bemerkst bereits richtig, dass es etwas mit dem Broadcast-Traffic zu tun hat. Da gibt es Optimierungsmöglichkeiten, wie @CHRlS weiter unten angemerkt hat. Dennoch stoßen wir irgendwann an eine Skalierungsgrenze und müssen dann splitten.

Wenn wir das tun, müssen wir vorher genug fähige Admins im Team haben. Beide entstehenden Domänen sollen autonom sein und ihre Probleme eigenständig lösen können. Das ist eins der schwierigen Probleme bei diesem Vorgang. Zu der technischen Durchführung gibt es mehrere Ideen; lasst uns diese nicht an dieser Stelle diskutieren, denn das führt uns von dem akuten Problem weg.

CHRlS · 22. Dezember 2014 um 17:15

Rheinufer muss zum jetzigen Zeitpunkt mindestens 6 Supernodes haben, besser 8, da selbst bei 6 das festgelegte 100 Router / 2 Supernodes Verhältnis schon wieder leicht überschritten ist.

nomaster · 22. Dezember 2014 um 17:32

Ja, ich weiß. Wir haben 6 CPU am Laufen, da zwei der Supernodes Dual-Xeon-Systeme sind. Wenn mehr notwendig erscheint, müssen wir die Formel mit dem Vorstand neu bestimmen.

Und: 400 Nodes sind verdammt viel. Vor ein paar Monaten waren es noch die Hälfte. Ich bin beeindruckt und mein Tatendrang ist größer denn je.

nomaster · 22. Dezember 2014 um 17:35

Hier kann man schöne sehen, wie der Traffic (Grün/Violett) sich auf vier Systeme verteilt hat und die CPU-Last (Gelb) ebenso. Die Lücke bei Rheinufer1 ist ein Absturz des Systems (Kernel Panic), der heute Mittag geschehen ist. Die Ursache ist mir unklar.

CHRlS · 22. Dezember 2014 um 18:03

BATMAN

Haben wir in letzter Zeit regelmäßiger:

phip · 22. Dezember 2014 um 19:01

Welche bat-Version nutzt Ihr auf euren Servern? Die gepatchte aus Gluon oder 2013.4.0 pur?

Ich weiß nicht, ob es was damit zu tun hat, aber dies wurde vor 8 Tagen eingepflegt:

github.com/freifunk-gluon/batman-adv-legacy

batman-adv: fix delayed foreign originator recognition

committed 05:23AM - 30 Oct 14 UTC

T-X

+1 -0

Currently it can happen that the reception of an OGM from a new originator is no…t being accepted. More precisely it can happen that an originator struct gets allocated and initialized (batadv_orig_node_new()), even the TQ gets calculated and set correctly (batadv_iv_ogm_calc_tq()) but still the periodic orig_node purging thread will decide to delete it if it has a chance to jump between these two function calls. This is because batadv_orig_node_new() initializes the last_seen value to zero and its caller (batadv_iv_ogm_orig_get()) makes it visible to other threads by adding it to the hash table already. batadv_iv_ogm_calc_tq() will set the last_seen variable to the correct, current time a few lines later but if the purging thread jumps in between that it will think that the orig_node timed out and will wrongly schedule it for deletion already. If the purging interval is the same as the originator interval (which is the default: 1 second), then this game can continue for several rounds until the random OGM jitter added enough difference between these two (in tests, two to about four rounds seemed common). Fixing this by initializing the last_seen variable of an orig_node to the current time before adding it to the hash table. Signed-off-by: Linus Lüssing <linus.luessing@c0d3.blue> Signed-off-by: Marek Lindner <mareklindner@neomailbox.ch>

kann ja nicht schaden das Modul upzudaten und neu zu kompilieren

CHRlS · 22. Dezember 2014 um 19:08

…noch die selbstkompilierte 2013.4 pur, aber wir steigen jetzt mal testweise um auf die Paketinstallation „batman-adv-dkms“

phip · 22. Dezember 2014 um 19:27

Ich weiß nicht, ob das Paket weiterentwickelt wurde oder es einfach nur 2013.4.0 enthält und mit DKMS ein Kernelupdate vereinfachen soll. Auf die Schnelle habe ich gerade nichts darüber gefunden.

CyrusFox · 22. Dezember 2014 um 23:46

Ich würde es mit der von @phip verlinkten Version versuchen, die hat auch noch zusätzliche Patches und ist so gesehen „kompatibler“ mit der Version auf den Nodes.

adorfer · 22. Dezember 2014 um 23:53

Das war übrigens der Grund, warum ich akut nochmal einen Satz Experimental-Builds für Gluon gemacht habe. In der Hoffnung damit die „verschwundenen Nodes“ im alfred oder beim ipv6-batman-routing reduzieren zu können. Bin mir aber unschlüssig, ob das hilft, denn der Effekt tritt immer noch auf, wenn auch gefühlt seltener.

FxFx · 23. Dezember 2014 um 00:02

Wo wäre die gesicherte Information zu „müssen Split durchführen“ Grenze?

Ich frage für eine Lieferung von ganz vielen Routern…

adorfer · 23. Dezember 2014 um 02:14

Gefühlt liegt die Grenze des Machbaren bei 500 Routern pro Domain.
Weil irgendwann der elende Broadcast-Traffic (egal ob mit oder ohne Split-Horizon-Patch) so arg wird, dass Standort mit „DSL-Lite“ schlicht gar nicht mehr genug Upstream haben und schon mit dem Broadcast-Mist ihren Upload „saturieren“.

adorfer · 23. Dezember 2014 um 03:48

P.S.: Communities statis zu bilden „Nach Ortschaften“ mag nahe liegen.
Meine Vermutung ist jedoch, dass dabei stets sehr unterschieldich große Gebilde bei herauskommen, da das Wachstum nicht überall gleich bleiben wird. Ausserdem wird man immer wieder von neuem Teilen müssen.

Schöner wäre es, diese Segmentierung des Netzes irgendwie automatisiert hinzubekommen.

Idee „in die Tüte gesprochen“:

Man könnte man anhand der AP-Stationen herum (auch den „Nicht-Freifunk-ESSIDs“, alles was ein iw scan so ausgibt) anhand freier Datenbanken schon gut geographich lokalisieren. (Falls bei der Einrichtung keine Koordinaten hinterlegt wurden)
Und dann könnte man die Nodes nach einem ersten Handshake mit einem „Dispatcher“ gemäß Geokoordinaten und gehörter Nachbarn in eine regionale Wolke geben (also ihnen die Liste der für sie zuständigen Supernodes übergeben.)
Wie man das öffentliche Routing der IPv6-Adressen dann hinbekommt, das müsste man noch prüfen, evtl. nochmal umswitchen nach diesem Dispatch) #
Auf jeden Fall hätte man Wolken, die in ihren Grenzen je nach Netzentwicklung durchaus dynamisch wandern könnten. Langsam zwar, aber eben so, dass sie Lastsituation in den einzelnen Teildomains ähnlich bleiben.

CHRlS · 23. Dezember 2014 um 05:11

Wie gesagt bei 620 Nodes hat Hamburg derzeit 60 kb/s upload „waste“, das skaliert also noch deutlich größer…da ist bislang noch niemand im Zwang gewesen splitten zu müssen!

phip · 23. Dezember 2014 um 06:56

Ich habe gerade einen 1 Monat lang dauernden Kampf mit bat15 hinter mir, der überhaupt keinen Spaß gemacht hat. Da konnte ich so viel verstellen und optimieren wie ich wollte; dies brachte keine Verbesserung. Im Batman-Code wurde etwas nicht bedacht, schlicht vergessen oder ein Flüchtigkeitsfehler hat sich eingeschlichen. Es bringt also nichts das fehlerhafte Modul zu nutzen, da auf einem Gateway durch das Datenaufkommen der Fehler statistisch öfter passieren kann, als auf einem Knoten. Ein Knoten startet sich zudem einfach neu, ein Server landet bis zum Reset im Nirvana.

bat14 wird nicht mehr aktiv weiterentwickelt. Um so mehr lobe ich die Tatsache, das bemerkte Fehler durch Patches behoben werden, entweder als entdecker Fehler oder als Erkentniss aus aktiver bat15 Entwicklung. Mich hat es einfach nur vom Hocker gehauen, dass mir weder die allerneueste bat15 Version noch die viel neuere, mit dem neuestem Kernel gelieferte Version helfen konnte den auftretenden Fehler zu beseitigen. Und da der Fehler noch nicht entdeckt wurde …

Ich kann zwar kein C, aber ich glaube, dass der von mir verlinkte Patch Euren Fehler beschreibt. Die Entwickler stellen keine Fehler bereinigte Version von bat14 mehr zum Download bereit, also muss man sie sich aus dem Git ziehen. Das geht zum Glück auch ohne Git:

https://github.com/freifunk-gluon/batman-adv-legacy/archive/master.tar.gz

Versucht es, es kann nur besser werden.

CHRlS · 23. Dezember 2014 um 07:22

Ist bei uns nicht ganz so massiv wie es bei Dir war - im Schnitt haben wir einen Server pro Woche der ne Panik hat. Da es bei uns nun so eingestellt wurde das nach einer Minute Wartezeit bei einer Kernel Panik automatisch restartet wird, kommen die Gateways vermutlich sogar von alleine wieder hoch.

FxFx · 23. Dezember 2014 um 08:53

Wie passt „gefühlt max 500 pro Domain“ und „wir haben 650“ mit der Erfolgsmeldung: „1.000 Router drehen“ (https://freifunk-rheinland.net/) zusammen?

Ich verstehe das nicht.

Viele Grüße, Fx

CHRlS · 23. Dezember 2014 um 09:01

Das Ruhrgebiet hat in Hochzeiten schon 480 Router, fortlaufend mindestens 430 im Netz.

Entsprechend hatten wir schon sehr früh Probleme im Umgang mit größeren Domänen und hatten uns ebenfalls entsprechend früh mit den Hamburgern ausgetauscht.

Wieviele wir ohne größere Probleme tatsächlich ins Netz bekommen weiß noch niemand. Aus dem Bauch raus tippe ich derzeit vorsichtig auf annähernd 1.000 Stück - aber bitte nicht verwechseln, dies ist kein profunder Wert, sondern lediglich eine Schätzung auf Basis der größten mir bekannten Kollisionsdomäne Hamburg und deren Zahlenmaterial.