FFRL Standort FRA Probleme oder Kapazitätsgrenze erreicht?


#1

Bei uns (Freifunk Münster) schlagen derzeit wieder gehäuft “Freifunk lahmt” Meldungen auf. Bei der Suche nach möglichen Fehlerquellen ist mir aufgefallen, dass die RTT (icmp echo) von unseren Gateways zun den Tunnel-Gegenstellen in Frankfurt häufig (aber nicht immer) tagsüber plötzlich sehr viel größer werden und dann über Stunden auch so hoch bleiben. Interessanterweise ist es aber nicht jeden Tag so.
Im selben Zeitraum steigt auch die droprate (icmp echo).

(Quelle: https://freifunk-muensterland.de/grafana/dashboard/db/experimente?refresh=30s&panelId=26&fullscreen&orgId=1&from=now-7d&to=now und https://freifunk-muensterland.de/grafana/dashboard/db/experimente?refresh=30s&panelId=27&fullscreen&orgId=1&from=now-7d&to=now, bei den betroffenen Addressen handelt es sich ausschließlich um Tunneladdressen aus Frankfurt)

Schaue ich mir die Grafiken auf ffrl.de an, sieht es so aus als ob Frankfurt bei 2 Gbit/s saturiert:

Gibt es dort aktuell Probleme oder ist einfach die Kapazitätsgrenze dort erreicht?

PS: Vielleicht haben wir auch ein Problem in unserem Setup aber bevor ich da tagelang alles unter die Lupe nehme, wollte ich lieber kurz abklären ob euch da etwas bekannt ist. :wink:

Grüße,
Simon


#2

@takt @lars das Plateau sieht in der Tat ausgesprochen falsch aus.

Wobei ich in Aachen kein Plateau erkennen kann.

Allerdings hat der Traffic Richtung Frankfurt in letzter Zeit abgenommen:

Wird bei uns aber dem Anschein nach über die Tunnel zu den anderen Standorten kompensiert:
https://zabbix.ffac.rocks/zabbix/chart2.php?graphid=649&screenid=23&width=500&height=100&legend=1&updateProfile=1&profileIdx=web.screens&profileIdx2=23&period=2592000&stime=20190216225022&sid=d2cc861b318eb024&curtime=1489873836883

https://zabbix.ffac.rocks/zabbix/screens.php?elementid=23


#3

In En kreis das selbe problem


#4

Servus, in der Tat scheint da was schief zu gehen. Ich kann nichts offensichtliches sehen aktuell.
Wir schauen morgen im Detail rein.


#5

Servus!

Das Bild ist weiterhin nicht klar. Aktuell liegt der Traffic schon deutlich hoeher als gestern und unsere Graphen zeigen, dass das Problem in der letzten Woche mehrfach auftrat. Undzwar immer tagesweise. Mo/Di: Max 2Gbps. Mi: Ok. Do: Max 2Gbps, Fr: Ok, Sa: Max 2 Gbps.

Kein Router wurde rebootet in der Zeit oder umkonfiguriert.

Soeben habe ich von der bb-a.fra2.fra.de zur bb-b ueber den Pfad gepingt wo in Frankfurt typischerweise der Meiste Traffic ist: 130ms. Das ist deutlich erhoeht. Auch ein Ping zu unserem Upstream Core Backbone (am selben Iinterface/Switch der bb-a) zeigte hohe Latenz. Ein Ping von der bb-b ueber den selben Switch was unauffaellig. Ein Router Drain & Undrain der bb-a hat das Problem aktuell geloest. Ursache unklar.

Wir sind weiter dran. WIrd vermutlich ein paar Tage dauern bis wir die Ursache finden da das Problem aktuell eben nicht auftritt.

-takt


#6

Update!

Heute trat das Problem erneut auf.
Aufgefallen ist uns dabei, dass der Prozess ksoftirqd/2 der bb-a.fra2.fra.de auf 100% rotierte (non-stop).
Gleichzeitig hatten wir ca. 1500 interrupts/s.

Nachdem wir den Router bb-a.fra2.fra.de gedrained haben (reject aller Routen an den Peerings und Community BGP sessions) beruhigte sich besagter Prozess und auch die Interrupts gingen in den 1 stelligen Bereich zurück.

Nach dem undrain trat das Problem nicht wieder auf und der Traffic in FRA ist von 2Gbps auf 2,8Gbps gestiegen.
Mit dem Traffic stiegen die Interrupts auf 4400/s an.
Wir wissen nicht was genau das Problem ist und wie es ausgelöst wird.
Allerdings könnte das Problem im Zusammenhang mit einem Kernel Upgrade vor 3 Wochen auf Kernel 4.9 stehen.


#7

Welche BUGFIX-Version verwendet ihr denn? Wir hatten anfänglich (~4.9.3/4.9.4) auch sehr diffuse Netzwerkprobleme. Nachdem wir jetzt bei 4.9.13 (und ein paar Versionen davor) sind, treten diese nicht mehr auf. Kann natürlich auch Zufall sein. In der Zusammenfassung der Commits hatte ich eigentlich auch nichts spezifisches zu unserem Setting gelesen, aber das heißt ja nichts.


#8

Aktuell läuft 4.9.11. 4.9.1 führte regelmäßig in die Kernel Panic: LKML: Ian Kumlien: [BUG] 4.9 - kernel oops when pptp connection is established and the kernel doesn't have pptp modules compiled

Als nächstes werden wir mal perf oder system-tap einsetzen.
Mal sehen mit was die CPU Zeit verschwendet wird.


#9

Wir haben heute die Kernel Version auf 4.9.17 angehoben und verfügen nun über funktionierendes perf und systemtap.


#10

Moin, ich war bis jetzt stiller Teilnehmer hier,
Jetzt haben mir die Münsteraner einmal zu oft gesagt “mach doch”

wie auch immer, ich habe gerade mal auf ffrl.de geschaut und das Bild vom Standort Fra. ist mir doch sehr bekannt vorgekommen. Klemmt da vielleicht wieder etwas?

PS.: Begleiterscheinungen wie beim letzten mal sind mir bisher noch fast keine aufgefallen. Einzig nach Frankreich werden scheinbar Pakete verloren, aber das wird hier wohl nix mit zu tun haben.

Mfg.


#11

Hallo,

leider ist die Ursache des Problems immernoch nicht gefunden.
Aktuell befinde ich mich im Umzug und kann nur sehr begrenzt taetig werden.
In gut einer Woche wird das anders aussehen.

Ich bitte um Geduld.

takt


#12

vielen Dank fuer deine Suche.


#13

Hallo zusammen,

auch wir haben mit unseren Tunneln in Richtung FRA-A aktuell Probleme.

Dabei ist zu sagen, dass nach wenigen Sekunden Routen umgeschwenkt werden (konkretes Beispiel LeasWeb): gegen 18 Uhr ging der Web über den NL-ix, wenige Sekunden später tat sich nach gre.bb-a.fra nix mehr.

Endpunkt in unserem Fall wäre die 5.9.56.25.

Danke für eure Mühe :slight_smile:


#14

Hallo zusammen,

ein Upgrade auf Kernel 4.9.26 hat das Problem scheinbar behoben!

takt