(FFRL/FFMS) Bandbreitenstörung?

guest-893645 · 10. Januar 2024 um 16:44

Hallo Zusammen,

gestern (9.1.24) ab ca. 23:00-23:50 Uhr sowie heute 10.1. ab 17:29 sind/waren manche Archlinux Mirrors wenn via FFRL erreicht, nur mit 10-100KB/s erreichbar. Bei Verbindung direkt über den Kabelrouter, ohne FF dazwischen, sind die Mirrors bei mir mit (Edit: ~2300KB/s) erreichbar (max. des Anschlusses).

Das Problem scheint abhängig davon zu sein wo/wie ausgeleitet wird:
betroffen:
185.66.195.1 → 185.66.193.0 → as8422 (194.146.118.3)
185.66.195.1 → lwlcom (185.1.74.19)
185.66.195.1 → dfn bcix (193.178.185.42)

nicht betroffen ~1500KB/s:
185.66.195.1 → ccc bcix (193.178.185.105)
185.66.195.1 → port-channel7 (184.105.81.209)

Ich schreibe gleich noch mehr, gerade ist das Problem halt „live“ sichtbar.

Liebe Grüße
guest-893645

guest-893645 · 10. Januar 2024 um 16:53

Hallo Zusammen,

aufgerufen habe ich mirror netcologne, ftp-stud esslingen, halifax rwth aachen, mirrors.rit.edu sowie berlin-ak ftp media ccc.
Der Packetloss ist auch relativ hoch 87% bei 185.66.195.1 sonst <10% , mtr o.ä. kann ich aber nicht posten wegen weil zu viele Links…

Edit: wget http://ftp-stud.hs-esslingen.de/Mirrors/archlinux/iso/latest/archlinux-2024.01.01-x86_64.iso
via FFRL liegt jetzt z.B. bei 150KB/s

Edit2: ob das Problem mit https://forum.freifunk.net/t/peering-zwischen-ffrl-as201701-und-versatel-as8881-defekt zusamenhängt weiß ich nicht. Dort wurde zwar auch via BCIX geroutet, allerdings ist media.ccc via BCIX von FFRL aus ohne Störung erreichbar.

Liebe Grüße
guest-893645

Dago · 10. Januar 2024 um 18:53

Ich habe nahe an unserem Core von FFDdorf da gar kein Problem.
207871 > 201701 > Decix > AS553
Sättigt 1Gbps denke ich mal.

Wenn ich das aus dem Mesh heraus mache zu Hause am DSL geht das auch. Natürlich viel langsamer. Aber schon noch 6+MB/s .
VIelleicht ist es auch gerade weg.

guest-893645 · 10. Januar 2024 um 19:28

Danke für das testen.

mirror.rus.uni-stuttgart.de hat bei mir via FF 50KB/s und geht von AS201701 via BCIX und DFN nach Stuttgart, ohne Freifunk sind es 2.4MB/s (dann aber via DECIX und Belwue)

mirror.selfnet .de hat 1.2MB/s geht aber auch via DECIX (185.66.195.1 → * → 87.245.232.233 (AS9002)-> 80.81.192.175 (DECIX belwue)

stud.hs-esslingen hat das Problem geht allerdings via AS50629 zum DECIX

Zu welcher Adresse in AS553 hast du gemessen? Kannst du mal ein mirror testen der via BCIX geroutet wird zb. ftp.halifax.rwth-aachen.de ?

Edit: Kannst du auch einmal zu community ix testen, z.B. debian.mirror.root.lu?

guest-893645 · 10. Januar 2024 um 20:58

Das Problem betrifft noch einige weitere Routen, die Liste ist entsprechend länger geworden:

betroffen:
185.66.195.1 → 185.66.193.0 → netcologne AS8422 (194.146.118.3))
185.66.195.1 → dfn bcix AS680 (193.178.185.42)
185.66.195.1 → lwlcom community ix AS50629 (185.1.74.19)
185.66.195.1 → anexia community ix AS47147 (185.1.74.35)
185.66.195.1 → vodafone community ix AS1273 (185.1.74.18)
185.66.195.1 → wobcom community ix AS9136 (185.1.74.45)
185.66.195.1 → syseleven AS25291 (109.68.226.22)
185.66.195.1 → megaport berlin AS20562 (194.9.117.8)

nicht betroffen:
185.66.195.1 → * → retn AS9002 (87.245.232.233)
185.66.195.1 → * → * → retn AS9002 (87.245.233.132)
185.66.195.1 → ccc bcix (193.178.185.105)
185.66.195.1 → hurricane AS6939 (184.105.81.209)
185.66.195.1 → openpeering bcix AS20562 (193.178.185.147)

Falls es wer reproduzieren möchte:

in einem Netz sein das via 185.66.195.1 ausleitet
mittels traceroute oder mtr die route testen, falls die Route über einen der betroffenen Knoten geht dann
geschwindigkeit mittels wget ermitteln

guest-893645 · 10. Januar 2024 um 21:21

Spekulation: Könnte es sein, dass der Community-IX das Bottleneck ist? Laut Website Sponsors - Community-IX verfügt er insgesamt über eine Anbindung von 200G und nochmal 60G für peering mit communities, das verteilt sich aber auf 5 Standorte. Die Auslastung liegt derzeit bei 120G (https://www.community-ix.de/ixp/grapher/ixp?period=day), wenn nun die Last ungleich verteilt ist, könnte irgendwo schlicht „voll“ sein. Mit Ausnahme von netcologne, sind die „problematischen“ AS direkt am Community-IX verbunden bzw. haben peeringports dort.

Einen Link (Grafana oder so) zur Auslastung der einzelnen Standorte habe ich nicht gefunden.

Edit: mittlerweile bin ich mir nicht mehr so sicher ob community-ix das Problem ist oder vlt. eher die Verbindung FFRL → Community-IX, traceroute gibt je nach Ziel im sekunden Takt andere Routen aus, vodafone und wobcom, sowie vodafone und retn wechseln häufig.

guest-893645 · 11. Januar 2024 um 11:11

Update: Gestern Nacht (irgendwann nach 1 Uhr) war das Problem weg, jetzt ist es wieder beobachtbar 185.66.195.1 (und ffmsd-gateway c1024). Da ich den Router neugestartet hatte lief der traffic gestern Nacht zeitweise über 185.66.195.0 (und ffmsd-gateway des1) . Ob es also an der Schwachlastzeit oder am gw lag kann ich nicht sagen. Achso und bisher habe ich nur für ipv4 getestet.

Da aber auch zum gw schon packet loss ist, bin ich mir nicht sicher ob die Störung bei FFRL, bei FFMSD oder wo anders ist.

ping -i 0.01 -c 10000 10.76.0.3
— 10.76.0.3 ping statistics —
10000 packets transmitted, 9766 received, 2.34% packet loss, time 147149ms
rtt min/avg/max/mdev = 18.982/46.058/266.968/22.537 ms, pipe 18

ping -i 0.01 -c 10000 185.66.195.1
— 185.66.195.1 ping statistics —
10000 packets transmitted, 9263 received, 7.37% packet loss, time 148175ms
rtt min/avg/max/mdev = 32.017/93.163/402.778/48.739 ms, pipe 27

Arwed · 11. Januar 2024 um 11:21

Hi. Wir haben eventuell ein Problem am Berliner Standort.
Ist das Problem nur bei Tunneln über Berlin vorhanden? Den Community-IX haben wir aber afaik nur über Berlin erschlossen.

LG
Arwed

guest-893645 · 11. Januar 2024 um 11:31

Hallo Arwed,

danke für die Info.

Ist das Problem nur bei Tunneln über Berlin vorhanden?

~~Falls 185.66.193.0 auch in Berlin ist, dann ja.~~ Bzw. es ist nur 185.66.195.1 betroffen, ich weiß aber nicht welcher Standort das ist.

Edit: korrigiert

Ist 185.66.195.1 das Ende des Tunnels von Münsterland zu FFRL im Speedbone Berlin?
Ich kenne die Topologie nicht genau, scheinbar scheint aber all mein Traffic via 185.66.195.1 zu gehen. Allerdings bestehen laut grafana Grafana von meinem gateway c1204 auch Verbindungen zu ffrl-dus und ffrl-fra.

Ansonsten, ipv6 ist auch betroffen.

Liebe Grüße
guest-893645

guest-893645 · 11. Januar 2024 um 23:34

Update:
Der ausgehende Traffic des FF-Routers geht immer über Berlin, der Downstream kommt, behaupten online traceroute Tools, aber auch direkt aus fra oder dus.

In der Ansible config von den Gateways für FFML stehen 6 Tunnel, aber für Berlin ist ‚bgp_local_pref: 201‘ gesetzt. Die anderen bekommen, dann wenn ich bird.conf richtig verstehe, ‚bgp_local_pref: 200‘ als default.

Dh. im Momment sind zwar auch Tunnel nach dus und fra vorhanden, das bgp routing präferiert aber für alle ausgehenden Pakete Berlin. Betroffen sind ‚c1024‘, ‚des1‘ und ‚corny‘ von FFML. Ist das so beabsichtigt oder sind das Altlasten? In der config einiger anderer Gateways von FFML ist die Einstellung auskommentiert.

Das erklärt also warum aller Traffic via Berlin geht, aber noch nicht warum die Bandbreite manchmal ~10KB/s ist. Da ich kein Zugriff auf das Gateway habe, kann ich die anderen Tunnel nicht testen.

Edit: vgl.

@MPW Kannst du dir die Einstellung mal anschauen, also ob bgp_local_pref: 201 entfernt werden kann, so dass BGP alle Tunnel verwendet, je nach dem welcher näher/günstiger ist?

wusel · 12. Januar 2024 um 21:18

FTR, Donnerstag Nachmittag bis gegen 22:39 gab’s 'nen DDoS gegen einen C-IX-Teilnehmer, mit wohl überlasteten Transit-Links.

guest-893645 · 12. Januar 2024 um 23:32

Update:

=== Tunnel Berlin/Community-IX ===
Situation ist unklar. Da es wegen der Gateways zusätzlich paketloss gibt, ist der Effekt von mir aus schwer messbar, die betroffenen Routen liegen derzeit bei ca ~1MB/s, die nichtbetroffenen Routen bei ~2MB/s.

=== BGP - aller Upstream von FFML des1/c1024/corny nach Berlin ===
Das ffml wiki hat bzgl BGP vmtl. ein Schreibfehler:

„Das BGP Pref (bgp_local_pref) 200 ist der Standardwert und muss nicht explizit angegeben werden. Wenn ein Eintrag 201 gesetzt bekommt, dann hat der andere (ohne Eintrag) Vorrang.“

Die BGP Implementation in Bird präferiert immer die Route mit der höchsten local_pref und damit Berlin.

=== paket loss gw-c1204 und gw-des1 FFML===
Zwischen Node ↔ Gateway kommt es zu packet loss, das Problem liegt vmtl. an den gateways. gw-c1024 ist meistens stärker betroffen wie gw-des1.

gw-des1
— 5.9.86.154 ping statistics —
1000 packets transmitted, 933 received, 6.7% packet loss, time 14911ms
rtt min/avg/max/mdev = 22.085/53.503/121.739/22.119 ms, pipe 8

gw-c1024
— 176.9.88.123 ping statistics —
1000 packets transmitted, 807 received, 19.3% packet loss, time 15155ms
rtt min/avg/max/mdev = 27.082/80.744/217.720/22.399 ms, pipe 14

Bei mtr zwischen Kabelrouter und gw-c1024 ist der loss 0% außer dann beim letzten Eintrag:

commander1024.gw.freifunk-muenst 16.4% 317 55.2 70.6 25.1 265.0 25.0

=== ipv6 routing gateway FFML ↔ Backbone FFRL ===
Evtl. kommt noch ein ipv6 routing Problem dazu. gw-des1 hat die Adressen 2a01:4f8:162:10d2::a0 und 2a03:2260:115:7600::2

Bei mtr verlässt der Traffic nach des1.servers.freifunk-muensterland.de aber das Freifunknetz. Sollte solcher Traffic nicht intern geroutet werden?

2a03:2260:115:7600::3

2a03:2260::1

decix-gw.hetzner.com

core21.fsn1.hetzner.com

2a01:4f8:0:3::5de

deshyper-01.servers.freifunk-mue

des1.servers.freifunk-muensterla

Arwed · 14. Januar 2024 um 16:43

@MPW Wie sieht die Situation aus Deiner Sicht aus? Anhand der Posts kriegt man nicht sauber getrennt was nun letztlich auf unserer Infrastruktur Probleme bereitet und was eventuell schon davor.

LG
Arwed

wusel · 14. Januar 2024 um 20:57

Der war seit August 2023 hier nicht mehr aktiv lt. Discourse — auch die sonstigen Mitglieder von @MuensterlandINTERN scheinen in diesem Forum nicht mehr aktiv zu sein?

corny456 · 15. Januar 2024 um 09:47

Moin zusammen,

Ich hab die local_pref grad aus allen Gateways entfernt. Ich bin mir nicht mehr ganz sicher warum wir das seiner zeit gemacht hatten… Mögl. weise ne Altlast.
Unsere Gateways haben, sofern sie Tunnel zum FFRL haben, Tunnel zu allen Standorten die auch alle Aktiv sind. Wir haben halt nur Einfluss darauf wo der Traffic raus geht. Worüber er zurück kommt kann nur der FFRL beeinflussen bzw. vermutlich hängt es auch davon ab aus welchem V4 Subnet die FFRL NAT IP stammt. Wir haben Adressen aus 185.66.193 (DUS) und 185.66.195 (BER) das ist aber nur eine Mutmaßung…

Das stimmt. Ist ein Schreibfehler. Allgemein sind die Infos zu unseren Servern die im Wiki stehen nicht wirklich auf Stand.

Ich hab grad mal längere zeit Pings gegen die drei laufen lassen. Aktuell kann ich nur zu c1024 loss feststellen. Liegt vermutlich daran das die Kiste dezent überlastet ist. Ich hab grad mal ein paar Knoten geschubst, das wird es zwar besser machen aber nur Kurzfristig. Wir arbeiten daran das um zu verteilen aber auf die schnelle kann ich das grad nicht ändern.

Nö. Wenn du aus dem FF Netz zu des1.servers.freifunk-muensterland.de (AAAA Record auf Hetzner IP 2a01:4f8:162:10d2::a0) willst dann verlässt du logischerweise das FF Netz. Ein mtr auf die Interne FF IP (2a03:2260:115:7600::2) wird auch intern geroutet.

Gruß Marius

guest-893645 · 15. Januar 2024 um 19:19

Hallo Zusammen,

aus Sicht der User experience ist alles wieder top. Kein Paketloss, genug Bandbreite. Danke an @corny456

Im Moment geht aller Traffic des gw_des1 via Frankfurt (grafana). Ob es also am Tunnel lag/liegt oder daran das die Gateways durch den reboot jetzt weniger Last haben, wird sich vermutlich erst in ein paar Tagen zeigen.

Von meinem node aus finde ich auch keine Routen mehr von FFRL direkt zum C-IX, es geht alles in den Transit:

Host Loss% Snt Last Avg Best Wrst StDev

AS??? _gateway (10.76.0.2) 0.2% 1834 22.7 24.8 19.8 339.3 12.0

AS201701 185.66.194.0 (185.66.194.0) 0.2% 1834 32.9 37.4 26.2 227.3 10.9

AS19429 po1-100.r4-fra1-de.as5405.net (80.81.194.97) 0.1% 1834 36.1 40.4 33.0 347.3 10.2

AS5405 r3-ber1-de.as5405.net (94.103.180.2) 0.1% 1834 42.0 39.8 33.0 344.2 10.5

AS5405 45.153.82.11 (45.153.82.11) 0.1% 1834 38.4 40.8 33.2 232.1 8.9

AS25291 ae0-0.blu1-r2.de.syseleven.net (109.68.226.26) 0.2% 1834 35.4 41.2 33.5 133.5 8.8

AS25291 ae2-0.bak1-r1.syseleven.net (109.68.226.23) 0.0% 1833 43.0 40.6 33.3 361.0 10.5

AS??? ccc.a36.community-ix.de (185.1.74.10) 0.1% 1833 43.6 40.5 33.1 249.3 8.7

AS50472 berlin-ak.media.ccc.de (185.106.84.47) 0.0% 1833 39.9 41.8 33.3 323.5 13.1

vielen vielen lieben Dank
guest-893645