Stand der Dinge Backbone 12/2016

ping @takt @thomasDOTwtf

Seit in etwa einer halben Stunde beobachte ich große Latenzen und bis zu 40% packet loss über das Backbone:

Client zu G:

                     My traceroute  [v0.87]
(0.0.0.0)                        Sun Dec 18 20:13:49 2016
Keys:  Help   Display mode   Restart statistics   Order of fields
   quit                 Packets               Pings
 Host                 Loss%   Snt   Last   Avg  Best  Wrst StDev
 1. 10.21.0.100        0.0%    52   26.6  25.5  23.4  33.1   1.8
 2. ??? // router / "konzentrator" der community
 3. 185.66.194.0      23.1%    52  236.5 248.6 230.7 271.2  10.0
 4. de-cix10.net.goog 15.4%    52  320.8 333.1 276.7 377.0  20.0
 5. 216.239.47.18      7.8%    52  300.2 330.2 287.7 367.8  18.0
 6. 216.239.57.143    27.4%    52  348.5 386.1 332.2 429.5  25.6
 7. 66.249.95.23      35.3%    52  330.5 340.7 293.3 378.7  17.6
 8. 216.58.215.253    19.6%    51  318.9 337.6 288.9 373.5  21.4
 9. 108.170.234.47    44.0%    51  375.2 398.0 319.7 450.2  27.3
10. ???
11. google-public-dns 34.0%    50  376.1 391.9 315.4 450.7  30.2

router / „konzentrator“ (zwischen supernode und bb) zu backbone:
man bemerke den ping

                           My traceroute  [v0.85]
silver-kon (0.0.0.0)                                Sun Dec 18 20:24:04 2016
Keys:  Help   Display mode   Restart statistics   Order of fields   quit
                                    Packets               Pings
 Host                             Loss%   Snt   Last   Avg  Best  Wrst StDev
 1. vss-3-6k.fr.eu                 0.0%    26    0.4   7.4   0.4  71.3  16.2
 2. po403.rbx-g1-a75.fr.eu         0.0%    26    0.3   0.3   0.2   0.4   0.0
 3. ???
 4. be100-1046.fra-1-a9.de.eu      0.0%    26   10.4  10.4  10.1  10.6   0.0
 5. 185.66.194.0                   8.0%    25  232.4 215.3 193.1 232.4   9.9

Ist da eine Leitung dicht?

Moin, Link ist keiner voll allerdings sehen wir einen Einbruch beim Traffic. WIr sind dran.

8 Likes

bb-a.fra2.fra.de.ffrl.de weißt eine erhöhte CPU Beanspruchung durch BIRD auf.
Der Router ist aktuell gedrained und Traffic Level sind wieder normal.
Die erhöhte CPU Last wird vermutlich durch OSPF Status Flaps verursacht.
Daher werden werden morgen früh Änderungen an den OSPF Timern durchführen.

3 Likes

bb-a.fra2.fra.de.ffrl.de ist gedrained.

2 Likes

Die OSPF Timer sind nun weniger aggressiv.
Ausserdem haben wir ein BIRD Downgrade auf der bb-a.fra2.fra.de.ffrl.de auf BIRD 1.6.0 (von 1.6.2) durchgefuehrt. Die Lage ist wieder stabil und die bb-a.fra2.fra.de.ffrl.de undrained.

1 Like

Schlechte Neuigkeiten: Nachdem der Traffic auf der bb-a.fra2.fra.de wieder normal war gab es ab 12:29 einen massiven Einbruch. Dieser war auch im Gesamt Traffic Graphen sichtbar. Wir haben daher die bb-a.fra2.fra.de wieder gedrained. Der Traffic tauchte an anderen Routern wieder auf (ist im Gesamt Traffic Graph sichtbar). Woher der Verlust ruehrt ist leider unklar.

1 Like

Wir sind dabei das Problem zu isolieren. Es scheint einen oder mehrere Peers in Frankfurt zu betreffen. Wir haben IPv6 an der bb-a.fra2.fra.de vorerst komplett und IPv4 mit allen grossen Peers gedrained. Der Traffic schein momentan stabil. Wir werden nun Schritt fuer Schritt Peers wieder in Betrieb nehmen. Hierbei kann es zu Beeintraechtigungen kommen.

5 Likes

Moin,
bb-a.fra2.fra.de ist wieder komplett in Service. Traffic sieht wieder komplett normal aus.
Auslöser für das Problem war eine nicht reboot sichere Konfiguration.

9 Likes

Wie immer: Danke für Euren Einsatz!

5 Likes