Stand der Dinge Backbone 12/2016

ping @takt @thomasDOTwtf

Seit in etwa einer halben Stunde beobachte ich große Latenzen und bis zu 40% packet loss über das Backbone:

Client zu G:

                     My traceroute  [v0.87]
(0.0.0.0)                        Sun Dec 18 20:13:49 2016
Keys:  Help   Display mode   Restart statistics   Order of fields
   quit                 Packets               Pings
 Host                 Loss%   Snt   Last   Avg  Best  Wrst StDev
 1. 10.21.0.100        0.0%    52   26.6  25.5  23.4  33.1   1.8
 2. ??? // router / "konzentrator" der community
 3. 185.66.194.0      23.1%    52  236.5 248.6 230.7 271.2  10.0
 4. de-cix10.net.goog 15.4%    52  320.8 333.1 276.7 377.0  20.0
 5. 216.239.47.18      7.8%    52  300.2 330.2 287.7 367.8  18.0
 6. 216.239.57.143    27.4%    52  348.5 386.1 332.2 429.5  25.6
 7. 66.249.95.23      35.3%    52  330.5 340.7 293.3 378.7  17.6
 8. 216.58.215.253    19.6%    51  318.9 337.6 288.9 373.5  21.4
 9. 108.170.234.47    44.0%    51  375.2 398.0 319.7 450.2  27.3
10. ???
11. google-public-dns 34.0%    50  376.1 391.9 315.4 450.7  30.2

router / „konzentrator“ (zwischen supernode und bb) zu backbone:
man bemerke den ping

                           My traceroute  [v0.85]
silver-kon (0.0.0.0)                                Sun Dec 18 20:24:04 2016
Keys:  Help   Display mode   Restart statistics   Order of fields   quit
                                    Packets               Pings
 Host                             Loss%   Snt   Last   Avg  Best  Wrst StDev
 1. vss-3-6k.fr.eu                 0.0%    26    0.4   7.4   0.4  71.3  16.2
 2. po403.rbx-g1-a75.fr.eu         0.0%    26    0.3   0.3   0.2   0.4   0.0
 3. ???
 4. be100-1046.fra-1-a9.de.eu      0.0%    26   10.4  10.4  10.1  10.6   0.0
 5. 185.66.194.0                   8.0%    25  232.4 215.3 193.1 232.4   9.9

Ist da eine Leitung dicht?

Moin, Link ist keiner voll allerdings sehen wir einen Einbruch beim Traffic. WIr sind dran.

8 „Gefällt mir“

bb-a.fra2.fra.de.ffrl.de weißt eine erhöhte CPU Beanspruchung durch BIRD auf.
Der Router ist aktuell gedrained und Traffic Level sind wieder normal.
Die erhöhte CPU Last wird vermutlich durch OSPF Status Flaps verursacht.
Daher werden werden morgen früh Änderungen an den OSPF Timern durchführen.

3 „Gefällt mir“

bb-a.fra2.fra.de.ffrl.de ist gedrained.

2 „Gefällt mir“

Die OSPF Timer sind nun weniger aggressiv.
Ausserdem haben wir ein BIRD Downgrade auf der bb-a.fra2.fra.de.ffrl.de auf BIRD 1.6.0 (von 1.6.2) durchgefuehrt. Die Lage ist wieder stabil und die bb-a.fra2.fra.de.ffrl.de undrained.

1 „Gefällt mir“

Schlechte Neuigkeiten: Nachdem der Traffic auf der bb-a.fra2.fra.de wieder normal war gab es ab 12:29 einen massiven Einbruch. Dieser war auch im Gesamt Traffic Graphen sichtbar. Wir haben daher die bb-a.fra2.fra.de wieder gedrained. Der Traffic tauchte an anderen Routern wieder auf (ist im Gesamt Traffic Graph sichtbar). Woher der Verlust ruehrt ist leider unklar.

1 „Gefällt mir“

Wir sind dabei das Problem zu isolieren. Es scheint einen oder mehrere Peers in Frankfurt zu betreffen. Wir haben IPv6 an der bb-a.fra2.fra.de vorerst komplett und IPv4 mit allen grossen Peers gedrained. Der Traffic schein momentan stabil. Wir werden nun Schritt fuer Schritt Peers wieder in Betrieb nehmen. Hierbei kann es zu Beeintraechtigungen kommen.

5 „Gefällt mir“

Moin,
bb-a.fra2.fra.de ist wieder komplett in Service. Traffic sieht wieder komplett normal aus.
Auslöser für das Problem war eine nicht reboot sichere Konfiguration.

9 „Gefällt mir“

Wie immer: Danke für Euren Einsatz!

5 „Gefällt mir“