Stand der Dinge Backbone 12/2016

PetaByteBoy · 18. Dezember 2016 um 19:16

Seit in etwa einer halben Stunde beobachte ich große Latenzen und bis zu 40% packet loss über das Backbone:

Client zu G:

                     My traceroute  [v0.87]
(0.0.0.0)                        Sun Dec 18 20:13:49 2016
Keys:  Help   Display mode   Restart statistics   Order of fields
   quit                 Packets               Pings
 Host                 Loss%   Snt   Last   Avg  Best  Wrst StDev
 1. 10.21.0.100        0.0%    52   26.6  25.5  23.4  33.1   1.8
 2. ??? // router / "konzentrator" der community
 3. 185.66.194.0      23.1%    52  236.5 248.6 230.7 271.2  10.0
 4. de-cix10.net.goog 15.4%    52  320.8 333.1 276.7 377.0  20.0
 5. 216.239.47.18      7.8%    52  300.2 330.2 287.7 367.8  18.0
 6. 216.239.57.143    27.4%    52  348.5 386.1 332.2 429.5  25.6
 7. 66.249.95.23      35.3%    52  330.5 340.7 293.3 378.7  17.6
 8. 216.58.215.253    19.6%    51  318.9 337.6 288.9 373.5  21.4
 9. 108.170.234.47    44.0%    51  375.2 398.0 319.7 450.2  27.3
10. ???
11. google-public-dns 34.0%    50  376.1 391.9 315.4 450.7  30.2

router / „konzentrator“ (zwischen supernode und bb) zu backbone:
man bemerke den ping

                           My traceroute  [v0.85]
silver-kon (0.0.0.0)                                Sun Dec 18 20:24:04 2016
Keys:  Help   Display mode   Restart statistics   Order of fields   quit
                                    Packets               Pings
 Host                             Loss%   Snt   Last   Avg  Best  Wrst StDev
 1. vss-3-6k.fr.eu                 0.0%    26    0.4   7.4   0.4  71.3  16.2
 2. po403.rbx-g1-a75.fr.eu         0.0%    26    0.3   0.3   0.2   0.4   0.0
 3. ???
 4. be100-1046.fra-1-a9.de.eu      0.0%    26   10.4  10.4  10.1  10.6   0.0
 5. 185.66.194.0                   8.0%    25  232.4 215.3 193.1 232.4   9.9

Ist da eine Leitung dicht?

takt · 18. Dezember 2016 um 19:41

Moin, Link ist keiner voll allerdings sehen wir einen Einbruch beim Traffic. WIr sind dran.

takt · 18. Dezember 2016 um 22:44

bb-a.fra2.fra.de.ffrl.de weißt eine erhöhte CPU Beanspruchung durch BIRD auf.
Der Router ist aktuell gedrained und Traffic Level sind wieder normal.
Die erhöhte CPU Last wird vermutlich durch OSPF Status Flaps verursacht.
Daher werden werden morgen früh Änderungen an den OSPF Timern durchführen.

takt · 18. Dezember 2016 um 22:44

bb-a.fra2.fra.de.ffrl.de ist gedrained.

takt · 19. Dezember 2016 um 10:06

Die OSPF Timer sind nun weniger aggressiv.
Ausserdem haben wir ein BIRD Downgrade auf der bb-a.fra2.fra.de.ffrl.de auf BIRD 1.6.0 (von 1.6.2) durchgefuehrt. Die Lage ist wieder stabil und die bb-a.fra2.fra.de.ffrl.de undrained.

takt · 19. Dezember 2016 um 12:07

Schlechte Neuigkeiten: Nachdem der Traffic auf der bb-a.fra2.fra.de wieder normal war gab es ab 12:29 einen massiven Einbruch. Dieser war auch im Gesamt Traffic Graphen sichtbar. Wir haben daher die bb-a.fra2.fra.de wieder gedrained. Der Traffic tauchte an anderen Routern wieder auf (ist im Gesamt Traffic Graph sichtbar). Woher der Verlust ruehrt ist leider unklar.

takt · 19. Dezember 2016 um 14:43

Wir sind dabei das Problem zu isolieren. Es scheint einen oder mehrere Peers in Frankfurt zu betreffen. Wir haben IPv6 an der bb-a.fra2.fra.de vorerst komplett und IPv4 mit allen grossen Peers gedrained. Der Traffic schein momentan stabil. Wir werden nun Schritt fuer Schritt Peers wieder in Betrieb nehmen. Hierbei kann es zu Beeintraechtigungen kommen.

takt · 19. Dezember 2016 um 19:22

Moin,
bb-a.fra2.fra.de ist wieder komplett in Service. Traffic sieht wieder komplett normal aus.
Auslöser für das Problem war eine nicht reboot sichere Konfiguration.

Frank · 19. Dezember 2016 um 20:18

Wie immer: Danke für Euren Einsatz!