Admin-Tagebuch GL

Hallo, vielleicht nicht die richtige „Meldestelle“ hier im Forum :sweat_smile: aber:

Hat noch jemand einen DNS-Ausfall auf IPv4?

Ich kriege seit einigen Stunden keine IPv4-Adressen auf den Clients zugewiesen, entsprechend funktionieren einige Dinge nicht (z.B. WhatsApp, aber auch die Eulenfunk-Map lädt nicht, bricht mit Network Error ab). Logge ich mich per SSH auf meine Nodes ein und pinge von dort beispielsweise www.google.de an, so bekomme ich per IPv6 überall Antwort, aber der IPv4-Ping funktioniert nur auf dem Uplink- / Mesh-VPN-Node. Neustarts (mehrmals, sowohl soft- als auch hardwaremäßig) helfen nicht weiter. Ich habe auch den Uplink-Node alleine probiert, auch dann bekommt der Client keine IPv4 zugewiesen. Seitenaufrufe scheitern unter Chrome (aktuellstes Update) auf Android 5.1 mit der Meldung, die Adresse könne nicht per DNS aufgelöst werden.

Edit: auch aktuellster Firefox für Android meldet DNS-Fehler, und Firefox 52.0.2 unter Windows 10 meldet ebenfalls Fehler.
Seiten die per IPv6 erreichbar sind, funktionieren aber, zum Beispiel dieses Forum!

Firmwares auf allen Nodes ist die neueste für BGL (20170314) auf ArcherC7v2 und 841Nv10

Ping @PetaByteBoy und @Frank

ich tippe mal auf „Platte voll“.


1 „Gefällt mir“

Danke @marssl @adorfer

Wir haben offensichtlich die Anzahl der Clients durchbrochen bei der dir DHCP-leases und alte Kernel die Platte nach einigen Tagen voll beanspruchen. Ich werde mir das Problem heute mal in seiner Gesmtheit angucken und eine dauerhafte Lösung ausarbeiten.

Update 20160412:

Auf allen Servern Updates gemacht, rebooted, neues batman-adv, batctl usw…:
Hier mal zur Dokumentation der gewöhnliche Updateprozess für einen Supernode:

# systemupdate
sudo apt update
sudo apt dist-upgrade -y
sudo apt-get autoremove -y # alte kernel entfernen

# dhcp leases resetten damit die platte nicht voll laeuft
sudo service isc-dhcp-server stop
sudo rm /var/lib/dhcp/dhcpd.leases
sudo reboot

# nach reboot

# batman-adv update
wget https://downloads.open-mesh.org/batman/releases/batman-adv-2017.0.1/batman-adv-2017.0.1.tar.gz
tar xf batman-adv-2017.0.1.tar.gz
cd batman-adv-2017.0.1
make
sudo make install
cd ..

# batctl updaten
wget https://downloads.open-mesh.org/batman/releases/batman-adv-2017.0.1/batctl-2017.0.tar.gz
tar xf batctl-2017.0.tar.gz
cd batctl-2017.0
make
sudo make install
sudo reboot

Da unsere leases-Dateien öfter mal mehrere GB groß werden, was größer als ein /16-er-Netz ist, muss irgendwas beim isc-dhcp-server falsch laufen sodass das lease rotating nicht läuft. Dazu habe ich diesen Bug gefunden. Ich habe mal dem dhcpd-Benutzer die Rechte zur leases-Datei gegeben:
sudo chown dhcpd:dhcpd /var/lib/dhcp/dhcpd.leases
Jetzt heißt es schön die Festplatten im Blick behalten…

2 „Gefällt mir“

in welchen Abständen startest Du denn den isc-dhcpd neu?

ja, der isc-dhcpd ist etwa so modern wie ein uucico.
nur die alternative in Form des isc-kea(?) ist völlig „over the top“, und der DNsmasq ist schlicht mit grossen Netzen überfordert, selbst wenn man das leasefile auf eine Ramdisk legt.

Es fehlt schlicht ein isc-dhcpd fork mit leases in einer sqlite und garbage collection.

1 „Gefällt mir“

Gerade nochmal ausprobiert, jetzt läuft es wieder. :+1:

Gleiche Symptomatik heute erneut.

Ping @PetaByteBoy @adorfer @Frank

Edit: ca. 3 Stunden später hat es sich von selbst kuriert, war vielleicht nur ein Fehlalarm? Nachdem wieder Neustarts aller Router keine Besserung brachten, habe ich einfach erstmal nur hier gepostet. Jetzt geht es wieder.

P.S.: Ist es eigentlich normal, dass ich vom reinen Mesh-Node aus keine IPv4-Adressen im Web anpingen kann? Das geht nämlich nach wie vor nicht.

ich sehe in bgl0 nichts, was nungewöhnlich wäre auf dem Supernode in den letzten 12h.
Da ist auch nichts gemacht worden in der Zeit.

IPv4 auf einem Router gibt es nur, wenn Du von Hand einen dhclient startest.

1 „Gefällt mir“

Update 20170515:

Auf allen Servern Updates gemacht, rebooted, neues batman-adv, batctl usw.

Edit 20170518:

RRH war nach dem Update ohne Verbindung aufgrund fehlerhafter Autostarteinstellungen (Copper) und nicht erfolgten Test direkt nach dem Update.

1 „Gefällt mir“

20170613
gl2 geupdated und letsencrypt erneuert

Sind wir um ein Jahr in die Vergangenheit versetzt worden?

Danke…
Zeit ist relativ…

Update 20170614:

@PetaByteBoy und ich haben die restlichen Server aktualisiert.

Update 20170810:

Auf allen Servern Updates gemacht, rebooted, neues batman-adv, batctl usw.

2 „Gefällt mir“

Update 20170918:

Auf allen Servern Updates gemacht, rebooted, neues batman-adv, batctl usw.

Update 20170927:

Check_MK Agent 1.4.0p8-1 auf allen VM’s, Konzentrator und Copper (Blech) installiert;
Gdebi auf Copper-Kon und Copper installiert.

Offen: Check_MK auf Silver (Blech)

20171004

Zertifikate auf den Blechen (Silver und Copper) erneuert

1 „Gefällt mir“

20171024

Heute Nacht gab es einen Hardreboot von Silver (2:17 Uhr) laut SoyouStart/OVH.
Auf bgl0 war die dhcpd.leases zu groß, sodaß der DHCP Server nicht automatisch startete.

dhcpd.leases gelöscht, reboot, alles gut…

Daher re-starten einige Leute den isc-dhcp per cronjob, denn außer per echtem Restart räumt der leider nicht auf.

Nein, es ist ein permission issue. Auch dokumentiert: isc-dhcp-server - Community Help Wiki

Es reicht aber eben nicht einfach der dhcp.leases Datei die nötigen Rechte zu geben, wie das hier anscheinend getan wurde. Die noch aktiven Leases werden in eine neue Datei kopiert, und dann als atomare Aktion auf die alte dhcp.leases verschoben. So gibt es keine inkohärenten Zustände. (Siehe auch)

Das macht der DHCPd auch einmal pro Stunde. Die Sache ist, dass es beim Restart halt klappt, weil der da noch nicht seine Rechte gedroppt hat und als Root läuft. (Siehe auch, man beachte: db_startup() kommt vor setuid())

Wenn ihr mir nicht glaubt lasst den halt mal mit strace laufen und schaut nach einer Stunde wo die Syscalls fehlschlagen.

Das ganze ist übrigens ein Distributor-Problem (kaputtes AppArmor-Profil), tritt also ausschließlich bei Ubuntu auf und ist in der aktuellen LTS gefixt. Migrationen funktionieren jedoch laut Bugreport nicht so gut. Also vermutlich einmal purgen und reinstallieren.

Und das Problem sollte eigtl Prio haben, da ein so kaputter DHCP nicht vereinbar mit dem BDSG ist, welches eine Speicherung der IPs für maximal 7 Tage über die technische Notwendigkeit hinaus erlaubt.

1 „Gefällt mir“

ich schlage vor: Kea - new dhcp from isc

8:05 Uhr Ausfall von Eulenfunk-GL (LLN, ODE, BCD, RRH, BGL) durch Ausfall bei OVH, unserem Hoster der Gateways.
10:39 Uhr Link zum Standort unserer GWs (RBX) ist wieder aktiv, unser Netz läuft wieder

News: https://twitter.com/ovh_support_en

1 „Gefällt mir“