Hi,
seit Weihnachten spinnt mein IPS plötzlich und ich habe keine Ahnung, warum.
Am 2. Weihnachtstag werde ich morgens wach und stelle fest, dass im Haus nichts mehr funktioniert, was über IPS läuft. Das WebFront war per Connect nicht erreichbar, Alexa verweigerte ihren Dienst, Automationen liefen nicht… Über LAN kam ich noch aufs WebFront, aber sehr zögerlich und es funktionierte auch dort nicht viel.
Also habe ich die Konsole aufgemacht und wurde direkt mit ein paar hunderttausend Fehlern begrüßt: Zu viele Skripte, die gleichzeitig ausgeführt werden. Also noch die PHP-Threads angesehen und alle verfügbaren Threads waren voll und rot. Ich habe dann versucht remote auf den Server (Windows) zu kommen, um den Dienst zu beenden, was wegen 100 % CPU-Auslastung durch den IPS-Dienst nicht ging. Dann habe ich versucht den Dienst remote zu beenden. Das Absetzen des Befehls hat auch funktioniert und IPS hat mit dem Beenden des Dienstes begonnen, aber wurde damit nicht fertig. Nach einer halben Stunde warten, habe ich den Dienst dann hart gekillt. Ich habe mir danach die Logs angesehen und festgestellt, dass das Drama genau um 0 Uhr anfing. Allerdings konnte ich keinen wirklichen Übeltäter ausfindig machen. Es wurden halt alle möglichen Skripte ausgeführt, die sonst auch (ohne Probleme) laufen. Nur liefen wohl immer mehr parallel und wurden nicht fertig, sodass es kurz nach 0 Uhr zu den Fehlermeldungen kam.
Ich habe den Server dann wieder neu gestartet und direkt einen Blick in die Threads geworfen. Auffällig war, dass ein Skript, welches seit Jahren unverändert minütlich ausgeführt wird, direkt jede Minute rot einen neuen Thread belegte. Ich habe dann den Timer für das Skript deaktiviert und gewartet. Zunächst blieben die paar Threads weiter rot belegt, andere Threads liefen normal weiter. Dann kamen alle neuen Threads plötzlich direkt von Beginn an rot rein, verschwanden aber auch sofort wieder. Skripte, die ich in der Konsole manuell ausgeführt habe, liefen zwar, wurden aber in den Threads gar nicht angezeigt. Ich habe dann weiter abgewartet und beobachtet und irgendwann normalisierte sich alles und das System lief wieder ganz normal. Alle Threads wurden direkt abgearbeitet und auch die paar hängen gebliebenen Threads vom Anfang waren plötzlich weg. Der Server schnurtte dann den Rest des Tages vor sich hin als wäre nichts gewesen.
Irgendwie traute ich dem Frieden aber nicht und habe mich eben um 0 Uhr wieder auf die Lauer gelegt. Pünktlich fing das Theater wieder an. Das WebFront reagierte zwar noch, wurde aber merklich langsamer. Also wieder die Konsole auf und die Threads angeschaut. Hier waren noch viele frei, aber es hingen auch schon wieder eine ganze Reihe 0 Uhr Threads. Das System wurde immer langsamer, die CPU war wieder bei 100 % und nichts funktionierte mehr so richtig. Neue Threads wurden mit vielen Minuten Verspätung (Startzeitpunkt) angezeigt. Meldungen trudelten ebenfalls mit ewig Verspätung ein, obowhl immer noch Threads frei waren. Ich habe wieder versucht den Dienst remote zu beenden. Gleiches Spiel wie gestern. Der Server fängt an runter zu fahren, führt auch die Shutdown-Skripte aus, wird aber nicht fertig, weil er vermutlich noch auf das ganze hängende Zeugs wartet. Also wieder alles hart gekillt und den Server neu gestartet.
Hat von euch jemand eine Idee, wo ich mit der Fehlersuche beginnen soll? Wenn ich irgendwas geändert hätte, würde ich es ja verstehen. Aber ich habe das System die letzte Zeit nicht angefasst und ich kann auch kein bestimmtes Skript identifizieren, was Probleme macht. Mal hängt das eine, mal das andere und es ist eigentlich auch nichts dabei, was datumsabhängig seit Weihnachten etwas anders machen würde also zuvor. Und warum geht der Spuk immer um 0 Uhr los? Klar gibt es auch ein paar Skripte, die um 0 Uhr oder kurz danach einmalig ausgeführt werden. Aber auch daran hat sich seit Ewigkeiten nichts geändert und es läuft seit Jahren.
Ich dachte auch erst, dass der Server vielleicht irgendeine Macke hat. Aber dann würde ich bei anderen Diensten auch Probleme erwarten. Aber es ist immer nur der IPS-Dienst, der um 0 Uhr plötzlich die CPU komplett mit 100 % für sich beansprucht.
Ich bin gerade etwas ratlos, was die Ursache sein könnte. Ich nutze übrigens IPS 6.0 (die letzte Stable) unter Windows Server 2008. Und auch das schon seit Wochen…
Gruß
Slummi