Vermehrte Abstürze seit der 5.2?

Yo, hier noch eine Beobachtung dazu: Ich habe das WF immer in einer separaten Browserinstanz laufen.
nach Rechner Standby beobachte ich dabei unterschiedliches Verhalten:

  • manchmal wird das WF komplett neu geladen (man landet auf der Startseite)
  • manchmal lauft es einfach weiter als ob nichts gewesen wäre
  • manchmal wird in rascher Folge nach Aufwecken Objekte und Buttons immer wieder upgedated. - so als ob da zig Nachrichten auf Abarbeitung in einer Queue gewartet haben. Schön zu beobachten zb. bei Highcharts: Normlerweise zeichne ich die alle 5min neu. In diesen besonderen Fall wird das gerade geöffnete Chart aber in schneller Folge zig - mal neu geladen.

Kann dies die Ursache für das Speicherproblem sein ? Ich mein das der Webserver manchmal nicht richtig mitkriegt das ein Client „weg“ ist und weiter Messages postet, und sich dabei dann seine OUT Queue vollmüllt.

Leider kann ich die verschiedenen Standby Verhalten nicht gezielt reproduzieren und dahin mal austesten.

bb

Das vermute ich. Falls 3 (die Verbindung wird nicht abgebrochen, sondern Serverseitig lange gepuffert) scheint unser Problemfall zu sein.

paresy

Ich habe einen ersten Fix für das Problem hochgeladen: IP-Symcon 5.3.x (Testing)

Freue mich über euer Feedback. Frohe Weihnachten :slight_smile:

paresy

Hi paresy
Der Fix scheint nicht ganz zu funktionieren.
Auch schon längst tote Verbindungen werden vom „IPS_GetConnectionList“ noch angeführt.- IPS merkt sich alle Verbindungen seit Start. Soll das so sein ? Es kommen immer mehr dazu.
Weiters hat eine tote Verbindung auch noch einige Bytes in der Queue vergessen.
Der zugehörige Rechner und Browserinstanz ist aber Online. IPS hat diese neue Sitzung aber scheinbar als neue Verbindung angelegt.

In einem anderen Fall lagen einige 100 kB in der Queue, diese wurden aber nach aufwecken des Gerätes entfernt.

Tja und das „kleine“ Speicherleck gibt es trotzdem noch. Memory Usage steigt um etwa 40MB in 24 Stunden.
So drastische Anstiege wie letztens hab ich mit der aktuellen Version noch nicht gesehen.

Laß dir die Feiertage aber trotzdem nicht stören
Bernhard

Wir räumen die Verbindungen in den Statistiken aktuell nicht auf. Ist der Anstieg seither weiter vorhanden?

Denn die 40MB können nicht durch die „fest“ hängenden Verbindungen erklärt werden. Die ist laut Screenshot ja nur wenige kB groß und sollte (früher oder später) aufgeräumt werden.

paresy

Hallo,

ich weiß nicht, ob mein Problem hiermit zusammenhängt, da es aber genau wie die Abstürze erst seit der 5.2 immer mal wieder auftritt, packe ich es mal hier mit rein.

Seit der 5.2 habe ich immer mal wieder in unterschiedlichen Abständen den Fall, dass wenn ich die Konsole aufmache, ich plötzlich folgenedes sehe:

2019-12-31 15_04_50-IP-Symcon Verwaltungskonsole.png

Ich bekomme dann aus heiterem Himmel massenhaft Fehler vom Typ

Result for Event xyz <b>Fatal error</b>:  Maximum execution time of 30 seconds exceeded in...

Angegeben wird fast immer das selbe Skript (mit unterschiedlichen Zeilenangaben). Die Events sind immer unterschiedliche.
Es handelt sich um ein uraltes Script, welches mehrere Male in der Minute von anderen Skripten per include eingebunden wird, welche widerum alle durch Ereignisse aufgerufen werden.
Das Skript enhält aber nichts besonderes (führt ein paar Instanzen-Befehle aus und liest und schreibt Variablen, was normal in wenigen ms erledigt ist) und läuft schon seit Jahren unauffällig in dieser Konstellation und tut es auch heute meist immer noch - bis dann mal wieder besagtes Problem auftritt.

Das Auffällige dabei ist, dass es eigentlich immer exakt um 0 Uhr losgeht und sich dann meist über mehrere Stunden durchzieht, bis es dann genauso plötzlich, wie es angefangen hat, wieder aufhört und alles weiter läuft als wäre nichts gewesen.

Ohne jetzt die konkreten Inhalte der ganzen Skripts zu kennen, hat jemand eine Idee, wodurch sowas ausgelöst werden kann? Plötzlich und ohne Vorwarnung um 0 Uhr, dann mehrere Stunden und plötzlich wieder Ruhe und alles läuft wieder mehrere Tage ohne Probleme, so wie es die ganzen letzten Jahre gelaufen ist?

Da ich um 0 Uhr selten am Server bin, kann ich nicht sagen, ob zu der Zeit irgendwas anderes auffälliges passiert. IPS läuft aber ansonsten eigentlich normal weiter und andere Fehler gibt es auch nicht. Auch die Windows-Ereignisanzeige ist unauffällig.

Ich dachte ich packe das mal mit in diesen Thread, vielleicht erkennt ja noch jemand einen Zusammenhang mit den Abstürzen, die ich ja auch erst seit 5.2 habe.

Gruß
Slummi

@paresy:

Nun bin ich auch mal wieder dabei…

Bei mir hat IPS mit einem Anruf (Fritzbox) nach ca. 5-10 Sekunden auf extreme Schleichfahrt umgeschaltet.
Console kommt nicht mehr ran, HTOP zeigt an, das Symcon noch läuft, LOG zeigt dass sich IPS nur noch mit den vorhandenen Sockets beschäftigt, „sudo service symcon stop“ kann IPS nicht anhalten, sudo reboot bringt alles wieder ins Lot !

Ich habe in der Aufregung versucht viele Informationen zusammenzutragen. (HTOP, DF, LOG, PING, etc.)
Speicherverlauf habe ich leider nicht :frowning:
Aber einen Einzel-Wert davon im HTOP.

Mein System läuft aber seit Monaten sehr ruhig, trotz basteln.
VOIP nutze ich garnicht.

IP-Symcon 5.3, Raspberry Pi, 24.12.2019, ee8d9f65bb23

EDIT:
Siehe meinen Post auf Seite 1, passt zu meiner damaligen Erfahrung…

https://www.symcon.de/forum/threads/41738-Vermehrte-Abst%C3%BCrze-seit-der-5-2?p=405142#post405142

LG
lueralba

… fällt mir grade noch ein:

Ich hatte heute Mal seit langer Zeit das Archiv reaggregiert. Dauerte so ca. 20 Minuten !
4h später nach dem Anruf knallt es :confused:

(Vllt. ein Zusammenhang)

Ich hatte nach dem Update auch ein paar Abstürze (raspberry 3b+) habe mir nun den 4er mit 4GB Arbeitsspeicher besorgt und beobachte das ganze mal.

Der Raspberry läuft nur für Symcon (Raspbian Buster Lite ohne Desktop nur Shell und sonst läuft keine weiter Software drauf)

Ich habe so das gefühl, dass irgendwann einfach der Arbeitsspeicher voll ist. Zumindest macht es auf dem Graphen so den Eindruck.
Auf dem 3B+ waren nur ein paar MB frei.

Hast du die Version aus dem testing Kanal am laufen?

paresy

Ja, habe immer die aktuellste Version aus dem Testing Kanal laufen.

Habe bis jetzt mit dem 4er auch noch keine Abstürze, mag aber auch an dem größeren Arbeitsspeicher liegen.

mfg

Hallo,

seit meines Umzugs auf den Raspi 4 mit 4GB und der jeweils aktuellen 5.3 stable keine Abstürze mehr. Bei mir läuft neben IPS nur noch owfs auf dem selben System.
Kurz und knapp: Läuft also alles wieder wie gewohnt :slight_smile:

Also bei mir war jetzt eine Zeit lang ruhe, aber jetzt hatte ich in 2 Wochen wieder 2 Crashs - natürlich immer wenn ich nicht daheim bin. Der WAF sinkt :(.

Version ist 5.3 Beta, die ja angeblich die Probleme adressiert hatte (vermutlich). Ich hoffe der Restart via Smbox kommt bald - denn damit wäre das Thema halb so wild.

Ich weiß nicht genau, ob das bei mir auch die Abstürze sind die hier behandelt werden, aber ich beschreibe einfach mal mein Problem:
Ich nutze IPS 5.3 auf einem Raspberry 3. Diese Woche kam es in der Nacht vor, dass IPS abstürzte. Das Problem war, dass wir gerade diese Woche im Urlaub waren. Per VNC konnte ich den IPS-Dienst wieder starten und alles lief wieder.
Am Tag später am Morgen gab es einen erneuten Ausfall. Dabei konnte ich nicht gleich wieder per VNC zugreifen, obwohl ich nicht sicher bin, ob der Raspberry nicht erreichbar/überlastet war oder es an der Internetverbindung im Urlaub lag. Einen Tag später gelang mit der Zugriff per VNC wieder und ich startete den IPS-Dienst. Dabei stellte ich fest, dass er plötzlich jungfräulich war.
Erst zu Hause konnte ich dann die settings.json aus einem Backup wiederherstellen und es lief wieder alles wie gewohnt. Damit läuft es jetzt seit anderthalb Tagen wieder stabil.

Ob es jetzt zum Thema gehört oder ein anderes Problem ist, kann ich nicht einschätzen.

Hallo zusammen,

heute schaue ich mir die Speicherverlauslinie meines RaspPi an und kann meinen Augen nicht trauen. Die Linie ist um ~300 MB vor 2 Tagen nach oben gesprungen, also von nur noch 130MB auf 430MB FREI!!!

Also gleich mal an die Analyse und die Logs durchforstet - im syslog bin ich dann fündig geworden.


Feb 28 16:02:43 PIEPS kernel: [8714204.853243] Out of memory: Kill process 849 (lxpanel) score 369 or sacrifice child
Feb 28 16:02:43 PIEPS kernel: [8714204.853278] Killed process 849 (lxpanel) total-vm:517312kB, anon-rss:325088kB, file-rss:0kB, shmem-rss:192kB
Feb 28 16:02:43 PIEPS kernel: [8714204.978516] oom_reaper: reaped process 849 (lxpanel), now anon-rss:0kB, file-rss:0kB, shmem-rss:192kB

Ich weiß nicht in welcher Relation das zu IPS steht, aber seit dem geht die Kurve ehr nach oben als nach unten :wink:

Gruß Heiko

Dein Pi hat die UI abgeschossen. Brauchst du die überhaupt? Es macht am meisten Sinn direkt das Raspian Lite zu verwenden welches ohne Oberfläche daherkommt.

paresy

Nee, brauche ich eigentlich nicht :wink: Für die nächste Installation werde ich das berücksichtigen :smiley:

Was aber merkwürdig ist, seit diesem Moment „atmet“ mein Speicher, d.h. mal mehr mal weniger, aber überhaupt nicht mehr abnehmend!! Vorher war ja ein stetiges Abnehmen der Normalfall!

Sehr merkwürdig :banghead:

Gruß Heiko

Hallo,

ich reihe mich mal ein:

  • vor kurzem upgedatet von 5.0 auf 5.4
  • vorher Raspbian Lite neu aufgespielt von Stretch auf buster auf Raspi 3B

Seitdem habe ich unregelmäßige Abstürze. Normal nach 2-3 Tagen, heute hatte ich schon drei.
Es läuft kein VOIP, kein PIGPIO oder ähnliche „Spezialitäten“, dafür jede Menge KNX, Modbus, M-Bus, Textparser

Nach einem Absturz habe ich den einfachen Watchdog von @Pitti eingebaut. Nach dem nächsten Absturz hatte ich bei „sudo top“ plötzlich zwei symcon-Einträge mit 100% und 97,2% CPU Auslastung. Das System wurde dadurch so langsam, dass ich einen Reboot gemacht habe.

Anbei die Auszüge aus den Log-Dateien aus /var/log/symcon zu den betreffenden Zeiten und ein Auszug aus dem syslog. Im Syslog ist der erste Absturz sehr schön zu erkennen, während der zweite anscheinend keine Erwähnung findet. Das war auch bei früheren Abstürzen so. Gefühlt jeder Zweite findet im Syslog keine Erwähnung.

Viele Grüße
Frank

Auszug Symcon-Log 1.txt (305 Bytes)Auszug Symcon-Log 2.txt (5.33 KB)Auszug syslog.txt (11.1 KB)

Magst du dies hier probieren: Debugging für Experten (Raspberry Pi, Linux, SymBox) ?

Kommen die Fehlermeldungen „Waiting for Buffer usage…“ erst seit dem Update?

paresy

Ich bin gerade anderweitig eingespannt, probiere es aber gern aus.
Eine weitere Beobachtung: seit zwei Tagen keine Abstürze, Speicherauslastung laut top bei 74%, ich habe aber auch nur zwei ganz kurze Aufrufe der Pro-Konsole und des Webfront getätigt. Ich beobachte weiter

Grüße
Frank