Plötzlich Probleme mit Razberry Gateway

Hallo zusammen,

ich habe seit einigen Jahren ein ZWave Netz am laufen, Symcon läuft auf einem PI4, zwei andere Pis mit jeweils einem Razberry Modul sind die Controller. Zwei, weil ich vor 2/3 Jahren Probleme mit der Erreichbarkeit einiger Nodes hatte, daher habe ich mein Netz zwei geteilt. Das Ganze lief nun über die Jahre mehr oder weniger problemlos. Seit einigen Wochen habe ich nun das Problem, das Symcon plötzlich einen der Controller nicht mehr erreichen kann. Alle Requests dahin laufen (nach einer langen Zeit) in einen Timeout. Ich muss Symcon neu starten, damit hier alles wieder funktioniert. also ein Neustart des Controllers bringt nichts bzw. ist auch nicht notwendig, nur Symcon muss neu gesartet werden. Ein deaktivieren/aktivieren der Schnittstelle in Symcon bringt auch nichts, es hilft wirklich nur ein Neustart. Somit scheint es also „nur“ an Symcon zu liegen und nichts mit dem Controller zu tun zu haben oder generell das nichts mit dem ZWave Netz als solches zu tun, sondern wirklich nur mit der Erreichbarkeit des Controllers von Symcon aus. Die Probleme treten leider (oder glücklicherweise, kann man auch so interpretieren :slight_smile: ) nur sporadisch auf, daher ist eine Fehlersuche extrem schwierig. Jedenfalls habe ich im Symcon-Log und auch im Rasberry-System-Log eigentlich nichts auffälliges zum Problemzeitpunkt finden können, warum das immer wieder mal so ist. Normalerweise laufen auch alle anderen Sachen in Symcon ohne Probleme weiter, also bsp. auch das zweite ZWave Netz funktioniert ohne Probleme. Ein Mal musste ich aber tatsächlich den ganzen Raspberry abschiessen, Symcon lies sich nicht beenden bzw. Restarten. Das ist aber nur ein mal passiert, ich gehe hier also nicht unbedingt von einem Zusammenhang aus. Hat jemand eine Idee oder einen Tipp wo ich das nächste Mal noch nachschauen könnte um das Problem weiter einzugrenzen? Oder muss ich irgendwo noch den Loglevel o.ä. erhöhen?

Danke für Tipps.

Gruss Mayday

Kannst du, wenn dies wieder passiert, mal im Z-Wave Gateway Debug mitloggen was dort passiert?

paresy

Ja ok, werde ich machen

So, vor ein paar Minuten war es mal wieder soweit, so sieht das Debug-Log aus:

TXT: 23.05.2023, 21:57:19 |     Wait Error (ACK) | <SOH><HT><NUL><DC3><DC4><STX>�<BS><EOT><DC4>o
HEX: 23.05.2023, 21:57:19 |     Wait Error (ACK) | 01 09 00 13 14 02 84 08 04 14 6F 
TXT: 23.05.2023, 21:57:19 | (RF Node 20) Transmitted Err | Retry #2 | Waiting for acknowledge timed out
HEX: 23.05.2023, 21:57:19 | (RF Node 20) Transmitted Err | Retry #2 | 57 61 69 74 69 6E 67 20 66 6F 72 20 61 63 6B 6E 6F 77 6C 65 64 67 65 20 74 69 6D 65 64 20 6F 75 74 
TXT: 23.05.2023, 21:57:19 | Waiting for transmit... | <DC3>1<ETX>&<SOH><NUL><ENQ>1
HEX: 23.05.2023, 21:57:19 | Waiting for transmit... | 13 31 03 26 01 00 05 31 
TXT: 23.05.2023, 21:57:19 |          Transmitted | <SOH><LF><NUL><DC3>1<ETX>&<SOH><NUL><ENQ>1�
HEX: 23.05.2023, 21:57:19 |          Transmitted | 01 0A 00 13 31 03 26 01 00 05 31 C7 
TXT: 23.05.2023, 21:57:20 | (RF Node 20) Waiting for transmit... | Retry #3 | �<BS>
HEX: 23.05.2023, 21:57:20 | (RF Node 20) Waiting for transmit... | Retry #3 | 84 08 
TXT: 23.05.2023, 21:57:24 |     Wait Error (ACK) | <SOH><LF><NUL><DC3>1<ETX>&<SOH><NUL><ENQ>1�
HEX: 23.05.2023, 21:57:24 |     Wait Error (ACK) | 01 0A 00 13 31 03 26 01 00 05 31 C7 
TXT: 23.05.2023, 21:57:24 | (RF Node 49) Transmitted Err | Waiting for acknowledge timed out
HEX: 23.05.2023, 21:57:24 | (RF Node 49) Transmitted Err | 57 61 69 74 69 6E 67 20 66 6F 72 20 61 63 6B 6E 6F 77 6C 65 64 67 65 20 74 69 6D 65 64 20 6F 75 74 
TXT: 23.05.2023, 21:57:24 | Waiting for transmit... | <DC3><DC4><STX>�<BS><EOT><DC4>
HEX: 23.05.2023, 21:57:24 | Waiting for transmit... | 13 14 02 84 08 04 14 
TXT: 23.05.2023, 21:57:24 |          Transmitted | <SOH><HT><NUL><DC3><DC4><STX>�<BS><EOT><DC4>o
HEX: 23.05.2023, 21:57:24 |          Transmitted | 01 09 00 13 14 02 84 08 04 14 6F 
TXT: 23.05.2023, 21:57:25 | (RF Node 49) Waiting for transmit... | Retry #1 | &<SOH><NUL>
HEX: 23.05.2023, 21:57:25 | (RF Node 49) Waiting for transmit... | Retry #1 | 26 01 00 
TXT: 23.05.2023, 21:57:29 |     Wait Error (ACK) | <SOH><HT><NUL><DC3><DC4><STX>�<BS><EOT><DC4>o
HEX: 23.05.2023, 21:57:29 |     Wait Error (ACK) | 01 09 00 13 14 02 84 08 04 14 6F 
TXT: 23.05.2023, 21:57:29 | (RF Node 20) Transmitted Err | Retry #3 | Waiting for acknowledge timed out
HEX: 23.05.2023, 21:57:29 | (RF Node 20) Transmitted Err | Retry #3 | 57 61 69 74 69 6E 67 20 66 6F 72 20 61 63 6B 6E 6F 77 6C 65 64 67 65 20 74 69 6D 65 64 20 6F 75 74 
TXT: 23.05.2023, 21:57:29 | Waiting for transmit... | <DC3>1<ETX>&<SOH><NUL><ENQ>1
HEX: 23.05.2023, 21:57:29 | Waiting for transmit... | 13 31 03 26 01 00 05 31 

und das wiederholt sich dann immer wieder… Ich kann da jetzt wenig rein interpretieren, nach einem Symcon Neustart läuft alles wieder problemlos.

Heute war es wieder soweit… Irgendjemand eine Idee, woran das liegen kann, das offensichtlich hier plötzlich keine Kommunikation mehr stattfindet?

Oder hat jemand eine Idee, wie ich diesen Fehler überwachen kann, dann könnte ich zumindest per POE Powercycle den ganzen PI auf dem Symcon läuft hart neu starten… so wie es im Moment ist, ist es eigentlich nicht mehr zuverlässig einsetzbar :frowning:

Kannst du in der Gateway Instanz die „Informationen laden“? Oder kommt dort auch ein Timeout?

Denn dann könnte man dies als Indikator nehmen.

paresy

Es ist gerade eben wieder passiert… Und ja, ich bekomme auch auf dem Gateway bei Informationen neu laden" einen Timeout „Waiting for acknowledge timed out in /- on line 3“. Ok, wie kann ich den das am besten in einem Skript auswerten? Und, was kann ich noch tun, um dem Fehler auf die Spur zu kommen, im Moment sieht es ja so aus, als ob es schlicht an Symcon liegt. Ich werde Symcon mal auf einem neuen Raspberry aufsetzen, mal sehen ob es da auch passiert. Aber mir ist komplett unklar, was das Verhalten auslöst…

Leider wird es immer häufiger… mal 4 Tage, mal 3 mal an einem Tag :frowning: Ich habe nun noch festgestellt, ich kann nicht mal den Client Socket für das Zwave-Gateway deaktivieren, schon das schlägt komplett fehl, Symcon landet in einer gefühlten Endlosschleife. Offenbar hängt hier also in Symcon irgendwas komplett schief… Irgendjemand eine Idee, wie ich das wieder hinbekomme oder wie ich dem Fehler auf die Spur komme? Weil ich weiss nicht mehr was ich machen soll… Sonst bleibt ja nur noch, Symcon komplett von Scratch neu zu installieren und hoffen, das es dann passt, und das mache ich nicht, die ganzen Skripte und alles, da habe ich keine Lust… Neuinstallation und Restore des Backup habe ich schon versucht, bringt nichts…

Hm. Ich sehe du nutzt die 6.4. Hattest du die Probleme auch schon mit der 6.3? Nicht, dass evtl. dort ein Problem in der 6.4 drin ist.

Du meinst, wenn du dies deaktivierst, dann hängt sich die Konsole auf?

paresy

Ob der Fehler schon mit 6.3 da war, kann ich im Moment nicht mit Sicherheit sagen, ich glaube aber schon.

Du meinst, wenn du dies deaktivierst, dann hängt sich die Konsole auf?

Wenn das Problem auftritt, das Symcon der Meinung ist, dass das Gateway nicht zu erreichen ist und ich dann versuche, den Client Socket zu deaktivieren, passiert nichts mehr, das animierte Symcon-Logo hört nicht mehr auf. Ich habe aber nicht darauf geachtet, ob ich hätte noch was anderes anklicken können, also sprich ob die Konsole wirklich komplett tot war, kann ich nicht sicher sagen, ich werde das aber beim nächsten Mal nochmal prüfen. Ich habe dann den Dienst gekillt und neu gestartet, ein Stop war auch quasi nicht möglich. Ein sudo /etc/init.d/symcon stop oder restart dauert ewig. Man hat den Eindruck, Symcon hat sich komplett aufgehängt, ich musste dann ein kill machen, dann konnte ich symcon problemlos neu starten und danach funktioniert alles einwandfrei, als wäre nie was gewesen. Gibt es nicht irgendein Log aus dem ich ggf. mehr rauslesen könnte? Mir ist auch nach wie vor nicht klar, warum das zu so einer Situation kommt. Ich habe mal zum testen den Rasberry mit der Razberry Platine aus dem Netz genommen, also das nun tatsächlich das Gateway nicht zu erreichen ist. Das ist dann kein Problem, also ausser das es logischerweise nicht mehr zu erreichen ist :slight_smile: aber da bleibt nichts hängen…

EDIT: ich habe auch schon symcon auf einem anderen Raspberry neu aufgesetzt, aber natürlich das Backup rübergespielt… das führt zum selben Verhalten. Also irgendwo muss da was quer hängen. Das blöde ist, der Fehler tritt nicht reproduzierbar auf, es kann echt mal auch eine Woche ohne Probleme laufen, im nächsten Moment dann hängt es sich wieder 3 mal am Tag auf. Ich kann überhaupt keinen Zusammenhang mit irgendwas (Schaltvorgang, Aktualisierung, Skipt… o.ä.) feststellen.

Ich schicke dir gleich mal eine PM, damit wir das Problem ggf. mal direkt bei dir Debuggen.

paresy