Plötzlich Probleme mit Razberry Gateway

Hallo zusammen,

ich habe seit einigen Jahren ein ZWave Netz am laufen, Symcon läuft auf einem PI4, zwei andere Pis mit jeweils einem Razberry Modul sind die Controller. Zwei, weil ich vor 2/3 Jahren Probleme mit der Erreichbarkeit einiger Nodes hatte, daher habe ich mein Netz zwei geteilt. Das Ganze lief nun über die Jahre mehr oder weniger problemlos. Seit einigen Wochen habe ich nun das Problem, das Symcon plötzlich einen der Controller nicht mehr erreichen kann. Alle Requests dahin laufen (nach einer langen Zeit) in einen Timeout. Ich muss Symcon neu starten, damit hier alles wieder funktioniert. also ein Neustart des Controllers bringt nichts bzw. ist auch nicht notwendig, nur Symcon muss neu gesartet werden. Ein deaktivieren/aktivieren der Schnittstelle in Symcon bringt auch nichts, es hilft wirklich nur ein Neustart. Somit scheint es also „nur“ an Symcon zu liegen und nichts mit dem Controller zu tun zu haben oder generell das nichts mit dem ZWave Netz als solches zu tun, sondern wirklich nur mit der Erreichbarkeit des Controllers von Symcon aus. Die Probleme treten leider (oder glücklicherweise, kann man auch so interpretieren :slight_smile: ) nur sporadisch auf, daher ist eine Fehlersuche extrem schwierig. Jedenfalls habe ich im Symcon-Log und auch im Rasberry-System-Log eigentlich nichts auffälliges zum Problemzeitpunkt finden können, warum das immer wieder mal so ist. Normalerweise laufen auch alle anderen Sachen in Symcon ohne Probleme weiter, also bsp. auch das zweite ZWave Netz funktioniert ohne Probleme. Ein Mal musste ich aber tatsächlich den ganzen Raspberry abschiessen, Symcon lies sich nicht beenden bzw. Restarten. Das ist aber nur ein mal passiert, ich gehe hier also nicht unbedingt von einem Zusammenhang aus. Hat jemand eine Idee oder einen Tipp wo ich das nächste Mal noch nachschauen könnte um das Problem weiter einzugrenzen? Oder muss ich irgendwo noch den Loglevel o.ä. erhöhen?

Danke für Tipps.

Gruss Mayday

Kannst du, wenn dies wieder passiert, mal im Z-Wave Gateway Debug mitloggen was dort passiert?

paresy

Ja ok, werde ich machen

So, vor ein paar Minuten war es mal wieder soweit, so sieht das Debug-Log aus:

TXT: 23.05.2023, 21:57:19 |     Wait Error (ACK) | <SOH><HT><NUL><DC3><DC4><STX>�<BS><EOT><DC4>o
HEX: 23.05.2023, 21:57:19 |     Wait Error (ACK) | 01 09 00 13 14 02 84 08 04 14 6F 
TXT: 23.05.2023, 21:57:19 | (RF Node 20) Transmitted Err | Retry #2 | Waiting for acknowledge timed out
HEX: 23.05.2023, 21:57:19 | (RF Node 20) Transmitted Err | Retry #2 | 57 61 69 74 69 6E 67 20 66 6F 72 20 61 63 6B 6E 6F 77 6C 65 64 67 65 20 74 69 6D 65 64 20 6F 75 74 
TXT: 23.05.2023, 21:57:19 | Waiting for transmit... | <DC3>1<ETX>&<SOH><NUL><ENQ>1
HEX: 23.05.2023, 21:57:19 | Waiting for transmit... | 13 31 03 26 01 00 05 31 
TXT: 23.05.2023, 21:57:19 |          Transmitted | <SOH><LF><NUL><DC3>1<ETX>&<SOH><NUL><ENQ>1�
HEX: 23.05.2023, 21:57:19 |          Transmitted | 01 0A 00 13 31 03 26 01 00 05 31 C7 
TXT: 23.05.2023, 21:57:20 | (RF Node 20) Waiting for transmit... | Retry #3 | �<BS>
HEX: 23.05.2023, 21:57:20 | (RF Node 20) Waiting for transmit... | Retry #3 | 84 08 
TXT: 23.05.2023, 21:57:24 |     Wait Error (ACK) | <SOH><LF><NUL><DC3>1<ETX>&<SOH><NUL><ENQ>1�
HEX: 23.05.2023, 21:57:24 |     Wait Error (ACK) | 01 0A 00 13 31 03 26 01 00 05 31 C7 
TXT: 23.05.2023, 21:57:24 | (RF Node 49) Transmitted Err | Waiting for acknowledge timed out
HEX: 23.05.2023, 21:57:24 | (RF Node 49) Transmitted Err | 57 61 69 74 69 6E 67 20 66 6F 72 20 61 63 6B 6E 6F 77 6C 65 64 67 65 20 74 69 6D 65 64 20 6F 75 74 
TXT: 23.05.2023, 21:57:24 | Waiting for transmit... | <DC3><DC4><STX>�<BS><EOT><DC4>
HEX: 23.05.2023, 21:57:24 | Waiting for transmit... | 13 14 02 84 08 04 14 
TXT: 23.05.2023, 21:57:24 |          Transmitted | <SOH><HT><NUL><DC3><DC4><STX>�<BS><EOT><DC4>o
HEX: 23.05.2023, 21:57:24 |          Transmitted | 01 09 00 13 14 02 84 08 04 14 6F 
TXT: 23.05.2023, 21:57:25 | (RF Node 49) Waiting for transmit... | Retry #1 | &<SOH><NUL>
HEX: 23.05.2023, 21:57:25 | (RF Node 49) Waiting for transmit... | Retry #1 | 26 01 00 
TXT: 23.05.2023, 21:57:29 |     Wait Error (ACK) | <SOH><HT><NUL><DC3><DC4><STX>�<BS><EOT><DC4>o
HEX: 23.05.2023, 21:57:29 |     Wait Error (ACK) | 01 09 00 13 14 02 84 08 04 14 6F 
TXT: 23.05.2023, 21:57:29 | (RF Node 20) Transmitted Err | Retry #3 | Waiting for acknowledge timed out
HEX: 23.05.2023, 21:57:29 | (RF Node 20) Transmitted Err | Retry #3 | 57 61 69 74 69 6E 67 20 66 6F 72 20 61 63 6B 6E 6F 77 6C 65 64 67 65 20 74 69 6D 65 64 20 6F 75 74 
TXT: 23.05.2023, 21:57:29 | Waiting for transmit... | <DC3>1<ETX>&<SOH><NUL><ENQ>1
HEX: 23.05.2023, 21:57:29 | Waiting for transmit... | 13 31 03 26 01 00 05 31 

und das wiederholt sich dann immer wieder… Ich kann da jetzt wenig rein interpretieren, nach einem Symcon Neustart läuft alles wieder problemlos.

Heute war es wieder soweit… Irgendjemand eine Idee, woran das liegen kann, das offensichtlich hier plötzlich keine Kommunikation mehr stattfindet?

Oder hat jemand eine Idee, wie ich diesen Fehler überwachen kann, dann könnte ich zumindest per POE Powercycle den ganzen PI auf dem Symcon läuft hart neu starten… so wie es im Moment ist, ist es eigentlich nicht mehr zuverlässig einsetzbar :frowning: