Symcon richtig stabil geworden

Ich hatte die letzten zwei Tage mal wieder mit einem unangenehmen Serverausfall zu kämpfen. Zwei Platten im RAID-Verbund defekt, vermutlich eine schon länger, nix gemerkt - schon klar, dass ich das irgendwie hätte überwachen müssen.

Was mir sehr positiv aufgefallen ist: Wie problemlos es diesmal möglich war, mittels der Sicherung (Dateiversionsverlauf von Windows) die IPS-Konfiguration wieder zum laufen zu bekommen. Das war nix mehr wie früher mit komischen Hängern beim Starten, breaking changes, corruption… das ist ja mittlerweile richtig toll stabil und auch resilient wenn mal eine Katastrophe passiert!

Habe letztlich nur wenige Stunden gebraucht und die meiste Zeit ist mit Dateien kopieren, ESXi aufsetzen draufgegangen. Ich werde wohl ab jetzt noch besser schlafen (und mal zusehen dass ich den Zustand des Host-RAIDs irgendwie überwache damit mir das nicht nochmal passiert.

Daumen hoch, neue Features sind auch toll aber dass sich IPS so in Richtung Stabilität und Zuverlässigkeit entwickelt hat, finde ich wirklich erfreulich.

3 „Gefällt mir“

Hallo,

Stabilitätprobleme mit IPS hatte ich bisher noch nie - ok, die größte Schwachstelle ist bei mir ja auch nicht vorhanden, ich nutze kein Windows :slight_smile:

Ich mache es mir mittlerweile sehe einfach:

  • alle Anwendungen laufen bei mir auf Linux und das soweit nur möglich ist direkt auf Linux-Containern und nicht als VM unter Proxmox, eben auch IPS. Die sind klein, brauchen wenig Resourcen und sind super performant.
  • Alle Linux-Container sind mit Ubuntu 22.x LTS und in der Grundkonfiguration mit allen notwendigen Diensten identisch aufgesetzt.
  • die Container werden einmal wöchentlich per Snapshotsicherung auf meine NAS weggesichert und davon 6 Versionen aufbewahrt, das macht Proxmox alleine sehr gut.
  • von wichtigen Daten auf den Container mache ich zusätzlich noch tägliche Datensicherungen per Skript und cronjob, die dann auch auf der NAS landen und parallel in die Cloud gesichert werden.
  • bei IPS mache ich das genauso, nutze das Backkupscript aus der Doku dazu.

Wenns mal zum Worst-Case kommt:

  • den Proxmox-Server hab ich in 30 min neu aufgesetzt und im Netz laufen, dann kann ich die Container von der NAS restoren - das funktioniert, hab ich kürzlich beim Umzug auf eine neue Hardware erfolgreich testen könnnen.
  • Wenn ein einzelnen Linux-Container kaputt geht, kann ich den auch aus dem Backup zurück holen
  • notfalls kann ich innerhalb von 1min einen neuen Container aus einem fertigen Dummy erstellen, den Rest der Software-Installation erledigt ich dann manuell ( ist alles dokumentiert ) oder per Ansible-Playbook.
  • falls ich doch mal was kaputt konfiguriere, kann ich die Konfig aus der täglichen Sicherung zurück holen, bei IPS hab ich das auch bereits mehrfach machen müssen. Das funktioniert super - Dienst stoppen, das Datenverzeichniss wegwerfen, die Sicherung darin auspacken, Dienst wieder starten.
    Im schlimmsten Fall sind Daten/Änderungen von max. einem 1 Tag verloren, aber damit kann ich leben.

Wie sagt man doch immer: „Backup ist das halbe Leben, aber man sollte auch den Restore testen“.

Ich monitore meine Systeme zwar mit Observium, aber beim Thema „Alarme“ bin ich auch noch am Anfang. Hab angefangen, die Hardware meiner Firewall zu überwachen ( SSD -Smartdaten, Temperaturen usw. ), wenn das mal läuft, kann ich das sicherlich auf den Proxmox-Server adaptieren.

Also wenn man sich die Anzahl der betriebsystembedingten Supportanfragen hier ansieht dann ist das wohl genau umgekehrt.

  • damit wir ein Thema haben um das Sommerloch zu füllen :wink:
    bb

Kurz OT: definiert die Schwachstelle. Der eine meint das OS, der andere die User :sweat_smile:
Michael

Ich hatte halt früher echt immer andere Erfahrungen, aber das kann an allem möglichen (Windows, meine Ungeduld, meine mangelnde Kompetenz) gelegen haben.

Habe damals auch immer mal rumgemault, wenn bspw. bei einem Versionssprung Skripte angepasst werden mussten. Daher wollte ich umgekehrt auch mal betonen, wie toll ich es finde, wenn ein Major Versionssprung sowie ein Restore einfach so funktionieren (und ja ich habe schon vorher leidvolle Erfahrungen mit Backups, die aber unbrauchbar sind gemacht).

Ist jetzt nicht der relevanteste Post ever, aber ich wollte halt meiner Freude und Erleichterung Ausdruck verleihen :smiley:

2 „Gefällt mir“

klar meine ich Windows als OS

Ich kann nur aus meiner täglichen Berufspraxis sprechen und da ist die Anzahl die Systembedingten Probleme - auch wenn das Verhältniss Windows / Linux bei uns ungleich ist, für Linux quasi nicht vorhanden.
Das Problem sind die Anwender - für beide Lager.

Wie sagt es mal ein Kollege so treffend „Wer keine Ahnung hat, sollte keine Admin-Rechte bekommen“

@socke: Ich denke mal du hattest damals einfach Pech und nun Glück.

Bin seit vielen vielen Jahren dabei und alle Updates immer mitgemacht. techn. Probleme bei Updates waren in all der Zeit marginal. Eigentlich nicht vorhanden. Und wenn dann dokumentiert und mit Warnungen versehen.
Das es bei einem Major Versionssprung auch mal Inkompatibilitäten gibt liegt in der Natur der Sache. Das der Weg zurück dann auch mal nicht funktioniert wohl auch.
Abwärtskompatibilität kommt wohl sehr auf die Ausgangsversion an. Gab wohl auch Tools um Inkompatibilitäten auszubügeln aber logischerweise kann sowas nicht alle Eventualitäten berücksichtigen.
Wie sagte schon der alte Erich: „Vorwärts immer Rückwärts nimmer“

Was sich allerdings absolut verbessert hat das ist die Transparenz. Bei jedem Release (egal ob stable/beta/Ninja) gibt es nun eine saubere Änderungsliste in der auch ggfl. Warnungen zwecks Inkompatibilität erwähnt sind.
Diesen offenen Umgang finde ich extrem vorbildlich und Vertrauensbildend.
In den Anfangsjahren war das nicht so und wurde wohl erst nach einem entsprechenden Shitstorm eingeführt.

schönen Tag noch
bb

1 „Gefällt mir“

Vielleicht liegt’s (auch) an der Transparenz und Doku. In vielerlei Hinsicht erfreulich professionell geworden, das Produkt IPS, ohne die Hobbyisten vor den Kopf zu stoßen mit zu viel „enterprisegedöns“. Muss man auch erstmal schaffen.

Schau dir mal PRTG an, damit kann man vieles Monitoren. Hat schon einigen Kunden den hintern gerettet. Bis 100 Sensoren kostenlos.

Ganz ehrlich, das erwarte ich von einem Softwareanbieter heute.
Das ist Symcon wirklich top, die Doku ist umfangreich und der Support über das Forum genauso.

Leider ist die Realität, und das erlebe ich nahezu täglich im Job, das es Software-Firmen gibt, die verlange viel Geld für ihre Softwareprodukte, die sich dann noch „Enterprise“ nennen und wenn es dann ans Eingemachte geht, erlebt man, was für einen Dreck die da hin gerotzt haben. Geht man dann an den Support ran, wird es dann meist nicht besser.
Meist sind es Firmen aus den Start-Up Sektor, die mal eine gute Software-Idee hatten, groß geworden sind und die dann die Realität eingeholt hat, das auch Kunden mir Anforderungen gibt.
Klar das sind Ausnahmen aber die werden immer.

Monitoring: Wer ein gute Software für Systemmonitoring auf SNMP-Basis mit Alerting such, sollte sich mal Observium ansehen, damit monitore ich alle meine Systeme - vom der Firewall angefangen über Switche, WLan-Accesspoints bis zu den Linux-Containern.

SNMP auf dem jeweiligen System aktiviert, dann das System nur noch in Observium einbinden und 5min später werden die ersten Graphen aufgebaut.
Installiation auf Linux ist total easy.

„… und das soweit nur möglich ist direkt auf Linux-Containern und nicht als VM unter Proxmox“

Mache ich manchmal auch so. Container haben allerdings die unangenehme Eigenschaft, dass sie (in der Zukunft) auf einer Proxmox-Installation mit neuerem Unterbau, sagen wir mal Debian 12.x nicht mehr gestartet werden können … Sie benutzen ja die Resourcen/Abhängigkeiten des aktuellen Proxmox-Unterbaus mit. Kernel etc. Bei einer anstehenden Migration guckst Du dann wahrscheinlich dumm aus der Wäsche. :joy: Das Problem hast Du bei einer VM mit etwas „Speck“ drumherum wiederum nicht. Ansonsten kann ich Dir nur beipflichten. Windows oder Mac für IP-Symcon zu verwenden ist reine Resourcenverschwendung. Linux ist einfach stabiler und resourcenschonender. Ich benutze immer die Netinst-ISO und installiere lediglich den SSH-Server mit. Im Vergleich zu einem Container ist die Boot-Zeit etwas länger aber im laufenden Betrieb gibt es keinen Performance-Unterschied. Und die Sicherheit und Backup/Snapshot Funktionen sind top. Proxmox selbst geht sehr resourcensparend mit der Hardware um und das Weg-GUI ist wieselflink.