Linux 15.011 Themen, 106.846 Beiträge

Linux: Welche Logs sind nützlich, um einen Absturz zu klären?

Hausmeister Krause / 8 Antworten / Flachansicht Nickles

Hallöchen zusammen,

ich hab nen kleinen Server hier auf der Arbeit, auf dem SuSE Linux 9.3 läuft.

Nun ist es so, dass die Maschine meist so 1-2 Wochen tadellos läuft, und dann irgendwann abstürzt.

Ich gehe von einem Absturz aus, da ich mich weder mit VNC noch mit SSH auf das Teil verbinden kann (Verbindungs-TimeOut). Auch pingen geht nicht mehr.

Ich schalte den Server dann immer brutal aus und wieder ein. Dann fährt er normal hoch und läuft auch wieder 1-2 Wochen, bis der nächste Crash kommt.

Das dumme ist, der Server sitzt in nem 19Zoll Rack, und aus Platzgründen kann ich zur Zeit keinen Bildschirm anschliessen, um eventuelle Fehlermeldungen auf dem Monitor zu sehen.

Könnt ihr mir sagen, welche LogDateien (und wo die stehen) interessant sind, um die Ursache für den Fehler zu finden?

Wenn Du Sorgen hast, dann erzähle sie nicht Deinen Freunden, sondern Deinen Feinden, denn die freuen sich darüber. - Harald Lesch
bei Antwort benachrichtigen
KarstenW Hausmeister Krause „Linux: Welche Logs sind nützlich, um einen Absturz zu klären?“
Optionen

Was heißt stürtzt ab ?
Welche Serveranwendungen laufen auf dem Server ?
Du kannst bei den Serveranwendungen einstellen das mehr mitprotokolliert wird. Das kann man in den Konfigurationsdateien einstellen.
Du mußt aber damit rechnen das die Logdateien in /var/log größer werden.
Programmierfehler wie Speicherlecks haben im Serverbereich fatale Folgen.
Das Programm reserviert Speicher auf dem Heap und gibt ihn aber nicht wieder frei (wegen eines Programmierfehlers).
Und irgendwann ist der Speicher voll.
Kontrollier mal die Ausgabe von free. Ist die gesamte Auslagerungspartition voll und überhaupt kein Speicher mehr frei ?
Das nächste was ich überprüfen würde ist die Ausgabe von ps oder top. Entstehen sehr viele Zombieprozesse ?
Und dann ist die Firewall sehr wichtig.
Es gibt mittlerweile sehr viele Hackertools wie den Portscanner nmap. Wenn man nmap falsch bedient, kann das Scannen eines Servers zum Absturtz führen.
Es gibt gibt immer wieder große und kleine Scriptkiddies die solche Hackertools einsetzen um die Server zum Absturtz zu bringen.
Check mal deine Firewall.

Und dann gibt es eventuell Hardwareprobleme.
Entweder du nutzt memtest wie the_mic schon schreibt oder du kompilierst ein paar mal irgendein Programm oder den Betriebsystemkern. SUSE hatte früher so einen Test mit dem Compiler gcc um die Stabilität der Hardware herauszufinden.
Man konnte diesen Test etwa 2 oder 3 Tage lang laufen lassen, nur um zu sehen das es keine Probleme mit dem Speicher oder dem Netzteil gibt.
Wenn die Hardware nicht stabil läuft löst der Linuxkernel ein Signal 9 oder 11 aus (oder ein anderes Signal) und beendet alle Prozesse, um Datenverlust zu verhindern.









Debian GNU/Linux https://www.debian.org/index.de.html
bei Antwort benachrichtigen