Hallo Linuxer,
ich habe grade ein Problem, und keine Ahnung wo es herkommt:
System: AMD64X2, 4GB RAM, NVIDIA Chipsatz, 2 SATA-Platten (80-GB ExcelStore und 160 GB SAMSUNG)
BS ist Debian Lenny, Kernel 2.6.26-1-amd64
Seit ca. zwei Wochen friert der Rechner zeitweise ein, nach ca. 1 bis 2 Minuten läuft dann wieder alles, nach einem Spindown und Spinup der 80 GB - Platte. Der Fehler tritt unregelmässig auf, bei verschiedenen Anwendungen, und ist nicht reproduzierbar.
Das Intervall zwischen zwei solchen "Stehern" ist zwischen 30 Minuten und 6 Stunden. Ich habe mich im Netz schlau gemacht und beide Platten mit "badblocks" und den SMART-Tests sowie mit e2fscheck und Reiserfscheck überprüft, keine Fehler.
Test-Tools der beiden Hersteller ergaben ebenfalls keine Fehler.
kern.log sieht so aus:
Dec 1 10:06:25 Donald kernel: [ 4788.255283] ata1: EH in SWNCQ mode,QC:qc_active 0x7 sactive 0x7
Dec 1 10:06:25 Donald kernel: [ 4788.255290] ata1: SWNCQ:qc_active 0x3 defer_bits 0x4 last_issue_tag 0x1
Dec 1 10:06:25 Donald kernel: [ 4788.255291] dhfis 0x3 dmafis 0x0 sdbfis 0x0
Dec 1 10:06:25 Donald kernel: [ 4788.255294] ata1: ATA_REG 0x50 ERR_REG 0x0
Dec 1 10:06:25 Donald kernel: [ 4788.255296] ata1: tag : dhfis dmafis sdbfis sacitve
Dec 1 10:06:25 Donald kernel: [ 4788.255298] ata1: tag 0x0: 1 0 0 1
Dec 1 10:06:25 Donald kernel: [ 4788.255300] ata1: tag 0x1: 1 0 0 1
Dec 1 10:06:25 Donald kernel: [ 4788.255309] ata1.00: exception Emask 0x0 SAct 0x7 SErr 0x0 action 0x6 frozen
Dec 1 10:06:25 Donald kernel: [ 4788.255315] ata1.00: cmd 61/e8:00:6d:f1:7f/02:00:03:00:00/40 tag 0 ncq 380928 out
Dec 1 10:06:25 Donald kernel: [ 4788.255316] res 40/00:01:01:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Dec 1 10:06:25 Donald kernel: [ 4788.255319] ata1.00: status: { DRDY }
Dec 1 10:06:25 Donald kernel: [ 4788.255324] ata1.00: cmd 61/68:08:5d:f4:7f/00:00:03:00:00/40 tag 1 ncq 53248 out
Dec 1 10:06:25 Donald kernel: [ 4788.255325] res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Dec 1 10:06:25 Donald kernel: [ 4788.255327] ata1.00: status: { DRDY }
Dec 1 10:06:25 Donald kernel: [ 4788.255332] ata1.00: cmd 60/20:10:af:1a:4f/00:00:08:00:00/40 tag 2 ncq 16384 in
Dec 1 10:06:25 Donald kernel: [ 4788.255333] res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Dec 1 10:06:25 Donald kernel: [ 4788.255335] ata1.00: status: { DRDY }
Dec 1 10:06:25 Donald kernel: [ 4788.255341] ata1: hard resetting link
Dec 1 10:06:26 Donald kernel: [ 4788.835296] ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
Dec 1 10:06:26 Donald kernel: [ 4788.866416] ata1.00: configured for UDMA/133
Dec 1 10:06:26 Donald kernel: [ 4788.866436] ata1: EH complete
Dec 1 10:06:26 Donald kernel: [ 4788.866546] sd 0:0:0:0: [sda] 160836480 512-byte hardware sectors (82348 MB)
Dec 1 10:06:26 Donald kernel: [ 4788.866565] sd 0:0:0:0: [sda] Write Protect is off
Dec 1 10:06:26 Donald kernel: [ 4788.866568] sd 0:0:0:0: [sda] Mode Sense: 00 3a 00 00
Dec 1 10:06:26 Donald kernel: [ 4788.866599] sd 0:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Ich bin jedenfalls mit meinem Latein am Ende, ich hoffe es kann jemand helfen.
Danke im Voraus
Borowitsch
-
Linux 15.036 Themen, 107.107 Beiträge
Schwer zu sagen , ich nutze auch NVidia und hatte noch nie Probleme damit. Hast du ein 64 bit oder 32 bit System ?
Wenn du ein 32 bit System hast kannst du bei 4 Gbyte RAM die High Memory Option auf 4 GByte setzen.
Hast du irgendwelche Stromsparfunktionen aktiviert ?
Im /etc Verzeichnis gibt es eine Konfigurationsdatei für ACPI.
Ich selbst deaktiviere die Stromsparfunktionen im selbst kompilierten Betriebsystemkern .
Hallo Karsten,
danke für die schnelle Antwort.
Ich habe ein 64bits System ohne Stromsparfunktionen
Dann weiß ich auch nicht weiter. Debian lenny ist momentan testing,also eine Betaversion von Debian. Da können schon noch Programmierfehler enthalten sein.
In solchen Fällen übersetze ich mir meinen eigenen Kernel und deaktivieren alle unnötigen Treiber. Das hat schon früher bei SUSE geholfen und auch bei Debian gab es mit dem Standkernel gelegentlich Probleme.
Ich weiß nicht woran das liegt. Ich nehme mal an das manche Treiber von schlechter Qualität sind und wenn diese Treiber mit geladen werden (obwohl sie gar nicht gebraucht werden) , dann gibt es Probleme.
Also ich übersetze in solchen Fällen einfach mal einen eigene Kernel und deaktiviere alle unnötigen Treiber (für die es im Rechner gar keine Hardware gibt):
Vielleicht hilft dir diese Wiki von gentoo:
http://de.gentoo-wiki.com/wiki/Kernel_manuell_kompilieren
Also die Treiber von NVidia sind bestimmt gute Treiber, aber im Standardkernel sind zu viele nutzlose Treiber die gar nicht gebraucht werden. Und wenn dann ein Treiber nicht so gut programmiert ist, kann es Probleme geben.
PS: Auf die RAM Disk kannst du verzichten, weil du selbst entscheiden kannst welche Treiber monolitisch und welche modular übersetzt werden müssen
PPS: Auf dieser Seite habe ich schon wertvolle Hinweise gefunden (ich bin kein Systemprogrammierer):
http://kernelnewbies.org/
Ich habe noch hdparm -I laufen lassen, die Ausgabe scheint auch normal zu sein:
/dev/sda:
ATA device, with non-removable media
Model Number: ExcelStor Technology J880S
Serial Number: PF2B27K211BPQA
Firmware Revision: PF2OA60A
Standards:
Used: ATA/ATAPI-7 T13 1532D revision 1
Supported: 7 6 5 4
Configuration:
Logical max current
cylinders 16383 16383
heads 16 16
sectors/track 63 63
--
CHS current addressable sectors: 16514064
LBA user addressable sectors: 160836480
LBA48 user addressable sectors: 160836480
device size with M = 1024*1024: 78533 MBytes
device size with M = 1000*1000: 82348 MBytes (82 GB)
Capabilities:
LBA, IORDY(can be disabled)
Queue depth: 32
Standby timer values: spec'd by Standard, no device specific minimum
R/W multiple sector transfer: Max = 16 Current = 1
Advanced power management level: disabled
Recommended acoustic management value: 128, current value: 254
DMA: mdma0 mdma1 mdma2 udma0 udma1 udma2 udma3 udma4 udma5 *udma6
Cycle time: min=120ns recommended=120ns
PIO: pio0 pio1 pio2 pio3 pio4
Cycle time: no flow control=240ns IORDY flow control=120ns
Commands/features:
Enabled Supported:
* SMART feature set
Security Mode feature set
* Power Management feature set
* Write cache
* Look-ahead
* Host Protected Area feature set
* WRITE_BUFFER command
* READ_BUFFER command
* DOWNLOAD_MICROCODE
Advanced Power Management feature set
Power-Up In Standby feature set
SET_FEATURES required to spinup after power up
Address Offset Reserved Area Boot
SET_MAX security extension
Automatic Acoustic Management feature set
* 48-bit Address feature set
* Device Configuration Overlay feature set
* Mandatory FLUSH_CACHE
* FLUSH_CACHE_EXT
* SMART error logging
* SMART self-test
Media Card Pass-Through
* General Purpose Logging feature set
* WRITE_{DMA|MULTIPLE}_FUA_EXT
* 64-bit World wide name
* URG for READ_STREAM[_DMA]_EXT
* URG for WRITE_STREAM[_DMA]_EXT
* SATA-I signaling speed (1.5Gb/s)
* Native Command Queueing (NCQ)
* Host-initiated interface power management
Non-Zero buffer offsets in DMA Setup FIS
DMA Setup Auto-Activate optimization
Device-initiated interface power management
In-order data delivery
* Software settings preservation
Security:
Master password revision code = 65534
supported
not enabled
not locked
not frozen
not expired: security count
not supported: enhanced erase
44min for SECURITY ERASE UNIT.
Logical Unit WWN Device Identifier: 0000
NAA : 0
IEEE OUI : 0
Unique ID : 00
Checksum: correct
zumindest habe ich keinen Fehler gefunden
Ergänzend noch: die Platte ist zwei Jahre lang unter dem gleichen Betriebssystem problemlos gelaufen (zuerst etch, dann lenny, jeweils testing)
Borowitsch
-
Wenn du eine SATA Festplatte hast, brauchst du hdparm nicht. Mit hdparm schaltet man den UDMA Modus bei IDE Festplatten ein (man kann ersatzweise den UDMA Modus bei einer IDE Festplatte mit der Kernel-Option "USE DMA BY DEFAULT" aktivieren, ist aber bei den neueren Kerneln veraltet) . Aber bei SATA muß man das nicht tun. SATA Festplatten werden wie SCSI Festplatten vom Linuxkernel angesteuert. Ich wüßte nicht das man bei SATA Festplatten den UDMA Modus einschalten kann.
Ich habe hier auch Debian lenny mit einem AMD64 bit Prozessor und habe hdparm nicht installiert.
In den neueren Linuxkernel versucht der Treiber selbst den passenden Modus einzuschalten.
Vielleicht ist in der /etc/hdparm.conf Datei ein Fehler. /etc/hdparm.conf wird automatisch installiert, wenn man das Paket hdparm installiert.
Lösche mal die Datei /etc/hdparm.conf oder verschiebe sie. Oder deinstallier das Paket hdparm am besten.
Paketbeschreibung hdparm von Debian lenny:
hdparm
Festplattenparameter für hohe Leistung einstellen
Abfragen/Setzen der Festplattenparameter für Linux-IDE-Laufwerke.
Primärer Gebrauch ist die Aktivierung von irq-unmasking und IDE
multiplemode.
Oder der acpid macht Probleme.
/etc/acpi/events$ ls
powerbtn powerbtn-acpi-support
Ich habe im selbst kompilierten Kernel alle acpid Funktionen deaktiviert:
Power management options ---> ACPI (Advanced Configuration and Power Interface) Support ---> ACPI (Advanced Configuration and Power Interface) Support │ │
│ │ [*] Deprecated /proc/acpi files │ │
│ │ [*] Deprecated power /proc/acpi directories │ │
│ │ [*] Future power /sys interface │ │
│ │ [*] Deprecated /proc/acpi/event support │ │
│ │ AC Adapter │ │
│ │ Battery │ │
│ │ Button │ │
│ │ Fan │ │
│ │ Processor │ │
│ │ ASUS/Medion Laptop Extras │ │
│ │ Toshiba Laptop Extras │ │
│ │ [ ] Debug Statements │ │
│ │ Smart Battery System │ │
│ │
Ich habe nur ein paar Verzeichnisse angeben, aber alle anderen Optionen deaktiviert.
Ich nutze dieses Mainboard von ASROCK (mit NForce Chipsatz) :
http://www.asrock.com/mb/overview.asp?Model=939N68PV-GLAN
Ich kann dir nur anbieten meine Kernelkonfigurationsdatei config per E-mail zu senden. Die kannst du in das Verzeichnis /usr/src/linux-source-2.6.26 kopieren und gibst den Befehl
"make && make modules && make modules_install" in der Konsole ein und installierst den Betriebsystemkern /usr/src/linux-source-2.6.26/arch/x86/boot/bzImage nach /boot/vmlinuz-2.6.26-10-AMD64.
Danach startest du das Script update-grub als root. Damit wird die Konfigurationsdatei /boot/menu.lst aktualisiert.
Um den Betriebsystemkern zu übersetzen mußt du folgende Pakete installieren:
-build-essential
-linux-sources-2.6.26-10
-libncurses5-dev
Geh in das Verzeichnis /usr/src/linux-source-2.6.26 rein und tippe den Befehl "make menuconfig" in die Konsole. Dabei öffnet sich ein Dialog in dem normalerweise alle wichtigen Kerneloptionen aktiviert sein sollten , wenn du ein Nforce basiertes mainboard nutzt. Eventuell ist der Sound falsch eingestellt:
Hier gibt es Informationen wie der richtige Sound Treiber für NForce heißt:
http://www.nvidia.de/object/linux_nforce_1.23_de.html
Mehr kann ich dir auch nicht empfehlen. Den Standardkernel von Debian nutze ich nicht.
Hallo Borowitsch,
haben Sie schon an Hitzestau der Platten gedacht und die gemeinsame Stromaufnahme beider Platten überprüft?
Excelstore ist bekanntlich eine gute Platte. Sie sollten aber trotzdem Garantie und Gewährleistung im Auge behalten. Vielleicht können Sie die Platte ja noch tauschen.
MfG.
Violetta
@ KarstenW:
mein Kernel ist auch eigenbau und auf mein System abgesteimmt, er wurde nicht verändert. Ich werde mal versuchen mir einen neueren einzurichten, ev. ists ein bug im SATA-Modul, keine Ahnung.
@ Violetta:
danke für den tip, die Kiste ist schon offen und ein Temperaturfühler angeschlossen, mal sehen was rauskommt.
ein immer noch ratloser
Borowitsch
-
Vielleicht das Board defekt ?
Mir ist mein Gigabyte Board kaputt gegangen, dehalb habe ich dieses ASROCK Board eingebaut. Es war das letzte noch lieferbare Board mit einem Sockel 939.
Ich habe mit dem SATA Treiber für die NForce Chipsätze keine Probleme. Und ich nutze die gleiche Kernelversion unter Debian lenny.
Ich habe beim 2.6.26er Kernel nur diese Treiber unter SATA aktiviert:
--- Serial ATA (prod) and Parallel ATA (experimental) drivers
[*] ATA ACPI Support
[*] SATA Port Multiplier support
<*> AHCI SATA support
< > Silicon Image 3124/3132 SATA support
[*] ATA SFF support
<*> NVIDIA SATA support
Wenn der Standardbetriebsystemkern läuft dann hast du ein Problem mit deinem selbst übersetzten Kernel.
Hallo Karsten,
seltsamer Zufall, meins ist auch ein Gigabyte.
Ich glaube aber nicht dass das Board hinüber ist, sowohl Memtest als auch CPU-Tests sind fehlerfrei durchgelaufen, und bisher hat bei einem defekten Board zumindest der Memtest immer gezickt. Die onboard-NVIDIA-Grafik hat auch bestanden.
Netzteil müsste auch OK sein, ich habs an einen Belastungstester gehängt, alle Werte in der Norm.
Ich weiß nicht mehr weiter, seltsamer Fehler :-(
Die Aussetzer kommen mit dem Standard- und mit meinem Eigenbaukernel, in beiden Fällen unregelmässig und nicht reproduzierbar. Ich habe jetzt mal alle Kabelverbindungen gelöst und mit Elektronikkontakt behandelt, mal sehen, ev. wars das.
Borowitsch
-
Ich glaube nicht das es ein Fehler im Treiber ist.
Man darf nicht vergessen den NVidia (SATA Treiber) und den AHCI Treiber monolitisch in den Kern zu kompilieren:
Komponente Systemplattform Treiber
Audio (AC97) nForce-1 – nForce-4 intel8x0.c
Audio (HDA) nForce-430 and later hda_intel.c
Speicher SATA sata_nv.c
ACHI ahci.c
IDE amd74xx.c
Ethernet Alle forcedeth.c
http://www.nvidia.de/object/linux_nforce_1.23_de.html
NVidia unterstützt selbst die Entwicklung von Linuxtreibern. Ich habe auch einen NForce Chipsatz eingebaut und alles läuft gut, nachdem ich das Board getauscht habe.
Der Rechner ließ sich nicht mehr einschalten. Anfangs trat dieser Fehler nur gelegentlich auf. Ich habe das Netzteil zurückgesetzt und nach etwa 5 min wieder eingeschaltet. Danach ließ sich der Rechner wieder starten. Zum Schluß konnte ich den Rechner überhaupt nicht mehr einschalten.
Gigabyte konnte aber kein Austauschboard mehr liefern und da ich keine neue CPU und neuen Speicher kaufen wollte, habe ich dieses ASROCK Board eingebaut.
Der Support bei Gigabyte hat auch zugegeben das Gigabyte Produktionsprobleme hatte.
Mein Computerhändler nutzt als Diagnosesoftware die Toolhouse Programme. Ich habe von diese Toolshouse Diagnoseprogrammen nichts gutes gehört. Die Servicetechniker hätten mit diesen Toolhouse Programmen noch nie einen Fehler gefunden.
Ich habe jetzt beide im Tower verbauten SATA-Platten an der Aussenseite mit einem Fühler gemessen:
Excelstore: 30 bis maximal 31,7 Grad Celsius
Samsung: 28,5 Grad konstant
beide Platten liegen direkt im Luftstrom eines 140mm Lüfters, ich nehme mal an die Werte sind in Ordnung.
Btw, SMART-Control sagt:
/dev/sda, SMART Usage Attribute: 194 Temperature_Celsius changed from 171 to 177
das sind doch wohl nicht Grad Celsius, oder?
Borowitsch
-
Hallo Borowitsch,
Sie haben sicher die Gehäusetemperatur abgegriffen. Alles was um 30 Grad liegt ist unproblematisch. Wenn die Platte ein Kühlblech besitzt muß natürlich dort gemessen werden.
Zu smart-control kleine Info anbei. http://de.wikipedia.org/wiki/Smart-Sensor und
http://www.chip.de/downloads/Treiber-Smart-Modular-Technologies_24519415.html
Muß sich wohl um das Festplattentool u.a.für eine kumulierte Temperaturmessung handeln. Benutze tool jedoch nicht, da wir ganz konventionell messen.
MfG
Violetta
Ich habe die Temperatur mit mit einem DMM mit externem Temperaturfühler gemessen, Software-Tools traue ich da auch nicht so wirklich.
Nun habe ich noch zusätzlich alle Kabel mit Kontakt60 behandelt, dann war zwei Tage ruhe, jetzt ists wieder wi gehabt.
Ich werde jetzt noch ein neues Netzteil versuchen, ev. liegts doch an der Spannungsversorgung, und als letzte Alternative das Mainboard tauschen.
Ich wrede berichten wenn sich was tut, nochmal herzlichen Dank an alle Helfer.
Borowitsch
-
So, ich habe jetzt, mal auf Verdacht, zuerst das Netzteil(längeres Ausfallintervall > 4 Stunden) und dann beide SATA-Datenkabel getauscht, seitdem ist Ruhe, ich schätze mal Netzteil und die Kabel waren nicht mehr ganz koscher.
Ich hoffe das wars jetzt, ich möchte mich nochmal bei allen für die Hilfe bedanken!
Grüsse
Borowitsch
-
Hallo Borowitsch,
gut wenn Fehler jetzt gefunden ist. Kontakt 60 verwende ich aus negativer Erfahrung überhaupt nicht mehr.
Es wird dadurch nach Einsatz nur alles noch schlimmer.
MfG.
Violetta
Hallo Violetta,
danke für den Tip, was wäre dann eine vernünftige Alternative?
LG
Borowitsch
-
Hallo Borowitsch,
Umgebungstemperatur konstant halten, Kontakte nicht anfassen, trocken blankputzen etc..
Eben die altbewährten und bekannten Maßnahmen.
MfG.
Violetta
Hallo Violetta,
bis daher klar, aber was mache ich wenn ich nicht direkt an die Kontakte rankomme, dafür habe ich Kontakt60 eigentlich meistens verwendet.
LG
Borowitsch
-
Hallo Borowitsch,
vergessen Sie die gesamte Spray-Kiste. Es gibt eigentlich keine vernünftige Lösung. Kurzschlüsse, Leiterbrücken etc. sind vorprogrammiert. Der alte Grundsatz: "Keine Flüssigkeiten in Verbindung mit Strom" gilt auch heute noch.
Bei quitschenden Lüftern nehmen wir gelegentlich mal einen Stecknadelkopf. Also Stecknadel umdrehen, beträufeln und vorsichtig auf die Achse geben. Hat sich gut bewährt. Lüftertausch ist natürlich die bessere Lösung.
MfG.
Violetta
Herzlichen Dank für die Informationen!
LG
Borowitsch
-