Archiv Prozessoren 8.660 Themen, 54.742 Beiträge

FPU, AGU, SSE, SSE2 ... AMD(MP/XP)/INTEL(P4,Itanium,Xeon)

chrissiH / 2 Antworten / Flachansicht Nickles

Hallo,


 


ich will nun keine Diskussion über AMD/Intel anbrechen, aber ich benötige ein wenig Rat.


Für ein Programm benötige ich die beste Performence. Möglichkeiten für die Optimierung des Programms auf einen Prozessor ist gegeben (z.B. durch Prozessor Patchs bei VC++).


 


Es wird keine 3d-Leistung benötigt, denn es müssen nur möglichst viele Gleitkomma-Berechnungen ausgeführt werden. Dabei sind mehrere Threads möglich (Stichwort Hyperthreading/MP). Nun kenne ich mich leider nicht mit den SSE2 Befehlen des P4 aus und kann diese nicht mit der doppelten Anzahl der FPU-Einheiten (2) des Athlons vergleichen.


 


Was gebraucht wird sind sehr viele Vergleiche. Die Daten kommen von der HD/RAM und am besten wäre es, wenn diese möglichst schnell verglichen werden.


 


Es geht um die Anwendung eines Kunden (Messdatenauswertung, keine zeitkritische Anwendung). Ein Fließkomma-Datenstrom liegt vor. Jeder Datensatz wird nacheinander (!) durchforstet, kann aber in einzelne Tage aufgeteilt werden. Sobald ein bestimmter Wert erreicht wurde, wird eine entsprechende Prozedur (nur kleine Berechnungen) aufgerufen. Dann geht es weiter mit der Bearbeitung.


 


Das Budget für die Hardware liegt bei etwa 5000 EUR Netto. Ziel ist es für diesen Preis die besten Leistungsdaten zu erhalten.


 


Hat jemand Vorschläge, Tabellen mit Leistungsvergleichen und Daten oder Tipps?


 


Ich bin für jeden Ratschlag dankbar.


 


label chrissiH „FPU, AGU, SSE, SSE2 ... AMD(MP/XP)/INTEL(P4,Itanium,Xeon)“
Optionen

Wenn es um rohe FP-Power (FP=Floating Point) geht, dann kommst Du nicht an einen P4 vorbei. Der Athlon rechnet zwar prinzipiell schneller pro Takt, allerdings kommt der schnellste Athlon nicht mit, was die Speicherperfomance angeht. Der neue NForce2 Chipsatz von NVidia klingt zwar sehr vielversprechend, ist aber gerade neu auf dem Markt und für einen stabilen Betrieb nicht zu empfehlen.

Bei Berechnungen mit Double-Werten werden 64Bit (=8 Byte) pro Datum übertragen. 100 Millionen Berechnungen (=100 MFlop) erfordern daher einen Datendurchsatz von 800MB/s, bei 500 MFlop werden maximal 4 GB pro Sekunde übertragen. Nach CPU2000 liegt P4 immer noch deutlich vor dem Athlon. Der CPU2000 Benchmark trifft für wissenschaftliche Anwendungen (wie bei Dir) eher zu als Quake III fps-Zahlen. Die Chance würde auch noch bestehen, Intels Compiler zu benutzen, der extra nochmal für P4 optimieren kann. Den Intel Compiler gibt es sowohl für Windows als auch für Linux.

Wenn Du nicht selber den Rechner zusammenbauen willst, könnte es sich für deinen Kunden anbieten, ein Rechner eines Markenherstellers zu nehmen, da die dann auch Support anbieten. Ein Gerät wie etwa ein Dell Precision wäre schon eine gute Ausgangsbasis.

Dualprozessorsysteme wie Xeon oder Athlon MP würden keinen großen Geschwindigkeitsgewinn bringen, da sich die beiden Prozessoren die Speicherbandbreite teilen müssten. Investiere lieber das Geld in ein vernünftiges SCSI-RAID-System und ausreichend RAM (mind. 1GB).

Bis denne,
label.