also bitte hier keine zwei dinge durcheinanderwerfen. die 512 bit beziehen sich auf das speicherinterface, nicht auf den prozessor. eigentlich sind es bei den neueren bussen auch keine echten 512bit, es sind 2*256bit in getrennten kanälen, was aber auch kein betrug, sondern eigentlich besser ist. hier ein kleines beispiel:
du hast bei einem spiel viele geometriedaten, ihre datenlänge ist recht gering, sagen wir mal 192bit. bei einem 512bit breiten (man merke sich breit, nicht lang) bus müssten nun 320 leerbit eingefügt werden und pro übertragung könnt enur ein paket übermittelt werden. hat man nun zwei parallele busse a 256 bit, so muß man pro bus nur 64 leerbits mitsenden und bekommt pro übertragung 2 pakete übermittelt. somit zeigt sich daß ein breiteres interface nicht immer von vorteil ist.
jetzt zum eigentlichen vergleich, wobei mir nicht ganz klar ist, ob deine frage auf den datenbus zwischen prozessor und speicher abzielte, oder ob deine frage auf die interne registerlänge von prozessoren bezogen war. also als erstes mal die begründung beim speicherbus:
ein breiter kanal ist aufwändiger umzusetzen und störanfälliger als ein schmälerer bus. ein speicherbus auf einer graka muß nur kurze wege überbrücken, da speicher und gpu dicht beieinander liegen. beim pc sieht das etwas anders aus. speicherbänke und cpu liegen relativ weit auseinander.
ein breiterer bus benötigt logischerweise auch mehr leitungen, somit würde auf einem mainboard ein noch mehr integrietes design notwendig werden, die bahnen würden breiter, der aufwand wäre immens.
weiterhin spielt auch noch ansatzweise die tatsache mit, daß im allgemeinen alltag kleinere datenpakete realitätsnaher sind.
falls du dich auf prozessoren bezogen hast:
speicherbreite != registerlänge.
momentane desktopcpus arbeiten mit 32bit registern a 2*16 bit mit jeweils aufteilung inn high und low. man hat also pro register 4 bereiche. pro register können als 32 bit a 4*8 bit geschrieben werden. diese daten müssen dann intern auch weiter verarbeitet werden. die internen busse in der cpu müssen also die breite bieten, die die register an länge bieten somit wächst das layout quadratisch mit der registerlänge (so ungefähr wenigstens, ist natürlich aus dramaturgischen gründen etwas übertrieben). ich würde das ganze ja gerne graphiosch etwas erläutern, is aber schwer, trotzdem versuch ich es mal grob abstahiert:
nehmen wir mal eine theoretische 1bit cpu die zwei zahlen multiplizieren soll:
nun eine 2bit-version.
wie man sieht wächst der bedarf an zellen quadratisch, der bedarf an übertragungswegen verdoppelt sich.
somit kommen wir zu der zahl der transistoren. eine gpu ist ein hochspezialisierter chip, der eine große anzahl an befehlen direkt in hardware umsetzt, der wird nicht direkt mit programmierung angesprochen. mal als beispiel: an eine gpu kannst du vereinfacht einen befehl senden : zeichne einen kreis mit durchmesser 20px um punkt 0,0 ion der farbe rot und er macht es in hardware (2d beschleunigung). für eine cpu, die ein allroundchip ist, de rmit der richtigen programmierung alles kann mußt du erst ein programm schreiben, daß dem prozessor erklärt, was ein kreis ist, was die farbe rot ist und was ein punkt ist und was er mit all dem anzustellen hat. daraus folt: eine gpu braucht im prinzip für jeden befehl, den sie in harware umsetzt einen eigenen festverdrahteten bereich in der gpu, eine cpu braucht prinzipiell allgemeinverwendbare, mathematische funktionen, die mit der richtigen ansteuerung alles können. dadurch kann eine cpu theoretisch mit einem befehl den kreis zeichnen, die cpu braucht viele verschiedene rechenschritte, um zum beispiel jeden punkt auf der begrenzung des kreises mit der kreisformel zu berechnen (MMX und SSE sind für CPUs so ähnliche umsetzungen wie effekte in hardware für GPUs, befehle, die in hardware implementiert sind). dadurch erklären sich auch die taktunterschieden zwischen cpu und gpu, was auch noch eine weitere erklärung bringt: je mehr transitoren, desto größer die fläche des prozessors bei gleichbleibender strukturbreite, dadurch steigt natürlich auch die abwärme. eine cpu die mit 300MHz taktet, in 150nm gefertigt ist und 100 mio transitoren hat wird wesentlich wämer als ein prozessor, der mit 300MHz taktet, in 150nm gefertigt ist und nur 50 mio transistoren hat.
die universelle verwendbarkeit einer cpu erklärt übrigens auch nocheinmal, warum z.b. 64bit gegenüber 32 bit nicht unbedingt vorteile im alltagsgebraucht bringen.
ich hoffe mal, daß ich jetzt nicht allzu viel bockmist verzapft habe und das ganze einigermaßen lesbar war.