Intel "Sandy Bridge": Vierkern-CPUs Core iX 2000 im Test

Prozessoren | HT4U.net | Seite 10

Der Kern: Das Backend



An das Frontend schließen sich die weitere Pipeline-Stufen an. Zunächst kommt die Register-Allokierung für die benötigten Operanden sowie die Registerumbennung zur Auflösung von Abhängigkeiten zwischen Befehlen. Anschließend folgt das Out-of-Order-Scheduling der Befehle und deren Out-of-Order-Ausführung ehe schlussendlich eine Stufe für die Wiederherstellung der ursprünglichen Programmreihenfolge (Reorder oder Retirement) sorgt. In all diesen Bereichen – von uns als Backend zusammengefasst – hat Intel ebenfalls Optimierungen vorgenommen. An erster Stelle ist dabei die Einführung eines "Physical Register Files" zu nennen sowie die Versuch die parallele Verarbeitung von Mikrobefehlen (uOps) zu verbessern.


Physical Register File


Wie AMD beim Bulldozer geht auch Intel bei "Sandy Bridge" zu einem "Physical Register File" (PFR) über. Bisher führte jeder Mikrobefehl (uOP) eine Kopie seiner Operanden mit sich, so dass in jeder Pipeline-Stufe, in der dieser Befehl sich befindet, zusätzlicher Speicher für seine Operanden bereitgestellt werden musste. Mit dem PFR entfällt der Bedarf nach dem zusätzlichen Speicher, da die Operanden der Mikrobefehle einmal im PFR abgelegt werden und dann mittels Pointern erreichbar sind.

Intel stattet die "Sandy Bridge"-Prozessoren dabei gleich mit zwei PFRs aus. Eines speichert bis zu 144 Vektor-Operanden für Integer- oder Gleitkomma-Operationen und ein zweites PFR ist für maximal 160 reine Integer-Operanden zuständig. Als Grund für zwei PFRs nannte man uns, dass zwei kleinere PFRs effizienter als ein großes arbeiten würden, was in der vorhanden Anzahl an Lese- und Schreibe-Ports begründet ist.

Bild: Intel "Sandy Bridge": Vierkern-CPUs Core iX 2000 im Test

Es ist dabei kein Zufall dass Intel und AMD quasi gleichzeitig auf das PFR umsteigen. Durch die neue AVX-Erweiterung sind Operanden mit einer Länge von 256 bit möglich, was bei dem klassischen Ansatz ohne PFR zu einem riesigen Speicheroverhead in den Pipeline-Stufen nach der Dekodiereinheit führen würden.

Neben einer einhergehenden Flächenreduktion durch den Umstieg auf das PFR bringt der Wechsel auch Energieeinsparungen mit sich, denn sobald Daten bewegt werden, steigt der Energiebedarf. Natürlich entsteht durch die zentrale Speicherung der Daten eine gewisse Verzögerung, wenn die Daten tatsächlich benötigt werden, jedoch ist dieser Umstand sicherlich verschmerzbar, angesichts der Tatsache, dass die Stufen für Registerumbenennung, Scheduling und Retirement nun deutlich kleiner ausfallen können. Die gewonnene Fläche investiert Intel dabei teilweise in größere Puffer, wie auf dem obigen Bild zu sehen ist. So fasst der Scheduler nun beispielsweise 54 statt 36 Instruktionen.

Durch die größeren Puffer erhofft sich Intel eine bessere Ausnutzung von Parallelitäten auf Befehlsebene und damit eine höhere Auslastung der vorhandenen Ausführungseinheiten. Diese hat der Hersteller im Zuge der AVX-Unterstützung ebenfalls überarbeitet. Doch dazu mehr auf der nächsten Seite.


Memory Cluster


Die Leistungs-Verbesserungen der "Sandy Bridge"-Architektur vergrößern allerdings auch den Bedarf nach performanten Lade- und Speichereinheiten und potenten Caches. Während die Nehalem-Architektur drei Lade/Speicher-Einheiten (Laden, Adressspeicherung, Datenspeicherung) besitzt, hat Intel die ersten beiden der drei Speichereinheiten nun symmetrisch ausgelegt. Sie können nun also sowohl Lade- als auch Adressspeicherungs-Operationen durchführen.

Bild: Intel "Sandy Bridge": Vierkern-CPUs Core iX 2000 im Test

Auch die Bandbreite zwischen dem unverändert 32 KByte großen L1-Daten-Cache und den Lade/Speichereinheiten hat Intel mit "Sandy Bridge" von 32 Byte/Zyklus (2x 16) auf 48 Byte/Zyklus (3x 16) erweitert um der höheren Leistung Rechnung zu tragen. Es können somit zwei Lade- und eine Speicheroperation mit 16 Byte an Daten pro Zyklus ausgeführt werden.


 

Inhalt dieses Testberichtes