Intel "Sandy Bridge": Vierkern-CPUs Core iX 2000 im Test

Prozessoren | HT4U.net | Seite 12

Der Kern: Kommunikation und LLC



Nach einer ausführlichen Betrachtung der Kern-Architektur wollen wir wieder zurück zum ganzen Prozessor kommen. Auch hier gibt es mit "Sandy Bridge" einige Neuerungen gegenüber den Vorgänger-Architekturen. Eine der relevanten Veränderungen ist die Einführung eines Ringbus zur Kommunikation innerhalb des Prozessors. Aber auch die neue Platzierung des Last-Level-Caches – vormals L3-Cache – dürfte einige Auswirkungen nach sich ziehen.

Ein Ringbus muss her


Eigentlich handelt sich bei dem Ringbus gar nicht um einen Ring, sondern um vier unidirektionale Ringe, die allesamt auf einer Erweiterung des Quick Path Interconnect (QPI) basieren. Ein Ring dient der Datenkommunikation, einer behandelt Anfragen, einer dient dem Lauschen (Snooping) ob Veränderungen im Cache vorgehen und der letzte dient zur Übermittlung von Rück- sowie Statusmeldungen. Jeder Kern samt zugehörigem Last-Level-Cache-Teil, die Grafikeinheit und der Systemagent haben dabei jeweils ihren eigenen Einstiegspunkt für jeden Ring. Jeder dieser Einstiegspunkte kann 32 Byte an Daten (halbe Cachezeile) pro Taktzyklus verarbeiten, was bei einem Takt von 3 GHz zu einer Bandbreite von 96 GByte/s pro Einstiegspunkt führt.

Bild: Intel "Sandy Bridge": Vierkern-CPUs Core iX 2000 im Test

Anders als es auf der Grafik zu sehen ist, verläuft der Ringbus nicht durch den Last-Level-Cache (LLC) sondern liegt aus dreidimensionaler Sicht betrachtet über dem LLC. Dies hat den Vorteil, dass der Ring keine zusätzliche Die-Fläche benötigt.


Last-Level-Cache (LLC)


Ebenfalls überarbeitet hat Intel den L3-Cache. Dieser heißt nun Last-Level-Cache, da auch die Grafikeinheit auf diesen – mittels des Ringbus – zugreifen kann. Anders als bei der Nehalem-Architektur befindet sich der LLC allerdings nicht mehr im UnCore-Bereich sondern im Core-Bereich. Dadurch wird der LLC mit der gleichen Taktrate wie die Kerne betrieben, was gerade bei den schnellsten Ablegern zu einer deutlich höheren Bandbreite zwischen LLC und Kernen führt.

Darüber hinaus hat Intel den LLC in Blöcke – sogenannte Slices – aufgeteilt. Jeder Kern besitzt dabei genau einen ihm zugeordneten LLC-Block. Dieser Block sowie der Kern verfügen über die gleiche Einstiegsstelle im Ringbus und können somit maximal 32 Byte pro Taktzyklus austauschen. Jeder Kern kann allerdings auch die anderen LLC-Blöcke verwenden, muss dafür aber den Umweg über den Ringbus in Kauf nehmen, was zu höheren Latenzen führt. Da die Kerne nun unabhängig von einander auf den LLC zugreifen können, steigt die Bandbreite zwischen den Kernen und dem Cache gegenüber der Vorgängergeneration deutlich an. So kommt ein "Sandy Bridge"-QuadCore bei 2,4 GHz im besten Fall auf etwa die vierfache L3-Cache-Bandbreite verglichen mit einem Lynnfield-Prozessor wie dem Core i7 870.

Unsere ersten Latenz-Tests zeigen zudem auf, dass Intel auch die Latenzen gegenüber den Nehalem-Ablegern nochmals reduzieren konnte. Statt 36 Zyklen bei 8 MByte L3-Cache bzw. 43 Zyklen bei 12 MByte L3-Cache liegen sie nun offenbar bei 26 Zyklen.

ArchitekturModellL1-CacheL2-CacheL3-Cache
GrößeLatenzGrößeLatenzGrößeLatenz
Sandy BridgeCore i7 2600K32 KByte4 Zyklen256 KByte11 Zyklen8 MByte26 Zyklen
WestmereCore i7 980X32 KByte4 Zyklen256 KByte11 Zyklen8 MByte43 Zyklen
WestmereCore i5 66132 KByte4 Zyklen256 KByte11 Zyklen4 MByte39 Zyklen
NehalemCore i7 87032 KByte4 Zyklen256 KByte11 Zyklen8 MByte39 Zyklen
NehalemCore i7 96532 KByte4 Zyklen256 KByte11 Zyklen8 MByte36 Zyklen
PenrynCore 2 Quad QX965032 KByte3 Zyklen2x 6144 KByte15 Zyklen--
ThubanPhenom II X6 1100T64 KByte4 Zyklen512 KByte10 Zyklen6 MByte54 Zyklen
DenebPhenom II X4 97064 KByte4 Zyklen512 KByte10 Zyklen6 MByte58 Zyklen
Größe und Latenz der Caches einiger Prozessorfamilien


Jeder der LLC-Blöcke verfügt über seine eigene Pipeline um Zugriffe abzuarbeiten, was ebenfalls eine Verbesserung gegenüber den aktuellen Ablegern darstellt. Diese besitzen lediglich eine Pipeline für den kompletten L3-Cache. Auch dieser Umstand sollte sich positiv auf die Leistungsfähigkeit auswirken.

Bild: Intel "Sandy Bridge": Vierkern-CPUs Core iX 2000 im Test

Bei all den positiven Veränderung bringt der neue LLC allerdings auch einen Nachteil mit sich. Da der LLC stets mit dem Takt der Kerne betrieben wird, kann der Fall auftreten dass alle Kerne mit niedrigster Taktfrequenz laufen – da Idle – die iGPU jedoch auf den L3-Cache zugreifen will. In diesem Fall dauert ein Zugriff wesentlich länger, als bei maximalem Kerntakt. Laut Intel überwacht die "Power Control Unit" allerdings die Auslastung der Grafikeinheit und hebt gegebenenfalls den Takt des Last-Level-Cache – und damit der Kerne – an.

Wir konnten dabei in der Praxis feststellen, dass aus diesem Grund bei Belastung der integrierten Grafikeinheit häufig eine Kerntaktfrequenz von 2,5 GHz verwendet wird. Das nachfolgende Bild illustriert diesen Umstand bei einem aktiven Furmark-Belastungstest. Der erhöhte Kerntakt heißt allerdings nicht, dass die Kerne sich nicht in einem Schlafzustand befinden. Sofern diese nichts zu tun haben, können diese auch dann komplett abgeschaltet werden.

Bild: Intel "Sandy Bridge": Vierkern-CPUs Core iX 2000 im Test
Trotz geringer Systembelastung liegt der Kerntakt bei 2,5 GHz, da die iGPU aktiv ist



 

Inhalt dieses Testberichtes