AMDs Llano-APU A8-3850 im Test - Gelegenheitsspieler aufgepasst

Prozessoren | HT4U.net | Seite 10

Die Kern-Architektur



Während AMD für seine beiden weiteren Neuvorstellungen dieses Jahr – Brazos/Bobcat und Bulldozer – jeweils eine komplett neue Kern-Architektur entwickelt hat, greift man bei Llano auf altbewährtes zurück. So basiert die Kern-Architektur namens "Husky" (12h) von Llano im Wesentlichen auf jener des Athlon II (Stars, aka 10h), was die nachfolgende Tabelle illustriert. Einzig an gewissen Stellen hat AMD Optimierungen vorgenommen, um die Performance etwas zu verbessern. Worum es sich dabei handelt, wollen wir auf dieser Seite beleuchten.

ModellfamilieCore i5 6xx & i3 5xxCore i7, i5, i3Athlon IIPhenom IIE2, A4, A6 und A8
CodenameClarkdaleSandy BridgeStarsStarsHusky
L1 Daten-Cache (Assoziativität)32 KByte (4-fach)32 KByte (8-fach)64 KByte (2-fach)64 KByte (2-fach)64 KByte (2-fach)
L1 Befehls-Cache (Assoziativität)32 KByte (8-fach)32 KByte (8-fach)64 KByte (2-fach)64 KByte (2-fach)64 KByte (2-fach)
L2 Cache (Assoziativität)256 KByte (8-fach)256 KByte (8-fach)512 KByte (16-fach)/ 1 MByte (16-fach, nur Dual-Core)512 KByte (16-fach)1 MByte (16-fach)
Pipelinestufen16<16121212
Dekoder1 komplexer + 3 einfache1 komplexer + 3 einfache3 komplexe3 komplexe3 komplexe
maximale Dekoderrate4 + 14 + 1333
FPU Einheiten3 (FADD, FMUL, FMISC)3 (FADD, FMUL, FMISC)3 (FADD, FMUL, FMISC)3 (FADD, FMUL, FMISC)3 (FADD, FMUL, FMISC)
SSE Einheiten33222
AVX Einheiten03000
ALU Einheiten33333
AGU Einheiten1x Store, 1x Load2x (Load oder Store)333
mögliche ErweiterungenMMX, SSE, SSE2, SSE3, SSSE3, SSE4, SSE4.2, Intel 64, XD, EIST, VT, HTT, AESMMX, SSE, SSE2, SSE3, SSSE3, SSE4, SSE4.2, Intel 64, XD, EIST, VT, HTT, AES, AVXMMX, SSE, SSE2, SSE3, SSE4a, AMD64, 3DNow!, CnQ, VTMMX, SSE, SSE2, SSE3, SSE4a, AMD64, 3DNow!, CnQ, VTMMX, SSE, SSE2, SSE3, SSE4a, AMD64, 3DNow!, CnQ, VT

Wie die Tabelle zeigt, gibt es auf den ersten Blick keinen Unterschied zwischen einem Athlon II und einer Llano-APU. Llano muss so beispielsweise weiterhin auf SSE4 oder AVX verzichten, immerhin ist bei allen Modellen aber eine Virtualisierungsfunktion mit an Board. Erst auf den zweiten Blick, werden einige Änderungen sichtbar.

Verbesserungen gegenüber dem Vorgänger


Eine sehr interessante Neuerung innerhalb der Architektur ist der Einsatz einer Hardware-Divisions-Einheit für ganze Zahlen (Integer). Diese kann den Quotienten (also das Ergebnis der Division) in 8 + (Bitanzahl des Quotienten/2) Takten berechnen. Im besten Fall steht das Resultat somit nach 9 Takten bereit. Bei Divisionen mit einer Genauigkeit von 32 bit sind es hingegen 24 Takte, sind es gar 64 bit dauert es 40 Takte. Der Divisionsrest liegt zwei Takte später vor.

Ob die zusätzliche Hardwareinheit allerdings viel zur Steigerung der Leistung beiträgt, muss bezweifelt werden. Moderne Compiler versuchen mit allen erdenklichen Tricks Ganzzahldivisionen zu vermeiden, da eben kaum ein Prozessor über entsprechende Einheiten verfügt. Somit ist die Umsetzung zwar begrüßenswert, kommt vermutlich jedoch schlicht viel zu spät.

Bild: AMDs Llano-APU A8-3850 im Test – Gelegenheitsspieler aufgepasst
Nur der Hardware-Divider ist wirklich neu, der Rest entspricht einem Athlon II


Nicht neu entwickelt, dafür überarbeitet hat AMD den Prefetcher, welcher Befehle und Daten auf spekulativer Basis bereits vor dessen Verwendung aus dem Hauptspeicher in den Cache holt, damit diese im Falle einer Verwendung schneller zur Verfügung stehen. Darüber hinaus hat man auch die Puffer der Reorder-Stufe sowie die Puffer der Lade/Speicher-Einheit vergrößert. Genaue Details zu den Optimierungen verrät AMD jedoch leider (noch) nicht. Erst im August auf der "Hot Chips"-Konferenz will man sich dazu konkreter äußern. Offenbar haben noch nicht alle erfahren, dass Llano dann bereits fast zwei Monate auf dem Markt sein wird...

Zusammen mit dem auf 1 MByte vergrößerten L2-Cache will AMD damit die Leistung, gemessen an Befehlen pro Takt (IPC = Intructions Per Cycle), um 6 Prozent gegenüber dem Athlon-II-Vorgänger steigern. Hierbei muss man allerdings beachten, dass diese nur für den Vergleich der Vierkern-Versionen gilt, denn der Athlon II X2 tritt ebenfalls mit einem 1 MByte großen L2-Cache an, so dass die Zweikern-Llano-Ableger hier nicht punkten können. Daher ist anzunehmen, dass bei den Zweikern-Modellen der Leistungsvorteil deutlich geringer ausfällt.


Cache-Latenzen


Interessanterweise haben unsere Latenzmessungen ergeben, dass die Zugriffszeiten für den L2-Cache bei Llano extrem schlecht sind. So haben wir eine Latenz von satten 21 Zyklen erhalten. Zum Vergleich: Intels "Sandy Bridge"-Modelle benötigen nur 26 Zyklen um auf den L3-Cache zuzugreifen und selbst ein Athlon II X2 schafft den Zugriff auf seinen L2-Cache in 15 Zyklen. Weshalb hier eine so massive Verschlechterung vorzufinden ist, können wir uns nicht erklären, auch von AMD haben wir dazu keine Erklärung erhalten. Die Einschnitte sind dabei so groß, dass dies sogar in der Praxis auffällt, wie wir noch sehen werden.

ArchitekturModellL1-CacheL2-CacheL3-Cache
GrößeLatenzGrößeLatenzGrößeLatenz
AMD LlanoA8-385064 KByte3 Zyklen1024 KByte21 Zyklen--
Intel Sandy BridgeCore i7 2600K32 KByte4 Zyklen256 KByte11 Zyklen8 MByte26 Zyklen
Intel WestmereCore i7 980X32 KByte4 Zyklen256 KByte11 Zyklen8 MByte43 Zyklen
Intel WestmereCore i5 66132 KByte4 Zyklen256 KByte11 Zyklen4 MByte39 Zyklen
Intel NehalemCore i7 87032 KByte4 Zyklen256 KByte11 Zyklen8 MByte39 Zyklen
Intel NehalemCore i7 96532 KByte4 Zyklen256 KByte11 Zyklen8 MByte36 Zyklen
Intel PenrynCore 2 Quad QX965032 KByte3 Zyklen2x 6144 KByte15 Zyklen--
Intel PineviewAtom D52524 KByte3 Zyklen512 KByte20 Zyklen
AMD BobcatE-35032 KByte3 Zyklen512 KByte24 Zyklen--
AMD ThubanPhenom II X6 1100T64 KByte4 Zyklen512 KByte10 Zyklen6 MByte54 Zyklen
AMD DenebPhenom II X4 97064 KByte4 Zyklen512 KByte10 Zyklen6 MByte58 Zyklen
AMD DenebAhtlon II X4 64564 KByte3 Zyklen512 KByte15 Zyklen--
AMD DenebAthlon II X2 240e64 KByte3 Zyklen1024 KByte15 Zyklen--
AMD BrisbaneAthlon 64 X2 5000+64 KByte3 Zyklen512 KByte20 Zyklen--
Größe und Latenz der Caches einiger Prozessorfamilien


 

Inhalt dieses Testberichtes