AMD FX-8150 - Bulldozer im ausführlichen Test

Prozessoren | HT4U.net | Seite 17

Was bringt AVX und FMA?


Nachdem wir uns nun schon intensiv mit der Pro-MHz-Leistung und dem CMT-Konzept befasst haben bleibt in Sachen Architektur-Änderungen eigentlich nur noch eine wichtige Neuerung unbeleuchtet: Die AVX- und FMA-Erweiterung.

Leider ist es bis heute so, dass es eigentlich keine Software gibt, die schon von den AVX-Erweiterungen Gebrauch macht. Ein Grund dafür ist unter anderem der Umstand, dass man AVX erst mit dem SP1 von Windows 7 verwenden kann. Somit wird es noch eine ganze Weile dauern, bis sich AVX am Markt behaupten kann. Mit FMA sieht es ganz ähnlich aus, wobei hier vor allem der Umstand, dass Bulldozer die einzige x86-Architektur mit FMA-Unterstützung ist, das Problem sein dürfte.

Dennoch haben wir zwei reale Anwendungen gefunden, die bereits von AVX Gebrauch machen bzw. dazu gebracht werden können AVX zu nutzen. So unterstützen die neusten Revisionen des x264-Encoders AVX-Befehle und das Rendering-Tool C-Ray kann unter Linux mit Hilfe entsprechender Compiler (wir verwenden Kubuntu 11.10 mit dem GCC 4.6.1) mit AVX-Unterstützung gebaut werden. Letzteres nutzen wir auch um die Möglichkeiten von FMA zu untersuchen.

Als Video für den Encoding-Test kommt ein Film mit 720p und 30 Sekunden Länge zum Einsatz, als Input zum Rendern ein Bild mit 1024 x 768 Bildpunkten zum Einsatz. Als Revision des x264-Encoders kam einmal die Version r1913 ohne AVX-Unterstützung sowie einmal die aktuelle Revision r2085 mit AVX-Support zum Einsatz.

Darüber hinaus setzen wir noch einen synthetischen Benchmark aus der SiSoft-Sandra-Suite ein, um zu zeigen was theoretisch machbar ist. Gerne hätten wir auch einen LinPack-Benchmark mit unserem FX-8150 absolviert, doch in der Kürze der Zeit war es uns nicht vergönnt eine laufende Version mit AVX- und FMA-Unterstützung für AMDs Bulldozer-Architektur zu erstellen.

C-Ray 1.1
Rendering
Intel Core i7 990X
[12 Threads]
15
AMD FX-8150
[AVX + FMA, 8 Threads]
15
Intel Core i7 2600K
[AVX, 8 Threads]
19
AMD FX-8150
[AVX, 8 Threads]
20
AMD FX-8150
[8 Threads]
22
Intel Core i7 2600K
[8 Threads]
24
AMD Phenom II X6 1100T
30
Sekunden [weniger ist besser]


x264-Encoder
Pass 1
Pass 2
AMD FX-8150
125
37
AMD FX-8150
[AVX]
126
39
AMD Phenom II X6 1100T
127
34
Intel Core i7 2600K
[8 Threads]
146
36
Intel Core i7 2600K
[AVX, 8 Threads]
148
38
Intel Core i7 990X
[12 Threads]
160
51
Frames per Second [mehr ist besser]


Wie man schön im x264-Encoder-Test sieht, sind die Unterschiede zwischen den beiden Varianten minimal. Dies zeigt deutlich das Problem in der Windows-Welt: Programme müssen auf die neuen Befehlssätze angepasst werden, damit sie diese effizient nutzen können. Dies bedeutet jedoch zusätzlichen Arbeitsaufwand. Bei älteren Programmen wird sich daher vermutlich gar nichts mehr ändern und bei anderen wird es noch eine ganze Zeit dauern, bis sich AVX und FMA durchsetzen.

Unter Linux sieht es etwas besser aus, denn hier baut man sich seine Programme wahlweise noch selbst, so dass man zumindest über Compiler-Optimierungen etwas herausholen kann. Wie viel dies bringen kann, zeigt der Test mit C-Ray eindrucksvoll, auch wenn er das theoretische Maximum noch lange nicht ausschöpfen kann. Dennoch verringert sich beim FX-8150 die Laufzeit von 22 auf nur noch 15 Sekunden bei Nutzung von FMA und AVX, ein Vorteil von mehr als 30 Prozent! Damit kann er auch einem Intel Core i7 990X mit 12 Threads Paroli bieten.

Der nachfolgende Test mit SiSoft Sandra zeigt ebenfalls einige interessante Aspekte auf. Zunächst einmal ist die enorm hohe Integer-Leistung zu nennen, die durch die 8 Integer-Cluster erzeugt wird. Im Gegenzug liegt die Floating-Point-Leistung aber nur auf Niveau eines Core i7 2600K oder Phenom II X6. Erneut ist hier der geteilte Floating-Point-Cluster eine Engstelle. Die geringen Zuwächse durch AVX bei den synthetischen Tests mit Sandra liegen im Übrigen an dem bereits beschriebenen Problem, dass Bulldozer bei 256 Bit breiten Operanden nur die gleiche Rechenleistung erzielen kann wie bei 128 Bit breiten Operanden. Die Umsetzung von Intel bei "Sandy Bridge" erlaubt durch AVX hingegen eine Verdoppelung der Rechenleistung. Erst durch die Verwendung von FMA kann bei Bulldozer die Rechenleistung verdoppelt werden. Diese Befehlssatz-Erweiterung unterstützt Sandra jedoch noch nicht.

SiSoft Sandra
Multimedia – Int
Multimedia – FP (SP)
Multimedia – FP (DP)
Intel Core i7 990X
113
84
46
AMD FX-8150
[AVX]
111
62
32
AMD FX-8150
97
56
30
Intel Core i7 2600K
[AVX]
82
111
63
Intel Core i7 2600K
78
59
32
AMD Phenom II X6 1100T
33
55
30
Giga-Rechenoperationen pro Sekunde [mehr ist besser]



 

Inhalt dieses Testberichtes