Vorhang auf für Bulldozer - AMD enthüllt neue Architektur

Prozessoren | HT4U.net | Seite 3

Das neue Frontend & der L2-Cache


Das neue Frontend der Bulldozer-Architektur baut auf einer unabhängigen Pipeline für die Sprungvorhersage – je eine pro Kern, also zwei insgesamt – und für den Instruktions-Fetch auf. Letztere wird dabei von einem 64 KByte großen zwei-Wege-L1-Cache mit Instruktionen gefüttert, wobei jeder Fetch (Holvorgang von Instruktionen) maximal 32 Byte groß ist.

Während dies im Wesentlichen den Spezifikationen der aktuellen K10-Architektur entspricht hat AMD die Translation-Lookaside-Buffer (TLB, Einheit die Verknüpfung zwischen logischer und physikalischer Adresse enthält) stark überarbeitet. So enthält der L1-ITLB nun 72 Einträge für unterschiedliche Seitengrößen, genaueres verrät AMD noch nicht. Der vier-Wege L2-ITLB fasst wie bisher 512 Einträge für 4 KByte große Seiten.

Bild: Vorhang auf für Bulldozer – AMD enthüllt neue Architektur

Durch ein geschicktes Zusammenspiel der beiden oben genannten Pipelines – die Sprungvorhersage erzeugt einen kontinuierlichen Strom zukünftiger Fetch-Adressen, die von der Fetch-Einheit verwendet werden – will es AMD außerdem ermöglichen, dass frühzeitig ein L1-Miss, also eine Situation in der benötigte Daten nicht im L1-Cache liegen, erkannt wird und somit das Nachladen aus dem L2-Cache oder einem anderem Speicher in den L1-Cache mit dem Holen der nächsten Instruktionen aus dem L1-Cache überlappt werden kann. Dadurch lassen sich die Latenzen der höheren Cache-Ebenen besser hinter aktuellen Operationen verstecken und werden somit effektiv kleiner, was der Leistung zuträglich ist.

Darüber hinaus will AMD das Prefetching, also das vorsorgliche Laden von Daten oder Instruktionen, ebenso wie die Sprungvorhersage selbst, stark verbessert haben. Was man darunter jedoch genau versteht ist (noch) geheim.

Ebenso geheim ist noch die Größe des L2-Cache, der von beiden Integer-Kernen gemeinsam genutzt wird. Spekulationen sprechen immerhin von satten zwei MByte pro Modul, was durchaus als üppig zu bezeichnen ist. Zum Vergleich: Ein Phenom II X4 besitzt insgesamt zwei MByte L2-Cache für alle vier Kerne. Klar ist jedoch dass zum 16-Wege L2-Cache ein acht-Wege TLB mit 1024 Einträgen gehören wird, der sowohl für Instruktionen- als auch für Daten-Anfragen verwendbar ist. Ebenfalls unbekannt ist aktuell noch ob AMD bei einem exklusiven Cache-Design bleibt oder zu einem inklusive-Design wechselt. Bei letzterem liegen die Daten des L2-Caches in dem des L3-Caches usw., bei ersterem nicht.

Um die Integer-Kerne sowie die gemeinsam genutzte Gleitkomma-Einheit kontinuierlich mit Befehlen zu füttern kommen nun vier x86-Decoder statt bisher drei zum Einsatz. Diese können sehr wahrscheinlich – AMD hat dies noch nicht bestätigt – bis zu zwei Befehle pro Takt dekodieren, so dass bis zu acht Befehle pro Takt an die Scheduler weitergegeben werden können.