Intel Pentium 4 E 'Prescott' review

Introductie

Intel Pentium 4 aankondigingspicje Intel heeft vandaag de Pentium 4 E 'Prescott' geïntroduceerd. Prescott bouwt verder op de basis van Northwood, maar heeft 512KB extra L2-cache (1MB totaal), een twee keer zo grote L1-cache (16KB), SSE3-instructies, verbeterde branch prediction en tientallen andere kleine tweaks. Ook heeft men een offer gemaakt om later hogere kloksnelheden te kunnen bereiken: de lengte van de pipeline na de trace cache is vergroot van 21 naar 31 stappen. Het klokdistributienetwerk van Prescott is enorm verbeterd ten opzichte van Northwood om snelheden tot en met 5GHz mogelijk te maken. Dat de rest van de architectuur hiervoor ook aangepast moest worden is duidelijk. De keerzijde van de medaille bij het verlengen van de pipeline is echter dat branch mispredictions en instructies die van elkaar afhankelijk zijn gestraft worden met hogere latencies.

In deze review zullen we proberen om zoveel mogelijk verschillende soorten software te benchmarken, maar gaan we ons ook richten op de architectuur van de nieuwe getweakte Pentium 4 E, zodat iedereen zelf zijn mening kan vormen over Prescott. Simpelweg naar de benchmarks kijken geeft namelijk een vertekend beeld: een CPU die is ontworpen om 4 tot 5GHz te halen kan niet beoordeeld worden door naar de resultaten van het eerste lid in de nieuwe familie te kijken. Northwood was ook niet echt indrukwekkend bij zijn introductie op 2GHz; de Athlon XP 2000+ wist hem in een behoorlijk groot aantal benchmarks te verslaan. Het duurde echter meer dan zes maanden voor AMD een antwoord had op de Pentium 4 3,06GHz met HyperThreading, die in november 2002 op de markt werd gezet.

We proberen ons altijd op software te richten waarin CPU-kracht duidelijk te merken is. Naast het standaard Sciencemark en Plasma Scientific hebben we in deze review "R" getest, een wetenschappelijke taal voor statistische analyses. Een andere nieuwe benchmark is het encoden van een MPEG2-file naar streaming media (WMV-formaat). De laatste toevoeging aan de standaard testsuite is America's Army, een populaire 3d-shooter gebaseerd op de Unreal-engine. Eerst gaan we echter een blik werpen op de nieuwe architectuur van de Pentium 4 E en beantwoorden we de vraag of upgraden van Northwood naar Prescott mogelijk is.

Prescott-specificaties

Hieronder een tabel waarin de specificaties van de nieuwe Prescott en een aantal andere leden van de Pentium 4-familie zijn terug te vinden, naast die van de bekende AMD-modellen:

Features

Athlon 64 FX

Athlon 64

Pentium 4 C

Pentium 4 E

Pentium 4 EE

XP 3200+

Kloksnelheid

2,2-2,4GHz

2-2,2GHz

2,4-3,4GHz

2,8-3,4GHz

3,2-3,4GHz

2,2GHz

Procédé (µ)

0,13 SOI

0,13 Cu

0,09 Cu

0,13 Cu

Transistors

105,9 M

55 M

125 M

168 M

37,5 M

Spanning

1,55 V

1,5 - 1,55 V

1,3 - 1,5 V

1,55 V

1,65 V

Grootte core

193mm²

131mm²

112mm²

>200mm²

101mm²

Pipeline (integer / FP)

12 / 17 stappen

21 stappen

31 stappen

21 stappen

10 / 15 stappen

Adresruimte

Athlon 64 FX

Athlon 64

Pentium 4 C

Pentium 4 E

Pentium 4 EE

XP 3200+

Fysiek

1TB flat (40 bit)

64GB PSE (36 bit)

4GB

Virtueel

256TB (48 bit)

4GB

SIMD

3DNow! / SSE / SSE2

SSE / SSE2

SSE / SSE2 / SSE3

SSE / SSE2

3DNow! / SSE

Cache

Athlon 64 FX

Athlon 64

Pentium 4 C

Pentium 4 E

Pentium 4 EE

XP 3200+

L1-cache (data / instr.)

64KB / 64KB

8KB / 8-16KB **

16KB / 8-16 KB **

8KB / 8-16KB **

64KB / 64KB

L1-latency

L2-cache

1024KB

512KB

1024KB

512KB

L2-breedte

128 bit

256 bit

64 bit

L2-latency

9 ~ 20

9 ~ 20 ***

9 ~ 20

11 ~ 20 *

L3-cache

2MB

Geheugen

Athlon 64 FX

Athlon 64

Pentium 4 C

Pentium 4 E

Pentium 4 EE

XP 3200+

Configuratie

2x DDR400

DDR400

2x DDR400

DDR400

Bandbreedte

6,4GB/s

3,2GB/s

6,4GB/s

3,2GB/s

** 12.000 micro-ops, vergelijkbaar met 8KB L1-cache als er veel complexe instructies worden uitgevoerd, maar bij simpele instructies komt het meer overheen met 16KB.

*** Niet gemeten.

De grote verrassing hier is dat Intel het deel van de pipeline achter de trace cache met nog eens tien stappen heeft verlengd. Als het aantal stappen voor de trace cache gelijk is gebleven, dan kent Prescott in totaal ongeveer 39 stappen. Hoewel de eerste 8 stappen slechts decodeerwerk doen en dus - in de meeste gevallen - geen effect hebben op de branch mispredection penalty, geeft dit een goed idee van in hoeverre de architectuur is ontworpen voor hogere kloksnelheid. De Athlon 64 kent maar 12 stappen, inclusief decoding. We hebben nu een betere schatting van hoe groot de trace cache is ten opzichte van een normale L1 I-cache. Intel schat dat het tussen de 8 en 16KB ligt. Nu de L1 D-cache is verdubbeld naar 16KB heeft de Pentium 4 een even grootte L1-cache aan boord als de oudere Pentium III. De cache is tevens een cycle sneller. Ook opmerkelijk is de grootte van de Prescott-core: slechts 112mm² met 125 miljoen transistors. Als AMD in de herfst overstapt op 0,09 micron zal de Athlon 64 ongeveer 120mm² worden.

125 miljoen transistors?

Het aantal transistors van Prescott was voor veel mensen verbazend groot. Laten we eens berekenen hoeveel transistors 512KB extra L2-cache kost:

512 * 1024 (kilobyte) * 8 (bits) * 6 (aantal transistors in één SRAM-cel) = 25,2 miljoen

Wanneer we dat optellen bij het aantal transistors van Northwood (55 miljoen) komen we uit op ongeveer 80 miljoen transistors. Tellen we er nog een miljoen bij voor het grotere L1-cache en een paar grotere buffers, dan komen we nog lang niet aan het enorme aantal van 125 miljoen. Markus Weingartner van Intel licht toe:

"Een groot aantal transistors is bestemd voor de 'Full Scan'-technologie. Dat is een debugging technologie die het voor ons mogelijk maakt de CPU te debuggen tot op de kleinste functionele onderdelen. Ook moet je bedenken dat er nieuwe instructies zijn toegevoegd aan de Prescott, niet alleen maar cache."

Zelfs met deze uitleg van Intel in het achterhoofd is het echter duidelijk dat Prescott een aantal features bevat die op dit moment nog simpelweg uitgeschakeld zijn. De meest waarschijnlijke kandidaten zijn een 64-bits uitbreiding op x86 en ondersteuning voor Dynamic Multi Threading met speculative pre-execution. De Prescott-core zoals die er nu ligt is in feite echter nog gewoon een Northwood, met verbeteringen voor vier specificieke doeleinden:

Hogere kloksnelheden mogelijk maken

Negatieve invloed van de lange pipeline verminderen

Performance van HyperThreading verbeteren

IPC (Instructions Per Clockcycle) verhogen

De eerste doelstelling is bereikt door het verbeterde klokdistributienetwerk, die vier keer zo goed is in vergelijking tot Northwood, en het laten ontwerpen van functionele blokken door computers, speciaal gericht op beter opschalen.

Architecturale verbeteringen

Laten we gaan kijken naar de verschillende verbeteringen in de architectuur. In de bovenstaande afbeelding staan de verschillende onderdelen van de Netburst-architectuur weergegeven welke zijn verbeterd in Prescott.

Vermindering van de invloed van een diepe pipeline

Door alle heisa rondom het verkeerd voorspellen van branches wordt er vaak vergeten dat er nog andere problemen zijn die CPU's met een diepe pipeline teisteren naast de misvoorspellingen. Onder andere de vele algoritmes waar een berekening een resultaat van een vorige operatie nodig heeft lijdt onder een lange pipeline. In andere woorden: een load-operation kan niet plaatsvinden voordat een andere store-operation is uitgevoerd. Alhoewel instructies soms in een andere volgorde kunnen worden uitgevoerd, vereist de x86-architectuur dat store-operations in de geprogrammeerde volgorde moeten worden uitgevoerd.

Hierdoor is het mogelijk dat de vertraging tussen een store-operation met geldige data en het daadwerkelijk opslaan van deze data in de cache aan de hoge kant is vanwege de lange pipeline. In de gevallen waar een load-operation moet wachten op de data van een eerder uitgevoerde store-operation, kunnen de prestaties behoorlijk afnemen. Grotere caches bieden hier echter geen oplossing. Elke keer dat een instructie het resultaat van een eerdere instructie nodig heeft kan er een probleem ontstaan door de lange pipeline. Moderne processoren proberen de invloed hiervan te verminderen middels Store-to-Load Forwarding. Hiermee is het voor een load-operation mogelijk om de data van een store-operation te verkrijgen nog voordat de data in de L1 cache is geschreven. Prescott's Store-to-Load Forwarding mechanisme is flexibeler en verwerkt de store-forward operaties beter dan Northwood.

Om het verkeerd voorspellen van branches tegen te gaan heeft Intel zowel het statische als het dynamische (beslissingen gebaseerd op eerdere voorspellingen) branch prediction verbeterd. De eerste verbetering houdt verband met het simpele statische voorspellingsschema, dat wordt gebruikt indien de Branch Target Buffer (BTB) geen voorspelling heeft voor een bepaalde conditionele branch. De statische BPU die gebruikt wordt in Northwood voorspelde dat de branch werd gevold indien de richting van de branch achteruit was. Indien de branch vooruit sprong werd deze niet genomen, wat het geval is in de meeste loops. Over het algemeen hebben loops het volgende gedrag: 'herhaal deze loop een aantal keer, totdat een bepaalde waarde gelijk is aan ...'

Branches in achterwaardse richting zijn echter niet altijd loop-ending branches. Prescott's BPU kijkt echter ook naar de 'afstand' tussen een branch en de voorwaarde waarvan de branch afhankelijk is. Daarnaast wordt er ook gekeken naar het type van de voorwaarde, aangezien onderzoek door Intel heeft uitgewezen dat bepaalde type voorwaardes vaker niet werden genomen en dat de afstand tussen een achterwaardse branche en zijn doel kan aangeven of de branch een loop-ending branch is. Je zou kunnen zeggen dat Prescott's statische BPU een stuk slimmer is geworden.

Intel heeft daarnaast ook nog een 'indirect branch predictor' toegevoegd, welke de dynamische branch prediction ondersteund. Helaas is ons niet bekend wat deze BPU doet. Het idee van deze indirecte BPU kwam van het PIII-M team, welke het met succes op de PIII-M (Centrino) hebben geïmplementeerd.

De resultaten hiervan zijn indrukwekkend. Vergeleken met Northwood is Prescott's BPU niet alleen 4% beter in Crafty (het schaakprogramma in Spec Int), maar ook tot 18% sneller in de compiling (gcc) en parsing (parser) tests van SpecInt_2000. Onze eerste berekeningen op een complete run van SpecInt2000 (Data: Intel) laten 9% minder verkeerde voorspellingen zien, aangezien het aantal verkeerd voorspelde branches daalde van 0.88 naar 0.8 per honderd instructies. Als we aannemen dat de code van SpecInt_2000 voor ongeveer 18% uit branches bestaat betekent dit dat de branch-voorspellingen ongeveer 95,6% van de tijd correct zijn in plaats van 95% en 4% fout in plaats van 4,4%.

Verbeterde Hyper-Threading

Natuurlijk helpt de verdubbeling van L2-cache en de L1-datacache al de prestaties van Hyper-Threading te vergroten. Terwijl de meeste wijzigingen in de architectuur nauwelijks de prestaties in enkelvoudige threads doen toenemen, zijn deze belangrijk bij het verwerken van twee threads door de twee logische processors van Prescott:

64K adress aliasing is geen probleem meer; deze is opgeschroefd naar 4M aliasing, waarvan het zeer onwaarschijnlijk is dat het voor zal komen (meer precisie in een gedeeltelijke adress match)
Het aantal Store Buffers is verhoogd van 24 naar 32
Load Request Bufffers van 4 naar 8
En het aantal Write Combining Buffers van 6 naar 8
De Floiting point schedulers (x87/SSE/SSE2/SSE3) hebben 4 extra entries gekregen in de queue om meer parallelliteit te vinden
Additionele WC Buffers. In plaats van kleine pakettjes data te versturen richting AGP-videokaart, worden deze pakketjes eerst opgeslagen in Buffers om vervolgens in een grote lading verstuurd te worden (burst). Dit benut de bandbreedte beter, omdat er relatief minder bandbreedte verspild wordt aan overhead bij een grote burst dan bij het vele malen versturen van een kleine zending.

Bij Northwood konden 24 stores simultaan gebruikt worden, wat meer dan voldoende is voor een enkelvoudige thread. Hetzelfde geldt voor de 6 write-combining buffers die gebruikt worden om stromen van stores te traceren. Beide zijn vergroot om er voor te zorgen dat stores simultaan en snel kunnen plaatsvinden bij twee threads. De toename van load request buffers van 4 naar 8 maakt dat iedere thread 4 unieke loads kan hebben uitstaan die de L1-datacache hebben gemist en hersteld kunnen worden.

'Hyperthreaded Traction Control'

En last but not least twee nieuwe instructies: toegevoegd zijn Monitor en mWait. Deze zijn vrij interessant, omdat ze prestaties niet zozeer verbeteren, maar wel het energieverbruik aardig reduceren bij meer dan een thread.

Als een thread een lock nodig heeft (zie voor een diepgaande uitleg dit artikel), met andere woorden een deel data voor zichzelf, kan het vrij of in gebruik zijn. Als het vrij is wordt de lock genomen en continueert de thread zonder onderbreking. Als deze echter niet vrij is, moet de thread wachten tot de het benodigde deel beschikbaar is. Er zijn twee manieren waarop de logische processor dit kan doen:

De thread stopzetten en het besturingsysteem gebruiken om de thread te herstarten zodra de lock vrijkomt.
Of de thread in een loop laten draaien waarin deze voortdurend controleert of de lock beschikbaar is gekomen. Dat noemen we een spin lock.

Zoals een burn-out van banden door een auto die op de rem staat veel energie verbruikt, zo verspilt een spin lock veel processorvermogen; dit is waarschijnlijk de hoofdreden waarom Intel de lock-optimalisatie Monitor en mWait aan de Pentium 4 heeft toegevoegd.

In tegenstelling tot wat ik eerder schreef, hoeft software niet te worden gerecompiled voordat we prestatieverbeteringen kunnen gaan zien.

Rick Brewster:

"Windows (of Linux en anderen) kan gepatched worden om hier gebruik van te kunnen maken, waardoor alle software er van profiteren zou, omdat deze synchronisatie objecten veel gebruikt worden in het hele systeem (zowel in OS als software). Ik weet niet wat de mogelijke prestatiewinst zou zijn, omdat er nog steeds een hoop user-to-kernel mode schakeling (en omgekeerd) plaats zal vinden. Het zou een verbetering van de latency met zich mee kunnen brengen."

Aaron Spink:

"Het hoofddoel van dit soort instructies is waarschijnlijk vergelijkbaar met de Arm- en Quesce-instructies, zoals die in de Alpha overwogen werden. In een multi-threaded omgeving wil je normaliter geen spin locks gebruiken omdat die executie resources opsouperen en het verbruik verhogen. In Alpha zou je de Arm-instructie uitvoeren die een adress locatie omvat die je wilt zien. De Quesce instructie vertelt dan de thread te pauzeren totdat Arm inschakelt. Dit maakt het voor de instructie fetcher mogelijk om de executie effectiever stil te zetten zodat resources worden vrijgemaakt voor andere threads.

De instructies zijn verdienstelijk wanneer ze in het OS aanwezig zijn. Ze zijn makkelijk toe te voegen omdat het effectief NOP-instructies zijn. Ze kunnen ook in door gebruikers geschreven code nuttig zijn en ook dan makkelijk worden toegevoegd om de eerder genoemde reden."

In feite kunnen dankzij de toevoeging van de instructies Monitor en mWait door een eenvoudige patch van het besturingsysteem zowel het energieverbruik worden verminderd als de prestaties licht worden verbeterd in multi-threaded applicaties."

Algemene IPC-verbeteringen

Maar er is meer. Er zijn ook nog andere tweaks die over die de IPC van Prescott over het algemeen verbeteren:

Verbeterde Imul latency: Northwood/Willamette doen hun integer vermenigvuldigingen op de FPU en de grote latency ontstaat doordat data tussen integer en FP datapaths gestuurd worden. Prescott heeft een dedicated integer multiplier.
Prescott New Instructions (SSE3)
Meer flexibel trace cache
Betere software prefetch
Verbeterde en slimmere hardware prefetch

De Trace cache is erg belangrijk om de 7 execution units van de Pentium 4 te voeden. Echter, er waren een behoorlijk aantal instructies die Northwoods encoders niet konden verwerken naar de Trace cache, waardoor deze instructies langzaam moesten worden afgewerkt met behulp van de Microcode ROM. Een goed voorbeeld waren de software prefetch instructies, die vanaf nu wel in de Trace cache geëncodeerd kunnen worden. Nu er meer instructies in de Trace cache kunnen worden geëncodeerd, is de bandbreedte in het geheel toegenomen. De Microcode ROM kan 1 micro-op afleveren in enkele clockcycles, Trace cache kan 3 micro-ops afleveren per clockcycle.

Upgraden naar Prescott

De vraag of een huidig Pentium 4-moederbord kan werken met een Prescott lijkt voor sommigen misschien een groot mysterie. Ik moet toegeven dat ook ik in eerste instantie enigszins overdonderd was door de FMB 2.0- en VRM-specificaties. FMB 2.0 staat voor Flexible Motherboard 2.0 en VRM voor Voltage Regulator Module.

Ieder Pentium 4 Socket 478-moederbord (van bekend merk) dat de 800MHz FSB Pentium 4 processors ondersteunt, zou moeten voldoen aan de FMB1- en VRM 10-specificaties, volgens dit Intel-document uit april 2003. Laten we ons dus concentreren op de FMB 1.5- en 2.0-specificaties. FMB 1.5 ondersteunt een Icc stroom van 91A, FMB 2.0-moederborden gaan zelfs tot 119A.

Hieronder een zo eenvoudig mogelijk gehouden samenvatting van de FMB-standaarden en de combinatie met Pentium 4:

De Pentium 4 3,4GHz Northwood en de 3,4GHz Pentium 4 Extreme Edition werken op moederborden die voldoen aan de FMB 1.5- en VRM 10-specificaties voor Prescott-procesors. Echter, ook een ouder AOpen AX4C Max (FMB1) liet zien geen enkel probleem te hebben met een Pentium 4 EE 3,4GHz
De huidige 3,0 en 2,8GHz Prescotts noemen een Icc max van 78A (TDP 89W) en zouden prima moeten werken op alle bestaande 800MHz FSB-plankjes
De huidige 3,2 en 3,4GHz Prescotts vragen een Icc max van 91A (TDP 103W) en zullen alleen werken op de nieuwere FMB 1.5-moederborden
Intel belooft echter dat in het derde kwartaal 3,2 en 3,4GHz Prescotts worden geleverd die ook op FMB 1.0-borden zullen werken
De 3,6GHz Prescott vereist FMB 1.5-borden
Prescotts in speedgrades boven de 3,8GHz zullen aan moederborden met een LGA775-socket voorbehouden zijn

MSI vertelde dat de 865PE Neo2-PS, 865PE Neo2-PFS, 865PE Neo2-PFISR, PT880 Neo-FISR, PT880 Neo-LSR en 865PE Neo2-PLS-moederborden allen Prescott 3,6GHz zullen ondersteunen. Alle andere borden, met uitzondering van die gebaseerd zijn op Intels 848- en VIA's PT800-chipsets, zullen Pentium 4 Prescott speedgrades tot en met 3,2GHz ondersteunen.

Meer informatie over Asus en Gigabyte kan nagelezen worden in dit artikel van HardOCP. Laten we nu eens kijken naar het opgenomen vermogen van de verschillende processors:


Processor	MHz	Voltage	TDP	Max. power

Athlon 1400 (T-bird)	1400	1,75V	65W	72W

Athlon XP 1700+ (Palomino)	1467	1,75V	57,4W	64W

Athlon XP 2100+ (Palomino)	1733	1,75V	64,3W	72W

Athlon XP 1700+(T-bred)	1467	1,50V	44,9W	49,4W

Athlon XP 1800+	1533	1,50V	46,3W	59,2W

Athlon XP 1900+	1600	1,50V	47,7W	60,7W

Athlon XP 2000+	1667	1,60V	54,7W	60,3W

Athlon XP 2100+	1733	1,60V	56,4W	64,3W

Athlon XP 2200+	1800	1,65V	61,7W	67,9W

Athlon XP 2600+	2133	1,65V	62W	68,3W

Athlon XP 2800+ (T-bred)	2250	1,65V	64W	74,3W

Athlon XP 2500+(Barton)	1833	1,65V	53,7W	68,3W

Athlon XP 3000+ (Barton)	2167	1,65V	58,4W	74,3W

Athlon 64 3200+	2000	1,5V	~70W*	89W

P4 2,0 GHz (0,18 micron)	2000	1,7V	72W	92W

P4 2,0 GHz (0,13 micron)	2000	1,5V	52,4W	66W

Pentium 4 2,2 GHz	2200	1,5V	55,1W	70W

Pentium 4 2,8 GHz	2800	1,525V	68,4W	85W

Pentium 4 3,06 GHz	3060	1,55V	81W	~100W*

Pentium 4 3,2 GHz	3200	1,55V	82W	~103W*

Pentium 4 3,2 GHz EE	3200	1,55V	81W	~109W*

Pentium 4 3,2 GHz E	3200	1,3-1,5V	103W	?

Pentium 4 3 GHz E	3000	1,3V	89W	?

*Schatting

Ondanks een geavanceerd 0,09 micron-procédé kan de Prescott een koele omgeving gebruiken. Met een TDP van 103W is deze momenteel recordhouder. Toch kan de Prescott volgens Intel zelf volstaan met dezelfde standaard heatsinkfan als die al voor de Pentium 4 3,2GHz gebruikt werd. Het verschil in temperatuur tussen beide processors was echter niet gering. Na het afwerken van een vol belastende 3ds max-benchmark toonde het BIOS een CPU-temperatuur van 45-47 graden Celsius voor de 3,2GHz Northwood, tegen 64-66 graden voor de Prescott, met een open en bloot liggend moederbord in een lab van 18 graden Celsius.

Testconfiguratie

De testomgeving die we hebben gebruikt is al in eerdere reviews van Ace's Hardware gebruikt. Enkele kleine wijzigingen met betrekking tot bios-revisies en drivers zijn echter wel te bespeuren. De 53.03 driver is gebruikt voor de GeForce 5900FX Ultra (256MB). Voor het Asus SK8N moederbord is de nForce 3.13 driver gebruikt terwijl voor de MSI K8T Neo de VIA Hyperion 4-in-1 driver met versienummer 4.51 is gebruikt. Alle moederborden waren voorzien van de nieuwste BIOS-versie. Voor het nodige geheugen in de systemen is gebruik gemaakt van 400MHz DDR SDRAM (CAS2, 2-3-3-7). Een uitzondering hierop vormt de Athlon 64 FX-51 waarvoor 400MHz CAS 2,5 registered SDRAM is gebruikt.

Overigens dient opgemerkt te worden dat de Pentium 4 EE niet beschikbaar was voor deze review. Om het een en ander toch te kunnen vergelijken hebben we benchmarkresultaten gebruikt uit eerdere reviews wanneer de driver van de videokaart geen invloed had op de resultaten.


	Athlon 3200+ en 3400+

	Moederbord		MSI k8T Neo

	Chipset		VIA K8T800 (bios versie 1.1)

	Geheugen		2x512MB Corsair PC3200 XMS op 400MHz CAS 2 (2-3-3-7)

	Driver		VIA Hyperion 4.51


	Athlon 64 FX-51

	Moederbord		Asus SK8N

	Chipset		nVidia nForce3 150 (bios versie 1.04)

	Geheugen		Legacy PC3200 registered (2x512MB) CAS 2.5

	Driver		nForce 3.13


	Athlon 3200+

	Moederbord		Asus A7N-8X

	Chipset		nVidia nForce2

	Geheugen		2x512MB Corsair PC3200 XMS op 400MHz CAS2 (2-3-3-7)

	Driver		nForce 3.13


	Pentium 4 3,2GHz 'C' en 'E' (HyperThreading)

	Moederbord		Intel D875PBZ

	Chipset		Intel 875P (dual-channel DDR400)

	Geheugen		2x512MB Corsair PC3200 XMS op 400MHz CAS2 (2-3-3-7)

	Driver		inf update 5.09.1012

Gedeelde componenten

De volgende losse onderdelen werden in elk testsysteem ingebouwd:

Leadtek GeForce FX5900 Ultra 256MB
AC '97 sound (geïntegreerd op alle moederborden)
Maxtor 80GB DiamondMax 740X (7200rpm, UltraDMA-100/133)

Software

nVidia 53.03 Forceware-drivers (videokaart)
Microsoft Windows XP Service Pack 1A
DirectX 9b

Dankzij bijdragen van de volgende behulpzame mensen is deze review mogelijk gemaakt:

Matty Bakkeren, Markus Weingarter en Kristof Semhke (Intel)
Damon Muzny (AMD)
Ilona van Poppel, Marga Zanders en Angelique Berden (MSI)
Sandra Kuo (AMD)
Robert Pearce (Corsair)

Benchmarks: geheugen, R, Plasma en Diep

Uit de ScienceMark benchmark blijkt dat, hoewel de toegangstijd naar het geheugen tussen de Prescott en Northwood nauwelijks verschilt, de geheugenbandbreedte een flink verschil laat zien. In SSE/MMX blockmodus is de Prescott een flink stuk sneller dan de Northwood. De Prescott behaalde hier een snelheid van 4460MB/s terwijl de Northwood hier slechts 3980MB/s haalde. Met eenvoudige gecompileerde code (wat het meest gebruikt wordt) haalde de Prescott echter een doorvoersnelheid van slechts 1950MB/s terwijl hier de Northwood het een stuk beter deed met 2200MB/s. Het kopieëren tussen ALU registers verliep op de Prescott ook iets sneller dan met de Northwood met 2311MB/s tegen 2272MB/s.

De conclusie die we hieruit kunnen trekken is dat de Prescott in staat is een hogere doorvoersnelheid te halen uit de dual-channel chipset zolang er gebruik wordt gemaakt van SSE-, SSE-2- of MMX-instructies.

'R' en statistische analyses

R is een taal en omgeving voor statistische berekeningen en visualisatie. Het is een GNU-project en is verglijkbaar met de 'S'-taal welke ontwikkeld is door John Chambers en zijn collega's bij Bell Laboratories (vroeger AT&T, nu Lucent Technologies). 'R' kan worden beschouwd als een andere implementatie van 'S'. Ondanks enkele verschillen werkt code die geschreven is voor 'S' zonder aanpassingen ook onder 'R'.

'R' levert een uitgebreide verzameling statistische (lineaire en non-lineaire modellering, klasieke statistische tests, time-series analyse, classification en clustering) en grafische technieken en is eenvoudig uit te breiden. 'S' is vaak de taal die gebruikt wordt voor onderzoek in statistische methodieken en 'R' biedt een open-source optie om dit eveneens te realiseren.

De benchmark is ontwikkeld bij Michael Williams. De prestatie is gemeten van verschillende sampling-technieken wanneer deze op een grid van punten met een hoge dichtheid worden uitgevoerd. Voor de sampling werd gebruik gemaakt van een Riemann som om een dubbele integraal te benaderen.


R 1.7.2 Statische analyses (seconden)

Athlon 64 3400+	2,2GHz	591

Athlon XP 3200+	2,2GHz	646

Pentium 4 'C' Northwood	3,2GHz	767

Pentium 4 'E' Prescott	3,2GHz	859

We zien hier een behoorlijk slechte start voor de Prescott. De geïnterpreteerde taal voor statistische analyse is duidelijk niet de favoriete applicatie van deze processor. Hoewel toepassing over het algemeen niet door veel mensen wordt gebruikt, zijn de restultaten toch interessant. Pure processorkracht maakt voor deze test namelijk een flink verschil. Michael Williams wist te vertellen dat een volledige analyse soms wel een paar dagen kan vergen om door te rekenen. Een gering verschil in prestaties kan dus een flink verschil in rekentijd veroorzaken.

Plasma Benchmark

De Plasma benchmark is ook een onderdeel van de wetenschappelijke benchmarks die zijn uitgevoerd. Alles over deze benchmark is hier te lezen. Dr. Simon Bland zegt er het volgende over:

De MHD-code wordt in snelheid beperkt door de matrix-inversie. Het matrix bestaat uit 2,1 miljoen rijen en 2,1 miljoen kolommen waarbij voor de verschillende waarden een nauwkeurigheid van dubbele precisie is gebruikt. De matrix is erg 'sparse' gevuld (veel lege velden, red), in dit geval zijn 29 diagonallen niet-nul. De huidige oplossingsmethode die wordt gebruikt is een iteratief proces (bi-conjugate gradient solutions method) en maakt gebruik van 100 iteraties om de matrix op te lossen. Elke iteratie bestaat uit ongeveer vijf vermenigvuldigingen van het matrix. We zijn momenteel actief op zoek naar een betere oplossingsmethode voor zowel single- als parallelle toepassing.

De resultaten van deze benchmark hangen nauw samen met de geheugen-latency en in mindere maten met de geheugenbandbreedte en de FPU-prestaties van de processor.


Plasma Fusion (seconden)

Athlon 64 FX-51	2,2GHz	406

Athlon 64 FX-51*	2,2GHz	424

Athlon 64 3400+	2,2GHz	486

Pentium 4 'E' Prescott	3,2GHz	492

Athlon 64 3200+	2,0GHz	508

Pentium 4 Extreme Edition	3,2GHz	540

Pentium 4 'C' Northwood	3,2GHz	588

Athlon XP 3200+	2,2GHz	616

(*) Pentium 4-geoptimaliseerde binary

Eindelijk is er snelheidsverbetering te zien ten gevolge van de vergrootte cache en extra geheugenbandbreedte. De Prescott is aanzienlijk sneller in de Plasma-benchmark en kan zich meten met de Athlon 64 3400+.

Schaakprogramma's: Diep

Om de prestaties van de Prescott te testen hebben we ook het schaakprogramma DIEP gebruikt. Diep is een uitermate complexe en intensieve applicatie, maar in tegenstelling tot veel typische CPU-intensieve toepassingen maakt Diep voor 100% gebruik van integer-berekeningen.

Het programma is slechts 550KB groot en is flink verbeterd ten opzichte van voorgaande versies. Diep maakt nu gebruik van 350MB grote hash-tabellen in de gebruikte benchmark. De benchmarkt hangt voor een klein deel af van de geheugenprestaties, maar de grootste bottleneck blijft de pure rekenkracht van de processor. De resultaten van Diep zijn interessant omdat goede branch prediction erg belangrijk is voor de volgende generatie software gebaseerd op geavanceerde AI-algoritmes (neurale netwerken bijvoorbeeld).

Een schaakprogramma is een goede methode om de verbeteringen van de branch prediction unit (BPU) in de Athlon 64 te testen, aangezien het doorspekt is met een grote hoeveelheid conditionele expressies. De benchmark is tot 13-stappen diep uitgevoerd.


Diep Chess (KiloNodes/s)

Athlon 64 FX-53	2,4GHz	149

Athlon 64 3400+	2,2GHz	136

Athlon 64 FX-51	2,2GHz	134

Pentium 4 Extreme Edition*	3,4GHz	129

Athlon 64 3200+	2,0GHz	124

Pentium 4 'C' Northwood*	3,2GHz	123

Pentium 4 Extreme Edition*	3,2GHz	123

Athlon XP 3200+	2,2GHz	112

Pentium 4 'E' Prescott*	3,2GHz	103

(*) Getest met twee threads

Het uitrekken van de pipeline naar 31 stages in de Prescott heeft nadelige gevolgen voor dit schaakprogramma en vergelijkbare AI-programma's. SPECint leerde ons dat de verbeteringen in de BPU van de Prescott resulteerden in een prestatieverbetering van vier procent. Dit blijkt nu onvoldoende om de impact van een foute branch prediction op te vangen. De Prescott is in deze benchmark 20% langzamer dan de Northwood.

ScienceMark 2.0, WME, 3ds max, en andere

Tim, Alex en Julian hebben ons werk als reviewer een stuk gemakkelijker gemaakt met de introductie van ScienceMark 2.0 ruim een jaar geleden. Tim Wilkens is nu werkzaam bij AMD, maar ScienceMark is puur zijn eigen hobby gebleven. Verder is ons opgevallen dat elke nieuwe versie betere SSE en SSE2-optimalisaties bevat (iets dat we ook bij veel commerciële software zien) en daarom hebben we geen enkele reden om aan te nemen dat ScienceMark partijdig is op wat voor manier dan ook.

We starten met de Primordia-test. Deze test doet het volgende aldus ScienceMark.org:

Deze code berekent de Quantum Mechanical Hartree-Fock Orbitals voor elk elektron van een element uit het periodiek systeem van de elementen. Informatie over het probleem dat opgelost moet worden om dit te berekenen kan hier worden gevonden. Het programma bestaat uit een self-consistent loop. Bij elke stap worden de hartree, uitwisseling en de correlatie potentiëlen voor elke baan geëvalueerd. De gebruiker wordt de keus geboden welk algoritme gebruikt moet worden om deze potentialen te berekenen.


ScienceMark 2.0 Primordia (seconden)

Athlon 64 FX-53	2,4GHz	348

Athlon 64 FX-51	2,2GHz	384

Pentium 4 Extreme Edition	3,4GHz	389

Athlon 64 3400+	2,2GHz	394

Pentium 4 Extreme Edition	3,2GHz	410

Athlon XP 3200+	2,2GHz	416

Pentium 4 'C' Northwood	3,2GHz	423

Athlon 64 3200+	2,0GHz	440

Pentium 4 'E' Prescott	3,2GHz	490

Wederom is de Prescott een teleurstelling met een performance die 15 procent lager is dan die van zijn oudere broer.

Het decoderen van berichten voor veilige e-commerce en andere applicaties is een bijzonder belangrijke business geworden. ScieneMark biedt de mogelijkheid om de snelheid te testen van een veelgebruikt decodeeralgoritme, te weten AES:


ScienceMark 2.0 Cypher AES (seconden)

Athlon 64 FX-53	2,4GHz	11,7

Athlon 64 3400+	2,2GHz	12,6

Athlon 64 FX-51	2,2GHz	13,1

Pentium 4 'C' Northwood	3,2GHz	14

Pentium 4 'E' Prescott	3,2GHz	14,5

Athlon XP 3200+	2,2GHz	14,7

Dankzij betere optimalisaties in de laatste versie van ScienceMark weten de Pentium 4-cores erg dicht bij de prestaties van de Athlon 64 te komen en de Athlon XP wordt zelfs verslagen. In het verleden behaalden de Pentium 4-processors resultaten van circa 20 seconden. Desondanks staat de "E" van de Prescott niet echt voor "Enhanced" in deze test.

Windows Media Encoder

We hebben een MPEG2-film met een formaat van 160MB gecodeerd naar het Windows Media Streaming formaat (WMV) met behulp van two-pass codering:

Windows Media Encoder instellingen


Windows Media Encoder 9.0 (seconden)

Athlon 64 3400+	2,2GHz	591

Athlon 64 3200+	2,0GHz	646

Pentium 4 'C' Northwood	3,2GHz	767

Pentium 4 'E' Prescott	3,2GHz	859

We zullen meer coderingstesten moeten doen om er absoluut zeker van te zijn, maar we waren redelijk verrast om te zien dat de Pentium 4-familie in WME 9.0 wordt verslagen door de Athlon 64 terwijl deze test geoptimaliseerd is voor SSE2. De Athlon 64-familie is echter ook in het bezit van SSE2-instructies en blijkbaar worden die beter benut door WME 9.0. De Prescott is in deze test 11 procent langzamer dan de vorige generatie 3,2GHz Pentium 4. We hebben gehoord dat SSE3-instructies de prestaties met 5 à 7 procent kunnen laten toenemen in het beste geval, maar zelfs hiermee blijven de prestaties van de Prescott teleurstellend.

3ds max

Om de prestaties van de processors te testen in 3ds max hebben we de Architecture scène van de SPECapc 3D Studio Max R4.2 gebruikt. Deze test heeft een bewegende camera die een complex gebouw laat zien, een virtuele rondleiding door een schaalmodel. Deze complexe scène heeft niet minder dan 600.000 polygonen en 7 lichten. Daarnaast zijn de raytracing en fog-opties aangezet. We hebben de tijd gemeten die het koste om frames 20 tot en met 22 te renderen op 500x300 in de virtuele framebuffer (het systeemgeheugen).


3ds max 5.1 Architecture (seconden)

Pentium 4 Extreme Edition	3,2GHz	273

Pentium 4 'E' Prescott	3,2GHz	296

Athlon 64 FX-51	2,2GHz	309

Pentium 4 'C' Northwood	3,2GHz	310

Athlon 64 3400+	2,2GHz	312

Athlon 64 3200+	2,0GHz	364

Athlon XP 3200+	2,2GHz	409

3ds max heeft altijd al veel baat gehad van grote L2-caches. De overstap van de Willamette-core naar de Northwood-core was goed voor een prestatieverbetering van 60 procent. In deze test weet de Prescott eindelijk zijn oudere Northwood-broer te verslaan met een kleine marge.

Cinema4D: Cinebench 2003 (MP)

De volgende benchmark is Cinebench 2003. Deze benchmark is gebaseerd op Maxon's Cinema4D modellering- en renderingpakket. Cinebench is multithreaded en kan daardoor gebruik maken van de HyperThreading-technologie van de Pentium 4.


Cinebench 2003

Pentium 4 Extreme Edition	3,2GHz	386

Pentium 4 'C' Northwood	3,2GHz	380

Pentium 4 'E' Prescott	3,2GHz	336

Athlon 64 3400+	2,2GHz	309

Athlon 64 FX-51	2,2GHz	305

Athlon 64 3200+	2,0GHz	284

Athlon XP 3200+	2,2GHz	265

Cinebench is geoptimaliseerd voor de Pentium 4-architectuur die logischerwijs ook goede resultaten neerzet in deze test. Desondanks laat de Prescott ons in de steek met een prestatie die 12 procent lager is dan de gelijk geklokte Northwood

HT, Civilization III, Comanche 4 en BF 1942

We hebben het al uitgebreid gehad over de verschillende features, die Prescott een betere CPU met hyperthreading maken dan de Northwood, maar kan deze theorie ook worden hardgemaakt met benchmarkresultaten. We hebben besloten een test te doen met en zonder hyperthreading ingeschakeld. We hebben hetzelfde ook met Halo geprobeerd aangezien Halo geoptimaliseerd is voor hyperthreading. Er was echter geen verschil tussen de resultaten met hypertreading in- en uitgeschakeld.

Benchmark

P4 'C'
HT off

P4 'C'
HT on

P4 'E'
HT off

P4 'E'
HT on

Verbetering HT
'Northwood'

Verbetering HT
'Prescott'

3DS Max 5.1

361s

310s

364s

296s

16,5% sneller

23,0% sneller

Cinebench 2003

323

380

281

336

17,6% sneller

19,5% sneller

Diep

101

123

103

21,8% sneller

24,1% sneller

Alhoewel de verschillen niet spectaculair zijn, kunnen we toch zien dat Prescott's hyperthreading verbeteringen de prestaties ten goede zijn gekomen.

Civilization III v1.29F

Civilization is een klassieker: een legendarisch spel. Het is ons opgevallen dat de AI van de computertegenstanders in veel situaties een groot deel van de tijd aan het denken is tussen elke beurt. Zoals je hieronder kan zien kan deze denktijd oplopen tot 23 seconden op een snelle CPU. Je kunt je dus wel indenken dat dit een behoorlijke invloed op de gaming experience kan hebben wanneer je honderd beurten speelt.

'Fuego' stuurde ons een redelijke grote en complexe Civ III map. We hebben ervoor gezorgd dat er geen bewegingen werden getoond na het drukken op de 'next turn' knop, zodat alleen de AI-tijd is opgenomen en niet de tijd voor het animeren van bewegende units. Het scherm bleef op de plaats waar het was. We hebben vervolgens de tijd gemeten wanneer de zandloper zichtbaar was, de tijd dat het spel dus niet reageerde. Deze tijd bleek redelijk consistent te zijn, zolang we het spel maar opnieuw startten na elke benchmark.


Civilization III (seconden)

Pentium 4 Extreme Edition	3,2GHz	15,8

Athlon 64 FX-51	2,2GHz	16,7

Athlon 64 3400+	2,2GHz	17,0

Pentium 4 'E' Prescott	3,2GHz	17,9

Athlon 64 3200+	2,0GHz	18,7

Pentium 4 'C' Northwood	3,2GHz	18,7

Athlon XP 3200+	2,2GHz	21,6

In Civilization III speelde de videokaart geen belangrijke rol. Daarom hebben we besloten de resultaten van eerdere Pentium 4 EE benchmarks in de tabel op te nemen.

We waren redelijk verrast dat de Prescott als snelste uit de bus kwam. De score van de Pentium 4 EE leert ons dat de L2-cache zeker een grote hulp is. Prescott is ongeveer 4% sneller dan Northwood.

Comanche 4

De Comanche 4 benchmark, de militaire helicopter simulator, is een van de eenvoudigste en meest consistente benchmarks. We blijven hem in ons testbed houden om zodoende een vergelijking met eerdere reviews mogelijk te maken.


Commanche 4 (800x600x32, fps)

Athlon 64 FX-51	2,2GHz	71,5

Athlon 64 3400+	2,2GHz	69,7

Athlon 64 3200+	2,0GHz	64,2

Pentium 4 'C' Northwood	3,2GHz	63,5

Pentium 4 'E' Prescott	3,2GHz	57,1

Athlon XP 3200+	2,2GHz	53,5

De Prescott stelt ons wederom teleur met framerates die 11% lager liggen.

Battlefield 1942 - Secret Weapons

Onze Battlefield 1942 benchmark hebben we bijgewerkt van versie 1.03 naar 1.45. Deze update komt met de add-on 'Secret Weapons'. Onze nieuwe testscene is "Eagle's nest", welke een aantal SturmTigers vechtend in besneeuwde heuvels weergeeft. De AI neemt standaard ongeveer 20% van de CPU-kracht in beslag. Dit percentage hebben we handmatig verhoogd naar het maximum van 25%.

Athlon 64 upgradeguide: Battlefield 1942 screenshot

Schaduwen worden door de videokaart berekent. Indien er een DirectX 8 compliant videokaart aanwezig is worden de berekeningen van hardware skinning op geanimeerde mazen overgenomen. We hebben onze benchmarks met FRAPS een aantal keer herhaald om er zo zeker van te zijn dat we een goed resultaat zouden krijgen. Helaas heeft deze benchmark redelijk wat pogingen nodig voordat het resultaat consistent wordt. De behaalde testresultaten zijn niet erg accuraat. De foutmarge tussen herhaalde test is behoorlijk hoog (5%). De enige reden dat we deze benchmark nog gebruiken is om een ruige impressie te krijgen van hoe de processoren onderling in het spel presteren.


Battlefield 1942 (1024x768x32, fps)

Pentium 4 'E' Prescott	3,2GHz	97,1

Athlon 64 FX-51	2,2GHz	92,5

Athlon 64 3400+	2,2GHz	89,0

Pentium 4 'C' Northwood	3,2GHz	88,1

Athlon 64 3200+	2,0GHz	87,5

Athlon XP 2100+	1,73GHz	43,5

BF1942 is dan wel niet de meest accurate benchmark,maar het verschil tussen de P4 'E' en 'C' is groot genoeg om te concluderen dat Prescott ongeveer 10% sneller is.

X2, Wolfenstein, Halo, AA en Blitzkrieg

X² - The Threat

X² is een prachtige ruimtesimulatie met de volgende features:

X² bestaat uit een compleet herschreven 3D engine gebaseerd op DirectX 8. Aanwezig zijn een grote hoeveelheid visual effects zoals nevels met volume (gas wolken) die ook daadwerkelijk invloed hebben in het spel (het is mogelijk om jezelf er in te verbergen). Verder zijn er een groot aantal nieuwe engine, shield, wapen en explosie-effecten. Objecten hebben dynamische 3D schaduwen en dynamische DP3 bump mapping zorgt voor een niet eerder vertoond niveau van detail.

X² is uitgerust met een ingebouwde benchmarkfunctionaliteit. De benchmark is hier te downloaden. Om je eigen resultaten te kunnen vergelijken met die van ons is het nodig om "shadows" en "run as benchmark" aan te zetten alvorens de demo op te starten.

Athlon 64 upgradeguide: X² - The Threat screenshot

Athlon 64 upgradeguide: X² - The Threat screenshot


X² - The Threat (1024x768x32, shadows, fps)

Athlon 64 3400+	2,2GHz	76,0

Athlon 64 FX-51	2,2GHz	75,7

Pentium 4 'E' Prescott	3,2GHz	75,1

Athlon 64 3200+	2,0GHz	74,6

Pentium 4 'C' Northwood	3,2GHz	72,0

De Prescott weet de Northwood in deze benchmark te verslaan met een kleine marge.

Wolfenstein: Enemy Territory

Ace's Hardware-veteraan en hardcore online gamer Hawski, alias Uffe Merrild, benaderde ons met twee erg interessante Enemy Territory benchmarks. Wolfenstein ET is een ongelofelijk popupaire online multiplayer first person shooter, waarbij je als speler de rol hebt van een assault trooper, genie-soldaat of hospik in de tweede wereldoorlog.

Athlon 64 upgradeguide - Wolfenstein Enemy Territory

Athlon 64 upgradeguide - Wolfenstein Enemy Territory


Wolfenstein: ET (1024x768x32, Demo 'Ace Hawski', fps)

Athlon 64 FX-51	2,2GHz	85,4

Athlon 64 3400+	2,2GHz	81,7

Pentium 4 'C' Northwood	3,2GHz	78,2

Pentium 4 'E' Prescott	3,2GHz	76,1

Athlon 64 3200+	2,0GHz	76,0

Athlon XP 3200+	2,2GHz	69,9

De Northwood en de Prescott presteren vergelijkbaar in deze benchmark.

Halo 1.03

Halo werd geport vanaf de Microsoft Xbox-console en toont de speler verbazingwekkend mooie effecten en omgevingen. Het spel laat zich daardoor wel met moeite vooruit slepen als je geen snelle pc hebt. Halo ondersteunt de nieuwste 2.0 shaders uit DirectX 9.0 en behoort daarmee tot het zeer exclusief groepje games dat de mogelijkheden van DirectX 9.0 optimaal benut.


Halo 1.03 (1024x768x32, fps)

Athlon 64 3400+	2,2GHz	50,9

Athlon 64 FX-51	2,2GHz	50,4

Pentium 4 'C' Northwood	3,2GHz	48,8

Athlon XP 3200+	2,2GHz	47,1

Pentium 4 'E' Prescott	3,2GHz	46,4

Deze benchmark laat wederom belabberde prestaties zien van de Prescott-core.

America's Army

America's Army is een gratis verkrijgbare en populaire first person shooter gebaseerd op de Unreal engine.

Screenshot America's Army

We hebben dit spel getest met een demo die Paul Flynn voor ons heeft opgenomen terwijl hij online aan het spelen was, waarvoor onze dank.


America's Army (800x600x32, fps)

Athlon 64 3400+	2,2GHz	42,1

Pentium 4 'E' Prescott	3,2GHz	41,5

Athlon XP 3200+	2,2GHz	39,8

Pentium 4 'C' Northwood	3,2GHz	36,8

De Prescott doet het in deze benchmark redelijk goed.

Blitzkrieg

Blitzkrieg is één van de vele klonen van Command & Conquer en Age of Empire. Er is geen micromanagement en het neerzetten van gebouwen behoort ook niet tot de taken van de speler, waardoor een verfrissend spel is ontstaan in het Real Time Strategy-genre. Een superieure tactische strategie is in dit spel niet langer kansloos tegen spelers die zeer gedreven zijn in het klikken met de muis en simpelweg een zeer groot aantal units bouwen waarmee vervolgens elke tegenstander genadeloos van het slagveld wordt geveegd. Om een lang verhaal kort te maken: een leuk spel. We hebben een korte benchmark-sessie met dit spel uitgevoerd waarin een intensieve strijd werd gestreden met de inzet van artillerie, vliegtuigen, tanks en grondtroepen. De grafische details werden ingesteld op het hoogste niveau.

Athlon 64 upgradeguide: Blitzkrieg screenshot

Athlon 64 upgradeguide: Blitzkrieg screenshot


Blitzkrieg (fps)

Athlon 64 3400+	2,2GHz	91,5

Athlon XP 3200+	2,2GHz	85,0

Pentium 4 'C' Northwood	3,2GHz	63,6

Pentium 4 'E' Prescott	3,2GHz	61,7

Athlon XP 2100+	1,73GHz	43,5

Wanneer je een gameplay wilt hebben die "Blitz" is, is er geen ander optie dan de Athlon 64.

Conclusie

De Pentium 4 E 3,2GHz Prescott wist alleen in Battlefield 1942 alle andere geteste processors duidelijk te verslaan, zowel die uit eigen huis als de aanwezige AMD Athlon XP/64/64 FX-modellen. In de overige benchmarks zijn de prestaties van de nieuweling niet slecht en vergelijkbaar met de 3,2GHz Northwood en Athlon 64 3200+. Ten opzichte van die twee boekt de Prescott winst in de spellen America's Army, Battlefield 1942, Civilization III en X2. Van de applicaties laten 3ds max en Plasma vooruitgang zien:


	Game benchmark		P4 3,2GHz 'E' versus P4 3,2GHz 'C'

	America's Army		13% sneller

	Battlefield 1942 1.45		10% sneller

	Blitzkrieg		3% trager

	Commanche 4		11% trager

	Civilization III		4% sneller

	Halo 1.03		5% trager

	Wolfenstein: Enemy Territory		3% trager

	X² - The Threat		4% sneller


	Applicatie benchmark		P4 3,2GHz 'E' versus P4 3,2GHz 'C'

	3DS Max 5.1		5% sneller

	Cinebench 2003		11% trager

	Diep Chess		20% trager

	WME 9.0 encoding		11% trager

	R Statische analyses		11% trager

	Plasma		17% sneller

Op dit moment lijkt er geen dringende noodzaak om op de Prescott over te stappen; de prestaties in games zijn weliswaar goed, maar in diverse applicaties wordt er vooralsnog aan kracht ingeleverd. Daarbij komt de constatering dat de Prescott snel een stuk warmer wordt dan Northwood en een goed geventileerde kast nodig heeft. De Athlon 3200+ is niet altijd een duidelijke winnaar in games, vergeleken met de Precott 3,2GHz, maar een Athlon 3400+ zou minder moeite moeten hebben een 3,4GHz Prescott te verslaan in de meeste gevallen. Prescott zal snel in kloksnelheid omhoog moeten gaan om de sterk doorschalende en minder warmte verstokende Athlon 64 voorbij te kunnen streven.

De vraag die alsmaar naar boven kwam drijven was "waarom hebben we geen verbeterde Northwood core zien verschijnen?" Veel van de op zichzelf interessante tweaks die we in de Prescott tegenkomen hebben geen belang bij de tien extra pipeline stages. SSE3, een betere branch prediction, een grotere L2-cache, allen zouden ze het ook zonder een dergelijke verlenging van de pipeline kunnen hebben stellen. Op dit moment lijkt een logische verklaring te zijn dat Intels productiemensen nog wat tijd nodig hebben om de vermogenshonger van Prescott aan banden te leggen. Als dat eenmaal gelukt is zou de Prescott richting 5GHz door kunnen schalen, terwijl Northwood dan op lagere kloksnelheden zijn werk kan doen. Ook zou het kunnen zijn dat Prescott vooral een praktijkoefening is voor Intel, teneinde met de opgedane ervaring opvolger Tejas tot een succes te kunnen maken (en daarin nu nog uitgeschakelde features in te schakelen bijvoorbeeld - red).

Hoe het ook zij, de gedachte dat Northwood het beter had kunnen doen dan Prescott is moeilijk opzij te zetten, zelfs als deze dan iets lagere kloksnelheden zou behalen. De huidige vermogensopname lijkt eerder hogere kloksnelheden te hinderen, dan de lengte van pipelines. Dat doet echter een volgende vraag rijzen: Als Intels Heilige Graal torenhoge kloksnelheden bevat, zou Intel dan misschien nu al weten dat toekomstige 'killer applicaties' niet branch-intensief zullen zijn? Zullen veel van de huidige AI-algorithmen (branch-intensief) worden vervangen door neurale netwerken (FPU-intensief, minder branches)?

Of gaan Dynamic Multi-Threading en Pre-execution, die naar gefluisterd wordt onderdeel uit gaan maken van Tejas, de effecten van branches aanpakken en vooruitgeschoven latenties opslaan? Het is duidelijk dat de Pentium 4 EE en 3,4GHz Pentium 4 Northwood Intels processors voor 'nu' zijn en Prescott en Tejas veel meer een toekomstvisie vertegenwoordigen. Natuurlijk zal dat Intel er niet van weerhouden om miljoenen Prescotts te gaan verkopen, aan mensen die het verschil niet kennen tussen een 'C' en een 'E'.