Introductie
Intel heeft vandaag de Pentium 4 E 'Prescott' geïntroduceerd. Prescott bouwt verder op de basis van Northwood, maar heeft 512KB extra L2-cache (1MB totaal), een twee keer zo grote L1-cache (16KB), SSE3-instructies, verbeterde branch prediction en tientallen andere kleine tweaks. Ook heeft men een offer gemaakt om later hogere kloksnelheden te kunnen bereiken: de lengte van de pipeline na de trace cache is vergroot van 21 naar 31 stappen. Het klokdistributienetwerk van Prescott is enorm verbeterd ten opzichte van Northwood om snelheden tot en met 5GHz mogelijk te maken. Dat de rest van de architectuur hiervoor ook aangepast moest worden is duidelijk. De keerzijde van de medaille bij het verlengen van de pipeline is echter dat branch mispredictions en instructies die van elkaar afhankelijk zijn gestraft worden met hogere latencies.

In deze review zullen we proberen om zoveel mogelijk verschillende soorten software te benchmarken, maar gaan we ons ook richten op de architectuur van de nieuwe getweakte Pentium 4 E, zodat iedereen zelf zijn mening kan vormen over Prescott. Simpelweg naar de benchmarks kijken geeft namelijk een vertekend beeld: een CPU die is ontworpen om 4 tot 5GHz te halen kan niet beoordeeld worden door naar de resultaten van het eerste lid in de nieuwe familie te kijken. Northwood was ook niet echt indrukwekkend bij zijn introductie op 2GHz; de Athlon XP 2000+ wist hem in een behoorlijk groot aantal benchmarks te verslaan. Het duurde echter meer dan zes maanden voor AMD een antwoord had op de Pentium 4 3,06GHz met HyperThreading, die in november 2002 op de markt werd gezet.
We proberen ons altijd op software te richten waarin CPU-kracht duidelijk te merken is. Naast het standaard Sciencemark en Plasma Scientific hebben we in deze review "R" getest, een wetenschappelijke taal voor statistische analyses. Een andere nieuwe benchmark is het encoden van een MPEG2-file naar streaming media (WMV-formaat). De laatste toevoeging aan de standaard testsuite is America's Army, een populaire 3d-shooter gebaseerd op de Unreal-engine. Eerst gaan we echter een blik werpen op de nieuwe architectuur van de Pentium 4 E en beantwoorden we de vraag of upgraden van Northwood naar Prescott mogelijk is.
Prescott-specificaties
Hieronder een tabel waarin de specificaties van de nieuwe Prescott en een aantal andere leden van de Pentium 4-familie zijn terug te vinden, naast die van de bekende AMD-modellen:
 |
 | Features | Athlon 64 FX | Athlon 64 | Pentium 4 C | Pentium 4 E | Pentium 4 EE | XP 3200+ |  |
 |
 | Kloksnelheid |  | 2,2-2,4GHz |  | 2-2,2GHz |  | 2,4-3,4GHz |  | 2,8-3,4GHz |  | 3,2-3,4GHz |  | 2,2GHz |  |
 |
 | Procédé (µ) |  | 0,13 SOI |  | 0,13 SOI |  | 0,13 Cu |  | 0,09 Cu |  | 0,13 Cu |  | 0,13 Cu |  |
 |
 | Transistors |  | 105,9 M |  | 105,9 M |  | 55 M |  | 125 M |  | 168 M |  | 37,5 M |  |
 |
 | Spanning |  | 1,55 V |  | 1,55 V |  | 1,5 - 1,55 V |  | 1,3 - 1,5 V |  | 1,55 V |  | 1,65 V |  |
 |
 | Grootte core |  | 193mm² |  | 193mm² |  | 131mm² |  | 112mm² |  | >200mm² |  | 101mm² |  |
 |
 | Pipeline (integer / FP) |  | 12 / 17 stappen |  | 12 / 17 stappen |  | 21 stappen |  | 31 stappen |  | 21 stappen |  | 10 / 15 stappen |  |
 |
 | Adresruimte |  | Athlon 64 FX |  | Athlon 64 |  | Pentium 4 C |  | Pentium 4 E |  | Pentium 4 EE |  | XP 3200+ |  |
 |
 | Fysiek |  | 1TB flat (40 bit) |  | 1TB flat (40 bit) |  | 64GB PSE (36 bit) |  | 64GB PSE (36 bit) |  | 64GB PSE (36 bit) |  | 4GB |  |
 |
 | Virtueel |  | 256TB (48 bit) |  | 256TB (48 bit) |  | 4GB |  | 4GB |  | 4GB |  | 4GB |  |
 |
 | SIMD |  | 3DNow! / SSE / SSE2 |  | 3DNow! / SSE / SSE2 |  | SSE / SSE2 |  | SSE / SSE2 / SSE3 |  | SSE / SSE2 |  | 3DNow! / SSE |  |
 |
 | Cache |  | Athlon 64 FX |  | Athlon 64 |  | Pentium 4 C |  | Pentium 4 E |  | Pentium 4 EE |  | XP 3200+ |  |
 |
 | L1-cache (data / instr.) |  | 64KB / 64KB |  | 64KB / 64KB |  | 8KB / 8-16KB ** |  | 16KB / 8-16 KB ** |  | 8KB / 8-16KB ** |  | 64KB / 64KB |  |
 |
 | L1-latency |  | 3 |  | 3 |  | 2 |  | 2 |  | 2 |  | 3 |  |
 |
 | L2-cache |  | 1024KB |  | 1024KB |  | 512KB |  | 1024KB |  | 512KB |  | 512KB |  |
 |
 | L2-breedte |  | 128 bit |  | 128 bit |  | 256 bit |  | 256 bit |  | 256 bit |  | 64 bit |  |
 |
 | L2-latency |  | 16 |  | 16 |  | 9 ~ 20 |  | 9 ~ 20 *** |  | 9 ~ 20 |  | 11 ~ 20 * |  |
 |
 | L3-cache |  | - |  | - |  | - |  | - |  | 2MB |  | - |  |
 |
 | Geheugen |  | Athlon 64 FX |  | Athlon 64 |  | Pentium 4 C |  | Pentium 4 E |  | Pentium 4 EE |  | XP 3200+ |  |
 |
 | Configuratie |  | 2x DDR400 |  | DDR400 |  | 2x DDR400 |  | 2x DDR400 |  | 2x DDR400 |  | DDR400 |  |
 |
 | Bandbreedte |  | 6,4GB/s |  | 3,2GB/s |  | 6,4GB/s |  | 6,4GB/s |  | 6,4GB/s |  | 3,2GB/s |  |
 |
** 12.000 micro-ops, vergelijkbaar met 8KB L1-cache als er veel complexe instructies worden uitgevoerd, maar bij simpele instructies komt het meer overheen met 16KB.
*** Niet gemeten.
De grote verrassing hier is dat Intel het deel van de pipeline achter de trace cache met nog eens tien stappen heeft verlengd. Als het aantal stappen voor de trace cache gelijk is gebleven, dan kent Prescott in totaal ongeveer 39 stappen. Hoewel de eerste 8 stappen slechts decodeerwerk doen en dus - in de meeste gevallen - geen effect hebben op de branch mispredection penalty, geeft dit een goed idee van in hoeverre de architectuur is ontworpen voor hogere kloksnelheid. De Athlon 64 kent maar 12 stappen, inclusief decoding. We hebben nu een betere schatting van hoe groot de trace cache is ten opzichte van een normale L1 I-cache. Intel schat dat het tussen de 8 en 16KB ligt. Nu de L1 D-cache is verdubbeld naar 16KB heeft de Pentium 4 een even grootte L1-cache aan boord als de oudere Pentium III. De cache is tevens een cycle sneller. Ook opmerkelijk is de grootte van de Prescott-core: slechts 112mm² met 125 miljoen transistors. Als AMD in de herfst overstapt op 0,09 micron zal de Athlon 64 ongeveer 120mm² worden.
125 miljoen transistors?
Het aantal transistors van Prescott was voor veel mensen verbazend groot. Laten we eens berekenen hoeveel transistors 512KB extra L2-cache kost:
512 * 1024 (kilobyte) * 8 (bits) * 6 (aantal transistors in één SRAM-cel) = 25,2 miljoen
Wanneer we dat optellen bij het aantal transistors van Northwood (55 miljoen) komen we uit op ongeveer 80 miljoen transistors. Tellen we er nog een miljoen bij voor het grotere L1-cache en een paar grotere buffers, dan komen we nog lang niet aan het enorme aantal van 125 miljoen. Markus Weingartner van Intel licht toe:
"Een groot aantal transistors is bestemd voor de 'Full Scan'-technologie. Dat is een debugging technologie die het voor ons mogelijk maakt de CPU te debuggen tot op de kleinste functionele onderdelen. Ook moet je bedenken dat er nieuwe instructies zijn toegevoegd aan de Prescott, niet alleen maar cache."
Zelfs met deze uitleg van Intel in het achterhoofd is het echter duidelijk dat Prescott een aantal features bevat die op dit moment nog simpelweg uitgeschakeld zijn. De meest waarschijnlijke kandidaten zijn een 64-bits uitbreiding op x86 en ondersteuning voor Dynamic Multi Threading met speculative pre-execution. De Prescott-core zoals die er nu ligt is in feite echter nog gewoon een Northwood, met verbeteringen voor vier specificieke doeleinden:
- Hogere kloksnelheden mogelijk maken
- Negatieve invloed van de lange pipeline verminderen
- Performance van HyperThreading verbeteren
- IPC (Instructions Per Clockcycle) verhogen
De eerste doelstelling is bereikt door het verbeterde klokdistributienetwerk, die vier keer zo goed is in vergelijking tot Northwood, en het laten ontwerpen van functionele blokken door computers, speciaal gericht op beter opschalen.
Architecturale verbeteringen

Laten we gaan kijken naar de verschillende verbeteringen in de architectuur. In de bovenstaande afbeelding staan de verschillende onderdelen van de Netburst-architectuur weergegeven welke zijn verbeterd in Prescott.
Vermindering van de invloed van een diepe pipeline
Door alle heisa rondom het verkeerd voorspellen van branches wordt er vaak vergeten dat er nog andere problemen zijn die CPU's met een diepe pipeline teisteren naast de misvoorspellingen. Onder andere de vele algoritmes waar een berekening een resultaat van een vorige operatie nodig heeft lijdt onder een lange pipeline. In andere woorden: een load-operation kan niet plaatsvinden voordat een andere store-operation is uitgevoerd. Alhoewel instructies soms in een andere volgorde kunnen worden uitgevoerd, vereist de x86-architectuur dat store-operations in de geprogrammeerde volgorde moeten worden uitgevoerd.
Hierdoor is het mogelijk dat de vertraging tussen een store-operation met geldige data en het daadwerkelijk opslaan van deze data in de cache aan de hoge kant is vanwege de lange pipeline. In de gevallen waar een load-operation moet wachten op de data van een eerder uitgevoerde store-operation, kunnen de prestaties behoorlijk afnemen. Grotere caches bieden hier echter geen oplossing. Elke keer dat een instructie het resultaat van een eerdere instructie nodig heeft kan er een probleem ontstaan door de lange pipeline. Moderne processoren proberen de invloed hiervan te verminderen middels Store-to-Load Forwarding. Hiermee is het voor een load-operation mogelijk om de data van een store-operation te verkrijgen nog voordat de data in de L1 cache is geschreven. Prescott's Store-to-Load Forwarding mechanisme is flexibeler en verwerkt de store-forward operaties beter dan Northwood.
Om het verkeerd voorspellen van branches tegen te gaan heeft Intel zowel het statische als het dynamische (beslissingen gebaseerd op eerdere voorspellingen) branch prediction verbeterd. De eerste verbetering houdt verband met het simpele statische voorspellingsschema, dat wordt gebruikt indien de Branch Target Buffer (BTB) geen voorspelling heeft voor een bepaalde conditionele branch. De statische BPU die gebruikt wordt in Northwood voorspelde dat de branch werd gevold indien de richting van de branch achteruit was. Indien de branch vooruit sprong werd deze niet genomen, wat het geval is in de meeste loops. Over het algemeen hebben loops het volgende gedrag: 'herhaal deze loop een aantal keer, totdat een bepaalde waarde gelijk is aan ...'
Branches in achterwaardse richting zijn echter niet altijd loop-ending branches. Prescott's BPU kijkt echter ook naar de 'afstand' tussen een branch en de voorwaarde waarvan de branch afhankelijk is. Daarnaast wordt er ook gekeken naar het type van de voorwaarde, aangezien onderzoek door Intel heeft uitgewezen dat bepaalde type voorwaardes vaker niet werden genomen en dat de afstand tussen een achterwaardse branche en zijn doel kan aangeven of de branch een loop-ending branch is. Je zou kunnen zeggen dat Prescott's statische BPU een stuk slimmer is geworden.
Intel heeft daarnaast ook nog een 'indirect branch predictor' toegevoegd, welke de dynamische branch prediction ondersteund. Helaas is ons niet bekend wat deze BPU doet. Het idee van deze indirecte BPU kwam van het PIII-M team, welke het met succes op de PIII-M (Centrino) hebben geïmplementeerd.
De resultaten hiervan zijn indrukwekkend. Vergeleken met Northwood is Prescott's BPU niet alleen 4% beter in Crafty (het schaakprogramma in Spec Int), maar ook tot 18% sneller in de compiling (gcc) en parsing (parser) tests van SpecInt_2000. Onze eerste berekeningen op een complete run van SpecInt2000 (Data: Intel) laten 9% minder verkeerde voorspellingen zien, aangezien het aantal verkeerd voorspelde branches daalde van 0.88 naar 0.8 per honderd instructies. Als we aannemen dat de code van SpecInt_2000 voor ongeveer 18% uit branches bestaat betekent dit dat de branch-voorspellingen ongeveer 95,6% van de tijd correct zijn in plaats van 95% en 4% fout in plaats van 4,4%.
Verbeterde Hyper-Threading
Natuurlijk helpt de verdubbeling van L2-cache en de L1-datacache al de prestaties van Hyper-Threading te vergroten. Terwijl de meeste wijzigingen in de architectuur nauwelijks de prestaties in enkelvoudige threads doen toenemen, zijn deze belangrijk bij het verwerken van twee threads door de twee logische processors van Prescott:
- 64K adress aliasing is geen probleem meer; deze is opgeschroefd naar 4M aliasing, waarvan het zeer onwaarschijnlijk is dat het voor zal komen (meer precisie in een gedeeltelijke adress match)
- Het aantal Store Buffers is verhoogd van 24 naar 32
- Load Request Bufffers van 4 naar 8
- En het aantal Write Combining Buffers van 6 naar 8
- De Floiting point schedulers (x87/SSE/SSE2/SSE3) hebben 4 extra entries gekregen in de queue om meer parallelliteit te vinden
- Additionele WC Buffers. In plaats van kleine pakettjes data te versturen richting AGP-videokaart, worden deze pakketjes eerst opgeslagen in Buffers om vervolgens in een grote lading verstuurd te worden (burst). Dit benut de bandbreedte beter, omdat er relatief minder bandbreedte verspild wordt aan overhead bij een grote burst dan bij het vele malen versturen van een kleine zending.
Bij Northwood konden 24 stores simultaan gebruikt worden, wat meer dan voldoende is voor een enkelvoudige thread. Hetzelfde geldt voor de 6 write-combining buffers die gebruikt worden om stromen van stores te traceren. Beide zijn vergroot om er voor te zorgen dat stores simultaan en snel kunnen plaatsvinden bij twee threads. De toename van load request buffers van 4 naar 8 maakt dat iedere thread 4 unieke loads kan hebben uitstaan die de L1-datacache hebben gemist en hersteld kunnen worden.
'Hyperthreaded Traction Control'
En last but not least twee nieuwe instructies: toegevoegd zijn Monitor en mWait. Deze zijn vrij interessant, omdat ze prestaties niet zozeer verbeteren, maar wel het energieverbruik aardig reduceren bij meer dan een thread.
Als een thread een lock nodig heeft (zie voor een diepgaande uitleg dit artikel), met andere woorden een deel data voor zichzelf, kan het vrij of in gebruik zijn. Als het vrij is wordt de lock genomen en continueert de thread zonder onderbreking. Als deze echter niet vrij is, moet de thread wachten tot de het benodigde deel beschikbaar is. Er zijn twee manieren waarop de logische processor dit kan doen:
- De thread stopzetten en het besturingsysteem gebruiken om de thread te herstarten zodra de lock vrijkomt.
- Of de thread in een loop laten draaien waarin deze voortdurend controleert of de lock beschikbaar is gekomen. Dat noemen we een spin lock.
Zoals een burn-out van banden door een auto die op de rem staat veel energie verbruikt, zo verspilt een spin lock veel processorvermogen; dit is waarschijnlijk de hoofdreden waarom Intel de lock-optimalisatie Monitor en mWait aan de Pentium 4 heeft toegevoegd.
In tegenstelling tot wat ik eerder schreef, hoeft software niet te worden gerecompiled voordat we prestatieverbeteringen kunnen gaan zien.
Rick Brewster:
"Windows (of Linux en anderen) kan gepatched worden om hier gebruik van te kunnen maken, waardoor alle software er van profiteren zou, omdat deze synchronisatie objecten veel gebruikt worden in het hele systeem (zowel in OS als software). Ik weet niet wat de mogelijke prestatiewinst zou zijn, omdat er nog steeds een hoop user-to-kernel mode schakeling (en omgekeerd) plaats zal vinden. Het zou een verbetering van de latency met zich mee kunnen brengen."
Aaron Spink:
"Het hoofddoel van dit soort instructies is waarschijnlijk vergelijkbaar met de Arm- en Quesce-instructies, zoals die in de Alpha overwogen werden. In een multi-threaded omgeving wil je normaliter geen spin locks gebruiken omdat die executie resources opsouperen en het verbruik verhogen. In Alpha zou je de Arm-instructie uitvoeren die een adress locatie omvat die je wilt zien. De Quesce instructie vertelt dan de thread te pauzeren totdat Arm inschakelt. Dit maakt het voor de instructie fetcher mogelijk om de executie effectiever stil te zetten zodat resources worden vrijgemaakt voor andere threads.
De instructies zijn verdienstelijk wanneer ze in het OS aanwezig zijn. Ze zijn makkelijk toe te voegen omdat het effectief NOP-instructies zijn. Ze kunnen ook in door gebruikers geschreven code nuttig zijn en ook dan makkelijk worden toegevoegd om de eerder genoemde reden."
In feite kunnen dankzij de toevoeging van de instructies Monitor en mWait door een eenvoudige patch van het besturingsysteem zowel het energieverbruik worden verminderd als de prestaties licht worden verbeterd in multi-threaded applicaties."
Algemene IPC-verbeteringen
Maar er is meer. Er zijn ook nog andere tweaks die over die de IPC van Prescott over het algemeen verbeteren:
- Verbeterde Imul latency: Northwood/Willamette doen hun integer vermenigvuldigingen op de FPU en de grote latency ontstaat doordat data tussen integer en FP datapaths gestuurd worden. Prescott heeft een dedicated integer multiplier.
- Prescott New Instructions (SSE3)
- Meer flexibel trace cache
- Betere software prefetch
- Verbeterde en slimmere hardware prefetch
De Trace cache is erg belangrijk om de 7 execution units van de Pentium 4 te voeden. Echter, er waren een behoorlijk aantal instructies die Northwoods encoders niet konden verwerken naar de Trace cache, waardoor deze instructies langzaam moesten worden afgewerkt met behulp van de Microcode ROM. Een goed voorbeeld waren de software prefetch instructies, die vanaf nu wel in de Trace cache geëncodeerd kunnen worden. Nu er meer instructies in de Trace cache kunnen worden geëncodeerd, is de bandbreedte in het geheel toegenomen. De Microcode ROM kan 1 micro-op afleveren in enkele clockcycles, Trace cache kan 3 micro-ops afleveren per clockcycle.
Upgraden naar Prescott
De vraag of een huidig Pentium 4-moederbord kan werken met een Prescott lijkt voor sommigen misschien een groot mysterie. Ik moet toegeven dat ook ik in eerste instantie enigszins overdonderd was door de FMB 2.0- en VRM-specificaties. FMB 2.0 staat voor Flexible Motherboard 2.0 en VRM voor Voltage Regulator Module.

Ieder Pentium 4 Socket 478-moederbord (van bekend merk) dat de 800MHz FSB Pentium 4 processors ondersteunt, zou moeten voldoen aan de FMB1- en VRM 10-specificaties, volgens dit Intel-document uit april 2003. Laten we ons dus concentreren op de FMB 1.5- en 2.0-specificaties. FMB 1.5 ondersteunt een Icc stroom van 91A, FMB 2.0-moederborden gaan zelfs tot 119A.
Hieronder een zo eenvoudig mogelijk gehouden samenvatting van de FMB-standaarden en de combinatie met Pentium 4:
- De Pentium 4 3,4GHz Northwood en de 3,4GHz Pentium 4 Extreme Edition werken op moederborden die voldoen aan de FMB 1.5- en VRM 10-specificaties voor Prescott-procesors. Echter, ook een ouder AOpen AX4C Max (FMB1) liet zien geen enkel probleem te hebben met een Pentium 4 EE 3,4GHz
- De huidige 3,0 en 2,8GHz Prescotts noemen een Icc max van 78A (TDP 89W) en zouden prima moeten werken op alle bestaande 800MHz FSB-plankjes
- De huidige 3,2 en 3,4GHz Prescotts vragen een Icc max van 91A (TDP 103W) en zullen alleen werken op de nieuwere FMB 1.5-moederborden
- Intel belooft echter dat in het derde kwartaal 3,2 en 3,4GHz Prescotts worden geleverd die ook op FMB 1.0-borden zullen werken
- De 3,6GHz Prescott vereist FMB 1.5-borden
- Prescotts in speedgrades boven de 3,8GHz zullen aan moederborden met een LGA775-socket voorbehouden zijn
MSI vertelde dat de 865PE Neo2-PS, 865PE Neo2-PFS, 865PE Neo2-PFISR, PT880 Neo-FISR, PT880 Neo-LSR en 865PE Neo2-PLS-moederborden allen Prescott 3,6GHz zullen ondersteunen. Alle andere borden, met uitzondering van die gebaseerd zijn op Intels 848- en VIA's PT800-chipsets, zullen Pentium 4 Prescott speedgrades tot en met 3,2GHz ondersteunen.
Meer informatie over Asus en Gigabyte kan nagelezen worden in dit artikel van HardOCP. Laten we nu eens kijken naar het opgenomen vermogen van de verschillende processors:
 |
 | Processor | MHz | Voltage | TDP | Max. power |  |
 |
 | Athlon 1400 (T-bird) |  | 1400 |  | 1,75V |  | 65W |  | 72W |  |
 |
 | Athlon XP 1700+ (Palomino) |  | 1467 |  | 1,75V |  | 57,4W |  | 64W |  |
 |
 | Athlon XP 2100+ (Palomino) |  | 1733 |  | 1,75V |  | 64,3W |  | 72W |  |
 |
 | Athlon XP 1700+(T-bred) |  | 1467 |  | 1,50V |  | 44,9W |  | 49,4W |  |
 |
 | Athlon XP 1800+ |  | 1533 |  | 1,50V |  | 46,3W |  | 59,2W |  |
 |
 | Athlon XP 1900+ |  | 1600 |  | 1,50V |  | 47,7W |  | 60,7W |  |
 |
 | Athlon XP 2000+ |  | 1667 |  | 1,60V |  | 54,7W |  | 60,3W |  |
 |
 | Athlon XP 2100+ |  | 1733 |  | 1,60V |  | 56,4W |  | 64,3W |  |
 |
 | Athlon XP 2200+ |  | 1800 |  | 1,65V |  | 61,7W |  | 67,9W |  |
 |
 | Athlon XP 2600+ |  | 2133 |  | 1,65V |  | 62W |  | 68,3W |  |
 |
 | Athlon XP 2800+ (T-bred) |  | 2250 |  | 1,65V |  | 64W |  | 74,3W |  |
 |
 | Athlon XP 2500+(Barton) |  | 1833 |  | 1,65V |  | 53,7W |  | 68,3W |  |
 |
 | Athlon XP 3000+ (Barton) |  | 2167 |  | 1,65V |  | 58,4W |  | 74,3W |  |
 |
 | Athlon 64 3200+ |  | 2000 |  | 1,5V |  | ~70W* |  | 89W |  |
 |
 | P4 2,0 GHz (0,18 micron) |  | 2000 |  | 1,7V |  | 72W |  | 92W |  |
 |
 | P4 2,0 GHz (0,13 micron) |  | 2000 |  | 1,5V |  | 52,4W |  | 66W |  |
 |
 | Pentium 4 2,2 GHz |  | 2200 |  | 1,5V |  | 55,1W |  | 70W |  |
 |
 | Pentium 4 2,8 GHz |  | 2800 |  | 1,525V |  | 68,4W |  | 85W |  |
 |
 | Pentium 4 3,06 GHz |  | 3060 |  | 1,55V |  | 81W |  | ~100W* |  |
 |
 | Pentium 4 3,2 GHz |  | 3200 |  | 1,55V |  | 82W |  | ~103W* |  |
 |
 | Pentium 4 3,2 GHz EE |  | 3200 |  | 1,55V |  | 81W |  | ~109W* |  |
 |
 | Pentium 4 3,2 GHz E |  | 3200 |  | 1,3-1,5V |  | 103W |  | ? |  |
 |
 | Pentium 4 3 GHz E |  | 3000 |  | 1,3V |  | 89W |  | ? |  |
 |
*Schatting
Ondanks een geavanceerd 0,09 micron-procédé kan de Prescott een koele omgeving gebruiken. Met een TDP van 103W is deze momenteel recordhouder. Toch kan de Prescott volgens Intel zelf volstaan met dezelfde standaard heatsinkfan als die al voor de Pentium 4 3,2GHz gebruikt werd. Het verschil in temperatuur tussen beide processors was echter niet gering. Na het afwerken van een vol belastende 3ds max-benchmark toonde het BIOS een CPU-temperatuur van 45-47 graden Celsius voor de 3,2GHz Northwood, tegen 64-66 graden voor de Prescott, met een open en bloot liggend moederbord in een lab van 18 graden Celsius.
Testconfiguratie
Benchmarks: geheugen, R, Plasma en Diep
Uit de ScienceMark benchmark blijkt dat, hoewel de toegangstijd naar het geheugen tussen de Prescott en Northwood nauwelijks verschilt, de geheugenbandbreedte een flink verschil laat zien. In SSE/MMX blockmodus is de Prescott een flink stuk sneller dan de Northwood. De Prescott behaalde hier een snelheid van 4460MB/s terwijl de Northwood hier slechts 3980MB/s haalde. Met eenvoudige gecompileerde code (wat het meest gebruikt wordt) haalde de Prescott echter een doorvoersnelheid van slechts 1950MB/s terwijl hier de Northwood het een stuk beter deed met 2200MB/s. Het kopieëren tussen ALU registers verliep op de Prescott ook iets sneller dan met de Northwood met 2311MB/s tegen 2272MB/s.
De conclusie die we hieruit kunnen trekken is dat de Prescott in staat is een hogere doorvoersnelheid te halen uit de dual-channel chipset zolang er gebruik wordt gemaakt van SSE-, SSE-2- of MMX-instructies.
'R' en statistische analyses
R is een taal en omgeving voor statistische berekeningen en visualisatie. Het is een GNU-project en is verglijkbaar met de 'S'-taal welke ontwikkeld is door John Chambers en zijn collega's bij Bell Laboratories (vroeger AT&T, nu Lucent Technologies). 'R' kan worden beschouwd als een andere implementatie van 'S'. Ondanks enkele verschillen werkt code die geschreven is voor 'S' zonder aanpassingen ook onder 'R'.
'R' levert een uitgebreide verzameling statistische (lineaire en non-lineaire modellering, klasieke statistische tests, time-series analyse, classification en clustering) en grafische technieken en is eenvoudig uit te breiden. 'S' is vaak de taal die gebruikt wordt voor onderzoek in statistische methodieken en 'R' biedt een open-source optie om dit eveneens te realiseren.
De MHD-code wordt in snelheid beperkt door de matrix-inversie. Het matrix bestaat uit 2,1 miljoen rijen en 2,1 miljoen kolommen waarbij voor de verschillende waarden een nauwkeurigheid van dubbele precisie is gebruikt. De matrix is erg 'sparse' gevuld (veel lege velden, red), in dit geval zijn 29 diagonallen niet-nul. De huidige oplossingsmethode die wordt gebruikt is een iteratief proces (bi-conjugate gradient solutions method) en maakt gebruik van 100 iteraties om de matrix op te lossen. Elke iteratie bestaat uit ongeveer vijf vermenigvuldigingen van het matrix. We zijn momenteel actief op zoek naar een betere oplossingsmethode voor zowel single- als parallelle toepassing.
De resultaten van deze benchmark hangen nauw samen met de geheugen-latency en in mindere maten met de geheugenbandbreedte en de FPU-prestaties van de processor.
 |
 | Plasma Fusion (seconden) |  |
 |
 | Athlon 64 FX-51 |  | 2,2GHz |  |   406 |  |
 |
 | Athlon 64 FX-51* |  | 2,2GHz |  |   424 |  |
 |
 | Athlon 64 3400+ |  | 2,2GHz |  |   486 |  |
 |
 | Pentium 4 'E' Prescott |  | 3,2GHz |  |   492 |  |
 |
 | Athlon 64 3200+ |  | 2,0GHz |  |   508 |  |
 |
 | Pentium 4 Extreme Edition |  | 3,2GHz |  |   540 |  |
 |
 | Pentium 4 'C' Northwood |  | 3,2GHz |  |   588 |  |
 |
 | Athlon XP 3200+ |  | 2,2GHz |  |   616 |  |
 |
(*) Pentium 4-geoptimaliseerde binary
Eindelijk is er snelheidsverbetering te zien ten gevolge van de vergrootte cache en extra geheugenbandbreedte. De Prescott is aanzienlijk sneller in de Plasma-benchmark en kan zich meten met de Athlon 64 3400+.
Schaakprogramma's: DiepOm de prestaties van de Prescott te testen hebben we ook het schaakprogramma DIEP gebruikt. Diep is een uitermate complexe en intensieve applicatie, maar in tegenstelling tot veel typische CPU-intensieve toepassingen maakt Diep voor 100% gebruik van integer-berekeningen.
Het programma is slechts 550KB groot en is flink verbeterd ten opzichte van voorgaande versies. Diep maakt nu gebruik van 350MB grote hash-tabellen in de gebruikte benchmark. De benchmarkt hangt voor een klein deel af van de geheugenprestaties, maar de grootste bottleneck blijft de pure rekenkracht van de processor. De resultaten van Diep zijn interessant omdat goede branch prediction erg belangrijk is voor de volgende generatie software gebaseerd op geavanceerde AI-algoritmes (neurale netwerken bijvoorbeeld).
Een schaakprogramma is een goede methode om de verbeteringen van de branch prediction unit (BPU) in de Athlon 64 te testen, aangezien het doorspekt is met een grote hoeveelheid conditionele expressies. De benchmark is tot 13-stappen diep uitgevoerd.
 |
 | Diep Chess (KiloNodes/s) |  |
 |
 | Athlon 64 FX-53 |  | 2,4GHz |  |   149 |  |
 |
 | Athlon 64 3400+ |  | 2,2GHz |  |   136 |  |
 |
 | Athlon 64 FX-51 |  | 2,2GHz |  |   134 |  |
 |
 | Pentium 4 Extreme Edition* |  | 3,4GHz |  |   129 |  |
 |
 | Athlon 64 3200+ |  | 2,0GHz |  |   124 |  |
 |
 | Pentium 4 'C' Northwood* |  | 3,2GHz |  |   123 |  |
 |
 | Pentium 4 Extreme Edition* |  | 3,2GHz |  |   123 |  |
 |
 | Athlon XP 3200+ |  | 2,2GHz |  |   112 |  |
 |
 | Pentium 4 'E' Prescott* |  | 3,2GHz |  |   103 |  |
 |
(*) Getest met twee threads
Het uitrekken van de pipeline naar 31 stages in de Prescott heeft nadelige gevolgen voor dit schaakprogramma en vergelijkbare AI-programma's. SPECint leerde ons dat de verbeteringen in de BPU van de Prescott resulteerden in een prestatieverbetering van vier procent. Dit blijkt nu onvoldoende om de impact van een foute branch prediction op te vangen. De Prescott is in deze benchmark 20% langzamer dan de Northwood.
ScienceMark 2.0, WME, 3ds max, en andere
Tim, Alex en Julian hebben ons werk als reviewer een stuk gemakkelijker gemaakt met de introductie van ScienceMark 2.0 ruim een jaar geleden. Tim Wilkens is nu werkzaam bij AMD, maar ScienceMark is puur zijn eigen hobby gebleven. Verder is ons opgevallen dat elke nieuwe versie betere SSE en SSE2-optimalisaties bevat (iets dat we ook bij veel commerciële software zien) en daarom hebben we geen enkele reden om aan te nemen dat ScienceMark partijdig is op wat voor manier dan ook.
We starten met de Primordia-test. Deze test doet het volgende aldus ScienceMark.org:
Deze code berekent de Quantum Mechanical Hartree-Fock Orbitals voor elk elektron van een element uit het periodiek systeem van de elementen. Informatie over het probleem dat opgelost moet worden om dit te berekenen kan
hier worden gevonden. Het programma bestaat uit een self-consistent loop. Bij elke stap worden de hartree, uitwisseling en de correlatie potentiëlen voor elke baan geëvalueerd. De gebruiker wordt de keus geboden welk algoritme gebruikt moet worden om deze potentialen te berekenen.
 |
 | ScienceMark 2.0 Primordia (seconden) |  |
 |
 | Athlon 64 FX-53 |  | 2,4GHz |  |   348 |  |
 |
 | Athlon 64 FX-51 |  | 2,2GHz |  |   384 |  |
 |
 | Pentium 4 Extreme Edition |  | 3,4GHz |  |   389 |  |
 |
 | Athlon 64 3400+ |  | 2,2GHz |  |   394 |  |
 |
 | Pentium 4 Extreme Edition |  | 3,2GHz |  |   410 |  |
 |
 | Athlon XP 3200+ |  | 2,2GHz |  |   416 |  |
 |
 | Pentium 4 'C' Northwood |  | 3,2GHz |  |   423 |  |
 |
 | Athlon 64 3200+ |  | 2,0GHz |  |   440 |  |
 |
 | Pentium 4 'E' Prescott |  | 3,2GHz |  |   490 |  |
 |
Wederom is de Prescott een teleurstelling met een performance die 15 procent lager is dan die van zijn oudere broer.
Het decoderen van berichten voor veilige e-commerce en andere applicaties is een bijzonder belangrijke business geworden. ScieneMark biedt de mogelijkheid om de snelheid te testen van een veelgebruikt decodeeralgoritme, te weten AES:
 |
 | ScienceMark 2.0 Cypher AES (seconden) |  |
 |
 | Athlon 64 FX-53 |  | 2,4GHz |  |   11,7 |  |
 |
 | Athlon 64 3400+ |  | 2,2GHz |  |   12,6 |  |
 |
 | Athlon 64 FX-51 |  | 2,2GHz |  |   13,1 |  |
 |
 | Pentium 4 'C' Northwood |  | 3,2GHz |  |   14 |  |
 |
 | Pentium 4 'E' Prescott |  | 3,2GHz |  |   14,5 |  |
 |
 | Athlon XP 3200+ |  | 2,2GHz |  |   14,7 |  |
 |
Dankzij betere optimalisaties in de laatste versie van ScienceMark weten de Pentium 4-cores erg dicht bij de prestaties van de Athlon 64 te komen en de Athlon XP wordt zelfs verslagen. In het verleden behaalden de Pentium 4-processors resultaten van circa 20 seconden. Desondanks staat de "E" van de Prescott niet echt voor "Enhanced" in deze test.
Windows Media EncoderWe hebben een MPEG2-film met een formaat van 160MB gecodeerd naar het Windows Media Streaming formaat (WMV) met behulp van two-pass codering:

 |
 | Windows Media Encoder 9.0 (seconden) |  |
 |
 | Athlon 64 3400+ |  | 2,2GHz |  |   591 |  |
 |
 | Athlon 64 3200+ |  | 2,0GHz |  |   646 |  |
 |
 | Pentium 4 'C' Northwood |  | 3,2GHz |  |   767 |  |
 |
 | Pentium 4 'E' Prescott |  | 3,2GHz |  |   859 |  |
 |
We zullen meer coderingstesten moeten doen om er absoluut zeker van te zijn, maar we waren redelijk verrast om te zien dat de Pentium 4-familie in WME 9.0 wordt verslagen door de Athlon 64 terwijl deze test geoptimaliseerd is voor SSE2. De Athlon 64-familie is echter ook in het bezit van SSE2-instructies en blijkbaar worden die beter benut door WME 9.0. De Prescott is in deze test 11 procent langzamer dan de vorige generatie 3,2GHz Pentium 4. We hebben gehoord dat SSE3-instructies de prestaties met 5 à 7 procent kunnen laten toenemen in het beste geval, maar zelfs hiermee blijven de prestaties van de Prescott teleurstellend.
3ds maxOm de prestaties van de processors te testen in 3ds max hebben we de Architecture scène van de SPECapc 3D Studio Max R4.2 gebruikt. Deze test heeft een bewegende camera die een complex gebouw laat zien, een virtuele rondleiding door een schaalmodel. Deze complexe scène heeft niet minder dan 600.000 polygonen en 7 lichten. Daarnaast zijn de raytracing en fog-opties aangezet. We hebben de tijd gemeten die het koste om frames 20 tot en met 22 te renderen op 500x300 in de virtuele framebuffer (het systeemgeheugen).
 |
 | 3ds max 5.1 Architecture (seconden) |  |
 |
 | Pentium 4 Extreme Edition |  | 3,2GHz |  |   273 |  |
 |
 | Pentium 4 'E' Prescott |  | 3,2GHz |  |   296 |  |
 |
 | Athlon 64 FX-51 |  | 2,2GHz |  |   309 |  |
 |
 | Pentium 4 'C' Northwood |  | 3,2GHz |  |   310 |  |
 |
 | Athlon 64 3400+ |  | 2,2GHz |  |   312 |  |
 |
 | Athlon 64 3200+ |  | 2,0GHz |  |   364 |  |
 |
 | Athlon XP 3200+ |  | 2,2GHz |  |   409 |  |
 |
3ds max heeft altijd al veel baat gehad van grote L2-caches. De overstap van de Willamette-core naar de Northwood-core was goed voor een prestatieverbetering van 60 procent. In deze test weet de Prescott eindelijk zijn oudere Northwood-broer te verslaan met een kleine marge.
Cinema4D: Cinebench 2003 (MP)De volgende benchmark is Cinebench 2003. Deze benchmark is gebaseerd op Maxon's Cinema4D modellering- en renderingpakket. Cinebench is multithreaded en kan daardoor gebruik maken van de HyperThreading-technologie van de Pentium 4.
 |
 | Cinebench 2003 |  |
 |
 | Pentium 4 Extreme Edition |  | 3,2GHz |  |   386 |  |
 |
 | Pentium 4 'C' Northwood |  | 3,2GHz |  |   380 |  |
 |
 | Pentium 4 'E' Prescott |  | 3,2GHz |  |   336 |  |
 |
 | Athlon 64 3400+ |  | 2,2GHz |  |   309 |  |
 |
 | Athlon 64 FX-51 |  | 2,2GHz |  |   305 |  |
 |
 | Athlon 64 3200+ |  | 2,0GHz |  |   284 |  |
 |
 | Athlon XP 3200+ |  | 2,2GHz |  |   265 |  |
 |
Cinebench is geoptimaliseerd voor de Pentium 4-architectuur die logischerwijs ook goede resultaten neerzet in deze test. Desondanks laat de Prescott ons in de steek met een prestatie die 12 procent lager is dan de gelijk geklokte Northwood
HT, Civilization III, Comanche 4 en BF 1942
We hebben het al uitgebreid gehad over de verschillende features, die Prescott een betere CPU met hyperthreading maken dan de Northwood, maar kan deze theorie ook worden hardgemaakt met benchmarkresultaten. We hebben besloten een test te doen met en zonder hyperthreading ingeschakeld. We hebben hetzelfde ook met Halo geprobeerd aangezien Halo geoptimaliseerd is voor hyperthreading. Er was echter geen verschil tussen de resultaten met hypertreading in- en uitgeschakeld.
 |
 | Benchmark | P4 'C' HT off | P4 'C' HT on | P4 'E' HT off | P4 'E' HT on | Verbetering HT 'Northwood' | Verbetering HT 'Prescott' |  |
 |
 | 3DS Max 5.1 |  | 361s |  | 310s |  | 364s |  | 296s |  | 16,5% sneller |  | 23,0% sneller |  |
 |
 | Cinebench 2003 |  | 323 |  | 380 |  | 281 |  | 336 |  | 17,6% sneller |  | 19,5% sneller |  |
 |
 | Diep |  | 101 |  | 123 |  | 83 |  | 103 |  | 21,8% sneller |  | 24,1% sneller |  |
 |
Alhoewel de verschillen niet spectaculair zijn, kunnen we toch zien dat Prescott's hyperthreading verbeteringen de prestaties ten goede zijn gekomen.
Civilization III v1.29F
Civilization is een klassieker: een legendarisch spel. Het is ons opgevallen dat de AI van de computertegenstanders in veel situaties een groot deel van de tijd aan het denken is tussen elke beurt. Zoals je hieronder kan zien kan deze denktijd oplopen tot 23 seconden op een snelle CPU. Je kunt je dus wel indenken dat dit een behoorlijke invloed op de gaming experience kan hebben wanneer je honderd beurten speelt.
'Fuego' stuurde ons een redelijke grote en complexe Civ III map. We hebben ervoor gezorgd dat er geen bewegingen werden getoond na het drukken op de 'next turn' knop, zodat alleen de AI-tijd is opgenomen en niet de tijd voor het animeren van bewegende units. Het scherm bleef op de plaats waar het was. We hebben vervolgens de tijd gemeten wanneer de zandloper zichtbaar was, de tijd dat het spel dus niet reageerde. Deze tijd bleek redelijk consistent te zijn, zolang we het spel maar opnieuw startten na elke benchmark.
 |
 | Civilization III (seconden) |  |
 |
 | Pentium 4 Extreme Edition |  | 3,2GHz |  |   15,8 |  |
 |
 | Athlon 64 FX-51 |  | 2,2GHz |  |   16,7 |  |
 |
 | Athlon 64 3400+ |  | 2,2GHz |  |   17,0 |  |
 |
 | Pentium 4 'E' Prescott |  | 3,2GHz |  |   17,9 |  |
 |
 | Athlon 64 3200+ |  | 2,0GHz |  |   18,7 |  |
 |
 | Pentium 4 'C' Northwood |  | 3,2GHz |  |   18,7 |  |
 |
 | Athlon XP 3200+ |  | 2,2GHz |  |   21,6 |  |
 |
In Civilization III speelde de videokaart geen belangrijke rol. Daarom hebben we besloten de resultaten van eerdere Pentium 4 EE benchmarks in de tabel op te nemen.
We waren redelijk verrast dat de Prescott als snelste uit de bus kwam. De score van de Pentium 4 EE leert ons dat de L2-cache zeker een grote hulp is. Prescott is ongeveer 4% sneller dan Northwood.
Comanche 4
De Comanche 4 benchmark, de militaire helicopter simulator, is een van de eenvoudigste en meest consistente benchmarks. We blijven hem in ons testbed houden om zodoende een vergelijking met eerdere reviews mogelijk te maken.
 |
 | Commanche 4 (800x600x32, fps) |  |
 |
 | Athlon 64 FX-51 |  | 2,2GHz |  |   71,5 |  |
 |
 | Athlon 64 3400+ |  | 2,2GHz |  |   69,7 |  |
 |
 | Athlon 64 3200+ |  | 2,0GHz |  |   64,2 |  |
 |
 | Pentium 4 'C' Northwood |  | 3,2GHz |  |   63,5 |  |
 |
 | Pentium 4 'E' Prescott |  | 3,2GHz |  |   57,1 |  |
 |
 | Athlon XP 3200+ |  | 2,2GHz |  |   53,5 |  |
 |
De Prescott stelt ons wederom teleur met framerates die 11% lager liggen.
Battlefield 1942 - Secret Weapons
Onze Battlefield 1942 benchmark hebben we bijgewerkt van versie 1.03 naar 1.45. Deze update komt met de add-on 'Secret Weapons'. Onze nieuwe testscene is "Eagle's nest", welke een aantal SturmTigers vechtend in besneeuwde heuvels weergeeft. De AI neemt standaard ongeveer 20% van de CPU-kracht in beslag. Dit percentage hebben we handmatig verhoogd naar het maximum van 25%.

Schaduwen worden door de videokaart berekent. Indien er een DirectX 8 compliant videokaart aanwezig is worden de berekeningen van hardware skinning op geanimeerde mazen overgenomen. We hebben onze benchmarks met FRAPS een aantal keer herhaald om er zo zeker van te zijn dat we een goed resultaat zouden krijgen. Helaas heeft deze benchmark redelijk wat pogingen nodig voordat het resultaat consistent wordt. De behaalde testresultaten zijn niet erg accuraat. De foutmarge tussen herhaalde test is behoorlijk hoog (5%). De enige reden dat we deze benchmark nog gebruiken is om een ruige impressie te krijgen van hoe de processoren onderling in het spel presteren.
 |
 | Battlefield 1942 (1024x768x32, fps) |  |
 |
 | Pentium 4 'E' Prescott |  | 3,2GHz |  |   97,1 |  |
 |
 | Athlon 64 FX-51 |  | 2,2GHz |  |   92,5 |  |
 |
 | Athlon 64 3400+ |  | 2,2GHz |  |   89,0 |  |
 |
 | Pentium 4 'C' Northwood |  | 3,2GHz |  |   88,1 |  |
 |
 | Athlon 64 3200+ |  | 2,0GHz |  |   87,5 |  |
 |
 | Athlon XP 2100+ |  | 1,73GHz |  |   43,5 |  |
 |
BF1942 is dan wel niet de meest accurate benchmark,maar het verschil tussen de P4 'E' en 'C' is groot genoeg om te concluderen dat Prescott ongeveer 10% sneller is.
X2, Wolfenstein, Halo, AA en Blitzkrieg
X² - The Threat
X² is een prachtige ruimtesimulatie met de volgende features:
X² bestaat uit een compleet herschreven 3D engine gebaseerd op DirectX 8. Aanwezig zijn een grote hoeveelheid visual effects zoals nevels met volume (gas wolken) die ook daadwerkelijk invloed hebben in het spel (het is mogelijk om jezelf er in te verbergen). Verder zijn er een groot aantal nieuwe engine, shield, wapen en explosie-effecten. Objecten hebben dynamische 3D schaduwen en dynamische DP3 bump mapping zorgt voor een niet eerder vertoond niveau van detail.
X² is uitgerust met een ingebouwde benchmarkfunctionaliteit. De benchmark is
hier te downloaden. Om je eigen resultaten te kunnen vergelijken met die van ons is het nodig om "shadows" en "run as benchmark" aan te zetten alvorens de demo op te starten.

 |
 | X² - The Threat (1024x768x32, shadows, fps) |  |
 |
 | Athlon 64 3400+ |  | 2,2GHz |  |   76,0 |  |
 |
 | Athlon 64 FX-51 |  | 2,2GHz |  |   75,7 |  |
 |
 | Pentium 4 'E' Prescott |  | 3,2GHz |  |   75,1 |  |
 |
 | Athlon 64 3200+ |  | 2,0GHz |  |   74,6 |  |
 |
 | Pentium 4 'C' Northwood |  | 3,2GHz |  |   72,0 |  |
 |
De Prescott weet de Northwood in deze benchmark te verslaan met een kleine marge.
Wolfenstein: Enemy TerritoryAce's Hardware-veteraan en hardcore online gamer Hawski, alias Uffe Merrild, benaderde ons met twee erg interessante Enemy Territory benchmarks. Wolfenstein ET is een ongelofelijk popupaire online multiplayer first person shooter, waarbij je als speler de rol hebt van een assault trooper, genie-soldaat of hospik in de tweede wereldoorlog.

 |
 | Wolfenstein: ET (1024x768x32, Demo 'Ace Hawski', fps) |  |
 |
 | Athlon 64 FX-51 |  | 2,2GHz |  |   85,4 |  |
 |
 | Athlon 64 3400+ |  | 2,2GHz |  |   81,7 |  |
 |
 | Pentium 4 'C' Northwood |  | 3,2GHz |  |   78,2 |  |
 |
 | Pentium 4 'E' Prescott |  | 3,2GHz |  |   76,1 |  |
 |
 | Athlon 64 3200+ |  | 2,0GHz |  |   76,0 |  |
 |
 | Athlon XP 3200+ |  | 2,2GHz |  |   69,9 |  |
 |
De Northwood en de Prescott presteren vergelijkbaar in deze benchmark.
Halo 1.03Halo werd geport vanaf de Microsoft Xbox-console en toont de speler verbazingwekkend mooie effecten en omgevingen. Het spel laat zich daardoor wel met moeite vooruit slepen als je geen snelle pc hebt. Halo ondersteunt de nieuwste 2.0 shaders uit DirectX 9.0 en behoort daarmee tot het zeer exclusief groepje games dat de mogelijkheden van DirectX 9.0 optimaal benut.
 |
 | Halo 1.03 (1024x768x32, fps) |  |
 |
 | Athlon 64 3400+ |  | 2,2GHz |  |   50,9 |  |
 |
 | Athlon 64 FX-51 |  | 2,2GHz |  |   50,4 |  |
 |
 | Pentium 4 'C' Northwood |  | 3,2GHz |  |   48,8 |  |
 |
 | Athlon XP 3200+ |  | 2,2GHz |  |   47,1 |  |
 |
 | Pentium 4 'E' Prescott |  | 3,2GHz |  |   46,4 |  |
 |
Deze benchmark laat wederom belabberde prestaties zien van de Prescott-core.
America's ArmyAmerica's Army is een gratis verkrijgbare en populaire first person shooter gebaseerd op de Unreal engine.

We hebben dit spel getest met een demo die Paul Flynn voor ons heeft opgenomen terwijl hij online aan het spelen was, waarvoor onze dank.
 |
 | America's Army (800x600x32, fps) |  |
 |
 | Athlon 64 3400+ |  | 2,2GHz |  |   42,1 |  |
 |
 | Pentium 4 'E' Prescott |  | 3,2GHz |  |   41,5 |  |
 |
 | Athlon XP 3200+ |  | 2,2GHz |  |   39,8 |  |
 |
 | Pentium 4 'C' Northwood |  | 3,2GHz |  |   36,8 |  |
 |
De Prescott doet het in deze benchmark redelijk goed.
BlitzkriegBlitzkrieg is één van de vele klonen van Command & Conquer en Age of Empire. Er is geen micromanagement en het neerzetten van gebouwen behoort ook niet tot de taken van de speler, waardoor een verfrissend spel is ontstaan in het Real Time Strategy-genre. Een superieure tactische strategie is in dit spel niet langer kansloos tegen spelers die zeer gedreven zijn in het klikken met de muis en simpelweg een zeer groot aantal units bouwen waarmee vervolgens elke tegenstander genadeloos van het slagveld wordt geveegd. Om een lang verhaal kort te maken: een leuk spel. We hebben een korte benchmark-sessie met dit spel uitgevoerd waarin een intensieve strijd werd gestreden met de inzet van artillerie, vliegtuigen, tanks en grondtroepen. De grafische details werden ingesteld op het hoogste niveau.

 |
 | Blitzkrieg (fps) |  |
 |
 | Athlon 64 3400+ |  | 2,2GHz |  |   91,5 |  |
 |
 | Athlon XP 3200+ |  | 2,2GHz |  |   85,0 |  |
 |
 | Pentium 4 'C' Northwood |  | 3,2GHz |  |   63,6 |  |
 |
 | Pentium 4 'E' Prescott |  | 3,2GHz |  |   61,7 |  |
 |
 | Athlon XP 2100+ |  | 1,73GHz |  |   43,5 |  |
 |
Wanneer je een gameplay wilt hebben die "Blitz" is, is er geen ander optie dan de Athlon 64.
Conclusie
De Pentium 4 E 3,2GHz Prescott wist alleen in Battlefield 1942 alle andere geteste processors duidelijk te verslaan, zowel die uit eigen huis als de aanwezige AMD Athlon XP/64/64 FX-modellen. In de overige benchmarks zijn de prestaties van de nieuweling niet slecht en vergelijkbaar met de 3,2GHz Northwood en Athlon 64 3200+. Ten opzichte van die twee boekt de Prescott winst in de spellen America's Army, Battlefield 1942, Civilization III en X2. Van de applicaties laten 3ds max en Plasma vooruitgang zien:
 |
 | Game benchmark | P4 3,2GHz 'E' versus P4 3,2GHz 'C' |  |
 |
 | America's Army |  | 13% sneller |  |
 |
 | Battlefield 1942 1.45 |  | 10% sneller |  |
 |
 | Blitzkrieg |  | 3% trager |  |
 |
 | Commanche 4 |  | 11% trager |  |
 |
 | Civilization III |  | 4% sneller |  |
 |
 | Halo 1.03 |  | 5% trager |  |
 |
 | Wolfenstein: Enemy Territory |  | 3% trager |  |
 |
 | X² - The Threat |  | 4% sneller |  |
 |
 |
 | Applicatie benchmark | P4 3,2GHz 'E' versus P4 3,2GHz 'C' |  |
 |
 | 3DS Max 5.1 |  | 5% sneller |  |
 |
 | Cinebench 2003 |  | 11% trager |  |
 |
 | Diep Chess |  | 20% trager |  |
 |
 | WME 9.0 encoding |  | 11% trager |  |
 |
 | R Statische analyses |  | 11% trager |  |
 |
 | Plasma |  | 17% sneller |  |
 |
Op dit moment lijkt er geen dringende noodzaak om op de Prescott over te stappen; de prestaties in games zijn weliswaar goed, maar in diverse applicaties wordt er vooralsnog aan kracht ingeleverd. Daarbij komt de constatering dat de Prescott snel een stuk warmer wordt dan Northwood en een goed geventileerde kast nodig heeft. De Athlon 3200+ is niet altijd een duidelijke winnaar in games, vergeleken met de Precott 3,2GHz, maar een Athlon 3400+ zou minder moeite moeten hebben een 3,4GHz Prescott te verslaan in de meeste gevallen. Prescott zal snel in kloksnelheid omhoog moeten gaan om de sterk doorschalende en minder warmte verstokende Athlon 64 voorbij te kunnen streven.
De vraag die alsmaar naar boven kwam drijven was "waarom hebben we geen verbeterde Northwood core zien verschijnen?" Veel van de op zichzelf interessante tweaks die we in de Prescott tegenkomen hebben geen belang bij de tien extra pipeline stages. SSE3, een betere branch prediction, een grotere L2-cache, allen zouden ze het ook zonder een dergelijke verlenging van de pipeline kunnen hebben stellen. Op dit moment lijkt een logische verklaring te zijn dat Intels productiemensen nog wat tijd nodig hebben om de vermogenshonger van Prescott aan banden te leggen. Als dat eenmaal gelukt is zou de Prescott richting 5GHz door kunnen schalen, terwijl Northwood dan op lagere kloksnelheden zijn werk kan doen. Ook zou het kunnen zijn dat Prescott vooral een praktijkoefening is voor Intel, teneinde met de opgedane ervaring opvolger Tejas tot een succes te kunnen maken (en daarin nu nog uitgeschakelde features in te schakelen bijvoorbeeld - red).
Hoe het ook zij, de gedachte dat Northwood het beter had kunnen doen dan Prescott is moeilijk opzij te zetten, zelfs als deze dan iets lagere kloksnelheden zou behalen. De huidige vermogensopname lijkt eerder hogere kloksnelheden te hinderen, dan de lengte van pipelines. Dat doet echter een volgende vraag rijzen: Als Intels Heilige Graal torenhoge kloksnelheden bevat, zou Intel dan misschien nu al weten dat toekomstige 'killer applicaties' niet branch-intensief zullen zijn? Zullen veel van de huidige AI-algorithmen (branch-intensief) worden vervangen door neurale netwerken (FPU-intensief, minder branches)?
Of gaan Dynamic Multi-Threading en Pre-execution, die naar gefluisterd wordt onderdeel uit gaan maken van Tejas, de effecten van branches aanpakken en vooruitgeschoven latenties opslaan? Het is duidelijk dat de Pentium 4 EE en 3,4GHz Pentium 4 Northwood Intels processors voor 'nu' zijn en Prescott en Tejas veel meer een toekomstvisie vertegenwoordigen. Natuurlijk zal dat Intel er niet van weerhouden om miljoenen Prescotts te gaan verkopen, aan mensen die het verschil niet kennen tussen een 'C' en een 'E'.