Door Johan de Gelas

Intel Pentium 4 E 'Prescott' review

02-02-2004 • 17:47

31

Multipage-opmaak

Introductie

Intel Pentium 4 aankondigingspicjeIntel heeft vandaag de Pentium 4 E 'Prescott' geïntroduceerd. Prescott bouwt verder op de basis van Northwood, maar heeft 512KB extra L2-cache (1MB totaal), een twee keer zo grote L1-cache (16KB), SSE3-instructies, verbeterde branch prediction en tientallen andere kleine tweaks. Ook heeft men een offer gemaakt om later hogere kloksnelheden te kunnen bereiken: de lengte van de pipeline na de trace cache is vergroot van 21 naar 31 stappen. Het klokdistributienetwerk van Prescott is enorm verbeterd ten opzichte van Northwood om snelheden tot en met 5GHz mogelijk te maken. Dat de rest van de architectuur hiervoor ook aangepast moest worden is duidelijk. De keerzijde van de medaille bij het verlengen van de pipeline is echter dat branch mispredictions en instructies die van elkaar afhankelijk zijn gestraft worden met hogere latencies.

Pentium 4 E Prescott (duo)

In deze review zullen we proberen om zoveel mogelijk verschillende soorten software te benchmarken, maar gaan we ons ook richten op de architectuur van de nieuwe getweakte Pentium 4 E, zodat iedereen zelf zijn mening kan vormen over Prescott. Simpelweg naar de benchmarks kijken geeft namelijk een vertekend beeld: een CPU die is ontworpen om 4 tot 5GHz te halen kan niet beoordeeld worden door naar de resultaten van het eerste lid in de nieuwe familie te kijken. Northwood was ook niet echt indrukwekkend bij zijn introductie op 2GHz; de Athlon XP 2000+ wist hem in een behoorlijk groot aantal benchmarks te verslaan. Het duurde echter meer dan zes maanden voor AMD een antwoord had op de Pentium 4 3,06GHz met HyperThreading, die in november 2002 op de markt werd gezet.

We proberen ons altijd op software te richten waarin CPU-kracht duidelijk te merken is. Naast het standaard Sciencemark en Plasma Scientific hebben we in deze review "R" getest, een wetenschappelijke taal voor statistische analyses. Een andere nieuwe benchmark is het encoden van een MPEG2-file naar streaming media (WMV-formaat). De laatste toevoeging aan de standaard testsuite is America's Army, een populaire 3d-shooter gebaseerd op de Unreal-engine. Eerst gaan we echter een blik werpen op de nieuwe architectuur van de Pentium 4 E en beantwoorden we de vraag of upgraden van Northwood naar Prescott mogelijk is.

Prescott-specificaties

Hieronder een tabel waarin de specificaties van de nieuwe Prescott en een aantal andere leden van de Pentium 4-familie zijn terug te vinden, naast die van de bekende AMD-modellen:

FeaturesAthlon 64 FXAthlon 64Pentium 4 CPentium 4 EPentium 4 EEXP 3200+
Kloksnelheid2,2-2,4GHz2-2,2GHz2,4-3,4GHz2,8-3,4GHz3,2-3,4GHz2,2GHz
Procédé (µ)0,13 SOI0,13 SOI0,13 Cu0,09 Cu0,13 Cu0,13 Cu
Transistors105,9 M105,9 M55 M125 M168 M37,5 M
Spanning1,55 V1,55 V1,5 - 1,55 V1,3 - 1,5 V1,55 V1,65 V
Grootte core193mm²193mm²131mm²112mm²>200mm²101mm²
Pipeline (integer / FP)12 / 17 stappen12 / 17 stappen21 stappen31 stappen21 stappen10 / 15 stappen
AdresruimteAthlon 64 FXAthlon 64Pentium 4 CPentium 4 EPentium 4 EEXP 3200+
Fysiek1TB flat (40 bit)1TB flat (40 bit)64GB PSE (36 bit)64GB PSE (36 bit)64GB PSE (36 bit)4GB
Virtueel256TB (48 bit)256TB (48 bit)4GB4GB4GB4GB
SIMD3DNow! / SSE / SSE23DNow! / SSE / SSE2SSE / SSE2SSE / SSE2 / SSE3SSE / SSE23DNow! / SSE
CacheAthlon 64 FXAthlon 64Pentium 4 CPentium 4 EPentium 4 EEXP 3200+
L1-cache (data / instr.)64KB / 64KB64KB / 64KB8KB / 8-16KB **16KB / 8-16 KB **8KB / 8-16KB **64KB / 64KB
L1-latency332223
L2-cache1024KB1024KB512KB1024KB512KB512KB
L2-breedte128 bit128 bit256 bit256 bit256 bit64 bit
L2-latency16169 ~ 209 ~ 20 ***9 ~ 2011 ~ 20 *
L3-cache----2MB-
GeheugenAthlon 64 FXAthlon 64Pentium 4 CPentium 4 EPentium 4 EEXP 3200+
Configuratie2x DDR400DDR4002x DDR4002x DDR4002x DDR400DDR400
Bandbreedte6,4GB/s3,2GB/s6,4GB/s6,4GB/s6,4GB/s3,2GB/s

** 12.000 micro-ops, vergelijkbaar met 8KB L1-cache als er veel complexe instructies worden uitgevoerd, maar bij simpele instructies komt het meer overheen met 16KB.

*** Niet gemeten.

De grote verrassing hier is dat Intel het deel van de pipeline achter de trace cache met nog eens tien stappen heeft verlengd. Als het aantal stappen voor de trace cache gelijk is gebleven, dan kent Prescott in totaal ongeveer 39 stappen. Hoewel de eerste 8 stappen slechts decodeerwerk doen en dus - in de meeste gevallen - geen effect hebben op de branch mispredection penalty, geeft dit een goed idee van in hoeverre de architectuur is ontworpen voor hogere kloksnelheid. De Athlon 64 kent maar 12 stappen, inclusief decoding. We hebben nu een betere schatting van hoe groot de trace cache is ten opzichte van een normale L1 I-cache. Intel schat dat het tussen de 8 en 16KB ligt. Nu de L1 D-cache is verdubbeld naar 16KB heeft de Pentium 4 een even grootte L1-cache aan boord als de oudere Pentium III. De cache is tevens een cycle sneller. Ook opmerkelijk is de grootte van de Prescott-core: slechts 112mm² met 125 miljoen transistors. Als AMD in de herfst overstapt op 0,09 micron zal de Athlon 64 ongeveer 120mm² worden.

* 125 miljoen transistors?

Het aantal transistors van Prescott was voor veel mensen verbazend groot. Laten we eens berekenen hoeveel transistors 512KB extra L2-cache kost:

512 * 1024 (kilobyte) * 8 (bits) * 6 (aantal transistors in één SRAM-cel) = 25,2 miljoen

Wanneer we dat optellen bij het aantal transistors van Northwood (55 miljoen) komen we uit op ongeveer 80 miljoen transistors. Tellen we er nog een miljoen bij voor het grotere L1-cache en een paar grotere buffers, dan komen we nog lang niet aan het enorme aantal van 125 miljoen. Markus Weingartner van Intel licht toe:

"Een groot aantal transistors is bestemd voor de 'Full Scan'-technologie. Dat is een debugging technologie die het voor ons mogelijk maakt de CPU te debuggen tot op de kleinste functionele onderdelen. Ook moet je bedenken dat er nieuwe instructies zijn toegevoegd aan de Prescott, niet alleen maar cache."

Zelfs met deze uitleg van Intel in het achterhoofd is het echter duidelijk dat Prescott een aantal features bevat die op dit moment nog simpelweg uitgeschakeld zijn. De meest waarschijnlijke kandidaten zijn een 64-bits uitbreiding op x86 en ondersteuning voor Dynamic Multi Threading met speculative pre-execution. De Prescott-core zoals die er nu ligt is in feite echter nog gewoon een Northwood, met verbeteringen voor vier specificieke doeleinden:

  • Hogere kloksnelheden mogelijk maken

  • Negatieve invloed van de lange pipeline verminderen

  • Performance van HyperThreading verbeteren

  • IPC (Instructions Per Clockcycle) verhogen

De eerste doelstelling is bereikt door het verbeterde klokdistributienetwerk, die vier keer zo goed is in vergelijking tot Northwood, en het laten ontwerpen van functionele blokken door computers, speciaal gericht op beter opschalen.

Architecturale verbeteringen

Netburst / Prescott review

Laten we gaan kijken naar de verschillende verbeteringen in de architectuur. In de bovenstaande afbeelding staan de verschillende onderdelen van de Netburst-architectuur weergegeven welke zijn verbeterd in Prescott.

* Vermindering van de invloed van een diepe pipeline

Door alle heisa rondom het verkeerd voorspellen van branches wordt er vaak vergeten dat er nog andere problemen zijn die CPU's met een diepe pipeline teisteren naast de misvoorspellingen. Onder andere de vele algoritmes waar een berekening een resultaat van een vorige operatie nodig heeft lijdt onder een lange pipeline. In andere woorden: een load-operation kan niet plaatsvinden voordat een andere store-operation is uitgevoerd. Alhoewel instructies soms in een andere volgorde kunnen worden uitgevoerd, vereist de x86-architectuur dat store-operations in de geprogrammeerde volgorde moeten worden uitgevoerd.

Hierdoor is het mogelijk dat de vertraging tussen een store-operation met geldige data en het daadwerkelijk opslaan van deze data in de cache aan de hoge kant is vanwege de lange pipeline. In de gevallen waar een load-operation moet wachten op de data van een eerder uitgevoerde store-operation, kunnen de prestaties behoorlijk afnemen. Grotere caches bieden hier echter geen oplossing. Elke keer dat een instructie het resultaat van een eerdere instructie nodig heeft kan er een probleem ontstaan door de lange pipeline. Moderne processoren proberen de invloed hiervan te verminderen middels Store-to-Load Forwarding. Hiermee is het voor een load-operation mogelijk om de data van een store-operation te verkrijgen nog voordat de data in de L1 cache is geschreven. Prescott's Store-to-Load Forwarding mechanisme is flexibeler en verwerkt de store-forward operaties beter dan Northwood.

Om het verkeerd voorspellen van branches tegen te gaan heeft Intel zowel het statische als het dynamische (beslissingen gebaseerd op eerdere voorspellingen) branch prediction verbeterd. De eerste verbetering houdt verband met het simpele statische voorspellingsschema, dat wordt gebruikt indien de Branch Target Buffer (BTB) geen voorspelling heeft voor een bepaalde conditionele branch. De statische BPU die gebruikt wordt in Northwood voorspelde dat de branch werd gevold indien de richting van de branch achteruit was. Indien de branch vooruit sprong werd deze niet genomen, wat het geval is in de meeste loops. Over het algemeen hebben loops het volgende gedrag: 'herhaal deze loop een aantal keer, totdat een bepaalde waarde gelijk is aan ...'

Branches in achterwaardse richting zijn echter niet altijd loop-ending branches. Prescott's BPU kijkt echter ook naar de 'afstand' tussen een branch en de voorwaarde waarvan de branch afhankelijk is. Daarnaast wordt er ook gekeken naar het type van de voorwaarde, aangezien onderzoek door Intel heeft uitgewezen dat bepaalde type voorwaardes vaker niet werden genomen en dat de afstand tussen een achterwaardse branche en zijn doel kan aangeven of de branch een loop-ending branch is. Je zou kunnen zeggen dat Prescott's statische BPU een stuk slimmer is geworden.

Intel heeft daarnaast ook nog een 'indirect branch predictor' toegevoegd, welke de dynamische branch prediction ondersteund. Helaas is ons niet bekend wat deze BPU doet. Het idee van deze indirecte BPU kwam van het PIII-M team, welke het met succes op de PIII-M (Centrino) hebben geïmplementeerd.

De resultaten hiervan zijn indrukwekkend. Vergeleken met Northwood is Prescott's BPU niet alleen 4% beter in Crafty (het schaakprogramma in Spec Int), maar ook tot 18% sneller in de compiling (gcc) en parsing (parser) tests van SpecInt_2000. Onze eerste berekeningen op een complete run van SpecInt2000 (Data: Intel) laten 9% minder verkeerde voorspellingen zien, aangezien het aantal verkeerd voorspelde branches daalde van 0.88 naar 0.8 per honderd instructies. Als we aannemen dat de code van SpecInt_2000 voor ongeveer 18% uit branches bestaat betekent dit dat de branch-voorspellingen ongeveer 95,6% van de tijd correct zijn in plaats van 95% en 4% fout in plaats van 4,4%.

Verbeterde Hyper-Threading

Natuurlijk helpt de verdubbeling van L2-cache en de L1-datacache al de prestaties van Hyper-Threading te vergroten. Terwijl de meeste wijzigingen in de architectuur nauwelijks de prestaties in enkelvoudige threads doen toenemen, zijn deze belangrijk bij het verwerken van twee threads door de twee logische processors van Prescott:

  • 64K adress aliasing is geen probleem meer; deze is opgeschroefd naar 4M aliasing, waarvan het zeer onwaarschijnlijk is dat het voor zal komen (meer precisie in een gedeeltelijke adress match)
  • Het aantal Store Buffers is verhoogd van 24 naar 32
  • Load Request Bufffers van 4 naar 8
  • En het aantal Write Combining Buffers van 6 naar 8
  • De Floiting point schedulers (x87/SSE/SSE2/SSE3) hebben 4 extra entries gekregen in de queue om meer parallelliteit te vinden
  • Additionele WC Buffers. In plaats van kleine pakettjes data te versturen richting AGP-videokaart, worden deze pakketjes eerst opgeslagen in Buffers om vervolgens in een grote lading verstuurd te worden (burst). Dit benut de bandbreedte beter, omdat er relatief minder bandbreedte verspild wordt aan overhead bij een grote burst dan bij het vele malen versturen van een kleine zending.

Bij Northwood konden 24 stores simultaan gebruikt worden, wat meer dan voldoende is voor een enkelvoudige thread. Hetzelfde geldt voor de 6 write-combining buffers die gebruikt worden om stromen van stores te traceren. Beide zijn vergroot om er voor te zorgen dat stores simultaan en snel kunnen plaatsvinden bij twee threads. De toename van load request buffers van 4 naar 8 maakt dat iedere thread 4 unieke loads kan hebben uitstaan die de L1-datacache hebben gemist en hersteld kunnen worden.

* 'Hyperthreaded Traction Control'

En last but not least twee nieuwe instructies: toegevoegd zijn Monitor en mWait. Deze zijn vrij interessant, omdat ze prestaties niet zozeer verbeteren, maar wel het energieverbruik aardig reduceren bij meer dan een thread.

Als een thread een lock nodig heeft (zie voor een diepgaande uitleg dit artikel), met andere woorden een deel data voor zichzelf, kan het vrij of in gebruik zijn. Als het vrij is wordt de lock genomen en continueert de thread zonder onderbreking. Als deze echter niet vrij is, moet de thread wachten tot de het benodigde deel beschikbaar is. Er zijn twee manieren waarop de logische processor dit kan doen:

  • De thread stopzetten en het besturingsysteem gebruiken om de thread te herstarten zodra de lock vrijkomt.
  • Of de thread in een loop laten draaien waarin deze voortdurend controleert of de lock beschikbaar is gekomen. Dat noemen we een spin lock.

Zoals een burn-out van banden door een auto die op de rem staat veel energie verbruikt, zo verspilt een spin lock veel processorvermogen; dit is waarschijnlijk de hoofdreden waarom Intel de lock-optimalisatie Monitor en mWait aan de Pentium 4 heeft toegevoegd.

In tegenstelling tot wat ik eerder schreef, hoeft software niet te worden gerecompiled voordat we prestatieverbeteringen kunnen gaan zien.

Rick Brewster:

"Windows (of Linux en anderen) kan gepatched worden om hier gebruik van te kunnen maken, waardoor alle software er van profiteren zou, omdat deze synchronisatie objecten veel gebruikt worden in het hele systeem (zowel in OS als software). Ik weet niet wat de mogelijke prestatiewinst zou zijn, omdat er nog steeds een hoop user-to-kernel mode schakeling (en omgekeerd) plaats zal vinden. Het zou een verbetering van de latency met zich mee kunnen brengen."

Aaron Spink:

"Het hoofddoel van dit soort instructies is waarschijnlijk vergelijkbaar met de Arm- en Quesce-instructies, zoals die in de Alpha overwogen werden. In een multi-threaded omgeving wil je normaliter geen spin locks gebruiken omdat die executie resources opsouperen en het verbruik verhogen. In Alpha zou je de Arm-instructie uitvoeren die een adress locatie omvat die je wilt zien. De Quesce instructie vertelt dan de thread te pauzeren totdat Arm inschakelt. Dit maakt het voor de instructie fetcher mogelijk om de executie effectiever stil te zetten zodat resources worden vrijgemaakt voor andere threads.

De instructies zijn verdienstelijk wanneer ze in het OS aanwezig zijn. Ze zijn makkelijk toe te voegen omdat het effectief NOP-instructies zijn. Ze kunnen ook in door gebruikers geschreven code nuttig zijn en ook dan makkelijk worden toegevoegd om de eerder genoemde reden."

In feite kunnen dankzij de toevoeging van de instructies Monitor en mWait door een eenvoudige patch van het besturingsysteem zowel het energieverbruik worden verminderd als de prestaties licht worden verbeterd in multi-threaded applicaties."

* Algemene IPC-verbeteringen

Maar er is meer. Er zijn ook nog andere tweaks die over die de IPC van Prescott over het algemeen verbeteren:

  • Verbeterde Imul latency: Northwood/Willamette doen hun integer vermenigvuldigingen op de FPU en de grote latency ontstaat doordat data tussen integer en FP datapaths gestuurd worden. Prescott heeft een dedicated integer multiplier.
  • Prescott New Instructions (SSE3)
  • Meer flexibel trace cache
  • Betere software prefetch
  • Verbeterde en slimmere hardware prefetch

De Trace cache is erg belangrijk om de 7 execution units van de Pentium 4 te voeden. Echter, er waren een behoorlijk aantal instructies die Northwoods encoders niet konden verwerken naar de Trace cache, waardoor deze instructies langzaam moesten worden afgewerkt met behulp van de Microcode ROM. Een goed voorbeeld waren de software prefetch instructies, die vanaf nu wel in de Trace cache geëncodeerd kunnen worden. Nu er meer instructies in de Trace cache kunnen worden geëncodeerd, is de bandbreedte in het geheel toegenomen. De Microcode ROM kan 1 micro-op afleveren in enkele clockcycles, Trace cache kan 3 micro-ops afleveren per clockcycle.

Upgraden naar Prescott

De vraag of een huidig Pentium 4-moederbord kan werken met een Prescott lijkt voor sommigen misschien een groot mysterie. Ik moet toegeven dat ook ik in eerste instantie enigszins overdonderd was door de FMB 2.0- en VRM-specificaties. FMB 2.0 staat voor Flexible Motherboard 2.0 en VRM voor Voltage Regulator Module.

Prescott upgrade schemaatje

Ieder Pentium 4 Socket 478-moederbord (van bekend merk) dat de 800MHz FSB Pentium 4 processors ondersteunt, zou moeten voldoen aan de FMB1- en VRM 10-specificaties, volgens dit Intel-document uit april 2003. Laten we ons dus concentreren op de FMB 1.5- en 2.0-specificaties. FMB 1.5 ondersteunt een Icc stroom van 91A, FMB 2.0-moederborden gaan zelfs tot 119A.

Hieronder een zo eenvoudig mogelijk gehouden samenvatting van de FMB-standaarden en de combinatie met Pentium 4:

  • De Pentium 4 3,4GHz Northwood en de 3,4GHz Pentium 4 Extreme Edition werken op moederborden die voldoen aan de FMB 1.5- en VRM 10-specificaties voor Prescott-procesors. Echter, ook een ouder AOpen AX4C Max (FMB1) liet zien geen enkel probleem te hebben met een Pentium 4 EE 3,4GHz
  • De huidige 3,0 en 2,8GHz Prescotts noemen een Icc max van 78A (TDP 89W) en zouden prima moeten werken op alle bestaande 800MHz FSB-plankjes
  • De huidige 3,2 en 3,4GHz Prescotts vragen een Icc max van 91A (TDP 103W) en zullen alleen werken op de nieuwere FMB 1.5-moederborden
  • Intel belooft echter dat in het derde kwartaal 3,2 en 3,4GHz Prescotts worden geleverd die ook op FMB 1.0-borden zullen werken
  • De 3,6GHz Prescott vereist FMB 1.5-borden
  • Prescotts in speedgrades boven de 3,8GHz zullen aan moederborden met een LGA775-socket voorbehouden zijn

MSI vertelde dat de 865PE Neo2-PS, 865PE Neo2-PFS, 865PE Neo2-PFISR, PT880 Neo-FISR, PT880 Neo-LSR en 865PE Neo2-PLS-moederborden allen Prescott 3,6GHz zullen ondersteunen. Alle andere borden, met uitzondering van die gebaseerd zijn op Intels 848- en VIA's PT800-chipsets, zullen Pentium 4 Prescott speedgrades tot en met 3,2GHz ondersteunen.

Meer informatie over Asus en Gigabyte kan nagelezen worden in dit artikel van HardOCP. Laten we nu eens kijken naar het opgenomen vermogen van de verschillende processors:

ProcessorMHzVoltageTDPMax. power
Athlon 1400 (T-bird)14001,75V65W72W
Athlon XP 1700+ (Palomino)14671,75V57,4W64W
Athlon XP 2100+ (Palomino)17331,75V64,3W72W
Athlon XP 1700+(T-bred)14671,50V44,9W49,4W
Athlon XP 1800+15331,50V46,3W59,2W
Athlon XP 1900+16001,50V47,7W60,7W
Athlon XP 2000+16671,60V54,7W60,3W
Athlon XP 2100+17331,60V56,4W64,3W
Athlon XP 2200+18001,65V61,7W67,9W
Athlon XP 2600+21331,65V62W68,3W
Athlon XP 2800+ (T-bred)22501,65V64W74,3W
Athlon XP 2500+(Barton)18331,65V53,7W68,3W
Athlon XP 3000+ (Barton)21671,65V58,4W74,3W
Athlon 64 3200+20001,5V~70W*89W
P4 2,0 GHz (0,18 micron)20001,7V72W92W
P4 2,0 GHz (0,13 micron)20001,5V52,4W66W
Pentium 4 2,2 GHz22001,5V55,1W70W
Pentium 4 2,8 GHz28001,525V68,4W85W
Pentium 4 3,06 GHz30601,55V81W~100W*
Pentium 4 3,2 GHz32001,55V82W~103W*
Pentium 4 3,2 GHz EE32001,55V81W~109W*
Pentium 4 3,2 GHz E32001,3-1,5V103W?
Pentium 4 3 GHz E30001,3V89W?
*Schatting

Ondanks een geavanceerd 0,09 micron-procédé kan de Prescott een koele omgeving gebruiken. Met een TDP van 103W is deze momenteel recordhouder. Toch kan de Prescott volgens Intel zelf volstaan met dezelfde standaard heatsinkfan als die al voor de Pentium 4 3,2GHz gebruikt werd. Het verschil in temperatuur tussen beide processors was echter niet gering. Na het afwerken van een vol belastende 3ds max-benchmark toonde het BIOS een CPU-temperatuur van 45-47 graden Celsius voor de 3,2GHz Northwood, tegen 64-66 graden voor de Prescott, met een open en bloot liggend moederbord in een lab van 18 graden Celsius.

Testconfiguratie

De testomgeving die we hebben gebruikt is al in eerdere reviews van Ace's Hardware gebruikt. Enkele kleine wijzigingen met betrekking tot bios-revisies en drivers zijn echter wel te bespeuren. De 53.03 driver is gebruikt voor de GeForce 5900FX Ultra (256MB). Voor het Asus SK8N moederbord is de nForce 3.13 driver gebruikt terwijl voor de MSI K8T Neo de VIA Hyperion 4-in-1 driver met versienummer 4.51 is gebruikt. Alle moederborden waren voorzien van de nieuwste BIOS-versie. Voor het nodige geheugen in de systemen is gebruik gemaakt van 400MHz DDR SDRAM (CAS2, 2-3-3-7). Een uitzondering hierop vormt de Athlon 64 FX-51 waarvoor 400MHz CAS 2,5 registered SDRAM is gebruikt.

Overigens dient opgemerkt te worden dat de Pentium 4 EE niet beschikbaar was voor deze review. Om het een en ander toch te kunnen vergelijken hebben we benchmarkresultaten gebruikt uit eerdere reviews wanneer de driver van de videokaart geen invloed had op de resultaten.

Athlon 3200+ en 3400+
MoederbordMSI k8T Neo
ChipsetVIA K8T800 (bios versie 1.1)
Geheugen2x512MB Corsair PC3200 XMS op 400MHz CAS 2 (2-3-3-7)
DriverVIA Hyperion 4.51
Athlon 64 FX-51
MoederbordAsus SK8N
ChipsetnVidia nForce3 150 (bios versie 1.04)
GeheugenLegacy PC3200 registered (2x512MB) CAS 2.5
DrivernForce 3.13
Athlon 3200+
MoederbordAsus A7N-8X
ChipsetnVidia nForce2
Geheugen2x512MB Corsair PC3200 XMS op 400MHz CAS2 (2-3-3-7)
DrivernForce 3.13
Pentium 4 3,2GHz 'C' en 'E' (HyperThreading)
MoederbordIntel D875PBZ
ChipsetIntel 875P (dual-channel DDR400)
Geheugen2x512MB Corsair PC3200 XMS op 400MHz CAS2 (2-3-3-7)
Driverinf update 5.09.1012

* Gedeelde componenten

De volgende losse onderdelen werden in elk testsysteem ingebouwd:

  • Leadtek GeForce FX5900 Ultra 256MB
  • AC '97 sound (geïntegreerd op alle moederborden)
  • Maxtor 80GB DiamondMax 740X (7200rpm, UltraDMA-100/133)

* Software

  • nVidia 53.03 Forceware-drivers (videokaart)
  • Microsoft Windows XP Service Pack 1A
  • DirectX 9b

Dankzij bijdragen van de volgende behulpzame mensen is deze review mogelijk gemaakt:

  • Matty Bakkeren, Markus Weingarter en Kristof Semhke (Intel)
  • Damon Muzny (AMD)
  • Ilona van Poppel, Marga Zanders en Angelique Berden (MSI)
  • Sandra Kuo (AMD)
  • Robert Pearce (Corsair)

Benchmarks: geheugen, R, Plasma en Diep

Uit de ScienceMark benchmark blijkt dat, hoewel de toegangstijd naar het geheugen tussen de Prescott en Northwood nauwelijks verschilt, de geheugenbandbreedte een flink verschil laat zien. In SSE/MMX blockmodus is de Prescott een flink stuk sneller dan de Northwood. De Prescott behaalde hier een snelheid van 4460MB/s terwijl de Northwood hier slechts 3980MB/s haalde. Met eenvoudige gecompileerde code (wat het meest gebruikt wordt) haalde de Prescott echter een doorvoersnelheid van slechts 1950MB/s terwijl hier de Northwood het een stuk beter deed met 2200MB/s. Het kopieëren tussen ALU registers verliep op de Prescott ook iets sneller dan met de Northwood met 2311MB/s tegen 2272MB/s.

De conclusie die we hieruit kunnen trekken is dat de Prescott in staat is een hogere doorvoersnelheid te halen uit de dual-channel chipset zolang er gebruik wordt gemaakt van SSE-, SSE-2- of MMX-instructies.

* 'R' en statistische analyses

R is een taal en omgeving voor statistische berekeningen en visualisatie. Het is een GNU-project en is verglijkbaar met de 'S'-taal welke ontwikkeld is door John Chambers en zijn collega's bij Bell Laboratories (vroeger AT&T, nu Lucent Technologies). 'R' kan worden beschouwd als een andere implementatie van 'S'. Ondanks enkele verschillen werkt code die geschreven is voor 'S' zonder aanpassingen ook onder 'R'.

'R' levert een uitgebreide verzameling statistische (lineaire en non-lineaire modellering, klasieke statistische tests, time-series analyse, classification en clustering) en grafische technieken en is eenvoudig uit te breiden. 'S' is vaak de taal die gebruikt wordt voor onderzoek in statistische methodieken en 'R' biedt een open-source optie om dit eveneens te realiseren.

De benchmark is ontwikkeld bij Michael Williams. De prestatie is gemeten van verschillende sampling-technieken wanneer deze op een grid van punten met een hoge dichtheid worden uitgevoerd. Voor de sampling werd gebruik gemaakt van een Riemann som om een dubbele integraal te benaderen.

R 1.7.2 Statische analyses (seconden)
Athlon 64 3400+2,2GHz 591
Athlon XP 3200+2,2GHz 646
Pentium 4 'C' Northwood3,2GHz 767
Pentium 4 'E' Prescott3,2GHz 859

We zien hier een behoorlijk slechte start voor de Prescott. De geïnterpreteerde taal voor statistische analyse is duidelijk niet de favoriete applicatie van deze processor. Hoewel toepassing over het algemeen niet door veel mensen wordt gebruikt, zijn de restultaten toch interessant. Pure processorkracht maakt voor deze test namelijk een flink verschil. Michael Williams wist te vertellen dat een volledige analyse soms wel een paar dagen kan vergen om door te rekenen. Een gering verschil in prestaties kan dus een flink verschil in rekentijd veroorzaken.

* Plasma Benchmark

De Plasma benchmark is ook een onderdeel van de wetenschappelijke benchmarks die zijn uitgevoerd. Alles over deze benchmark is hier te lezen. Dr. Simon Bland zegt er het volgende over:

De MHD-code wordt in snelheid beperkt door de matrix-inversie. Het matrix bestaat uit 2,1 miljoen rijen en 2,1 miljoen kolommen waarbij voor de verschillende waarden een nauwkeurigheid van dubbele precisie is gebruikt. De matrix is erg 'sparse' gevuld (veel lege velden, red), in dit geval zijn 29 diagonallen niet-nul. De huidige oplossingsmethode die wordt gebruikt is een iteratief proces (bi-conjugate gradient solutions method) en maakt gebruik van 100 iteraties om de matrix op te lossen. Elke iteratie bestaat uit ongeveer vijf vermenigvuldigingen van het matrix. We zijn momenteel actief op zoek naar een betere oplossingsmethode voor zowel single- als parallelle toepassing.

De resultaten van deze benchmark hangen nauw samen met de geheugen-latency en in mindere maten met de geheugenbandbreedte en de FPU-prestaties van de processor.

Plasma Fusion (seconden)
Athlon 64 FX-512,2GHz 406
Athlon 64 FX-51*2,2GHz 424
Athlon 64 3400+2,2GHz 486
Pentium 4 'E' Prescott3,2GHz 492
Athlon 64 3200+2,0GHz 508
Pentium 4 Extreme Edition3,2GHz 540
Pentium 4 'C' Northwood3,2GHz 588
Athlon XP 3200+2,2GHz 616
(*) Pentium 4-geoptimaliseerde binary

Eindelijk is er snelheidsverbetering te zien ten gevolge van de vergrootte cache en extra geheugenbandbreedte. De Prescott is aanzienlijk sneller in de Plasma-benchmark en kan zich meten met de Athlon 64 3400+.

* Schaakprogramma's: Diep

Om de prestaties van de Prescott te testen hebben we ook het schaakprogramma DIEP gebruikt. Diep is een uitermate complexe en intensieve applicatie, maar in tegenstelling tot veel typische CPU-intensieve toepassingen maakt Diep voor 100% gebruik van integer-berekeningen.

Het programma is slechts 550KB groot en is flink verbeterd ten opzichte van voorgaande versies. Diep maakt nu gebruik van 350MB grote hash-tabellen in de gebruikte benchmark. De benchmarkt hangt voor een klein deel af van de geheugenprestaties, maar de grootste bottleneck blijft de pure rekenkracht van de processor. De resultaten van Diep zijn interessant omdat goede branch prediction erg belangrijk is voor de volgende generatie software gebaseerd op geavanceerde AI-algoritmes (neurale netwerken bijvoorbeeld).

Een schaakprogramma is een goede methode om de verbeteringen van de branch prediction unit (BPU) in de Athlon 64 te testen, aangezien het doorspekt is met een grote hoeveelheid conditionele expressies. De benchmark is tot 13-stappen diep uitgevoerd.

Diep Chess (KiloNodes/s)
Athlon 64 FX-532,4GHz 149
Athlon 64 3400+2,2GHz 136
Athlon 64 FX-512,2GHz 134
Pentium 4 Extreme Edition*3,4GHz 129
Athlon 64 3200+2,0GHz 124
Pentium 4 'C' Northwood*3,2GHz 123
Pentium 4 Extreme Edition*3,2GHz 123
Athlon XP 3200+2,2GHz 112
Pentium 4 'E' Prescott*3,2GHz 103
(*) Getest met twee threads

Het uitrekken van de pipeline naar 31 stages in de Prescott heeft nadelige gevolgen voor dit schaakprogramma en vergelijkbare AI-programma's. SPECint leerde ons dat de verbeteringen in de BPU van de Prescott resulteerden in een prestatieverbetering van vier procent. Dit blijkt nu onvoldoende om de impact van een foute branch prediction op te vangen. De Prescott is in deze benchmark 20% langzamer dan de Northwood.

ScienceMark 2.0, WME, 3ds max, en andere

Tim, Alex en Julian hebben ons werk als reviewer een stuk gemakkelijker gemaakt met de introductie van ScienceMark 2.0 ruim een jaar geleden. Tim Wilkens is nu werkzaam bij AMD, maar ScienceMark is puur zijn eigen hobby gebleven. Verder is ons opgevallen dat elke nieuwe versie betere SSE en SSE2-optimalisaties bevat (iets dat we ook bij veel commerciële software zien) en daarom hebben we geen enkele reden om aan te nemen dat ScienceMark partijdig is op wat voor manier dan ook.

We starten met de Primordia-test. Deze test doet het volgende aldus ScienceMark.org:

Deze code berekent de Quantum Mechanical Hartree-Fock Orbitals voor elk elektron van een element uit het periodiek systeem van de elementen. Informatie over het probleem dat opgelost moet worden om dit te berekenen kan hier worden gevonden. Het programma bestaat uit een self-consistent loop. Bij elke stap worden de hartree, uitwisseling en de correlatie potentiëlen voor elke baan geëvalueerd. De gebruiker wordt de keus geboden welk algoritme gebruikt moet worden om deze potentialen te berekenen.

ScienceMark 2.0 Primordia (seconden)
Athlon 64 FX-532,4GHz 348
Athlon 64 FX-512,2GHz 384
Pentium 4 Extreme Edition3,4GHz 389
Athlon 64 3400+2,2GHz 394
Pentium 4 Extreme Edition3,2GHz 410
Athlon XP 3200+2,2GHz 416
Pentium 4 'C' Northwood3,2GHz 423
Athlon 64 3200+2,0GHz 440
Pentium 4 'E' Prescott3,2GHz 490

Wederom is de Prescott een teleurstelling met een performance die 15 procent lager is dan die van zijn oudere broer.

Het decoderen van berichten voor veilige e-commerce en andere applicaties is een bijzonder belangrijke business geworden. ScieneMark biedt de mogelijkheid om de snelheid te testen van een veelgebruikt decodeeralgoritme, te weten AES:

ScienceMark 2.0 Cypher AES (seconden)
Athlon 64 FX-532,4GHz 11,7
Athlon 64 3400+2,2GHz 12,6
Athlon 64 FX-512,2GHz 13,1
Pentium 4 'C' Northwood3,2GHz 14
Pentium 4 'E' Prescott3,2GHz 14,5
Athlon XP 3200+2,2GHz 14,7

Dankzij betere optimalisaties in de laatste versie van ScienceMark weten de Pentium 4-cores erg dicht bij de prestaties van de Athlon 64 te komen en de Athlon XP wordt zelfs verslagen. In het verleden behaalden de Pentium 4-processors resultaten van circa 20 seconden. Desondanks staat de "E" van de Prescott niet echt voor "Enhanced" in deze test.

* Windows Media Encoder

We hebben een MPEG2-film met een formaat van 160MB gecodeerd naar het Windows Media Streaming formaat (WMV) met behulp van two-pass codering:

Windows Media Encoder instellingen

Windows Media Encoder 9.0 (seconden)
Athlon 64 3400+2,2GHz 591
Athlon 64 3200+2,0GHz 646
Pentium 4 'C' Northwood3,2GHz 767
Pentium 4 'E' Prescott3,2GHz 859

We zullen meer coderingstesten moeten doen om er absoluut zeker van te zijn, maar we waren redelijk verrast om te zien dat de Pentium 4-familie in WME 9.0 wordt verslagen door de Athlon 64 terwijl deze test geoptimaliseerd is voor SSE2. De Athlon 64-familie is echter ook in het bezit van SSE2-instructies en blijkbaar worden die beter benut door WME 9.0. De Prescott is in deze test 11 procent langzamer dan de vorige generatie 3,2GHz Pentium 4. We hebben gehoord dat SSE3-instructies de prestaties met 5 à 7 procent kunnen laten toenemen in het beste geval, maar zelfs hiermee blijven de prestaties van de Prescott teleurstellend.

* 3ds max

Om de prestaties van de processors te testen in 3ds max hebben we de Architecture scène van de SPECapc 3D Studio Max R4.2 gebruikt. Deze test heeft een bewegende camera die een complex gebouw laat zien, een virtuele rondleiding door een schaalmodel. Deze complexe scène heeft niet minder dan 600.000 polygonen en 7 lichten. Daarnaast zijn de raytracing en fog-opties aangezet. We hebben de tijd gemeten die het koste om frames 20 tot en met 22 te renderen op 500x300 in de virtuele framebuffer (het systeemgeheugen).

3ds max 5.1 Architecture (seconden)
Pentium 4 Extreme Edition3,2GHz 273
Pentium 4 'E' Prescott3,2GHz 296
Athlon 64 FX-512,2GHz 309
Pentium 4 'C' Northwood3,2GHz 310
Athlon 64 3400+2,2GHz 312
Athlon 64 3200+2,0GHz 364
Athlon XP 3200+2,2GHz 409

3ds max heeft altijd al veel baat gehad van grote L2-caches. De overstap van de Willamette-core naar de Northwood-core was goed voor een prestatieverbetering van 60 procent. In deze test weet de Prescott eindelijk zijn oudere Northwood-broer te verslaan met een kleine marge.

* Cinema4D: Cinebench 2003 (MP)

De volgende benchmark is Cinebench 2003. Deze benchmark is gebaseerd op Maxon's Cinema4D modellering- en renderingpakket. Cinebench is multithreaded en kan daardoor gebruik maken van de HyperThreading-technologie van de Pentium 4.

Cinebench 2003
Pentium 4 Extreme Edition3,2GHz 386
Pentium 4 'C' Northwood3,2GHz 380
Pentium 4 'E' Prescott3,2GHz 336
Athlon 64 3400+2,2GHz 309
Athlon 64 FX-512,2GHz 305
Athlon 64 3200+2,0GHz 284
Athlon XP 3200+2,2GHz 265

Cinebench is geoptimaliseerd voor de Pentium 4-architectuur die logischerwijs ook goede resultaten neerzet in deze test. Desondanks laat de Prescott ons in de steek met een prestatie die 12 procent lager is dan de gelijk geklokte Northwood

HT, Civilization III, Comanche 4 en BF 1942

We hebben het al uitgebreid gehad over de verschillende features, die Prescott een betere CPU met hyperthreading maken dan de Northwood, maar kan deze theorie ook worden hardgemaakt met benchmarkresultaten. We hebben besloten een test te doen met en zonder hyperthreading ingeschakeld. We hebben hetzelfde ook met Halo geprobeerd aangezien Halo geoptimaliseerd is voor hyperthreading. Er was echter geen verschil tussen de resultaten met hypertreading in- en uitgeschakeld.

BenchmarkP4 'C'
HT off
P4 'C'
HT on
P4 'E'
HT off
P4 'E'
HT on
Verbetering HT
'Northwood'
Verbetering HT
'Prescott'
3DS Max 5.1361s310s364s296s16,5% sneller23,0% sneller
Cinebench 200332338028133617,6% sneller19,5% sneller
Diep1011238310321,8% sneller24,1% sneller

Alhoewel de verschillen niet spectaculair zijn, kunnen we toch zien dat Prescott's hyperthreading verbeteringen de prestaties ten goede zijn gekomen.

* Civilization III v1.29F

Civilization is een klassieker: een legendarisch spel. Het is ons opgevallen dat de AI van de computertegenstanders in veel situaties een groot deel van de tijd aan het denken is tussen elke beurt. Zoals je hieronder kan zien kan deze denktijd oplopen tot 23 seconden op een snelle CPU. Je kunt je dus wel indenken dat dit een behoorlijke invloed op de gaming experience kan hebben wanneer je honderd beurten speelt.

'Fuego' stuurde ons een redelijke grote en complexe Civ III map. We hebben ervoor gezorgd dat er geen bewegingen werden getoond na het drukken op de 'next turn' knop, zodat alleen de AI-tijd is opgenomen en niet de tijd voor het animeren van bewegende units. Het scherm bleef op de plaats waar het was. We hebben vervolgens de tijd gemeten wanneer de zandloper zichtbaar was, de tijd dat het spel dus niet reageerde. Deze tijd bleek redelijk consistent te zijn, zolang we het spel maar opnieuw startten na elke benchmark.

Civilization III (seconden)
Pentium 4 Extreme Edition3,2GHz 15,8
Athlon 64 FX-512,2GHz 16,7
Athlon 64 3400+2,2GHz 17,0
Pentium 4 'E' Prescott3,2GHz 17,9
Athlon 64 3200+2,0GHz 18,7
Pentium 4 'C' Northwood3,2GHz 18,7
Athlon XP 3200+2,2GHz 21,6

In Civilization III speelde de videokaart geen belangrijke rol. Daarom hebben we besloten de resultaten van eerdere Pentium 4 EE benchmarks in de tabel op te nemen.

We waren redelijk verrast dat de Prescott als snelste uit de bus kwam. De score van de Pentium 4 EE leert ons dat de L2-cache zeker een grote hulp is. Prescott is ongeveer 4% sneller dan Northwood.

* Comanche 4

De Comanche 4 benchmark, de militaire helicopter simulator, is een van de eenvoudigste en meest consistente benchmarks. We blijven hem in ons testbed houden om zodoende een vergelijking met eerdere reviews mogelijk te maken.

Commanche 4 (800x600x32, fps)
Athlon 64 FX-512,2GHz 71,5
Athlon 64 3400+2,2GHz 69,7
Athlon 64 3200+2,0GHz 64,2
Pentium 4 'C' Northwood3,2GHz 63,5
Pentium 4 'E' Prescott3,2GHz 57,1
Athlon XP 3200+2,2GHz 53,5

De Prescott stelt ons wederom teleur met framerates die 11% lager liggen.

* Battlefield 1942 - Secret Weapons

Onze Battlefield 1942 benchmark hebben we bijgewerkt van versie 1.03 naar 1.45. Deze update komt met de add-on 'Secret Weapons'. Onze nieuwe testscene is "Eagle's nest", welke een aantal SturmTigers vechtend in besneeuwde heuvels weergeeft. De AI neemt standaard ongeveer 20% van de CPU-kracht in beslag. Dit percentage hebben we handmatig verhoogd naar het maximum van 25%.

Athlon 64 upgradeguide: Battlefield 1942 screenshot

Schaduwen worden door de videokaart berekent. Indien er een DirectX 8 compliant videokaart aanwezig is worden de berekeningen van hardware skinning op geanimeerde mazen overgenomen. We hebben onze benchmarks met FRAPS een aantal keer herhaald om er zo zeker van te zijn dat we een goed resultaat zouden krijgen. Helaas heeft deze benchmark redelijk wat pogingen nodig voordat het resultaat consistent wordt. De behaalde testresultaten zijn niet erg accuraat. De foutmarge tussen herhaalde test is behoorlijk hoog (5%). De enige reden dat we deze benchmark nog gebruiken is om een ruige impressie te krijgen van hoe de processoren onderling in het spel presteren.

Battlefield 1942 (1024x768x32, fps)
Pentium 4 'E' Prescott3,2GHz 97,1
Athlon 64 FX-512,2GHz 92,5
Athlon 64 3400+2,2GHz 89,0
Pentium 4 'C' Northwood3,2GHz 88,1
Athlon 64 3200+2,0GHz 87,5
Athlon XP 2100+1,73GHz 43,5

BF1942 is dan wel niet de meest accurate benchmark,maar het verschil tussen de P4 'E' en 'C' is groot genoeg om te concluderen dat Prescott ongeveer 10% sneller is.

X2, Wolfenstein, Halo, AA en Blitzkrieg

* X² - The Threat

X² is een prachtige ruimtesimulatie met de volgende features:

X² bestaat uit een compleet herschreven 3D engine gebaseerd op DirectX 8. Aanwezig zijn een grote hoeveelheid visual effects zoals nevels met volume (gas wolken) die ook daadwerkelijk invloed hebben in het spel (het is mogelijk om jezelf er in te verbergen). Verder zijn er een groot aantal nieuwe engine, shield, wapen en explosie-effecten. Objecten hebben dynamische 3D schaduwen en dynamische DP3 bump mapping zorgt voor een niet eerder vertoond niveau van detail.

X² is uitgerust met een ingebouwde benchmarkfunctionaliteit. De benchmark is hier te downloaden. Om je eigen resultaten te kunnen vergelijken met die van ons is het nodig om "shadows" en "run as benchmark" aan te zetten alvorens de demo op te starten.

Athlon 64 upgradeguide: X² - The Threat screenshot

X² - The Threat (1024x768x32, shadows, fps)
Athlon 64 3400+2,2GHz 76,0
Athlon 64 FX-512,2GHz 75,7
Pentium 4 'E' Prescott3,2GHz 75,1
Athlon 64 3200+2,0GHz 74,6
Pentium 4 'C' Northwood3,2GHz 72,0

De Prescott weet de Northwood in deze benchmark te verslaan met een kleine marge.

* Wolfenstein: Enemy Territory

Ace's Hardware-veteraan en hardcore online gamer Hawski, alias Uffe Merrild, benaderde ons met twee erg interessante Enemy Territory benchmarks. Wolfenstein ET is een ongelofelijk popupaire online multiplayer first person shooter, waarbij je als speler de rol hebt van een assault trooper, genie-soldaat of hospik in de tweede wereldoorlog.

Athlon 64 upgradeguide - Wolfenstein Enemy Territory

Wolfenstein: ET (1024x768x32, Demo 'Ace Hawski', fps)
Athlon 64 FX-512,2GHz 85,4
Athlon 64 3400+2,2GHz 81,7
Pentium 4 'C' Northwood3,2GHz 78,2
Pentium 4 'E' Prescott3,2GHz 76,1
Athlon 64 3200+2,0GHz 76,0
Athlon XP 3200+2,2GHz 69,9

De Northwood en de Prescott presteren vergelijkbaar in deze benchmark.

* Halo 1.03

Halo werd geport vanaf de Microsoft Xbox-console en toont de speler verbazingwekkend mooie effecten en omgevingen. Het spel laat zich daardoor wel met moeite vooruit slepen als je geen snelle pc hebt. Halo ondersteunt de nieuwste 2.0 shaders uit DirectX 9.0 en behoort daarmee tot het zeer exclusief groepje games dat de mogelijkheden van DirectX 9.0 optimaal benut.

Halo 1.03 (1024x768x32, fps)
Athlon 64 3400+2,2GHz 50,9
Athlon 64 FX-512,2GHz 50,4
Pentium 4 'C' Northwood3,2GHz 48,8
Athlon XP 3200+2,2GHz 47,1
Pentium 4 'E' Prescott3,2GHz 46,4

Deze benchmark laat wederom belabberde prestaties zien van de Prescott-core.

* America's Army

America's Army is een gratis verkrijgbare en populaire first person shooter gebaseerd op de Unreal engine.

Screenshot America's Army

We hebben dit spel getest met een demo die Paul Flynn voor ons heeft opgenomen terwijl hij online aan het spelen was, waarvoor onze dank.

America's Army (800x600x32, fps)
Athlon 64 3400+2,2GHz 42,1
Pentium 4 'E' Prescott3,2GHz 41,5
Athlon XP 3200+2,2GHz 39,8
Pentium 4 'C' Northwood3,2GHz 36,8

De Prescott doet het in deze benchmark redelijk goed.

* Blitzkrieg

Blitzkrieg is één van de vele klonen van Command & Conquer en Age of Empire. Er is geen micromanagement en het neerzetten van gebouwen behoort ook niet tot de taken van de speler, waardoor een verfrissend spel is ontstaan in het Real Time Strategy-genre. Een superieure tactische strategie is in dit spel niet langer kansloos tegen spelers die zeer gedreven zijn in het klikken met de muis en simpelweg een zeer groot aantal units bouwen waarmee vervolgens elke tegenstander genadeloos van het slagveld wordt geveegd. Om een lang verhaal kort te maken: een leuk spel. We hebben een korte benchmark-sessie met dit spel uitgevoerd waarin een intensieve strijd werd gestreden met de inzet van artillerie, vliegtuigen, tanks en grondtroepen. De grafische details werden ingesteld op het hoogste niveau.

Athlon 64 upgradeguide: Blitzkrieg screenshot

Blitzkrieg (fps)
Athlon 64 3400+2,2GHz 91,5
Athlon XP 3200+2,2GHz 85,0
Pentium 4 'C' Northwood3,2GHz 63,6
Pentium 4 'E' Prescott3,2GHz 61,7
Athlon XP 2100+1,73GHz 43,5

Wanneer je een gameplay wilt hebben die "Blitz" is, is er geen ander optie dan de Athlon 64.

Conclusie

De Pentium 4 E 3,2GHz Prescott wist alleen in Battlefield 1942 alle andere geteste processors duidelijk te verslaan, zowel die uit eigen huis als de aanwezige AMD Athlon XP/64/64 FX-modellen. In de overige benchmarks zijn de prestaties van de nieuweling niet slecht en vergelijkbaar met de 3,2GHz Northwood en Athlon 64 3200+. Ten opzichte van die twee boekt de Prescott winst in de spellen America's Army, Battlefield 1942, Civilization III en X2. Van de applicaties laten 3ds max en Plasma vooruitgang zien:

Game benchmarkP4 3,2GHz 'E' versus P4 3,2GHz 'C'
America's Army13% sneller
Battlefield 1942 1.4510% sneller
Blitzkrieg3% trager
Commanche 411% trager
Civilization III4% sneller
Halo 1.035% trager
Wolfenstein: Enemy Territory3% trager
X² - The Threat4% sneller
Applicatie benchmarkP4 3,2GHz 'E' versus P4 3,2GHz 'C'
3DS Max 5.15% sneller
Cinebench 200311% trager
Diep Chess20% trager
WME 9.0 encoding11% trager
R Statische analyses11% trager
Plasma17% sneller

Op dit moment lijkt er geen dringende noodzaak om op de Prescott over te stappen; de prestaties in games zijn weliswaar goed, maar in diverse applicaties wordt er vooralsnog aan kracht ingeleverd. Daarbij komt de constatering dat de Prescott snel een stuk warmer wordt dan Northwood en een goed geventileerde kast nodig heeft. De Athlon 3200+ is niet altijd een duidelijke winnaar in games, vergeleken met de Precott 3,2GHz, maar een Athlon 3400+ zou minder moeite moeten hebben een 3,4GHz Prescott te verslaan in de meeste gevallen. Prescott zal snel in kloksnelheid omhoog moeten gaan om de sterk doorschalende en minder warmte verstokende Athlon 64 voorbij te kunnen streven.

De vraag die alsmaar naar boven kwam drijven was "waarom hebben we geen verbeterde Northwood core zien verschijnen?" Veel van de op zichzelf interessante tweaks die we in de Prescott tegenkomen hebben geen belang bij de tien extra pipeline stages. SSE3, een betere branch prediction, een grotere L2-cache, allen zouden ze het ook zonder een dergelijke verlenging van de pipeline kunnen hebben stellen. Op dit moment lijkt een logische verklaring te zijn dat Intels productiemensen nog wat tijd nodig hebben om de vermogenshonger van Prescott aan banden te leggen. Als dat eenmaal gelukt is zou de Prescott richting 5GHz door kunnen schalen, terwijl Northwood dan op lagere kloksnelheden zijn werk kan doen. Ook zou het kunnen zijn dat Prescott vooral een praktijkoefening is voor Intel, teneinde met de opgedane ervaring opvolger Tejas tot een succes te kunnen maken (en daarin nu nog uitgeschakelde features in te schakelen bijvoorbeeld - red).

Hoe het ook zij, de gedachte dat Northwood het beter had kunnen doen dan Prescott is moeilijk opzij te zetten, zelfs als deze dan iets lagere kloksnelheden zou behalen. De huidige vermogensopname lijkt eerder hogere kloksnelheden te hinderen, dan de lengte van pipelines. Dat doet echter een volgende vraag rijzen: Als Intels Heilige Graal torenhoge kloksnelheden bevat, zou Intel dan misschien nu al weten dat toekomstige 'killer applicaties' niet branch-intensief zullen zijn? Zullen veel van de huidige AI-algorithmen (branch-intensief) worden vervangen door neurale netwerken (FPU-intensief, minder branches)?

Of gaan Dynamic Multi-Threading en Pre-execution, die naar gefluisterd wordt onderdeel uit gaan maken van Tejas, de effecten van branches aanpakken en vooruitgeschoven latenties opslaan? Het is duidelijk dat de Pentium 4 EE en 3,4GHz Pentium 4 Northwood Intels processors voor 'nu' zijn en Prescott en Tejas veel meer een toekomstvisie vertegenwoordigen. Natuurlijk zal dat Intel er niet van weerhouden om miljoenen Prescotts te gaan verkopen, aan mensen die het verschil niet kennen tussen een 'C' en een 'E'.

Reacties (31)

31
30
26
8
0
0
Wijzig sortering
Anoniem: 90915 2 februari 2004 21:19
is dit geen ongelooflijke misstap van Intel? op sommige plekken is de ' oude' versie van Intel sneller dan de Prescott. Benchmarken fabrikanten van processors of videokaarten hun spullen niet. Volgens mij had deze misstap voorkomen kunnen worden als er gewoon door Intel zelf was gebenchmarkt in een vroeg stadium

En dan heb ik nog geen eens het woord Athlon in mn reactie gezet
Prescott zal pas echt tot zijn recht kunnen komen als hij op hogere kloksnelheid kan draaien. De reden dat hij nu al geïntroduceerd is (op een redelijk magere snelheid) is dat hij veel goedkoper te produceren is dan Northwood. Zie ook deze nieuwspost.
De prescott komt te veel IPC te kort t.o.v. de opteron om ook maar een deuk in een pakje boter te slaan.

Zodra de opteron in massa productie gaat (A64's) en wat goedkoper aangeboden wordt, dan is het finished natuurlijk.

Op het moment dat prescott op 4Ghz zit, dan zit de A64 natuurlijk op 3Ghz. Dus de AMD clocked dan grofweg 50% sneller dan hij nu doet t.o.v. de prescott maar 20%.

Wie is dan sneller; dit wetende dat zoals Johan de Gelas laat zien de prescott volledig tot gehakt geslagen wordt door de A64, dit terwijl de A64 door Johan eigenlijk nog alleen op 32 bits software is getest.

De P4E is bij voorbaat een fried chicken.
Ik zou daar geen geld op verwedden als ik jou was. De Prescott laat nu al zien dat hij gelijk aan de Athlon 64 - Opteron kan presteren. Natuurlijk moet de kloksnelheid ook omhoog maar er is ook nog Yamhill.
Tegen dat de Athlon echt kan profiteren van de 64-bit instructies heeft Intel deze ook op de markt.
Het kan natuurlijk misgaan en Prescott kan volledig floppen. Maar vergeet niet dat Intel bij deze is overgeschakeld op 90nanometer productie. Die stap heeft AMD nog te zetten en niets garandeerd dat dat probleemloos gaat verlopen. Van 0,15 naar 0,13 was vooral possitief owv warmte productie maar deze stap is heel wat moeilijker omdat de transistors nu te dicht bij mekaar komen.
Ik bezie het eerder als een voordeel dat AMD nog niet op 90 nano zit.
Op 90 nano zullen ze hogere snelheden halen en nog koeler blijven, als 90 nano meevalt heeft intel een serieuz probleem !
Vergeet ook niet dat IBM al wat ervaring heeft op 90 nano en AMD daar zeker goed in zal begeleiden, nee dat komt wel goed denk ik...
Dat is zo als de yields goed zijn, en ik denk dat dat niet zo is.

De processors moeten kunnen lopen op 1.385V, vele zullen dit niet halen en zouden met een hoger voltage wel stabiel lopen maar zullen dan teveel warmte afgeven, de processor kan dan niet verkocht worden.

Zo werkt het al tijden, bij de Athlons worden de beste exemplaren (degene die met een lager voltage stabiel lopen) er tussen uit gepakt om verkocht te worden als notebook processor.

Ook is het zo dat ik het begin van de overstap naar een ander pruductieproces de yields slechter zijn dan voorheen.
Misstap wil ik het niet noemen, maar wel marketing "met iets nieuws komen om met iets nieuws te komen"meer voegt het niet toe.
Volgens mij zijn ze een beetje te vroeg gekomen maar dat zal bovengenoemde reden zijn.
Echter toen ze van P3 overstapten naar P4 was het hetzelfde.
Over AMD hetzelfde toendertijd vandaar die XP rating.
Denk voor AMD dat dat maar eens afgelopen moet zijn de 64 processor hadden ze hier mooi voor kunnen gebruiken.
Deze review en "tig" andere reviews laten eigenlijk allemaal hetzelfde verhaal zien:

Prescott word een beste hap heter (wel tot 20 °C zoals ook uit deze review blijkt)

Is behoorlijk wat langzamer (heel soms ook sneller, want dan blijkbaar te danken is aan de groottere L2 Cache).

Is lang niet altijd compatible met bestaande moederborden.

Is in z'n huidige vorm (huidige socket) geen lang leven beschoren.

De 3,4 GHz is een paper-launched product die volgens een Intel woordvoerder nog "a few months away" is, waaruit blijkt dat het 90 nm blijkbaar nog steeds niet onder controle is.

Aan de ander kant moet gezegd worden, dat het wel netjes is dat ondanks een gruwelijk verlengde pipeline (31stappen t.o.v 20 stappen voor de huidige Northwood versie) de prescott geen willamette achtige taverelen laat zien.

Al met al had Intel de prescott beter kunnen lanceren samen met Socket 775 en op een wat verder ontwikkeld 90 nm proces.

Uiteindelijk is de Prescott in z'n huidige vorm een processor die niets extra's bied t.o.v. van de Northwood en mijns inziens zelfs een stap terug betekend.
Intel heeft zeker niet dezelfde stap gemaakt als dat AMD die maakte van de XP naar de Athlon 64. De mensen die net hen HT CPU hebben gekocht zijn niet echt het haasje geworden. Jammer er waren mindere berichten al eerder in het nieuws, maar eigenlijk blijf je hopen een een klein wondertje in de wereld van de CPU
Hoe zit het met de overklokbaarheid van deze 3,2 gig Prescott ?

-edit- van dit exemplaar ?
Anoniem: 86617 @Cookie2 februari 2004 18:19
Inderdaad Cookie

An effortless overclock gave us 3.72GHz; we could POST at 4GHz but we didn’t want to showcase what was ultimately possible with Prescott, rather what was easily attainable without increasing voltages.

En dan te bedenken dat ze de voltages en koeling standaard gehouden hebben.
Dus volgens mij prima }:O
Kennelijk heeft Tomshardware een "brolexemplaar" in de handen gekregen, want ze kregen hem kennelijk geen MHz vooruit...
Hoe dit komt is een raadsel, aangezien Hardwarebedrijven normaalgezien hun testexemplaren eerst zelf eens testen op ocbaarheid eer ze hem inzenden. Dit merk je overal: in de reviews loven ze een bepaalde RAMlat omdat hij goed ocbaar is, maar als je dan zelf een koopt raakt hij slechts enkele MHzen hoger dan de specs.

Dus, als het exemplaar van Tomshardwareguide nu eens een proc is die per ongeluk niet gecheckt is, waardoor het per toeval een doorsnee proc van de wafer is, zou dit misschien kunnen betekenen (nu moet ik opletten met wat ik zeg ;) ) dat het gros van de Prescotts nergens geraakt van kloksnelheid.
(Ik druk Intelfans nogmaals op het hart dat dit louter speculaties zijn ;) )
Tomshardware zegt het volgende:
Users willing to upgrade their socket 478 systems are left out in the rain due to the uncertain compatibility situation and last but not least Prescott is badly overclockable, which made us skipping the overclocking tests.
Bovendien kan je het verhogen van de voltages wel vergeten met de stock intel koeler aangezien hij op 3200Mhz@ 1.385V onder full load dik 60+ graden wordt.
AuteurAnoniem: 16687 @Remko3 februari 2004 20:46
we zaten spijtig genoeg opgescheept met een paar i875 borden die niet FMB 1.5 zijn.

Dat betekende dat we beroep deden op Intel's D875PBZ... En je weet hoe overklokbaar Intel borden zijn ;)
leuke review.
erg heet }>.
maar kost dit ding intel niet veel geld als het zo gaat worden als he nu uitziet?

de opvolger van de northwood meestal iets langzamer altijd een stuk heter.
als de opvolger van de Prescot op tijd uitkomt zal de prescot dus niet lang leven en in die tijd zal hij denk ik zich als flop laten zien.
en intel dus geld kosten want ik denk dat al die vertragingen en ontwikkelingen hun veel geld kosten.

:+ niet dat intel weining geld heeft.


ik betwijfel dat de mensen die een PC hiervanaf weten of dat het hun interesseert.
maar ik denk dat groot afnemers zoals Dell zich nu toch wel achter het hoofd gaan krabben.
Anoniem: 74500 @Deadsy3 februari 2004 20:29
maar kost dit ding intel niet veel geld als het zo gaat worden als he nu uitziet?
Nope, het wordt geproduceerd op 300mm-wafers en op 90nm waardoor bij yields van 40% er nog altijd meer procs op zo'n wafer geproduceerd worden dan op een 200mm-wafer met opterons op en 100% yields... Dus bij een beetje deftige yields is Intels broodje gebakken.

Wat de verkoop betreft: Het zal hetzelfde liedje zijn zoals we nu horen: Jan met de Pet weet niks van processoren af en wil perse een Intel Pentium kopen. Want dat getalletje is daar hoger, terwijl dat getalletje bij dat raar merk daar een stuk lager is, dus ik zal deze maar kopen... Je kan nu zeggen dat de rating van AMD dit marketingvoordeel wegneemt, maar veel winkels zetten bij de specs van de pc meestal toch de kloksnelheid, naast de rating natuurlijk.

Het is dezelfde situatie als tss Microsoft en Linux, alhoewel het daar nog veel erger gesteld is. De mensen kennen niets anders dan Windows dus willen ze enkel Windows.

Conclusie: wees maar niet ongerust, Intel zal blijven winst maken... Het zou natuurlijk wel kunnen dat hun marktaandeel wat zal dalen, maar dat zal niet veel zijn.
Goede en interessante review!

Het lijkt erop dat Intel en AMD steeds verder van elkaar komen te liggen als het om de visie over snelheidstoename gaat. AMD richt zich al heel lang op verhoging van de IPC en Intel op de Mhz-en. Ik ben zeer benieuwd welke de beste gaat blijken, want het zit er wel in dat 1 van de 2 op een gegeven moment meer problemen tegen gaat komen dan de ander.
Zeker een mooie review met benchmarks die ik niet ergens anders zag (ik heb natuurlijk niet alle reviews gelezen).

Ik vind het aardig als de quake benchmarks meegenomen worden (zoals bij Anandtech). Ze zeggen mischien steeds minder, maar veel gamers hebben zich toch zorgen lopen maken of hun nieuwe computer wel voldoende fps zou halen voor Quake. Dit maakt ze relativerend. Net als de overzichten op tomshardware, waar je je oude dure videokaart of cpu ergens onderaan ziet hangen.
prescott is meer een oefening van intel om de 90 nm goed te beheersen. daarom denk ik dat de voltage ook nog zal verminderen naar 1,1V eind dit jaar. zo zal de 4ghz niks meer dan de 3,4 verbruiken en hebben ze een goede opstap naar de tejas en naar 65 nm met soi en high k gate.
Anoniem: 76062 8 februari 2004 18:01
:Z leuke revieuw hoor ... jammer dat ze het Intel D875PBZ moederbord hebben gebruikt ...
dit is wel een heel mooi board voor de P4C maar is niet gemaakt voor de P4E (prescott core) dus ondersteunt deze niet op volle kracht.

verder denk ik dat dit het zelfde effect heeft als de over gang van P3 naar P4 dat was eerst ook een tegenvallertje.
ik denk dat als de prescott straks met het 775 spijkerbedje word uitgerust dat deze echt serieus tot zijn recht komt. ;)
Anoniem: 105379 9 februari 2004 11:24
Jammer dat de AMD 64 3000 niet is meegenomen in deze benchmarks sinds dit geen duur maar wel leuk processortje is. En ik ben erg benieuwd hoe deze zich plaatst t.o.v. de prescott.

(edit: typo's)

Op dit item kan niet meer gereageerd worden.