AMD Hammer platform preview

Inleiding

Hammer platform preview: aankondigingspicje De K7 architectuur vormde een historisch keerpunt in de geschiedenis van AMD. Dankzij de Athlon processors was AMD niet langer veroordeeld tot de onderste prijsregionen van de markt en kon het bedrijf concurreren met de allersnelste desktop processors van marktleider Intel. Een jaar na de introductie van de Athlon maakte AMD na lange tijd weer winst, een winst die zo groot was dat het verlies van de voorgaande jaren werd goedgemaakt. Dat AMD niet op zijn lauweren is blijven rusten blijkt uit het indrukwekkende Hammer project, waarvan het bestaan in de herfst van 1999 werd aangekondigd. AMD besloot voor het eerst in de geschiedenis een eigen richting te geven aan het x86 platform, waarvan de ontwikkeling tot dusver volledig in handen van zijn eigen schepper was gebleven. AMD deed wat Intel jaren daarvoor als oplossing had afgewezen: de ontwikkeling van een 64-bit uitbreiding op de x86 instructieset.

In de loop der tijd heeft AMD steeds meer details vrijgegeven over de Hammer architectuur, zodat we op dit moment in staat zijn om een goed beeld van dit veelbelovende platform te geven. Inmiddels zijn ook de eerste Hammer systemen aan de pers gedemonstreerd. Tweakers.net kreeg op CeBIT 2002 de kans om één van de eerste Hammer samples in werking te zien. In aanwezigheid van marketing manager John Crank en PR manager Anne Salin kregen wij een presentatie over het Hammer platform. Voor ons reden om tweakend Nederland te informeren over de laatste stand van zaken in het AMD kamp.

Hammer in een notendop

De Hammer familie is op drie punten baanbrekend ten opzichte van de huidige x86 processor architecturen. Allereerst natuurlijk het 64/32-bit hybride design waardoor de processor in staat is om zowel oude x86 software te draaien alsmede nieuwe software die is gecompileerd voor de x86-64 instructieset van AMD. Ten tweede kenmerkt Hammer zich door te breken met het conventionele opstelling van northbridge als centrale interconnect tussen processor, geheugen, AGP poort en southbridge. Tenslotte valt de Hammer op door een voor x86 begrippen zeer grote schaalbaarheid in multi-processor configuraties. Voor het eerst zal de schaalbaarheid van een relatief laag geprijsde x86 CPU zich kunnen meten met dure high-end RISC systemen.

Volgens de meest recente AMD roadmap zullen de eerste Hammer processors eind dit jaar op de markt verschijnen. Allereerst in een desktop versie en een kwartaal later in dual processor versies voor servers en workstations.

AMD's x86-64 technologie

De meest besproken nieuwe feature van de Hammer processors is zonder meer de 64-bit x86-64 instructieset, een door AMD in eigen huis ontwikkelde uitbreiding op de aloude x86 ISA. De ontwikkeling van een 64-bit processor is van levensbelang voor AMD, omdat de huidige 32-bit x86 processors zonder kunstgrepen niet meer dan 4GB geheugen kunnen adresseren. Het belangrijkste voordeel van 64-bit CPU's is de mogelijkheid voor een enkel proces om een geheugenruimte te adresseren met adressen groter dan 32-bit lengte. Dit geeft de mogelijkheid om eenvoudig meer dan 4GB virtueel geheugen aan één enkel proces toe te wijzen, de mogelijkheid om een plat geheugensysteem met een omvang van meer dan 4GB te hanteren en de mogelijkheid om files met een grootte van meer dan 4GB te gebruiken. Deze drie voordelen zijn met name belangrijk voor database servers. Een in de praktijk minder relevant voordeel van 64-bit CPU's is de mogelijkheid om met native 64-bits integers te kunnen rekenen. Dit zal een snelheidsvoordeel opleveren in applicaties die met erg grote integers werken, maar in veruit de meeste gevallen is 32-bit afdoende.

Hoewel de gedachte aan een dikke config met 4GB RAM bij veel tweakers de speekselproductie zal stimuleren, zijn veel relatieve low-end servers al uitgerust met 2 tot 4GB RAM. Dit segment heeft het grootste aandeel in de totale servermarkt en wordt vrijwel volledig gedomineerd door 32-bit Intel hardware. Als de 32-bit barrière niet op korte termijn werd geslecht zal over één à twee jaar in toenemende mate vraag ontstaan naar servers met 64-bits processors van alternatieve fabrikanten. Dit is een ontwikkeling die Intel wenst te voorkomen en die ook door AMD geenzins als prettig vooruitzicht wordt gezien, zeker niet nu het bedrijf toegang probeert te vinden tot de lucratieve x86 servermarkt. Intel wil bovendien al langere tijd een deuntje meeblazen in de high-end servermarkt, en dat is onmogelijk zonder een eigen 64-bits platform.

De reguliere desktop computers, zoals jij en ik die dagelijks gebruiken, kunnen de komende jaren nog wel vooruit met de beperkingen van de 32-bit limiet. Echter zal ook hier 4GB op den duur een tekortkoming worden. Nu al zien we dat veel high-end desktop pc's die voor professionele taken zoals grafische vormgeving worden gebruikt, zijn uitgerust met 1GB of meer geheugen. 32-bit x86 is hoe dan ook een doodlopende weg.

IA-64 vs x86-64

Intel anticipeerde al vroeg op het hiervoor gestelde probleem. De plannen om onder de codenaam 'P7' een 64-bit x86 processor in ontwikkeling te nemen werden al snel gedropt, toen in 1994 een samenwerking met Hewlett-Packard werd aangekondigd. HP en Intel werken sindsdien aan een 64-bit VLIW (Very Long Instruction Word) architectuur genaamd IA-64. De eerste vruchten van deze samenwerking bereikten na lange vertraging in 2001 de markt, maar zijn tot op heden met weinig enthousiasme ontvangen. De verwachtingen is dat de markt pas met de release van de tweede generatie IA-64 Itanium processors een overstap naar IA-64 wil overwegen.

CeBIT 2002: Intel McKinely (tweede generatie Itanium) sample

Eén van de problemen die IA-64 met zich meebrengt is de radicaal nieuwe instructieset die niet compatible is met IA-32 (x86). De Itanium is weliswaar in staat om een IA-32 processor te emuleren, maar doet dit niet tegen aanvaardbare snelheid. Dit betekent dat bedrijven die willen overstappen op de IA-64 architectuur worden geconfronteerd met een moeizame overschakeling van x86 naar IA-64 software. In de meest optimale situatie kan een bedrijf al meteen beschikken over IA-64 versies van zijn gebruikte software, in andere gevallen moet de applicatie ontwikkelaar benaderd worden en in de minst gewenste situatie bevindt het bedrijf zich op een doodlopend spoor omdat de broncode niet meer beschikbaar is.

AMD realiseerde zich dat het nooit in staat zou zijn om een radicaal nieuwe 64-bit instructieset in de markt te zetten, en besloot maximaal gebruik te maken van het gat dat ontstaat bij de overgang van x86 naar IA-64. De x86-64 instructieset brengt de voordelen van een 64-bits brede processor, maar is tegelijkertijd volledige backwards compatible met de 32-bits x86 architectuur. Naast de ondersteuning van 64-bit instructies, 64-bit registers en een grotere adresruimte van 48-bit heeft AMD bovendien acht extra general purpose registers (GPR's) en acht nieuwe SSE registers toegevoegd. Het beperkte aantal registers van de x86 ISA is een welbekend mankement van deze architectuur, die tot gevolg heeft dat de processor veelvuldig wordt opgehouden door register pop-ins en pop-outs. Dit betekent een groot aantal load/store operaties en veelvuldig gebruik van cache- en geheugenbandbreedte. De toevoeging van de acht nieuwe GPR's kan volgens AMD afhankelijk van de applicatie resulteren in een vermindering van het aantal register load/stores met 10 tot 15 procent.

Hammer systemen kunnen, indien voorzien van een 64-bits besturingssysteem, zonder performance verlies gelijktijdig 32-bit en 64-bit software draaien. De processor beschikt over twee bedrijfsmodi: de Legacy Mode en de Long Mode. De Long Mode is onderverdeeld in de 64-bit Mode en de Compatibility Mode, waarvan de laatstgenoemde wordt gebruikt bij het draaien van 32-bit en 16-bit applicaties onder een 64-bit besturingssysteem. De Legacy Mode is nodig bij gebruik van 32-bit of 16-bit besturingssystemen. De register extensies zijn uitsluitend beschikbaar in 64-bit Long Mode.

Software ondersteuning

Wie wel eens interviews met AMD CEO Jerry Sanders leest, weet dat de man waarde hecht aan een goede relatie met Microsoft. Computers worden immers gebruikt vanwege de software die erop kan draaien. Zonder goede software support zal zelfs het prachtigste staaltje processortechnologie weinig aftrek vinden. Op dit gebied hebben de Hammers in de eerste plaats het voordeel dat zij probleemloos bestaande 32-bit x86 software kunnen draaien. Zolang AMD geen grote blunders maakt zijn ze er bijna van verzekerd dat de Hammer zal slagen als opvolger van de Athlon in de desktop markt. De ambities van AMD gaan uiteraard verder. Wil AMD slagen in de servermarkt én het maximale potentieel van de Hammer benutten, dan zal 64-bit ondersteuning in de veelgebruikte x86 besturingssystemen noodzakelijk zijn.

SuSE logo Linux gebruikers hoeven zich wat dit betreft geen zorgen te maken. AMD heeft al vroeg onderkend dat het Hammer platform door middel van goede Linux support een behulpzaam zetje in de servermarkt kan krijgen. Samen met de bekende Duitse Linux distributeur SuSE werkt AMD sinds de zomer van 2000 aan een x86-64 port van Linux en de GCC compiler. De x86-64 modificaties zullen verschijnen in de 2.4, 2.5 en 2.6 kernels. Veel Linux servers draaien open source software, met name de grote schare machines die voor typische internet doeleinden worden gebruikt zoals webservers, mailservers en (web) database-servers. De source van deze programmatuur zal probleemloos tot x86-64 code gecompileerd kunnen worden.

Tot voor kort was het onduidelijk in welke mate Microsoft is toegewijd aan de ondersteuning van de Hammer processors. Onlangs heeft Jerry Sanders echter in een interview met Upside.com bevestigd dat Microsoft een x86-64 compatible versie van Windows XP64 in ontwikkeling heeft. Eerder hadden warez crackertjes al tekenen gevonden van x86-64 support in XP64 en de Microsoft Visual C++ compiler. Windows XP64 ondersteuning is van cruciaal belang voor het slagen van het Hammer platform in de servermarkt, omdat een groot deel van de bedrijfsservers op Windows NT of 2000 draait.

Intel C++ Compiler boxshot Op het gebied van compilertechnologie bevindt AMD zich in een duidelijk achtergestelde positie ten opzichte van Intel. Laatstgenoemde ontwikkelt zijn eigen C++ en Fortran compilers, zodat het bedrijf zelf tools kan aanreiken waarmee developers de nieuwste Intel processors optimaal kunnen ondersteunen. AMD beschikt niet over dit vermogen. Voor de Athlon processor is het gemis van eigen compileroptimalisaties nooit een groot probleem geweest omdat de K7 familie uitstekend presteert op code die is geoptimaliseerd voor de P6 architectuur. Nu, met de introductie van de x86-64 extensies, zou een eigen compiler-ontwikkelingsteam erg goed van pas komen. Gezien de omstandigheden is de samenwerking met SuSE bij de ontwikkeling van x86-64 ondersteuning in de GCC compiler een goede oplossing. Als ook Microsoft behulpzaam is, wat nu het geval lijkt te zijn, ziet de situatie er in zijn geheel niet slecht uit voor AMD.

Exit FSB en northbridge

In de traditionele pc architectuur is de processor middels de frontside bus (FSB) gekoppeld aan de northbridge (vernoemd naar zijn noordelijke ligging op de moederplank), die het middelpunt vormt tussen de processors, geheugen banken, AGP poort en de southbridge. In de southbridge is op zijn beurt de I/O besturing ondergebracht van onder andere de PCI, USB en IDE controllers. Tot voor kort werd de southbridge door middel van een normale 33MHz PCI bus aan de northbridge geknoopt, maar Intel, VIA en SiS hebben die trage verbinding (133MB/s) ieder door hun eigen snellere technologiën vervangen.

Hammer platform preview: northbridge/southbridge opstelling (1-way) AMD maakt een einde aan dit plaatje door de Hammer als eerste high-end x86 processor te voorzien van een geïntegreerde geheugencontroller. De northbridge verliest daardoor één van zijn belangrijkste functies, met als gevolg een radicale herziening van het aloude northbridge concept. In plaats van een northbridge en southbridge werkt de Hammer met een AGP tunnel en een I/O hub, die ieder in een eigen chip zijn ondergebracht. Als bindingsmiddel wordt HyperTransport ingezet.

De voordelen van de on-die memory controller mogen duidelijk zijn. Het geheugen ligt 'dichter' bij de processor, zodat aanvragen in een kortere tijd heen en weer kunnen fietsen en de processor minder lang uit zijn neus staat te eten. De huidige Athlon processors hebben een geheugen latency van minimaal 100 nanoseconde, uitgaande van 50 procent pagehits en een modaal bandbreedtegebruik. De geïntegreerde geheugencontroller van de Hammer kan hier zo'n 30 ns vanaf halen. Dankzij de lagere latencies zal de Hammer een hogere effectieve bandbreedte kunnen onttrekken aan PC2100 of PC2700 geheugen dan de huidige Athlon XP processors. De geïntegreerde geheugen controller kan volgens AMD een performance winst van 20 procent opleveren in een 'willekeurige' applicatie. Je hebt er ook wat aan als Quake en MPEG encoding niet tot je dagelijkse bezigheden behoren, is de boodschap.

Ondanks recente geruchten over de ontwikkeling van een Hammer processor met Rambus ondersteuning, is het zeker dat de Hammer processors voorzien zullen zijn van een DDR SDRAM geheugencontroller. De geruchten over een Rambus controller zijn zwaar overtrokken en lijken uitsluitend gebaseerd te zijn op het bekende feit dat AMD in bezit is van een Rambus licentie. In ons gesprek was John Crank duidelijk over hun toewijding aan het DDR platform. Naar eigen zeggen streeft het bedrijf naar 'ontwikkeling met open standaarden', in 'tegenstelling tot de concurrent', waarbij werd verwezen naar de manier waarop Rambus DRAM door Intel in de markt werd gezet.

Hammer preview: memory en DRAM controller

De Hammer architectuur is echter wel voorbereid om in de toekomst andere geheugensoorten dan DDR SDRAM te ondersteunen. Daartoe is onderscheid gemaakt tussen de memory controller (MCT) en de DRAM controller (DCT). De MCT fungeert als interface tussen de Hammer core en de DCT, die verantwoordelijk is voor de ondersteuning van het specifieke geheugentype. AMD heeft al laten doorschemeren dat in de toekomst een DDR-II DCT ontwikkeld zal worden.

...en welkom HyperTransport

HyperTransport vormt een essentieel onderdeel van de Hammer architectuur. Deze snelle interconnectie-standaard werd eind 1999 samen met de K8 plannen onder de toenmalige naam Lightning Data Transport aangekondigd. HyperTransport is een open industriestandaard waarvan de ontwikkeling wordt geleid door het HyperTransport Technology Consortium. Dit consortium omvat inmiddels 41 leden, waaronder grote namen zoals Apple, Broadcom, Cisco, HP, nVidia, Sun en Silicon Graphics. Nog eens 30 bedrijven hebben zich voor toelating aangemeld. HTC-leden kunnen royalty-vrij gebruik maken van de HyperTransport technologie.

Hypertransport consortium logo Het doel van HyperTransport in de Hammer architectuur is het opheffen van bandbreedte bottlenecks, met name die in multi-processor configuraties en in de I/O systemen van de hedendaagse pc architecturen. De I/O bandbreedte is sinds de komst van PCI bus in feite stil blijven staan, terwijl de CPU performance in snel tempo is toegenomen. Zelfs PCI-X, een technologie die pas sinds kort in servers wordt toegepast, heeft een kloksnelheid die vijftien keer zo laag is als die van hedendaagse high-end processors. In 1994 bedroeg het verschil tussen een high-end 486DX4 op 100MHz en de PCI bus op 33MHz slechts een factor drie.

Het tweede probleem is de complexiteit van allerlei legacy bussystemen op het moederbord, zoals de FSB tussen processor en northbridge, de PCI, V-Link of MuTIOL bus tussen northbridge en southbridge, en de PCI bus die wordt bestuurd door de southbridge. Hoewel HyperTransport op dit moment geen vervanging kan zijn voor PCI, vormt het wel een algemeen inzetbaar transportmiddel waar de legacy PCI bus, AGP poort, PCI-X controller en andere componenten op aangesloten kunnen worden. AMD heeft ter ondersteuning van de Hammer architectuur drie van dergelijke componenten ontwikkeld, de AMD-8111 I/O hub, AMD-8131 PCI-X tunnel en AMD-8151 AGP3.0 tunnel. De AMD-8111 vervult in feite de functie van de klassieke southbridge.

Hammer platform preview: klassieke northbridge opstelling

Klassieke multi-processor topologie

Het derde probleem van huidige bus architecturen manifesteert zich in multiprocessor systemen. Intel systemen maken traditioneel gebruik van een gedeelde frontside bus, wat betekent dat de effectieve bandbreedte de processor tot zijn beschikking heeft, afneemt naarmate het aantal CPU's toeneemt. Dit probleem is één van de oorzaken van de slechte schaalbaarheid van x86 multi-processor configuraties. AMD heeft dit probleem wat halfslachtig willen tackelen in de AMD 762 northbridge, door de processor elk een dedicated FSB te geven. De geheugen en I/O bandbreedte moeten echter nog steeds gedeeld worden door de processors.

Opheffing van de I/O bottleneck

De Hammer architectuur belooft een eind te maken aan de multi-processor I/O bottleneck. Iedere Hammer processor in de dual- of multi-processor configuratie beschikt over een eigen bank lokaal geheugen. HyperTransport wordt ingezet om de processors onderling te verbinden. Dit concept wordt 'glueless' multi-processing genoemd, omdat de processors zonder tussenkomst van een chipset met elkaar verbonden worden. De I/O hub, AGP tunnel en PCI-X tunnel zijn via HyperTransport gekoppeld aan één van de processors in het systeem. Als meer I/O bandbreedte gewenst is kan op de HyperTransport link van een andere processor nog een PCI-X tunnel aangesloten worden. Zodoende ontstaat een bijna perfecte schaalbaarheid. Naarmate het aantal processors toeneemt zal de totale geheugenbandbreedte groeien en desgewenst kan de I/O bandbreedte meeschalen.

Hierbij komt meteen het volgende voordeel van de geïntegreerde geheugencontroller en het ontbreken van de frontside bus aan het licht: dual- en multi-processor Hammer configuraties verlangen geen specifieke chipset support. Alles wat nodig is om meerdere processors te laten samenwerken is immers het aanleggen van HyperTransport verbindingen tussen de CPU's. AMD zal dankzij de eenvoud van de Hammer architectuur in staat zijn om vrij snel na de introductie van de eerste desktop Hammer processors de server en workstation markt te betreden. Het zal niet meer voorkomen dat we bijna twee jaar moeten wachten op de marktintroductie van een dual processor chipsets, zoals bij de 760MP het geval was.

Hammer platform preview: HyperTransport topologie

Wat betreft technische mogelijkheden laat HyperTransport niet veel te wensen over. HyperTransport is een seriële link die de data, commando's en adressen over dezelfde lijnen verstuurd. De data wordt verpakt in packets die een lengte hebben van 4 bytes of een veelvoud daarvan. De links hebben een breedte van 2, 4, 8, 16 of 32-bit in beide richtingen. In de huidige HyperTransport 1.0.3 specificatie is de snelheid beperkt tot 1,6Gbit/s per pin-paar, maar de snelheid zal in een nieuwe revisie oplopen tot 2Gbit/s. Dit resulteert in een maximale bandbreedte van 12,8 gigabyte per seconde bij een busbreedte van 32-bit (met 1,6Gbps snelheid).

Hammer platform preview: HyperTransport pincount tabel

Dankzij de seriële packet interface heeft HyperTransport een lage pincount. Bij de 8-bit versie spreken we over 55-pins en een bandbreedte die twaalf keer zo hoger is dan PCI-32/33, terwijl het aantal pins lager is. HyperTransport beschikt over een stroombesparingsmodus die samen met de mogelijkheid om de busbreedte te variëren van belang zijn voor mobiele computers en andere apparatuur waarin laag stroomverbruik een belangrijke voorwaarde is. Verder is het belangrijk om op te merken dat HyperTransport software-compatible is met PCI en probleemloos gebruikt kan worden door legacy applicaties en besturingssystemen.

Hammer platform preview: HyperTransport tunnel en bridge

AMD heeft met HyperTransport een flexibele en modulaire I/O topologie ontwikkeld die het systeem ontwerp sterk kan eenvoudigen. Dankzij de ondersteuning van tunnels en bridges kunnen de HyperTransport componenten eenvoudig aan elkaar geknoopt worden. Hierbij worden zowel stervormige als point-to-point en bus topologiën ondersteund. AMD beschrijft het als 'bouwen met Lego steentjes'. Omdat HyperTransport wordt toegepast in een grote variëteit aan hardware - het HyperTransport Consortium heeft deelnemers uit de telecom-, netwerk- en pc-industrie - is het mogelijk om componenten te delen die worden gebruikt in verschillende markten en apparatuur die verschillen van architectuur, maar allen beschikken over de HyperTransport bus. Deze ontwikkeling kan uiteindelijk resulteren in een prijsverlaging van dergelijke chips.

Hammer platform preview: HyperTransport Lego steentjes

Denkbeeldige HyperTransport bouwdoos

ClawHammer vs SledgeHammer

Waarschijnlijk ben je al bekend met het feit dat de Hammer in twee versies op de markt gebracht zal worden, genaamd ClawHammer en SledgeHammer. Claw- Hammer vult de desktop en 2-way server/workstation markt, terwijl SledgeHammer op het 2-way tot 8-way server segment wordt gepositioneerd. Uiteindelijk moeten de Hammers het complete spectrum bedienen, van mobiles tot high-end servers. ClawHammer en SledgeHammer verschillen op vijf punten van elkaar: de geheugeninterface, de L2 cache, de HyperTransport interface, het processor socket en de RAS mogelijkheden.

Als basis voor de Claw- en SledgeHammer core dient de K7, die uiteraard de nodige aanpassingen onderging om 64-bit registers mogelijk te maken. De branch prediction werd verbeterd door uitbreiding van de global history counter en verhoging van het het aantal entries in de translation lookaside buffers (TLB's), zodat deze met name onder hoge workloads beter presteren. De branch history counter telt nu 16384 entries in plaats van 4096 en de L1 instructie TLB kreeg 40 entries in plaats van 24. De L2 instructie en data TLB's werden verdubbeld en tellen nu elk 512 entries. Dankzij een verlenging van de pipeline van 10 naar 12 stappen kunnen de Hammer processors beter in kloksnelheid schalen. Eerder heb je al kunnen lezen dat de Hammers in 64-bit Long Mode over extra integer en SSE registers kunnen beschikken.

Hammer platform preview: TLB groottes en associativities

De Hammer is, in tegenstelling tot hetgeen AMD aanvankelijk van plan was, niet voorzien van Technical Floating Point (TFP) extensies. TFP zou geïmplenteerd worden middels een RISC-achtige FPU met flat register file. In plaats van TFP heeft AMD uiteindelijk toch gekozen voor SSE2, zodat het bedrijf kan meeliften op het succes van SSE2 optimalisaties voor de Pentium 4. Beide oplossingen zijn van groot belang omdat ze de mankementen van de stack-based x87 floating point unit opheffen

Geheugeninterface

ClawHammer en SledgeHammer hebben beide ondersteuning voor PC1600, PC2100 en PC2700 DDR SDRAM, maar bij SledgeHammer wordt het geheugen aangesproken over een 128-bit brede bus terwijl ClawHammer's geheugenbus de gebruikelijke breedte van 64-bit heeft. Deze busbreedtes resulteren in een theoretische bandbreedte van respectievelijk 5,33GB/s en 2,66GB/s per processor. Hoewel het gebruik van PC1600 en PC2100 geheugen mogelijk is, liet AMD op de CeBIT al doorschemeren dat de productieversies gecombineerd zullen worden met 333MHz PC2700 geheugen. AMD verwacht dat PC2700 het meest verkochte geheugentype zal zijn op het moment dat ClawHammer aan zijn marktbestorming begint. PC3200 modules met DDR400 chips zullen dan nog te duur zijn en te slecht verkrijgbaar. De kloksnelheid van de DRAM controller (DCT) kan op een later tijdstip eenvoudig verhoogd worden. DDR-II ondersteuning staat op de planning, maar daarvoor zal de DCT opnieuw ontworpen moeten worden. Rambus support is, zoals eerder besproken, niet aan de orde.

Naast de breedte van de bus verschillen Claw en Sledge in het aantal geheugenrepen dat zij ondersteunen. SledgeHammer ondersteunt maximaal acht registered DIMMs, terwijl ClawHammer niet meer dan twee ongebufferde modules of vier registered repen kan aanspreken. Volgens de huidige specificaties mogen registered modules maximaal 2GB groot zijn en unbuffered modules maximaal 1GB. Een optimaal geconfigureerd SledgeHammer systeem met acht processors kan dus maximaal 128GB geheugen aanspreken.

L2 Cache

De omvang van de L1 cache is voor zowel SledgeHammer als ClawHammer gelijk aan die van de K7, dus 64KB instructie- en 64KB datacache. AMD heeft nog geen details prijsgegeven over de grootte van de L2 cache, behalve dat ClawHammer en SledgeHammer zullen verschillen en dat het maximum is gesteld op 1MB. Dit maximum is volgens betrouwbare bronnen ook meteen de hoeveelheid L2 cache die we in de SledgeHammer mogen verwachten.

Claw vs Sledge: HT interface

Teneinde een maximale schaalbaarheid mogelijk te maken in 4-way en 8-way configuraties is de SledgeHammer voorzien van drie HyperTransport links met een bandbreedte van elk 6,4GB/s (3,2GB/s upstream en downstream). In een vierdubbele orgie kan één link gebruikt worden voor de I/O en de overige twee voor de verbinding met twee naburige processors. Dit plaatje is hetzelfde voor de 'buitenste' vier processors in een 8-way setup. De middelste vier processors verbinden hun derde link met de schuin tegenoverliggende CPU. Daardoor is het niet noodzakelijk om alle processors met elkaar in verbinding te stellen, wat erg gecompliceerd zou zijn in 4-way en 8-way systemen, terwijl de wachttijd voor het benaderen van geheugen uit een andere processor toch laag gehouden kan worden. Een crossbar zorgt voor de snelle en efficiënte routering van data tussen de HyperTransport links, de geheugencontroller en de SRQ (System Request Queue) van de processor. De gemiddelde latency voor het benaderen van niet-lokaal geheugen bedraagt in het geval van een pagemiss 140ns in 4-way systemen en 160ns in 8-way systemen. Volgens AMD is het latency verschil tussen lokaal en remote geheugen gelijk aan het verschil tussen een pagehit en een pagemiss.

Hammer platform preview: X-Bar, MCT, DCT en SRQ

De X-Bar verzorgt de routering tussen SRQ, MCT en HyperTransport links

Dankzij de lokale geheugencontrollers kunnen 8-way Hammer systemen een totale geheugenbandbreedte van 21,3GB/s bereiken. De vier middelste processors in de 8-way architectuur hebben in theorie de volledige beschikking over deze bandbreedte. De totale I/O bandbreedte kan oplopen tot 25,6GB/s dankzij de vier beschikbare HyperTransport links van de buitenste processors. Voor x86 begrippen zijn dat duizelingwekkende cijfers.

ClawHammer is wat dat betreft veel bescheidener. Hier treffen we twee 6,4GB/s HyperTransport links aan, waarvan één gebruikt wordt voor de onderlinge communicatie tussen de processors. Dual ClawHammer machines kunnen maximaal 5,33GB/s geheugenbandbreedte en maximaal 12,8GB/s I/O bandbreedte bereiken.

2-way ClawHammer topologie

Hammer platform preview: 4-way SledgeHammer topologie

4-way SledgeHammer topologie met verdeelde I/O en optionele AGP tunnel

8-way SledgeHammer topologie

Processor socket en packaging

SledgeHammer en ClawHammer maken beide gebruik van een eigen socket-type. Dit is het logische gevolg van de verschillen in de geheugeninterface en het aantal HyperTransport links op beide processors. De pincount van de sockets is erg hoog in vergelijking met het Socket 370, 462, 478 en 603 van de PIII / Celeron, Athlon / Duron, Pentium 4 en de Xeon. ClawHammer is met zijn 754 pinnetjes al niet bescheiden te noemen, maar het Socket 940 van de SledgeHammer gooit daar nog een schep bovenop. In feite vallen deze getallen best mee als je ze relativeert aan de pincount van moderne northbridge chips. De VIA KT333 heeft bijvoorbeeld 522 pins en de AMD 760MP zelfs 949. ClawHammer en SledgeHammer herbergen met uitzondering van de AGP poort alle functionaliteit van een northbridge. Dat zo'n hoge pincount veel ruimte vraagt op de chip verpakking bleek uit de mechanische samples die AMD op de CeBIT had meegenomen. De SledgeHammer is aan de onderzijde vrijwel volledig bedekt met pinnetjes. ClawHammer heeft in het midden een klein vierkant gebied dat is gevrijwaard van pins.

ClawHammer

SledgeHammer

AMD heeft een verstandig besluit genomen door de Hammer cores te beschermen met geïntegreerde heatspreaders zoals we die kennen van de Pentium 4 en Xeon CPU's van Intel. De metalen heatspreader beschermt de gevoelige core tegen de krachten die tijdens het monteren van de heatsink op de processor en het socket worden losgelaten. Overigens is het nog onduidelijk welk mechanisme AMD wil gebruiken voor de bevestiging van de heatsink. Op het Solo reference bord dat wij op CeBIT onder ogen kregen, was de heatsink bevestigd aan een metalen plaat aan de onderzijde van de PCB. AMD's John Crank benadrukte dat deze methode niet al worden gebruikt op de uiteindelijk productie borden. We hebben daarom geen foto's van het ijzer gemaakt. Als je toch geïnteresseerd bent kun je dit plaatje van AnandTech bekijken.

RAS features

Zonder de aanwezigheid van RAS (Reliability, Availability and Serviceability) features zou AMD zijn ambities in de high-end servermarkt, waar betrouwbaarheid boven alles staat, meteen vaarwel kunnen zeggen. De Hammers zijn daarom voorzien van een aantal RAS-bevorderende eigenschappen, om te beginnen met ECC foutcorrectie op de L1 cache data, de L2 cache data en cache tags, de TLB's en het DRAM geheugen. Machine Check Architecture (MCA) verschaft een mechanisme waarmee hardware en software fouten ontdekt en gerapporteerd kunnen worden. De Hammer documentatie vermeldt niet of de MCA implementatie compatible is met die van de Itanium of eerdere Intel processors, waarvoor inmiddels ondersteuning aanwezig is in 64-bit Windows.

SledgeHammer beschikt als enig Hammer derivaat over Chipkill ECC support. Chipkill geeft de mogelijkheid tot geheugen hotswapping, kan een server ongestoord laten doorwerken op een defecte DRAM chip en beschermt het geheugen tegen multi-bit fouten die niet door ECC gecorrigeerd kunnen worden. Chipkill ECC werd ontwikkeld door IBM en werkt volgens hetzelfde principe als RAID, waarbij de D in dit geval staat voor 'DRAM' in plaats van 'Disks'.

Hammer platform preview: Chipkill vs ECC vs Parity betrouwbaarheid

Productiefactoren

Twee belangrijke factoren voor het succes van een processor die vaak over het hoofd worden gezien, zijn productietechnologie en die-size. Intel heeft als grootste chipfabrikant ter wereld als vanouds een voorsprong op productiegebied. Dit stelt het bedrijf in staat om chips met hogere kloksnelheden en kleinere cores tegen lagere productiekosten te vervaardigen. De voorsprong van Intel is op dit moment zichtbaar in het feit dat Intel al driekwart jaar processors verscheept die zijn geproduceerd met behulp van 0,13 micron technologie, terwijl AMD daar pas drie weken geleden mee is begonnen. Dankzij Intel's continue voorsprong op het vlak van productietechnologie is het bedrijf in staat om zelfs in moeilijke tijden competitief te blijven, als de concurrentie beschikt over een betere architectuur maar met mindere technologie produceert.

Fab30 in Dresden

Hoewel Intel onbetwist leider is op het punt van productietechnologie, bevindt ook AMD zich op de cutting edge van de technologische mogelijkheden. AMD heeft in Dresden een fabriek uit de grond gestampt die dankzij samenwerking met Motorola en IBM gebruik maakt van de modernste productietechnologiën. Dresden produceert al sinds begin 2000 chips die zijn geoptimaliseerd met koper-interconnects - lang voordat Intel daarmee begon. Momenteel vindt in Dresden de overschakeling plaats van 0,18 micron naar 0,13 micron productie plaats en eind dit jaar zal het 0,13 micron procédé vernieuwd worden met Silicon-on-Insulator (SOI) technologie van IBM. SOI isoleert de transistors van het onderliggende silicium. Dit vermindert de lekkage van de elektronen die tussen de transistors heen en weer fietsen, waardoor de transistors sneller kunnen schakelen en het stroomverbruik wordt verlaagd. Volgens IBM kan SOI de performance ten opzichte van een standaard CMOS procédé met 20 tot 25 procent verbeteren, en kan het stroomverbruik met een factor 1,7 tot 3 gereduceerd worden. Speculaties spreken over een kloksnelheidsvoordeel van 10 tot 15 procent op het al geavanceerde procédé van AMD.

Overigens is het onjuist dat AMD uitsluitend technologie inkoopt van derden. Het bedrijf stopt veel tijd en geld in de ontwikkeling van procestechnologiën en staat hoog op de wereldranglijst van bedrijven die jaarlijks het hoogste aantal patenten registreren.

Hammer platform preview: Silicon on Insulator (SOI) technologie

De werking van SOI. Meer informatie op IBM.com

Die-size

De introductie van de Pentium 4 heeft AMD onbedoeld een belangrijk wapen in handen gegeven, namelijk die-size. Zelfs de huidige 0,18 micron Palomino's zijn kleiner dan de 0,13 micron Pentium 4 Northwood core. Thoroughbred zal het chipoppervlak van de Athlon XP verkleinen van 128 naar 80 vierkante millimeter, zodat het relatieve verschil met de 136 mm^2 grote Nortwood core uitkomt op 70 procent. AMD haalt dus veel meer processors uit dezelfde wafer oppervlakte en kan met minder apparatuur meer processors produceren. Ondanks de vele nieuwe features zal de Hammer niet veel groter zijn dan Thoroughbred. Volgens schattingen heeft de ClawHammer een die-size van ongeveer 103 vierkante millimeter. Omdat AMD genoodzaakt is zijn processors onder de prijs van een vergelijkbaar Intel product te slijten, is het van cruciaal belang dat de die-size lager wordt gehouden dan de chipoppervlakte van rivaliserende Intel CPU's. Bij de introductie van de ClawHammer processor zal dit opnieuw het geval zijn.

AMD Athlon 4 wafer (skewed met shaduw)

De relatief kleine die-size van de Athlon XP en ClawHammer processors heeft als bijkomend voordeel dat AMD minder snel genoodzaakt is om hoge investeringen te doen in de bouw van geavanceerde 300mm fabs. Intel heeft onlangs als eerste fabrikant een 300mm fab in gebruik genomen, maar AMD maakt evenals de meeste chipfabrieken nog gebruik van 200mm wafers. Grotere wafers hebben onder andere als voordeel dat er minder afval is aan de rand van de wafer. 300mm productie is voor Intel van veel groter belang dan voor AMD, omdat de Pentium 4 en met name Itanium een grote die-size hebben.

Productiecapaciteit

Een gebrek aan productiecapaciteit wordt vaak als reden genoemd waarom AMD er niet in is geslaagd om meer marktaandeel dan de huidige 22 procent binnen te hengelen. Volgens John Crank kan Fab30 in Dresden dankzij de kleine die-size van de AMD processors na overschakeling op 0,13 micron technologie voorzien in 55 tot 60 procent van de marktbehoefte. Jerry Sanders spreekt in zijn interview met Upside.com over een top van 50 miljoen units als Dresden eind dit jaar op maximale capaciteit draait. Momenteel produceert AMD 32 miljoen processors per jaar, waarvan een deel in Austin werd geproduceerd. De fabriek in Austin wordt omgebouwd voor de productie van Flash geheugenchips.

Afgaande op deze cijfers is er geen reden om te geloven dat AMD niet in marktaandeel kan groeien. Naast de capaciteit in Dresden kunnen vanaf eind dit jaar de diensten van de Taiwanese chip foundry UMC benut worden. Het produceren van high-end x86 processors is een buitengewoon complex proces. UMC zal daarom in eerste instantie uitsluitend low-end 0,13 micron Duron spullen vervaardigen. Op de lange termijn zal UMC ook de productie van high-end Hammer processors op zich nemen. AMD en UMC werken samen aan de bouw van een fab in Singapore die in 2005 begint met de productie van 300mm wafers op een 65 nanometer procédé. Het eigendom van de fab is voor de helft in handen van UMC, maar de productietechnologie zal volledig afkomstig zijn van AMD.

Dresden zal medio volgend jaar de overschakeling van 0,13 micron naar 90 nanometer technologie maken. AMD loopt met deze ontwikkeling nauwelijks achter op Intel.

AMD-8000 chipset serie

We zijn inmiddels van AMD gewend dat het bedrijf zijn toekomst niet langer laat afhangen van onzekere third-party chipset support door een club zoals VIA, voor wie het eigen belang niet vanzelfsprekend het belang van AMD dient. Ook bij de ontwikkeling en marketing van het Hammer platform neemt AMD het heft in eigen hand. AMD onthult langzamerhand steeds meer facetten van het Hammer platform. Op 21 februari was de beurt aan drie HyperTransport blokjes die gebruikt kunnen worden om een Hammer plank te stenigen met AGP, PCI-X en de overige gebruikelijke I/O mogelijkheden. Deze drie chips zijn eerder al kort ter sprake gekomen.

Third-party chipset support

De productie van chipsets behoort niet tot de core business van AMD, maar wordt in feite uitsluitend gedaan om de eigen platform ondersteuning te waarborgen. Naast AMD zijn ALi, SiS, nVidia en VIA betrokken bij de ontwikkeling van chipsets voor de Hammer architectuur. Het ligt in de lijn der verwachting dat er Hammer chipsets zullen komen die de AGP poort en de southbridge integreren op een enkele chip. Verder staan Serial ATA en een geïntegreerde video-core prominent op het wenslijstje van features die nog niet door de chipsets AMD worden afgedekt. Echte technologische hoogstandjes hoeven we van de chipsetfabrikanten niet te verwachten. Zij zijn immers beperkt in hun creativiteit, omdat het belangrijkse onderdeel van de northbridge - de geheugencontroller - naar de CPU is verhuisd. HyperTransport maakt het ook nog eens onnodig om allerlei exotische interconnect technologiën richting de southbridge aan te leggen, zodat VIA en SiS hun paradepaardjes VLink en MuTIOL op stal kunnen laten.

CeBIT demonstratie

AMD gaf op de CeBIT stand achter gesloten deuren een demonstratie van de ClawHammer processor. De demo was vergelijkbaar met de voordracht die eind februari op het Intel Developer Forum werd gegeven. Twee ClawHammer machines gebaseerd op het Solo reference waren aanwezig, waarvan één systeem op de 64-bit x86-64 port van Linux draaide en de andere op een ongemodificieerde Windows XP. De Linux doos draaide twee bouncing ball demo's, één gecompileerd met 32-bit code en de andere met 64-bit code. Deze demo liet zien hoe de Hammer gelijktijdig 32-bit en 64-bit software kan draaien op een x86-64 besturingssysteem. Verder draaide de machine een Apache daemon die pagina's stond te serveren naar een Athlon 4 notebook van HP. Dit wilde helaas niet werken op het moment dat wij aanwezig waren . De dansende balletjes waren visueel niet bepaald indrukwekkend, maar liet wel zien dat de Hammer in staat is om gelijktijdig 64-bit en 32-bit software te draaien en dat zonder performance verlies. Wat de demo vooral bijzonder maakte is de hoeveelheid functionaliteit die AMD heeft gerealiseerd op A0 silicium van niet alleen de processor maar ook de ondersteunende chipsets.

Hammer platform preview: ClawHammer demosysteem - bouncing balls

Hammer platform preview: ClawHammer demosysteem - inkijk

Tweakers.net poogt ClawHammer sampletje schrik aan te jagen met hevig overbelichtende Minolta flits

Naast de demo van de twee draaiende systemen kregen we de mogelijkheid om de ClawHammer, SledgeHammer en het Solo moederbord nader te bestuderen. Over het uiterlijk van de processors valt weinig te vertellen: veel pins, grote heatspreader en nul bruggen. De Solo plank viel op door zijn relatieve eenvoud. Het bord heeft gewoon vier layers zoals elke normale productieplank en had naar ons idee weinig grote condensators. Het personeel door wie de demo werd begeleid kon niet vertellen wat hiervoor de reden was. Blijkbaar levert het ClawHammer platform dankzij HyperTransport en de geïntegreerde northbridge een relatief eenvoudig ontwerp op. De HyperTransport autobahnen tussen de AGP tunnel en de I/O hub waren duidelijk zichtbaar op de PCB.

Hammer platform preview: Solo reference mobo totaalshotje #1

Hammer platform preview: Solo reference mobo totaalshotje #2

Hammer platform preview: Solo heatsink en AGP tunnel

Hammer platform preview: Solo condensators naast CPU

Hammer platform preview: Solo condensators bovenhoek

Hammer platform preview: AMD-8111 I/O hub op Solo mobo

AMD-8111 HyperTransport I/O hub

Het notenschrift van de Intel jingle, waarover tijdens het IDF de nodige hilariteit was ontstaan, vond men kennelijk niet gepast op de CeBIT. Hammer platform preview: Solo 3 klauwhamertje

Hammer platform preview: Solo 3 klauwhamertje

Het tonenspel was in geen velden en wegen op de PCB te vinden. De oorzaak wordt duidelijk als we het Solo bord met revisie 3 uit de Linux demomachine nader bestuderen. Klauwhamertje heeft inmiddels zijn eerste vervaarlijke slag gemaakt en liet daarmee de Intel jingle verdwijnen. Wat belooft dit voor de volgende episode?

Terug naar de plank, waar wij verderop jumpersettings voor de frequenties 100, 133 en 166MHz ontdekten. Helaas verwezen de AMD mensen naar onze eigen creativiteit om te bedenken waarvoor deze settings dienen. Het lijkt aannemelijk dat hiermee de clock divider van de van de geheugenbus bepaald kan worden. De kloksnelheden komen overeen met de drie smaken DDR die door de ClawHammer worden ondersteund: PC1600, PC2100 en PC2700. De FSB kan het niet zijn omdat deze ontbreekt in het Hammer concept. HyperTransport is evenmin een mogelijkheid, omdat de links op een veel hogere kloksnelheid lopen.

Hammer platform preview: Solo mobo in IDF outfit

Hammer platform preview: Solo mobo in CeBIT outfit

IDF Solo vs CeBIT solo

Solo wordt gevoed door een normale 20-pins ATX connector in combinatie met de 4-pins ATX12V connector die iedereen inmiddels kent van zijn aanwezigheid op de Pentium 4 mobo's. Het bevestigingsmechanisme van de koelers is zoals eerder besproken niet final spec.

Hammer overclocking

Als geboren overklokkers waren we natuurlijk geïnteresseerd in de mogelijkheden die Hammer op het gebied van overclocking heeft te bieden. Overclocking was ook zo'n beetje het eerste woord dat het aanwezige AMD mannetje liet vallen toen hij begreep dat wij iets met hardware en een website deden. Helaas ziet het er naar uit dat de Hammer processors op dit gebied minder voortvarend te werken gaan. De kloksnelheid van de processor wordt bepaald door een klokgenerator in de chip, wat AMD alle mogelijkheden geeft om overclocking onmogelijk te maken. Er is geen FSB meer waarvan de frequentie overgeklokt gaan worden en op de chip packaging zijn geen bruggen bereikbaar waarmee eventueel de settings van de klokgenerator beïnvloed kunnen worden.

De technische mensen van AMD konden ons niet vertellen of er mogelijkheden zijn tot overclocking, maar zij maakten wel de opmerkingen dat het bevredigen van de tweakende wereldbevolking ondergeschikt is aan de nadelige effecten die overclocking met zich meebrengt, zoals remarking van processors door criminele organisaties en de schadelijke gevolgen voor de reputatie van AMD door overgeklokte over vervalste processors. Het vervalsen van processors was een sterk in populariteit stijgende activiteit onder criminele lieden, tot op het moment dat Intel zijn Pentium CPU's ging voorzien van een multiplier lock.

Performance schattingen

Hoewel AMD inmiddels een groot aantal details over zijn achtste generatie processorarchitectuur heeft vrijgegeven, zal de performance van het Hammer platform nog even in nevelen gehuld blijven. Het is wachten tot de eerste benchmarkresultaten van ClawHammer engineering samples uitlekken. In onze meeting op de CeBIT kregen we al wel wat hints toegespeeld. Eerder in dit artikel heb je kunnen lezen dat de geïntegreerde geheugencontroller en de verbeterde branch prediction volgens de techneuten van AMD een winst opleveren van respectievelijk 20 en 5 procent ten opzichte van de huidige Athlon XP. Dankzij de extra general purpose registers kunnen 64-bit applicaties een performance verbetering van ongeveer 15 procent verwachten. Een vermenigvuldiging van deze cijfers levert een totale verbetering op van circa 25 procent in 32-bit mode en bijna 45 procent in 64-bit mode. De Duitse IT site Golem schrijft in een interview met AMD woordvoerder Jan Gütter over een winst van 20 tot 25 procent voor 32-bit applicaties en een winst van 35 tot 40 procent voor applicaties die zijn gehercompileerd voor de x86-64 instructieset.

De genoemde schattingen geven meer gewicht aan de geruchten over een QuantiSpeed rating van 3400+ voor de 2GHz ClawHammer. AMD zal naar schatting een kloksnelheid van 2,7GHz nodig hebben om de Athlon XP vergelijkbare prestaties te geven als een Pentium 4 op 3,4GHz. Neem 25 procent van de kloksnelheid in aftrek en je komt op een frequentie van ongeveer 2GHz voor de ClawHammer. Dankzij Silicon-on-Insulator en 0,13 micron technologie mag het geen probleem zijn om de kloksnelheid van de ClawHammer over de 2GHz barrière te tillen. De zelfverzekerde houding waarmee het AMD team op de CeBIT verkondigde dat ClawHammer eind dit jaar de snelst verkrijgbare CPU zal zijn, lijkt dan dan ook meer dan alleen schijn.

Overigens kunnen de schattingen niet zonder meer op de floating point performance toegepast worden. De FPU prestaties zijn sterk afhankelijk van de hoeveelheid beschikbare geheugenbandbreedte. ClawHammer zal op dit gebied beter kunnen presteren dankzij het gebruik van PC2700 geheugen en het ontbreken van een vertragende frontside bus op 266MHz. SledgeHammer zal dankzij de dubbele bandbreedte van de 128-bit brede geheugenbus beter kunnen presteren dan ClawHammer. Nog meer winst is te verwachten van applicaties die zijn voorzien van SSE2 optimalisaties.

Multi-processor performance

Op de voorgaande pagina's heb je kunnen lezen dat het Hammer platform gebruik maakt van een NUMA (Non-Uniform Memory Access) architectuur, waarbij iedere CPU in een multi-processor omgeving over een eigen deel lokaal geheugen beschikt. De geheugengebieden die bij de andere processors zijn ondergebracht, kunnen via de HyperTransport links benaderd worden. NUMA heeft als voordeel dat de geheugenbandbreedte evenredig kan stijgen met het aantal processors, in tegenstelling tot een simultaan multi-processing systeem waarbij de CPU's aan dezelfde uniforme poel met geheugen zijn gekoppeld en dus geheugenbandbreedte moeten delen. NUMA kan de schaalbaarheid en performance aanzienlijk verbeteren, mits de technologie op de juiste wijze wordt geïmplementeerd. Als we het latency verschil tussen een pagehit en een pagemiss buiten beschouwing laten, is al het DRAM geheugen in een uniform geheugensysteem met dezelfde snelheid toegankelijk. In een NUMA systeem is dit anders, omdat een deel van het geheugen niet lokaal bij de processor aanwezig is en daardoor een hogere latency heeft. Als het besturingssysteem geen weet heeft van dit verschil en willekeurig processen en geheugengebieden verdeelt over de aanwezige CPU's, zal een situatie ontstaan die verre van optimaal is. Het besturingssysteem moet daarom voorzien worden van informatie over de lokaliteit van het geheugen, zodat de affiniteit van processen en CPU's op een intelligentie wijze toegekend kan worden. Fabrikanten van high-end servers en supercomputers studeren al jaren op deze kwestie. Als eerste x86 processorfabrikant wordt nu ook AMD er mee geconfronteerd.

Op dit moment is het nog niet duidelijk of en hoe AMD het probleem van de lokaliteits- en affiniteitsoptimalisatie wil tackelen. Ace's Hardware schrijft in hun CeBIT artikel uit monde van AMD's Mark de Frere dat de geheugenbanken van de CPU's door het besturingssysteem als een uniforme geheugenruimte worden gezien. Het besturingssysteem zal volgens het artikel over speciale drivers moeten beschikken om multi-processing mogelijk te maken. AMD zal er voor zorgen dat de NUMA drivers bij de release van het dual Hammer platform beschikbaar zijn. Dit is hoopgevend nieuws, omdat het kan betekenen dat de drivers over logica beschikken die de procesaffiniteit bijregelen. Mocht dit niet het geval zijn, dan kunnen multi-processor SledgeHammer systemen nog wel eens een teleurstellende schaalbaarheid en een wisselvallige performance laten zien. Het voordeel van de geïntegreerde geheugencontroller zal teniet gedaan worden door de latencies van het remote geheugen, die ongeveer een factor twee hoger zijn dan van lokaal geheugen. Grotere L2 caches kunnen dit effect beperken, maar het zal onvermijdelijk zijn dat met de toename van het aantal processors ook de gemiddelde geheugenlatency aanzienlijk zal toenemen. Dit betekent overigens niet dat de geheugenperformance per definitie slechter zal zijn dan van de huidige 4-way Intel systemen met een gedeelde FSB en geheugenbus, maar het maximale potentieel van de NUMA architectuur zal niet benut kunnen worden.

AMD vs Intel: hernieuwde strijd

Nu de belangrijkste facetten van de Hammer architectuur zijn besproken, blijft open de vraag of AMD een kansrijke concurrentiepositie heeft tegenover de desktop en server processors van Intel. AMD heeft de lat ditmaal een flink stuk hoger gelegd dan tijdens de lancering van de Athlon processor. De chipfabrikant wil niet alleen concurreren in de markt voor mobile en desktop CPU's, maar ook een toontje meeblazen in de lucratieve servermarkt. Niet alleen met lichte dual processor systemen, maar all the way tot aan de zware 8-way krachtpatsers. Kunnen ClawHammer en SledgeHammer een vergelijkbare aardverschuiving teweeg brengen als de K7 derivaten in de afgelopen jaren?

Desktop markt

Sinds de introductie van de Athlon in augustus 1999 zijn de verhoudingen tussen Intel en AMD danig veranderd. Waar AMD in 1999 alleen stond als Athlon chipsetfabrikant en mobofabrikanten onder de druk van Intel geen Athlon borden op de markt wilden brengen, hebben nu alle mainstream chipsetfabrikanten met uitzondering van Intel een Athlon chipset in het programma. Vrijwel alle moederbordfabrikanten hebben een Athlon bord in hun assortiment. Terwijl de K6 louter een weg vond in low-end systemen, wordt de K7 over het gehele spectrum toegepast. Vanaf het moment dat de Athlon op de markt kwam is AMD in staat geweest om op prijs en performance met Intel te concurreren. Een verschil van dag en nacht met de K6, die van begin of aan werd gemankeerd door een slechte FPU performance, een matige schaalbaarheid en aanhoudende productieproblemen. Inmiddels heeft AMD globaal een marktaandeel van rond de 22 procent. In sommige regionale markten en segmenten ligt het marktaandeel op 50 procent in termen van verkochte units. Evenzo belangrijk is het feit dat AMD dankzij de release van het Athlon platform uit de rode cijfers heeft kunnen komen.

Originele Athlon zoals deze in augustus 1999 werd geïntroduceerd

Het is derhalve geen gewaagde voorspelling om te zeggen dat AMD met het Hammer platform gegarandeerd is van nieuw succes. De technische basis is goed. Als de performance schattingen uitkomen en de Hammers niet getroffen wordt door onverwachtse problemen zoals bugs en productieproblemen, zal AMD begin volgend jaar opnieuw op prijs en performance kunnen concurreren met Intel. Het resterende deel van dit jaar wordt een kwestie van overleven op het momentum dat de Athlon XP heeft bereikt. De Athlon bevindt zich aan het eind van de ontwikkelingscurve bevindt en AMD zal de Pentium 4 voor zich moeten dulden op dezelfde manier als Intel in 1999 en 2000 werd geconfronteerd met een achterstand op de K7. Vooralsnog ziet het er naar uit dat Intel deze situatie wil uitbuiten door de prijzen van zijn top-end desktop processors te maximaliseren, in plaats van een prijsoorlog aan te gaan met AMD. Intel zou daarmee niet alleen druk zetten op de marges van AMD maar ook die van zichzelf.

Volgens verwachtingen zal Intel tot eind dit jaar om de zes weken een 200MHz snellere speedgrade van de Pentium 4 introduceren. De 3GHz grens kan al in de herfst overschreden worden. Het moet geen probleem zijn om de prestaties van de Pentium 4 te evenaren als het ClawHammer ontwerp daadwerkelijk een IPC verbetering van 20 tot 25 procent kan realiseren. ClawHammer zal in dat geval al vanaf 2GHz met de P4's kunnen concurreren. Dankzij SOI en 0,13 micron technologie is deze kloksnelheid binnen handbereik. De snelle overgang naar 0,09 micron productietechnologie in het derde kwartaal van 2003 moet AMD in staat stellen om de concurrentiepositie met Intel te behouden. De chipgigant zal op dat moment reeds enkele maanden op 0,09 micron produceren.

De circa 25 procent kleinere core van de ClawHammer geeft AMD een uitstekende mogelijkheid om onder de kostprijs van de Pentium 4 te produceren. Ondersteuning van de industrie is in ruimte aanwezig met namen zoals VIA, SiS, nVidia en een groot aantal OEMs, die momenteel al Athlon en Duron systemen leveren. Neem daarbij het relatief eenvoudige platformontwerp dankzij de geïntegreerde geheugencontroller, het ontbreken van de northbridge en het gebruik van HyperTransport, en het is helder als glas dat AMD goede voorzichten heeft om in de desktopmarkt te slagen.

Servermarkt: Hammer vs Xeon

Heel wat minder zeker zijn de kansen als we spreken over de servermarkt. Pogingen om de wereld kenbaar te maken de Athlon ook geschikt is als serveroplossing, hebben tot nu een beperkt resultaat opgeleverd. Er zijn wat kleine fabrikanten die Athlon MP servers en workstations bouwen, zoals Intergraph, Racksaver, Appro en hosting provider Rackspace. Met uitzondering van Fujitsu-Siemens is ondersteuning onder de grote OEMs Compaq, Dell, Hewlett-Packard en IBM tot op heden echter afwezig gebleken.

Hoewel de Athlon MP zeker zijn kwaliteiten heeft als server platform, zijn er een aantal tekortkomingen die het toepassen van Athlon processors voor serverfabrikanten onaantrekkelijk maken. De Athlon MP is beperkt inzetbaar omdat uitsluitend single of dual configuraties mogelijk zijn. Quad-processor Athlon systemen behoren niet tot de mogelijkheid. Door de hoge warmteproductie en het hoge energieverbruik kunnen Athlon MP processors moeizaam toegepast worden in 1U servers en zijn ze geheel ongeschikt voor ultra-dense blade servers. Juist de compacte 1U servers zijn erg populair. De warmteontwikkeling en het stroomverbruik van de Intel Xeon doen overigens weinig onder voor die van de Athlon MP, maar Intel heeft als alternatief de Pentium III achter de hand. Deze processor is nog steeds de meest populaire serveroplossing. Verder heeft AMD geen serverprocessors die zich onderscheiden door extra cache, is het aanbod van dual Athlon moederborden beperkt en ontbeert de Athlon MP belangrijke RAS features die vooral hogerop in de serverwereld van onmisbaar belang zijn. De prestaties van het dual Athlon platform zijn goed, maar kunnen niet voldoende meerwaarde bieden ten opzichte van dual Xeons en goedkope dual PIII's. Neem daarbij het Intel-only sentiment dat in deze markt heerst en het wekt achteraf weinig verbazing dat de Athlon MP's nog geen deuk in een pak boter hebben kunnen slaan. Lukt het wel met een hamer?

Appro 1124i 1U rackmount met gespecialiseerde koeling voor dual Athlon MP

Het negatieve sentiment zou wel eens de grootste hindernis kunnen zijn die AMD moet nemen om de ClawHammer en SledgeHammer een respectabele plaats in de servermarkt te bezorgen. ClawHammer en SledgeHammer bieden een oplossing voor vrijwel alle nadelen van het dual Athlon platform, én ze geven een duidelijke meerwaarde boven de oplossingen van Intel. De Hammers hebben veel geheugen en I/O bandbreedte, een uitstekende schaalbaarheid, glueless multi-processing tot acht CPU's, zeer goede integer performance, keuze uit grote L2 caches, RAS features én geven als klapper op de vuurpijl 64-bit ondersteuning. AMD biedt naar keuze een moker of klauwhamer om het 4GB plafond te lichten, zonder hierbij concessies te doen aan compatibliteit met bestaande 32-bit software.

CeBIT 2002: Fujitsu-Siemens hpcLine dual Athlon MP cluster

Fujitsu-Siemens dual Athlon MP
cluster op CeBIT stand van AMD

De Hammer architectuur hééft de technische mogelijkheden om de strijd aan te gaan met de Xeon in de low-end high-volume markt voor dual processor servers. Wat AMD nodig heeft om te slagen is vraag uit de markt en ondersteuning van de grote OEMs. Zonder die ondersteuning wachten ClawHammer en SledgeHammer, hoe veelbelovend ook, hetzelfde lot als de Athlon MP. De situatie lijkt er echter vrij goed uit te zien voor AMD. Volgens Mark de Frere van AMD (bron: Ace's Hardware) zullen in de eerste helft van 2003 - waarschijnlijk juni - quad-processor SledgeHammer server moederborden verschijnen. Verder sprak hij de verwachting uit dat SledgeHammer in de eerste helft van 2003 tier-one OEM support zal hebben. Namen werden niet genoemd, maar Fujitsu-Siemens wordt door Ace's Hardware als een mogelijke partij genoemd. Zij zouden wel eens het schaap kunnen zijn dat de rest van het veld over de dam trekt. Het bedrijf biedt de Athlon MP reeds als optie voor zijn hpcLine clustersystemen.

Het segment waar we hier over spreken is echter geen markt waar veranderingen zich snel voltrekken, zelfs niet als zij door Intel worden gedicteerd. Uit de Linux hoek zal er zeker enthousiame ontstaan voor dual ClawHammer en quad SledgeHammer systememen, maar het is de vraag of de corporate markt dit enthousiasme zal oppikken. Een betaalbaar quad processor platform geeft kansen om een geheel nieuwe markt voor 4-way commodity hardware tot bloei te brengen. Onder internet hosters, websites en andere bedrijven, die vraag hebben naar veel performance, gebonden zijn aan een laag budget en niet op zoek zijn naar de service levels van de high-end server OEMs, zal er ongetwijfeld belangstelling bestaan voor onconventionele oplossingen op basis van AMD hardware. Dit zijn de kleine stappen die het sentiment in de markt kunnen veranderen, en top OEMs er op den duur toe kunnen bewegen om Hammer machines in hun productlijn op te nemen.

Servermarkt: Hammer vs Itanium

Intel mag met zijn Xeon en Pentium III processors weliswaar overtuigend leider zijn in de servermarkt, er is een aantrekkelijke niche die tot op heden onbereikbaar is gebleven voor de chipgigant. De serverprocessors van Intel zijn zeer populair in systemen met twee tot vier processors, maar de markt daarboven wordt gedomineerd door gespecialiseerde fabrikanten zoals Sun, IBM, Compaq, SGI en Hewlett-Packard. Deze bedrijven bouwen extreem schaalbare systemen op basis van eigen 64-bit RISC architecturen. Voorbeelden zijn de Sun UltraSparc, IBM POWER, Compaq Alpha en de HP PA-RISC. Intel heeft al jaren plannen om zich met een eigen 64-bit processor in deze markt te begeven. Het gaat hier uiteraard om de welbekende Itanium processor, waarover je eerder in dit artikel al het een en ander hebt kunnen lezen. De Itanium zal in het high-end segment niet alleen de processorarchitecturen van de eerder genoemde fabrikanten als concurrent krijgen, maar ook de SledgeHammer van AMD tegenkomen. Om een goede afweging te maken met de Hammer is het noodzakelijk een duik te nemen in de ontstaansgeschiedenis van de Itanium. De Itanium architectuur kent namelijk een tamelijk moeizame inceptie.

Intel Itanium catridge Het oorspronkelijke concept achter de 64-bit Itanium processor werd begin jaren negentig door Intel en Hewlett-Packard op papier gezet. HP had eind tachtiger jaren ervaring opgedaan met zogenaamde VLIW (Very Long Instruction Word) processors. Een bespreking van het VLIW principe reikt buiten de intentie van dit artikel, maar één van de belangrijkste doelstelling van de architectuur was het ontwikkelen van een ongecompliceerde superscalar processor die in staat zou zijn om meerdere instructies per klokcyclus te verwerken. De benodigde logica voor het parallelliseren van de instructies zou zoveel mogelijk in de compiler ondergebracht worden, en niet in de hardware. De gedachte was destijds dat het ontwikkelen en produceren van superscalar processors met out-of-order (OoO) dispatch units te gecompliceerd zou worden. Verder was men pessimistisch over de mogelijkheden om met behulp van OoO meerdere instructies per cyclus uit te voeren, en dacht men dat hoge kloksnelheden onmogelijk zouden worden gemaakt door de complexiteit van het chipontwerp.

De beoogde voordelen van de EPIC (Explicitly Parallel Instruction Computing) architectuur, zoals het VLIW beestje door Intel en HP wordt genoemd, waren dan ook evident: geen complexiteit van de OoO unit, zodat hogere kloksnelheden mogelijk zijn die het verlies van ILP (Instruction Level Parallism) door het ontbreken van de OoO unit compenseren; een kortere pipeline door het afwezig zijn van de OoO unit, zodat branch mispredictions een minder dramatische impact hebben op de performance; en tenslotte een kleinere die-size, zodat de ontwikkelingstijd van de hardware korter is, de productiekosten lager zijn en de hogere kosten voor het ontwikkelen van de compilertechnologie worden gecompenseerd.

Tot op heden zijn deze beloftes niet waargemaakt. De Alpha 21064 en met name de 21164 en 21264 bewezen al snel dat hoog geklokte superscalar out-of-order RISC processors wel degelijk realiseerbaar waren. Tegelijkertijd ondergingen de productietechnologiën een razendsnelle ontwikkeling, waardoor het niet langer een probleem was om gecompliceerde chips met tientallen miljoenen transistors in grote volumes te produceren. Terwijl de ontwikkeling van OoO processors een enorme vlucht maakte en de ervaring met dergelijke ontwerpen steeds verder toenam, was de vooruitgang op het gebied van compilertechnologie kleiner dan Intel en HP hadden verwacht. Nieuwe technologiën zoals SMT (Simultanious Multi-Threading) kunnen de parallelle performance van bestaande OoO RISC processors verder verhogen.

Alpha 21264 - 1998

Om de situatie verder te verergeren liep het Merced project (codenaam van de eerste Itanium generatie) een zware vertraging op. Aanvankelijk was het de bedoeling dat de Merced in 1997 op de markt gebracht zou worden, maar uiteindelijk werd dat 2001 - in een afgeslankte release als development platform welteverstaan. Inmiddels waren weinig van de beoogde voordelen van de EPIC architectuur staande gebleven. De Merced had een enorme die-size, groter dan van de Alpha 21264, en ook de prestaties waren tegenvallend. De SPECint performance van een 800MHz Itanium met 4MB L3 cache is bijna 38 procent lager dan van een 833MHz Alpha 21264B met 8MB L2 cache. De floating point prestaties zijn wel goed, hoewel nog steeds 12 procent onder het niveau van de Alpha (bron: Ace's Hardware SPECmine).

Processor	Klok	SPECint Peak	SPECint Base	SPECfp Peak	SPECfp Base
IBM Power4	1300MHz	814	790	1169	1098
Intel Pentium 4	2200MHz	811	790	801	779
AMD Athlon XP	1667MHz	724	697	642	596
Compaq Alpha 21264C	1000MHz	679	621	960	776
Sun UltraSparc III	1050MHz	610	537	827	701
HP PA-RISC 8700	750MHz	604	568	581	526
Intel Itanium	800MHz	365	358	701	701
Intel McKinley	1000MHz		700?
AMD SledgeHammer	>2000MHz	1150?

Halverwege dit jaar zal de tweede generatie Itanium processor - codenaam McKinley - op de markt gebracht worden. McKinley wordt ontwikkeld onder leiding van HP en belooft een deel van de problemen uit de eerste Itanium generatie, die onder aanvoering van Intel werd ontworpen, te verhelpen. Intel heeft laten doorschemeren dat de integer performance van McKinley een factor anderhalf tot twee keer zo hoog zal zijn als van de huidige Itanium. Dit brengt Paul DeMone, een chipontwerper die regelmatig artikelen schrijft voor RealWorld Technologies, op een SPECint_base schatting van ongeveer 700 punten bij een kloksnelheid van 1GHz. Als deze cijfers realiteit worden komt de Itanium eindelijk op het niveau van de vier jaar oude Alpha 21264. Het nadeel van de grote die-size blijft echter ook geldig voor McKinley.

Intel Merced vs McKinley

Wat is de positie van de AMD SledgeHammer in dit verhaal? In de eerste plaats is het belangrijk om te realiseren welke marktsegment Itanium zal aanspreken, namelijk die van mid-end 4-way tot high-end 64-way servers. We spreken hier over zwaar ijzer dat belangrijkere taken heeft te vervullen dan het hosten van websites. Prestaties maar bovenal betrouwbaarheid en vertrouwen zijn belangrijk. Daardoor is het een markt die voor nieuwkomers moeilijk is te betreden. Intel heeft dit nooit ingeschat als een groot probleem. De enorme support die het bedrijf heeft in de pc en low-end servermarkt zou Intel als vanzelf in het zadel moeten helpen. Het recept voor succes is dan ook hetzelfde als destijds bij de verovering van de pc markt in de jaren tachtig: ontwikkel een processors die als standaard breed wordt ondersteund en produceer het product in dusdanig grote volumes dat de chip ver onder de prijs van concurrerende processors verkocht kan worden.

Namen die zich hebben verbonden aan het IA-64 Itanium platform zijn onder andere Hewlett-Packard, Compaq, Unisys en Silicon Graphics. De ondersteuning van HP is natuurlijk verzelfsprekend. Ondanks het feit dat de Alpha door velen als de meest geavanceerde RISC architectuur wordt beschouwd, heeft Compaq besloten om het Alpha platform te dumpen. Het ontwikkelingsteam is verkocht aan Intel, waar de Alpha in stilte zal sterven. IBM heeft aangekondigd de Itanium te zullen ondersteunen, maar heeft daar geen groot belang bij omdat het bedrijf goed boert met zijn 64-bit zSeries en eSeries. Met de support van HP, Compaq en Unisys is er weinig twijfel dat de Itanium uiteindelijk zijn weg zal vinden in high-end serversystemen. Desalnietemin loopt de markt tot op heden niet warm om over te stappen op het Itanium platform. Dell heeft zijn Itanium machines uit de handel genomen omdat er geen vraag naar was. De enorme vertraging van het Itanium project heeft Silicon Graphics zover gebracht om de ontwikkeling van de MIPS R20K processor een nieuwe impuls te geven. Er lijkt daarmee wat onzekerheid te komen in het IA-64 upgradepad dat SGI nog niet zo lang geleden had uitgestippeld. De werkzaamheden om Solaris te porten naar het IA-64 platform werden in 2001 gestaakt na onenigheid tussen Sun en Intel. Sun vertrouwt op zijn eigen UltraSparc roadmap.

Zijn er mogelijkheden voor AMD om opgepikt te worden door één van deze grootheden? HP en Compaq hebben hun steun toegezegd aan het Itanium platform. IBM heeft zijn eigen RISC processors, maar heeft inmiddels geleerd dat het de eigen producten moet kanibaliseren om te voorkomen dat een ander dat doet: blanco voor Itanium en SledgeHammer. Sun zal problemen hebben om de Hammer te positioneren ten opzichte van de UltraSparc. De x86 hardware van Sun's Cobalt divisie zou wel als kandidaat kunnen gelden. Fujitsu-Siemens biedt perspectief, maar is alleen groot in Europa. Dell, tenslotte, is handen op één buik met Intel en zal nooit initiatief nemen om de plannen van zijn naaste bondgenoot te dwarsbomen.

De echte kans voor AMD ligt niet in de onwaarschijnlijkheid van falende OEM support voor het Itanium platform, maar vooral in de voordelen van een zachte overgang naar x86-64 code tegenover een radicale overstap naar IA-64 software. Het behoud van backwards compatibiliteit geeft bedrijven de mogelijkheid om in hun eigen tempo en met het behoud van bestaande software de overgang te maken van 32-bit naar 64-bit. De oude software kan profiteren van de extra performance van het Hammer platform, terwijl nieuwe software optimaal gebruik kan maken van de 64-bit mogelijkheden. Bedrijven die overstappen op IA-64 halen een compleet nieuwe architectuur in huis, die naast investeringen in hardware ook veel onvermijdelijke investeringen in software met zich mee brengt.

Wat betreft performance zullen de SledgeHammers niet onderdoen voor McKinley. Met een kloksnelheid van minimaal 2GHz en 40 procent extra performance ten opzichte van de Athlon MP ligt een SPECint performance van 1150 punten binnen bereik. De floating point performance zal waarschijnlijk achterblijven bij McKinley, maar dit is voor de meeste servertaken van geen belang. Aangezien SledgeHammer ook op andere gebieden van goede huize komt is er geen reden om aan te nemen dat SledgeHammer technisch ondergeschikt is aan McKinley voor toepassing in systemen met vier tot acht processors. De geheugen- en I/O bandbreedte, de schaalbaarheid en de RAS features maken SledgeHammer tot een toereikend platform voor low- tot medium-end servers. De Itanium heeft bovendien nog geen mogelijkheden voor glueless multi-processing met een groot aantal CPU's, waardoor het bouwen van grote systemen alleen is weggelegd voor serverfabrikanten die over de know-how beschikken om eigen chipsets te ontwikkelen. Dit is geen probleem voor de eerder genoemde Itanium supporters, maar wel voor minder grote OEMs die servers bouwen op basis van off-the-shelf componenten. Fabrikanten zoals HP en IBM die wel over de benodigde kennis beschikken, zullen er langer over doen om zware hardware op de markt te brengen. Dit zal de acceptatie van IA-64 niet bevorderen en x86-64 tijd geven om support te winnen.

Vergelijken we het kostenplaatje van de SledgeHammer en McKinley, dan ligt het voordeel nog sterker bij AMD dan het geval is als de Hammers worden vergeleken met de Pentium 4 en de Xeon. McKinley heeft een enorme die-size van 464 vierkante millimeter - weliswaar bij productie op een verouderd 0,18 micron procédé. Als gevolg van zijn grotere L2 cache, 128-bit geheugencontroller en extra HyperTransport links zal SledgeHammer wat groter zijn dan de 108 vierkante millimeter van ClawHammer, maar nog altijd een factor twee kleiner dan McKinley op 0,13 micron.

De kans dat er na de release van de SledgeHammer binnen afzienbare tijd 8-way configuraties op de markt zullen komen, is zeer klein. Als AMD er echter in slaagt om een grote OEM aan zijn zijde te krijgen, de geruchten over 4-way systemen in 2003 juist zijn en Microsoft garant staat voor 64-bit Windows support, zal AMD goede kansen hebben om wat kruimels uit de goed belegde boterham van Intel te pikken. Het ergste voor Intel is niet eens het verlies van omzet, maar vooral de ondermijnende werking op het voorbestemde, ooit zo zeker gewaande, upgradepad naar IA-64. De kans van succes voor het Hammer platform brengt een nieuwe vraag aan het licht: moet Intel zelf x86-64 gaan ondersteunen?

Intel Yamhill technologie

Dat is precies wat Intel volgens hardnekkige geruchten van plan is met de zogenaamde Yamhill Technologie. Yamhill is de x86-64 implementatie van Intel, die volgens de speculaties deel zal uitmaken van de volgende generatie Pentium 4 core genaamd Prescott. Prescott moet vanaf de tweede helft van 2003 weerstand bieden aan AMD's ClawHammer. De processor zal geproduceerd worden met behulp van 0,09 micron technologie en moet extreem hoge kloksnelheden van boven de 4GHz toestaan. De Yamhill technologie geeft Intel een backupplan voor het geval dat x86-64 een groot succes wordt en IA-64 faalt. In eerste instantie zal de technologie waarschijnlijk ongemerkt in de Prescott processors aanwezig zijn. Een snelle capitulatie voor het x86-64 front zou het faillisement van de IA-64 architectuur kunnen betekenen, en zal de markt een teken geven van onzekerheid en gebrek aan vertrouwen over de toekomst van IA-64. Dat is iets wat Intel en HP, gezien de enorme vastberadenheid waarmee zij in de afgelopen acht jaar aan de Itanium hebben gewerkt, kosten wat het kost zullen willen voorkomen. Yamhill moet daarom gezien worden als laatste redmiddel.

Het is lastig inschatten welke situatie voor AMD gunstiger is: het alleenrijk hebben met x86-64 en concurreren met IA-64, of een dooie IA-64 met Intel als concurrent én supporter in de markt voor x86-64 processors. Voorlopig heeft AMD de voorsprong op het gebied van x86-64 technologie. De SledgeHammer is voor zware 64-bit server toepassingen beter toegerust dan de Pentium 4 Xeons.

Epiloog

Acht maanden zijn we verwijderd van het moment dat de eerste ClawHammers op de markt moeten verschijnen. Tot die tijd heeft Intel de druk van de ketel. Voor velen is dat reden voor kritiek op AMD, maar rekening houdend met de situatie waarin het bedrijf zich bevindt is de strategiekeuze begrijpelijk. Natuurlijk had men de Thoroughbred core met een cache vergroting naar 512KB en een verhoging van de FSB naar 333MHz datarate eenvoudig van meer performance kunnen voorzien, maar dat zou ten koste zijn gegaan van de die-size. Voor AMD is het zeker op dit moment van essentieel belang om ver onder de kostprijs van Intel te kunnen produceren. Tevens wordt de kleine Thoroughbred core in positie gebracht om volgend jaar naar het value segment van de Duron af te zakken. OEMs, mobofabrikanten en upgraders zullen gelukkig zijn met het feit dat de socket en FSB specificaties onveranderd zijn gebleven.

CeBIT 2002: Palamino en Thoroughbred cores

Boven Thoroughbred, onder Palomino

Wel is het zorgelijk dat de introductie van een nieuwe Athlon core opnieuw vertraging heeft opgelopen. AMD heeft op dit gebied en ronduit slechte reputatie: de Thunderbird had een delay van een kwartaal, de Palomino kwam een half jaar te laat en nu loopt Thoroughbred enkele maanden vertraging op. Tijdens de CeBIT werd weliswaar aangekondigd dat de levering van 0,13 micron Athlon cores was begonnen, maar tot juni zullen deze cores niet beschikbaar komen in de desktop Athlon XP versies. AMD heeft er groot belang bij dat de ClawHammer wél op tijd verkrijgbaar is, zodat het bedrijf kan profiteren van de omzetpieken rond kerst. De laatste geruchten spreken over een vroege release in oktober. Terugkijkend op de eerdere roadmap vertragingen is het twijfelachtig of hier veel waarde aan gehecht kan worden. Maar AMD is geen Intel. Wellicht moet AMD concessies doen aan de ontwikkeling van de Athlon die-shrink, om ruimte en middelen ter beschikking te stellen aan het belangrijkere Hammer project.

De verwachtingen over de performance van de ClawHammer zijn hoog. Als AMD zijn eigen claims kan waarmaken, mag de chipfabrikant in staat worden geacht om het snelle tempo, waarmee de Pentium 4 in kloksnelheid wordt geschaald, eind dit jaar op te pakken én te overtreffen. Tot de komst van Prescott in de tweede helft van 2003 zal AMD zich in een redelijk comfortabele positie bevinden. De hoge mate van integratie in de Hammer processors en de modulaire platformbouw dankzij HyperTransport, geven mogelijkheden voor goed presterende en betaalbare moederborden, zeker als third-party chipsets de AGP en I/O functionaliteit onder één dak brengen. Zogezegd zijn er weinig twijfels dat ClawHammer het succes van de Athlon zal prolongeren.

ClawHammer en SledgeHammer bieden een uitstekend package voor serversystemen met twee tot acht processors. Vanuit de bescheiden positie waarin het bedrijf zich nu bevindt, kan AMD in de komende jaren traag maar gestaag het vertrouwen van de zakelijke markt voor zich winnen. Hoewel AMD hier tot op heden geen grote vooruitgang in heeft geboekt, zijn de regels van het spelletje ditmaal anders. De Hammer architectuur biedt een duidelijke meerwaarde boven Intel's productlijn, in de vorm van betere technologie, lagere prijzen en een unieke eigenschap die 64-bit mogelijkheden met 32-bit compatibiliteit combineert. Met software ondersteuning in Linux en Windows XP64 is ook dit essentiële aspect voldoende afgedekt.

De komst van x86-64 technologie is niet alleen boeiend maar ook ironisch. Nooit is het de bedoeling geweest om het leven van de x86 instructieset tot in de 21ste eeuw te rekken. Begin jaren negentig, toen de eerste Alpha en PowerPC processors op de markt kwamen en Windows NT compatible was met Alpha, MIPS en PowerPC hardware, werd RISC gezien als het pad naar de toekomst. Sindsdien heeft zich een tegenovergestelde trend afgespeeld. De enorme markt voor x86 hardware gaf Intel de financiële kracht om performance levels te bereiken die niemand voor mogelijk had gehouden. Tegelijkertijd stagneerde de ontwikkeling van RISC processors, voor welke een veel kleinere markt en kleinere ontwikkelingsbudgetten waren weggelegd. Net op het moment dat Intel het executiepeloton in stelling heeft gebracht dat definitief een einde moet maken aan het x86 verhaal, gaat underdog AMD - lange tijd niet meer dan een producent van schaamteloze Intel klonen - aan de haal met het slachtoffer, om het voor onbepaalde tijd gratie te verlenen.

Om de ironie te vergroten, kopieert AMD exact dezelfde strategie die voor Intel's Itanium was bestemd: 64-bit CPU's als commodity hardware, verkrijgbaar bij de hardwareboer op de hoek en geproduceerd voor de massamarkt. De kleine die-size van de Hammers, het gebruik van HyperTransport als glueless multi-processing interconnect, en de goedkope in volume geproduceerde HyperTransport legostenen Hammer platform preview: Hammertime!

van AMD, maken het Hammer platform spotgoedkoop in vergelijking met de kollosale Itanium en de peperdure high-end RISC processors waarmee Itanium volgens Intel's oorspronkelijke plan de vloer had moeten aanvegen.

Hammertime?