Tja, wij dachten ook aan dit probleem, en daarom heb ik de kernel op een gegeven moment ook gezegt dat hij niet meer dan 4G mocht gebruiken, hetgeen in de tests tot nu toe als gevolg had dat hij ook niet meer gebruikte.
Dit had ik ongeveer om 12 uur aangezet, echter de dbase craste wel (met een enorm swap verbruik ineens.)
Ik denk dat het probleem wat je hierboven beschrijft oa opgevangen moet worden door iommu, dit staat in de bios op best fit, en de kernel is een aantal keer geboot met iommu=force. Het grootste probleem dat arjen hierboven nog niet vertelde is dat er ook sporadisch filesystem corruptie optreed, zo was op een gegeven moment de helft van /bin en /usr/bin verdwenen (gelukkig kon ik met 'mc' wat bin's kopieren van een ander systeem waarop ik weer met rpm de rest kon installen).
Overigens, om de reacties voor te zijn van 'dat test je toch', dat hebben we gedaan, de server heeft vanaf woensdag prima gedraait en een dikke 1.000 miljoen queries gedaan onder een load die een stuk hoger is dan hij normaal te verwerken krijgt. Het enige probleem van de tests was dus blijkbaar dat de geteste dataset niet groot genoeg was om de server zijn geheugen helemaal vol te krijgen (ook dat is getest, dmv een paar cp's van een linux-kernel-source krijg je je geheugen ook best snel heel vol

) maar dat resulteerde niet in een crash.. waarom hij dus nadat hij lekker 2 uur draaide ineens WEL ging crashen is ons dus een raadsel, mede omdat hij ook crasht als a) de swap helemaal uitstaat en b) het geheugen gelimiteerd wordt op 4G en c) iommu=force acpi=off resulteerd in een corrupt FS. Nu hebben we de raidcontroller ook voorzien van het laatste bios (16 december uitgekomen) waardoor er een aantal problemen het PCI-X opgelost moeten zijn, maar de server crashte pas toen wij al weer buiten stonden..
Waarschijnlijk gaat er morgen iemand heen, en anders ga ik overmorgen weer aan die bak zitten om te zien of het crashen op te lossen is, ik verwacht iig niet dat ik hem vanavond nog weer up krijg, zowiezo ga ik eerst slapen, ben er al vanaf 11 uur vanochtend mee bezig zo ongeveer. (en femme moet nu nog naar ruurlo rijden, die is nog later thuis

)
Maargoed, een aantal concrete oplossingen die ik wil gaan testen, input is uiteraard gewenst:
- andere kernel, zelf gebakken, met IOMMU en NUMA support
- kernelopties iommu=[no]force, acpi aan/uit [aanvullingen gewenst]
- LSI mailenbomben waarom ze zulke brakke drivers hebben dat die spontaan a) raid configs vergeten b) bios niet kan laden c) FS corrupt maken
- ....