Door Kees Hoekzema

BOFH

Server- & netwerkstatusmeldingen

07-12-2004 • 22:30

113

Problemen met de servers en de netwerkverbinding van Tweakers.net worden in deze .plan gemeld. De laatste informatie over de serverloads en -uptimes kun je volgen op de Statusmeldingen

  • 07-12-04 In verband met een storing in het netwerk van onze hostingprovider en sponsor TrueServer is Tweakers.net sinds het eind van de middag moeilijk bereikbaar. De storing heeft betrekking op het netwerk tussen de locaties Redbus Interhouse en TeleCity 1 op het Amsterdam Science Park en heeft tot gevolg dat het algemene VLAN tussen Redbus en TeleCity 2 offline is. Hierdoor zijn systemen die op Redbus Interhouse staan maar hun gateway op Telecity 2 hebben voor de buitenwereld onbereikbaar.

    Als gevolg van de storing moet het netwerkverkeer over andere links zoals bijvoorbeeld Level3 gerouteerd worden en dat resulteert in de nodige traagheid. De overlast verschilt per provider.

    Meer informatie van TrueServer:

    Een van de glasleveranciers van trueserver kampt met een fiberbreuk. Naar aanleiding hiervan hebben we een performance probleem op het interne netwerk op Telecity en zijn wij genoodzaakt om binnen nu en een uur onderhoud te plegen op een van de twee Juniper M20's op Telecity. Tijdens dit onderhoud zullen er verschillende interfaces op de router gewisseld moeten worden. Deze werkzaamheden zullen ongeveer 45 minuten in beslag nemen. Een van de interfaces die gewisseld gaat worden is de glasmodule die aangesloten is op een van de core-switches op Telecity er zal daarom een onderbreking in de connectivity plaats vinden. We verwachten dat dit een totale downtime van maximaal 15 minuten met zich mee zal brengen.

    De onderbreking van de connectiviteit heeft inmiddels plaatsgevonden maar men is nog aan het switchen.

    21-09-04 Vannacht zal het forum meer dan een uur offline zijn. De nieuwe database server (een dual Opteron 244, met 8GB geheugen) zal de taken van de oude database server overnemen. Om dataverlies te vermijden zal het forum enige tijd niet bereikbaar zijn. De werkzaamheden beginnen na middernacht.

  • 11-09-04 De fileserver is heel even offline geweest om een nieuwe kernel te proberen, dit ging niet geheel volgens plan.

  • 11-09-04 Zoals al gemeld in het aboneeforum, wordt dit weekend de mailserver overgezet naar een andere server, dit ging helaas een beetje met horten en stoten, op dit moment wordt eraan gewerkt en we verwachten dat het probleem vrij snel is opgelost.

  • 17-08-04 De fileserver is nog steeds niet stabiel. Ondanks dat hij nu niet midden in de nacht zichzelf ophangt heeft hij wel andere problemen. Hierom zullen we er vanmiddag wederom mee bezig gaan en een aantal dingen bij langs lopen. De search zal uitgeschakeld zijn, de rest van de site zal enige minuten downtime te verduren krijgen.

  • 11-08-04 De fileserver is ondanks een aantal veranderingen nog steeds niet stabiel. Ondanks dat hij nu niet midden in de nacht zichzelf ophangt heeft hij wel andere problemen. Daarom zullen er vanavond enige diagnostische programma's gedraaid worden waardoor de search, plaatjes en usericons het tijdelijk niet zullen doen.

  • 27-05-04 Vannacht rond een uur of twee is de fileserver gecrasht. De oorzaak van deze crash is een al langere tijd minder goed functionerende IDE raid. We waren al bezig met het zoeken naar alternatief voor deze raid, maar uiteindelijk heeft hij het sneller laten afweten dan wij een vervanging konden regelen.

    Op het moment werken de volgende onderdelen niet, of minder goed: De search van GoT, plaatjes op de frontpage, usericons van users op GoT, private storage en fotoalbums van de abonnees. Er is naar verwachting geen data verloren gegaan, maar de data zal helaas enige tijd niet bereikbaar zijn.

    Update 8:25: Daniel en Kees zijn inmiddels in Telecity aanwezig om de problemen te verhelpen. Het vermoeden is gerezen dat de middelste positie van de IDE-bay kaduuk is. Met de schijven zelf lijkt niets mis te zijn.

    Tegelijkertijd heeft (ter verhoging van de feestvreugde) forumserver Apollo ook besloten er de brui aan te geven. Slechts met een hele harde power-cycle (voeding eruit en er weer in) was Apollo weer tot leven te wekken. Op dit moment wordt een backup teruggezet om de corrupte database te vervangen. Omdat de backupserver er om 02:00 mee ophield en de backups van Apollo normaliter om 04:00 worden gemaakt houdt dit mogelijk in dat alle postings en topics van gisteren verloren zullen gaan. Uiteraard doen we er alles aan om dat te voorkomen.

    Update 9:35: Om te voorkomen dat alle postings, topics en users van de afgelopen 30 uur verloren gaan wordt de database van Apollo op dit moment gedumpt en vervolgens geforceerd weer ingelezen. Daarmee hopen we het overgrote deel van de data te kunnen herstellen. E.e.a. heeft wel tot gevolg dat Apollo nog een aantal uurtjes zoet zal zijn. Atlas is inmiddels weer hersteld, maar de reden van het uitvallen is ons tot nu toe nog niet duidelijk. Er is niets kapot gegaan, dus waarom hij er afgelopen nacht ineens mee ophield na ruim anderhalve maand probleemloos gewerkt te hebben is een raadsel. Bijkomend probleem is dat de situatie alleen verbeterd kan worden door een volledige herinstallatie.

    Update: 28-05-04: De recovery van de database gisteren is gelukt, echter hield atlas er vannacht weer mee op. Atlas is onderhand weer gefixt, en zal een aantal taken verliezen zodat hij niet om de haverklap over de kop gaat.

  • 10-04-04 Vanmiddag vanaf 15:00 uur zullen de schijven (1 x HP/Seagate 36,7GB 10k rpm SCSI en 1 x 200GB Maxtor 7200 rpm) die afgelopen dinsdag overleden zijn vervangen worden. Omdat IDE-schijven niet hot-swappable zijn zal fileserver Atlas daarvoor enige tijd uit de lucht moeten. Verder zal van de gelegenheid gebruik gemaakt worden om een tweede Xeon-processor in development-server Achelois te plaatsen.
    Als alles goed gaat zal er nauwelijks downtime zijn.

    Update 16:15 uur: De werkzaamheden zijn zonder problemen verlopen en alles draait weer zoals vanouds .

  • 6-04-04 Het forum en de frontpage waren enige tijd down. Dit was het gevolg van een overleden schijf in de SCSI-array van de fileserver.

    Alhoewel er twee hotspares aanwezig zijn (omdat de fileserver nogal eens SCSI-disks opeet) heeft de RAID-controller eenzijdig besloten om het filesystem van de array stuk te maken, waardoor er een backup teruggezet moest worden van vannacht 2.00 uur. Hierdoor kan het zijn dat vandaag geüploade usericons, private storage of een foto in het fotoalbun, helaas verdwenen zijn.

    Daar wij nu de RAID-controller niet meer vertrouwen zal deze zo snel mogelijk door een nieuwe controller vervangen worden, eentje die niet de RAID-array met zich meesleept als hij een hotspare rebuildt.

    Tevens zal de search van het forum langere tijd niet bereikbaar zijn daar deze opnieuw geïndexeerd moet worden.

  • 8-03-04 Als alles meewerkt gaan we dinsdagmiddag de forumsoftware van een upgrade voorzien. Het grootste deel van het database-onderhoud is al gedaan dus de downtime zal redelijk kort zijn; we gokken op ongeveer een uur. Mocht alles niet op schema lopen, dan wordt het pas woensdagmiddag dat we het updaten.

  • 5-03-04 Vanmiddag wordt er op kleine schaal onderhoud gepleegd aan de servers. De verwachting is dat de downtime mee zal vallen. De langste downtime zal Atlas hebben, in deze server wordt een nieuwe netwerkkaart geplaatst. We zijn er echter vrij zeker van dat dit binnen enkele minuten geklaard kan worden.

  • 29-02-04 GoT is rond 23:00 uur uit de lucht gehaald om enige wijzigingen aan de message table van de database door te kunnen voeren. Deze aanpassingen zijn nodig om de upgrade naar React 1.9.2 mogelijk te maken. Er is voor gekozen om dit voorbereidende werk op zondagnacht uit te voeren, om de overlast tot een minimum te beperken. De schatting was dat de operatie minstens vijf uur in beslag zou nemen. Het voordeel is dat er bij de daadwerkelijke upgrade naar de nieuwe versie van React door deze voorbereiding waarschijnlijk geen langdurige downtime zal zijn. Rond een uur of 1 konden we echter concluderen dat de database een stuk sneller is dan de vorige keer, na amper 65 minuten waren alle aanpassingen doorgevoerd.

  • 11-02-04 Zoals men al wel heeft kunnen bemerken is de upgrade gister niet helemaal vlekkeloos verlopen. De meeste downtime was niet de switch, maar Artemis die na een ongeplande reboot geheel onverwacht de geest gaf en helemaal opnieuw geinstalleerd moest worden. De combinatie van hardware die wij hebben (een Tyan opteron plank met een Megaraid controller erop, evenals een zeer trage boot) zorgde ervoor dat ik de hele avond nog van het geluid van een stapel servers heb kunnen genieten in telecity. De grootste problemen (oa een webserver die om onbekende redenen down ging en niet door de loadbalancer eruit gepikt werd) zijn nu opgelost. We hopen vanmiddag nog een aantal dingen op te lossen die nu nog liggen.

  • 10-02-04 Vandaag zal de interne switch van het serverpark vervangen worden door een 3Com 3824 Gigabit Ethernet switch. Verder zal Achelois (development-server) vervangen worden door een HP Compaq Proliant DL140-server (dual Intel Xeon 2,4GHz, 1GB geheugen, twee 80GB ATA schijven, 1U rackmount) en zal een Cyclades Alterpath ACS console switch in het rack gehangen worden. Op de werking en het nut van dit laatste apparaat zullen we binnenkort verder ingaan. De werkzaamheden zullen enige downtime met zich meebrengen omdat Atlas enige tijd down zal moeten voor het plaatsen van een Intel Pro/1000 MT Dual Port netwerkadapter. Zie voor meer informatie Serverstatus (5 minuten vertraagd)