REASON FOR OUTAGE REPORT
RFO20230809
Storingsgegevens
Datum 9 augustus 2023
Aanvang storing 16.13 uur
Storing opgelost 16.39 uur
Duur storing 26 minuten
Gevolg storing Virtuele Servers down van Hypervisor ‘Intel-6’ van Openstack cluster ‘ams2’
Rapport
Beschrijving storing
Binnen genoemd tijdsvenster zijn alle Virtuele Servers op Hypervisor ‘Intel-6’ volledig onbereikbaar geweest.
Oorzaak storing
Bij voorbereidingen voor een aankomende uitbreiding is de betreffende configuratie toegevoegd aan de netwerk configuratie van de Hypervisors. Daar bleek op de fysieke interfaces van deze Hypervisor ‘Intel-6’ een verkeerde MTU-waarde ingesteld. Als gevolg daarvan was het systeem niet meer via het netwerk bereikbaar.
Oplossing
De Hypervisor is herstart, waarmee de connectivity is hersteld. Virtuele Servers kwamen daarbij stapsgewijs weer online.
Voorkomen in de toekomst
Dergelijke voorbereidende werkzaamheden zijn de afgelopen jaren tientallen malen probleemloos uitgevoerd en geven normaliter geen impact op de beschikbaarheid van de dienstverlening. Dat is in dit geval buiten verwachting wel gebeurd. We hebben daarop besloten om de risico-inschatting van dergelijke werkzaamheden te vergroten. Deze worden voortaan in een aangekondigd onderhoudsvenster als ‘geen impact verwacht, maar elke wijziging geeft altijd een risico’ uitgevoerd. Verder zullen we indien mogelijk ook productie-load weg-migreren van Hypervisors waar wij dergelijke werkzaamheden uitvoeren, om zo de kans op impact nog verder te minimaliseren.
Tijdsverloop
16.13 uur De eerste melding van netwerkmonitoring wordt ontvangen.
16.15 uur Onderzoek wordt gestart.
16.20 uur Hypervisor ‘Intel-6’ blijkt volledig offline op de externe netwerkinterfaces.
16.30 uur We besluiten om de Hypervisor opnieuw te starten.
16.34 uur De hypervisor is weer gestart en bereikbaar op alle netwerkinterfaces. Virtuele Servers wordt weer opgestart.
16.39 uur De laatste melding van netwerkmonitoring wordt hersteld gemeld, alle Virtuele Servers zijn weer online.