Virtuele Servers down van Hypervisor ‘Intel-6’ van Openstack cluster ‘ams2’
Incident Report for DirectVPS
Postmortem

REASON FOR OUTAGE REPORT

RFO20230809

Storingsgegevens

Datum                                 9 augustus 2023
Aanvang storing                  16.13 uur
Storing opgelost                  16.39 uur
Duur storing                         26 minuten
Gevolg storing                      Virtuele Servers down van Hypervisor ‘Intel-6’ van Openstack cluster ‘ams2’

Rapport

Beschrijving storing
Binnen genoemd tijdsvenster zijn alle Virtuele Servers op Hypervisor ‘Intel-6’ volledig onbereikbaar geweest.

Oorzaak storing
Bij voorbereidingen voor een aankomende uitbreiding is de betreffende configuratie toegevoegd aan de netwerk configuratie van de Hypervisors. Daar bleek op de fysieke interfaces van deze Hypervisor ‘Intel-6’ een verkeerde MTU-waarde ingesteld. Als gevolg daarvan was het systeem niet meer via het netwerk bereikbaar.

Oplossing
De Hypervisor is herstart, waarmee de connectivity is hersteld. Virtuele Servers kwamen daarbij stapsgewijs weer online.

Voorkomen in de toekomst
Dergelijke voorbereidende werkzaamheden zijn de afgelopen jaren tientallen malen probleemloos uitgevoerd en geven normaliter geen impact op de beschikbaarheid van de dienstverlening. Dat is in dit geval buiten verwachting wel gebeurd. We hebben daarop besloten om de risico-inschatting van dergelijke werkzaamheden te vergroten. Deze worden voortaan in een aangekondigd onderhoudsvenster als ‘geen impact verwacht, maar elke wijziging geeft altijd een risico’ uitgevoerd. Verder zullen we indien mogelijk ook productie-load weg-migreren van Hypervisors waar wij dergelijke werkzaamheden uitvoeren, om zo de kans op impact nog verder te minimaliseren.

Tijdsverloop
16.13 uur              De eerste melding van netwerkmonitoring wordt ontvangen.

16.15 uur              Onderzoek wordt gestart.

16.20 uur              Hypervisor ‘Intel-6’ blijkt volledig offline op de externe netwerkinterfaces.

16.30 uur              We besluiten om de Hypervisor opnieuw te starten.

16.34 uur              De hypervisor is weer gestart en bereikbaar op alle netwerkinterfaces. Virtuele Servers wordt weer opgestart.

16.39 uur              De laatste melding van netwerkmonitoring wordt hersteld gemeld, alle Virtuele Servers zijn weer online.

Posted Aug 10, 2023 - 16:13 CEST

Resolved
Van 16.13 uur tot 16.39 uur zijn alle Virtuele Servers op Hypervisor ‘Intel-6’ volledig onbereikbaar geweest.
Posted Aug 09, 2023 - 16:00 CEST