Comment faire au PSOD - Der violette Bildschirm des Todes
Dieser Artikel ist in den folgenden Sprachen verfügbar:
Inhalt
Was ist der PSOD?
Warum wird das so produziert?
Was sind die Auswirkungen?
Wie sollte man vorgehen, wenn das Produkt hergestellt wird?
Wie lässt sich das verhindern?
TL;DR
Der wichtigste Aspekt eines PSOD ist, dass er das Vertrauen in Ihre Infrastruktur und die damit verbundenen Ängste schwinden lässt. Da Sie die erste Ursache noch nicht behoben haben, kann die Vorstellung, dass das Problem auf einem anderen Server reproduziert oder produziert werden kann, Sie aus dem Schlaf reißen. Verwenden Sie Runecast Analyzer(kostenloser Test), um zu überprüfen, ob einer Ihrer Mitarbeiter von den Bedingungen betroffen ist, die zum Absterben des violetten VMware-Bildschirms führen können.
Was ist der PSOD?
PSOD steht für Purple Screen of Diagnostics, oft auch als Purple Screen of Death bezeichnet (abgeleitet vom bekannten Blue Screen of Death , der oft unter Microsoft Windows auftritt).
Es handelt sich um einen Diagnosebildschirm, der von VMware ESXi angezeigt wird, wenn der "Kernel" einen schwerwiegenden Fehler feststellt, der nicht mehr sicher behoben werden kann, oder wenn er nicht mehr weiterarbeiten kann, ohne ein wesentlich höheres Risiko des Verlustes wichtiger Daten einzugehen.
Er enthält den Zustand des Speichers zum Zeitpunkt des Unfalls sowie zusätzliche Informationen, die für die Suche nach der Unfallursache wichtig sind: Version und Aufbau von ESXi, Ausnahmetyp, Überprüfung der Register, Rückverfolgung, Betriebszeit des Servers, Fehlermeldungen und Informationen über den "Core Dump" (eine nach dem Fehler erstellte Datei mit zusätzlichen Diagnoseinformationen).
Dieser Bildschirm ist auf der Konsole des Servers sichtbar. Um ihn zu sehen, müssen Sie entweder im Datenzentrum sein und einen Monitor anschließen oder die Fernverwaltung des Servers (iLO, iDRAC, IMM... je nach Hersteller) verwenden.
LE SAVIEZ-VOUS ?
Der Bildschirm wird als violett oder rosa bezeichnet, tatsächlich ist die Farbe magentafarben (RGB:171,0,171 | CMYK:0.00, 1.00, 0.00, 0.33)
Warum ist die PSOD nicht mehr da?
Die PSOD ist eine Noyau-Panik. Auch wenn wir alle wissen, dass ESXi nicht auf UNIX basiert, entspricht die Implementierung der Panik der UNIX-Definition. Diese Sicherheitsmaßnahme wird von ESXi (vmkernel) als Reaktion auf ein Ereignis/Ereignis ausgelöst, das nicht beherrschbar ist und das bedeutet, dass die Fortsetzung des Betriebs ein hohes Risiko für die Dienste und die VM darstellt. Um es einfach auszudrücken: Wenn sich der ESXi-Betreiber korrumpiert fühlt, begeht er "Seppuku" und schreibt einen Abschiedsbrief, in dem er die Gründe für sein Handeln darlegt.
Die häufigsten Ursachen für einen PSOD sind die folgenden:
1. Materialfehler, vor allem im Zusammenhang mit dem Lebendgedächtnis oder der Zentraleinheit. Elles provoquent généralement une erreur "MCE" ou "NMI".
- "MCE" - Machine Check Exception, eine CPU-Methode zur Erkennung und Signalisierung von Materialproblemen. Die auf dem violetten Bildschirm angezeigten Codes enthalten wichtige Informationen zur Identifizierung der tieferen Ursache des Problems.
- "NMI" - interruption non masquable, d.h. eine Materialunterbrechung, die vom Prozessor nicht ignoriert werden darf. Da es sich bei NMI um eine sehr wichtige Meldung handelt, die eine HW-Platte betrifft, ist die Antwort auf diese Meldung seit ESXi 5.0 die Deklaration eines PSOD. Bei den Vorgängerversionen konnte der Fehler lediglich registriert und fortgesetzt werden. Wie bei den MCE wird der violette Bildschirm, der durch die INM verursacht wird, mit wichtigen Codes versehen, die für die Fehlerbehebung von entscheidender Bedeutung sind.
2. Fehler in der Logik
- die fehlerhaften Interaktionen zwischen den Komponenten der ESXi-SW (z. B. KB2105711)
- les conditions de course (ex : KB2136430)
- à court de ressources : mémoire, tas, tampon (ex : KB2034111, KB2150280)
- Boucle infinie + débordement de pile (ex : KB2105522)
- fehlerhafte oder nicht berücksichtigte Konfigurationsparameter (z. B. KB2012125, KB2127997)
3. Mauvais comportement des pilotes ; bogues dans les pilotes qui tentent d'accéder à un index incorrect ou à une méthode inexistante (ex : KB2148123)
LE SAVIEZ-VOUS ?
Sie können auch manuell einen PSOD zu Testzwecken deaktivieren, oder wenn Sie einfach nur neugierig sind, was passiert ist.
Verbinden Sie sich mit Ihrem ESXi-Host über DCUI oder SSH mit einem privilegierten Computer und führen Sie den Vorgang aus:
vsish -e set /zuverlässigkeit/crashMe/Panik
Es liegt auf der Hand, dass ein Testsystem empfohlen wird, insbesondere ein virtuelles ESXi, damit Sie die Konsole leicht beobachten können. Vergewissern Sie sich außerdem, dass Sie die Lektüre dieses Artikels zu Ende gelesen haben, um die Auswirkungen dieser Aktion und die Auswirkungen auf Ihr Testsystem zu verstehen.
Welche Auswirkungen hat der PSOD?
Wenn die Panik ausbricht und der Gastwirt die Wohnung verlässt, werden alle Dienste, die er in Anspruch nimmt, sowie alle virtuellen Maschinen , die er aufstellt, beendet . Virtuelle Maschinen werden nicht sanft, sondern eher ruppig gestoppt . Wenn der Host Teil eines Clusters ist und Sie HA konfiguriert haben, werden diese VMs von den anderen Hosts des Clusters entfernt. Neben der Verriegelung und der Unverfügbarkeit der virtuellen Maschinen während der Verriegelungszeit können bestimmte kritische Anwendungen, wie z. B. die Server für die Datenbasis, die Nachrichtendateien oder die Wartungsarbeiten, von der Verriegelung betroffen sein.
Darüber hinaus werden auch alle anderen vom Gastgeber bereitgestellten Dienste unterbrochen. Wenn Ihr Gastgeber Mitglied eines VSAN-Clusters ist, hat ein PSOD auch Auswirkungen auf das vSAN.
Für mich ist der wichtigste Aspekt eines PSOD, dass Sie das Vertrauen in Ihre Infrastruktur verlieren und die Angst, die er hervorruft, zumindest bis zu dem Punkt, an dem Sie die Grundlagen kennen. Ok, Sie können sich neu aufstellen und Sie können HA oder sogar FT haben, also kann die Auswirkung nicht so verheerend sein... aber bis zu dem Zeitpunkt, an dem Sie die erste Ursache nicht behoben haben, kann die Idee, dass dies auf einem anderen Server reproduziert oder produziert werden kann, Sie dazu bringen, die Nacht zu schlafen.
Was tun im Falle eines PSOD?
1. Analyser le message de l'écran violet
Eine der wichtigsten Aufgaben, die Sie erledigen müssen, wenn Sie einen PSOD besitzen, ist die Erstellung einer Bildschirmaufnahme. Wenn Sie über eine Fernverbindung (IMM, iLO, iDRAC...) mit der Konsole verbunden sind, ist es einfach, ein Bildschirmfoto zu machen, aber wenn Sie sich im Rechenzentrum aufhalten, müssen Sie vielleicht sogar Ihr Telefon sortieren und ein Bildschirmfoto machen. Der Bildschirm enthält viele nützliche Informationen über die Ursache des Absturzes.
2. Contactez le support VMware
Bevor Sie eine umfassendere Untersuchung einleiten und eine Reparatur veranlassen, sollten Sie sich an den VMware-Support wenden, sofern Sie einen Supportvertrag haben. Parallel zu Ihrer Untersuchung können sie Ihnen bei der Durchführung einer tiefgreifenden Ursachenanalyse (RCA) helfen.
3. Redémarrer l'hôte ESXi affecté
Pour récupérer le serveur, vous devez le redémarrer. Je vous conseille également de le maintenir en mode de maintenance jusqu'à ce que vous ayez effectué la RCA complète, que vous en ayez identifié la cause et que vous l'ayez réparée. Wenn Sie nicht in der Lage sind, das Gerät im Wartungsmodus zu halten, müssen Sie Ihre DRS-Regeln so anpassen, dass nur die unwichtigen VMs darunter funktionieren, so dass die Auswirkungen eines anderen PSODs nur gering sind.
4. Obtenir la décharge de carottes
Nach der Demontage des Servers sollten Sie den Coredump wiederherstellen. Der Coredump, der auch als vmkernel-zdump bezeichnet wird , ist eine Datei, die ähnliche, jedoch detailliertere Informationen wie die auf dem violetten Diagnosebildschirm angezeigten Protokolle enthält, die für die endgültige Entstörung verwendet werden. Auch wenn die Unfallursache aufgrund der von Ihnen in Etappe 1 analysierten PSOD-Meldung eindeutig zu sein scheint, empfiehlt es sich, dies durch die Untersuchung der Aderlassprotokolle zu bestätigen.
Je nach Ihrer Konfiguration können Sie das zentrale Depot in einer dieser Formen nutzen:
a. Sur la partition à gratter
b. En tant que fichier .dump sur l'un des magasins de données de l'hôte
c. En tant que fichier .dump sur le vCenter - via le service netdump
Le coredump devient particulièrement important si la configuration de l'hôte doit se réinitialiser automatiquement après un PSOD, auquel cas vous ne verrez pas le message à l'écran.
Sie können die Videodatei innerhalb des ESXi-Hosts mit SCP kopieren und anschließend mit Hilfe eines Textverarbeitungsprogramms (z. B. Notepad++) öffnen. Diese Datei enthält den Inhalt des Speichers zum Zeitpunkt der Installation, und die ersten Seiten der Datei enthalten die Nachrichten, die Sie auf dem violetten Bildschirm sehen. Die gesamte Datei kann vom VMware-Support angefordert werden, aber Sie können nur das Journal vmkernel extrahieren , das ein wenig mehr ... digeste ist:
5. Déchiffrer l'erreur
Die Entdeckung und Analyse der tieferen Ursachen kann den Eindruck erwecken, Sherlock Holmes zu sein. Die PSOD können sich manchmal in eine von Arthur Conan Doyle inspirierte Geschichte verwandeln, aber in den meisten Fällen handelt es sich um einen sehr einfachen Prozess, bei dem es schwierig ist, das fünfte "Warum" der Technik der 5 Gründe zu finden.
Das wichtigste Symptom, mit dem Sie beginnen sollten, ist die Fehlermeldung, die von der violetten Anzeige ausgegeben wird. Heureusement, le nombre de messages d'erreur qui peuvent être produits est limité:
Da die Panik "Kernel" von der Zentraleinheit gesteuert wird, finden Sie weitere Informationen zu diesen Ausnahmen im Intel 64 and IA-32 Architectures Software Developer's Manual, Volume 1 : Basic Architecture und Intel 64 and IA-32 Architectures Software Developer's Manual, Volume 3A.
Die häufigsten Fälle werden in separaten Artikeln der VMware KB behandelt, und ich möchte hier eine Referenztabelle dieser Fehler aufbewahren, da die Artikel sehr detailliert und gut dokumentiert sind. Nutzen Sie daher diese Tabelle als Index der PSOD-Fehler:
6. Überprüfen Sie die Zeitschriften
Es kann vorkommen, dass die Ursache nicht eindeutig ist, wenn man die violette Bildschirmmeldung oder das Protokoll des "Core Dump" betrachtet. Der nächste Ort, an dem man nach Hinweisen suchen sollte, sind die Tagebücher des Gastgebers, insbesondere das Zeitintervall, das dem PSOD vorausgeht. Auch wenn Sie glauben, die Ursache gefunden zu haben, empfehlen wir Ihnen, nicht zu parteiisch zu sein, sondern die Protokolle zu konsultieren und zu bestätigen.
Wenn Sie eine Unternehmensumgebung verwalten, ist es wahrscheinlich, dass Sie über eine spezielle Lösung zur Verwaltung von Protokollen verfügen (wie VMware Log Insight oder SolarWinds LEM). Wenn Sie jedoch nicht über eine Lösung zur Verwaltung von Protokollen verfügen, können Sie die Protokolle problemlos exportieren.
Die interessantesten Zeitschriftendateien, die es zu entdecken gilt, sind die folgenden:
Wie lassen sich PSOD verhindern?
Ein Großteil der logikbezogenen Probleme wurde durch Korrekturen behoben, aber stellen Sie sicher, dass Sie mit den neuesten Versionen auf dem Laufenden sind.
Stellen Sie sicher, dass Ihre Server auf der Liste der Materialkompatibilität von VMware aufgeführt sind, ebenso wie alle Peripheriegeräte und Adapter. Dies schützt Sie vor bestimmten, mit der Hardware verbundenen Problemen und garantiert Ihnen außerdem, dass der VMware-Support Ihnen im Falle eines PSOD helfen kann.
Es ist daher wichtig, die Aktualität der Firmware und der Piloten, vor allem aber die dokumentierten PSOD, regelmäßig auf den Support-Websites der Anbieter zu überprüfen, damit die Piloten so schnell wie möglich darauf reagieren und sie auf den neuesten Stand bringen können.
Wir von Runecast analysieren regelmäßig die gesamte Datenbank von VMware(kb.vmware.com), die mehr als 30 000 Artikel umfasst. Wir extrahieren verwertbare Informationen, um virtualisierte Infrastrukturen stabiler, sicherer und effizienter zu machen. Wir kennen den PSOD sehr gut und sind in der Lage, einen Großteil der Bedingungen zu identifizieren, die zu diesem Problem führen können. Runecast Analyzer analysiert proaktiv Ihre Umgebung und hilft Ihnen, diese Probleme zu beseitigen, damit Sie sicher sein können, dass ein Großteil der PSOD, die in Ihrer Umgebung gespeichert sind, beseitigt werden.
>> Gratis-Essay von Runecast Analyzer herunterladen (auf Englisch)
Treffen Sie hier andere Runecaster:
Ebook - Comment traiter les PSOD (en anglais)
Alles, was Sie über PSOD (The Purple Screen of Death) wissen müssen, finden Sie in einem E-Book der technischen Leiterin von Runecast, Aylin Sali.