Wie man mit PSOD umgeht - Das paarse scherm des doods
Überschrift
Dieser Artikel ist in den folgenden Sprachen verfügbar:
Inhoud
Was ist PSOD?
Waarom beurt het?
Was sind die Auswirkungen?
Wat doe je as het gebeurt?
Wie kann ich das tun?
TL;DR
Der wichtigste Aspekt eines PSOD ist die Tatsache, dass er die Infrastruktur vergrößert und die damit verbundene Zuverlässigkeit erhöht. Wenn die Tür nicht geöffnet ist, kann der Gedanke, dass dies auf einem anderen Server möglich ist, die Nachtspeicherfunktion beeinträchtigen.
Verwenden Sie den Runecast Analyzer(kostenlose Software), um zu kontrollieren, ob einer Ihrer Hosts von einem anderen Anbieter überwacht wird, der das VMware-Paarungsschema für den Zugriff auf die Daten nicht nutzen kann.
Was ist PSOD?
PSOD steht für Purple Screen of Diagnostics, auch bekannt als Purple Screen of Death (ähnlich wie der bekanntere Blue Screen of Death , der manchmal bei Microsoft Windows auftritt).
Es handelt sich um einen Diagnoseschlüssel, der von VMware ESXi erstellt wird, wenn der Kernel einen schwerwiegenden Fehler feststellt, den er nicht verschleiern kann, oder den er nicht ausnutzen kann, um ein größeres Risiko einzugehen.
Er enthält den Status zum Zeitpunkt des Absturzes und zusätzliche Details, die zum Zeitpunkt des Abbruchs wichtig sind: ESXi-Version und -Build, Ausnahmetyp, Register-Dump, Backtrace, Server-Betriebszeit, Fehlermeldungen und Informationen über den Core-Dump (ein Bestand gegenereerd na de fout, met verdere diagnostische Informationen).
Dieses Schema ist auf der Konsole des Servers zu sehen. Um ihn nutzen zu können, müssen Sie sich im Rechenzentrum befinden und einen Monitor haben, oder Sie müssen den Out-of-Band-Heer des Servers nutzen (iLO, iDRAC, IMM... je nach Anbieter).
WIST U DAT?
Das Bild wird als ein rotes Feld angezeigt, aber auf der anderen Seite ist die Farbe nicht magenta (RGB:171,0,171 | CMYK:0.00, 1.00, 0.00, 0.33)
Was gibt es für PSOD?
Der PSOD ist eine Kernel-Panik. Auch wenn wir wissen, dass ESXi nicht auf UNIX basiert, ist die Panic-Implementierung in der UNIX-Definition vorbei. Der ESXi-Kernel (vmkernel) setzt diese Schlechtigkeitsregel als Reaktion auf eine Störung ein, die nicht mehr hergestellt werden kann und durch die ein großes Risiko für die Dienste und VMs entsteht. Eenvoudig gezegd: as de ESXi-Host voelt dat hij corrupt is geworden, pleegt hij "seppuku" en schrijft hij, terwijl hij zijn paarse bloed laat bloeden, een zelfmoordbrief waarin hij gedetailleerd beschrijft waarom hij dat deed!
Die wichtigsten Merkmale eines PSOD sind:
1. Hardwarestoringen, meestal RAM of CPU gerelateerd. Ze geven gewoonlijk een "MCE" of "NMI" foutmelding.
- "MCE" - Machine Check Exception, ein Mechanismus in der CPU, um Hardware-Probleme zu sporen und zu melden. Die Codes auf dem paarigen Schema enthalten wichtige Details, um das Problem zu beheben.
- "NMI" - non-maskable interrupt, das ist ein Hardware-Interrupt, der vom Prozessor nicht ausgelöst werden kann. Da ein NMI eine sehr wichtige Verbindung zu einem HW-Ausfall ist, ist die Standardreaktion ab ESXi 5.0 und später das Auslösen eines PSODs. Andere Versionen loggen sich gleich nach dem Ausfall ein und gehen weiter. Ebenso wie bei MCE's werden durch ein NMI einige wichtige Codes , die für die Fehlersuche von entscheidender Bedeutung sind, nicht mehr angezeigt.
2. Software fouten
- onjuiste interacties tussen ESXi SW-components (ex: KB2105711)
- Wettlaufbedingungen (Beispiel: KB2136430)
- geen middelen meer: geheugen, heap, buffer (ex: KB2034111, KB2150280)
- oneindige lus + Stapelüberlauf (z.B. KB2105522)
- onjuiste of niet-ondersteunde configuratieparameters (bijv. KB2012125, KB2127997)
3. Fehler in Programmen, die einen Fehler aufweisen; Fehler in Programmen, die den Übergang zu einem fehlerhaften Index oder einer unzulässigen Methode erzwingen (vgl. KB2148123)
WIST U DAT?
U kunt zelfs handmatig een PSOD activeren voor testdoeleinden of als u gewoon nieuwsgierig bent om het te zien gebeuren.
Melden Sie sich beim ESXi-Host über DCUI oder SSH mit einem privilegierten Konto an und gehen Sie hinaus:
vsish -e set /zuverlässigkeit/crashMe/Panik
Es muss ein Testsystem installiert werden, idealerweise ein virtuelles ESXi, damit Sie die Konsole gut beobachten können. Bitte beachten Sie, dass dieser Artikel vollständig ist, um die Auswirkungen dieses Vorgangs und die Auswirkungen auf Ihr Testsystem zu verstehen.
Was ist die Auswirkung von PSOD?
Wenn der Rechner abstürzt, werden alle darauf befindlichen Dienste und alle gehosteten virtuellen Maschinen angezeigt. Die VM's wurden nicht netjes afgesloten, sondern nur abrupt upgedatet. Wenn der Host zu einem Cluster gehört und HA konfiguriert ist, werden diese VMs auf den anderen Hosts des Clusters gestartet. Nach dem Start und der Inbetriebnahme der VMs während der Zeit, in der sie im Einsatz sind, können einige kritische Anwendungen, wie z.B. Datenbankserver, Berichtswachtrijen oder Backuptaken, durch die "falsche" Aufteilung nicht mehr genutzt werden.
Darüber hinaus werden alle anderen Dienste, die durch den Host geleverd werden, angezeigt, d.h. als Host-Deckel eines VSAN-Clusters wird auch ein PSOD in vSAN eingebunden.
Voor mij is het meest storende aspect van een PSOD dat het je vertrouwen in je infrastructur doet verliezen en de angst die het creëert, tenminste, tot je het tot op de bodem hebt uitgezocht. Ok, Sie können eine neue Website erstellen und Sie haben keine HA oder FT, denn die Auswirkungen sind nicht zu vernachlässigen... aber wenn Sie die Tür nicht geöffnet haben, können Sie den Gedanken aufgeben, dass diese Website auf einem anderen Server wackeln könnte.
Wat te doen as PSOD gebeurt?
1. Analyser het paarse scherm bericht
Eine der wichtigsten Aufgaben, die Sie erledigen müssen, wenn Sie einen PSOD haben, ist das Erstellen eines Screenshots. Wenn Sie eine Verbindung mit der Konsole herstellen (IMM, iLO, iDRAC...), ist es sinnvoll, einen Screenshot zu machen, aber wenn Sie ins Rechenzentrum gehen, können Sie Ihr Telefon per Brief an die Konsole schicken und ein Foto des Systems machen. Er staat veel nuttige informatie over de oorzaak van de crash in dat scherm.
2. Nehmen Sie Kontakt mit VMware-ondersteuning auf
Wenn Sie mit der Fehlersuche und -behebung beginnen, sollten Sie sich mit dem VMware-Support in Verbindung setzen, sofern Sie einen Support-Vertrag abgeschlossen haben. Sie können Ihnen, parallel zu Ihrer Untersuchung, bei der Erstellung der Ursachenanalyse (RCA) behilflich sein.
3. Herstart des getroffenen ESXi-Hosts
Damit der Server hergestellt werden kann, müssen Sie ihn auf jeden Fall einschalten. Ik zou ook adviseren om hem in onderhoudsmodus te houden totdat je de volledige RCA hebt uitgevoerd, de oorzaak hebt vastgesteld en deze hebt verholpen. Wenn Sie ihn nicht in den Onderhoudsmodus versetzen wollen, sollten Sie die DRS-Regeln so einstellen, dass alle anderen VMs nicht betroffen sind, so dass die Auswirkungen minimal sind, wenn ein anderer PSOD auf dem Server läuft.
4. Herunterladen des Coredump
Wenn der Server nicht gestartet ist, sollten Sie den Coredump verzameln. Der Coredump, der auch als vmkernel-zdump bezeichnet wird, ist ein Bestand an Protokollen mit weniger, aber detaillierteren Informationen als die auf dem paarweisen Diagnoseschirm und kann bei der Behebung von Problemen verwendet werden. Auch wenn die Ursache des Absturzes in der PSOD-Meldung, die Sie in Schritt 1 analysiert haben, enthalten ist, ist es schwierig, die Logs des Coredumps zu finden.
Unabhängig von Ihrer Konfiguration kann der Core Dump einen dieser Vormen haben:
a. Op de scratch partitie
b. Wenn ein .dump auf einem der Datenspeicher des Hosts vorhanden ist
c. Als ein .dump bestand op het vCenter - über den netdump-Dienst
Der Coredump ist auch dann wichtig, wenn die Konfiguration des Hosts automatisch auf einen PSOD umgestellt werden soll, aber der Bericht nicht auf dem Bildschirm angezeigt wird.
Sie können den Dumpbestand des ESXi-Hosts mit SCP kopieren und ihn dann mit einem Editor (z. B. Notepad++) öffnen. Damit können Sie im Moment des Absturzes den Inhalt der Sicherheitsmaßnahmen anzeigen und im nächsten Schritt die Berichte anzeigen, die Sie auf dem Bildschirm sehen. Der gesamte Bestand kann vom VMware-Support abgefragt werden, aber Sie können auch selbst das vmkernel log pakken, das ist um einiges handlicher:
5. Ontcijfer de fout
Troubleshooting und Analyse der aktuellen Situation ermöglichen es Ihnen, sich an Sherlock Holmes zu gewöhnen. PSODs können manchmal auf der Grundlage einer von Arthur Conan Doyle inspirierten Geschichte erstellt werden, aber in den meisten Fällen handelt es sich um einen rechtmäßigen Prozess, bei dem es möglich sein muss, das letzte "Warum" der 5-Warum-Technik zu erreichen.
Das wichtigste Symptom und das Symptom, mit dem Sie beginnen sollten, ist der Streit, der durch das Paarungsschema hervorgerufen wird. Die Anzahl der Foutmeldingen, die gegenereerd werden können, ist sehr groß:
Wenn die Kernel-Panik durch die CPU ausgelöst wird, finden Sie hier weitere Informationen über diese Funktionen: Intel 64 and IA-32 Architectures Software Developer's Manual, Volume 1: Basic Architecture und Intel 64 and IA-32 Architectures Software Developer's Manual, Volume 3A.
Die am häufigsten vorkommenden Probleme wurden in anderen VMware KB-Artikeln behandelt, und ich kann hier eine Referenztabelle für alle diese Themen aufführen, da die Artikel sehr detailliert und gut dokumentiert sind. Benutzen Sie diese Tabelle daher als Index für die PSOD-Fouten:
6. Logboeken controleren
Es kann sein, dass der Oorzaak im paarweisen Scherm-Bericht oder im Core-Dump-Protokoll nicht ergiebig ist, denn der nächste Ort, an dem man nach einer Lösung suchen kann, ist in den Host-Protokollen, vor allem im Zeitintervall für den PSOD. Auch wenn Sie denken, dass Sie den Fehler behoben haben, ist es sehr wichtig, dass der Fehler nicht zu groß ist und Sie die Logs einsehen können.
Wenn Sie ein Unternehmen betreuen, können Sie eine spezialisierte Lösung für Logbucheinträge in die Hand nehmen (z. B. VMware Log Insight oder SolarWinds LEM), damit Sie die Logbucheinträge bearbeiten können, aber wenn Sie keinen Logbucheintrag haben, können Sie ihn auch exportieren.
Die interessantesten Logbucheinträge, die es zu entdecken gibt, sind hier zu finden:
Wie arbeiten Sie mit PSOD?
Die meisten Software-verwandten PSOD's wurden durch Patches ersetzt, so dass Sie mit den letzten Versionen auf dem neuesten Stand sind.
Zorg ervoor dat uw servers op de Hardware Compatibility Checklist van VMware staan, samen met alle apparaten en adapters. Dies kann bei bestimmten, mit der Hardware zusammenhängenden Problemen Abhilfe schaffen, aber auch dafür sorgen, dass der VMware-Support im Falle eines PSODs zur Verfügung steht.
Wie hier unter "Wozu gibt es das?" beschrieben, sind die aktuellen Treiber auch für PSODs nicht geeignet, so dass es nicht sinnvoll ist, regelmäßig die Websites der Hersteller zu besuchen, um die überholte Firmware und die Treiber zu kontrollieren, und auch nicht, um auf die gedruckten PSODs zu reagieren, wenn sie aktualisiert werden.
Bei Runecast analysieren wir regelmäßig die vollständige VMware Knowledge Base(kb.vmware.com), die mehr als 30.000 Artikel enthält. In der Knowledge Base finden Sie ausführliche Informationen, um Ihre virtuelle Infrastruktur proaktiv und effizienter zu gestalten. Wir sind sehr vertraut mit dem PSOD und sind in der Lage, die wichtigsten Randbedingungen zu identifizieren, die diesem Problem entgegenwirken können. Der Runecast Analyzer hilft Ihnen dabei, diese Probleme proaktiv zu analysieren, indem er Ihnen das Vertrauen schenkt, dass die meisten PSODs, die in Ihrer Umgebung auftauchen, funktionieren werden.
Treffen Sie hier andere Runecaster:
Ebook - Wie man mit PSOD umgeht (auf Englisch)
Alles, was Sie über PSOD (The Purple Screen of Death) wissen müssen, in einem ebook von Runecast CTO Aylin Sali.