A proposito dell'autore | Aylin Sali
Keine Artikel gefunden.

In diesem Artikel:

Dieser Artikel ist in den folgenden Sprachen verfügbar:

Niederländisch
Portugiesisch
Spanisch
Russisch
Französisch
Italienisch
Ungarisch
Rumänisch
Deutsch
Englisch

‍‍‍

Inhalt

Was ist der PSOD? 

Perché succede?

Wie wichtig ist das?

Cosa fare quando succede?

Come prevenirlo?


TL;DR

Der wichtigste Aspekt eines PSOD ist, dass er das Vertrauen in die Infrastruktur verliert und eine Störung hervorruft. Wenn die Hauptursache nicht beseitigt wird, kann der Gedanke, dass dies neu oder auf einem anderen Server geschehen könnte, die Nachtruhe stören.
Die Verwendung von Runecast Analyzer(ein kostenloses Tool) ist nützlich, um zu kontrollieren, ob einer der Hosts von Bedingungen betroffen ist, die zu einer Schemaverletzung durch VMware führen können. 

Was ist der PSOD?

PSOD steht für Purple Screen of Diagnostics, oft auch als Purple Screen of Death bezeichnet (abgeleitet vom bekannten Blue Screen of Death , der bei Microsoft Windows häufig auftritt).

È una schermata diagnostica visualizzata da VMware ESXi quando il kernel rileva un errore fatale da cui non è in grado di riprendersi in modo sicuro, o non può continuare a funzionare senza un rischio molto più elevato di una grave perdita di dati. 

Zeigt den Speicherstatus zum Zeitpunkt des Absturzes und weitere wichtige Informationen für die Lösung der Probleme, die den Absturz verursacht haben: Version und Build von ESXi, Art des Absturzes, Dump der Registrierung, Backtrace, Aktivitätszeit des Servers, Fehlermeldungen und Informationen zum Core-Dump (eine Datei, die nach dem Fehler erzeugt wird und weitere Diagnoseinformationen enthält). 

Dieses Schema ist auf der Konsole des Servers sichtbar. Um sie abzurufen, müssen Sie sich im Rechenzentrum befinden und einen Monitor oder die Out-of-Band-Verbindung des Servers (iLO, iDRAC, IMM... nach Maßgabe des Herstellers) nutzen.

Beispiel für einen violetten Bildschirm der Diagnostik

LO SAPEVATE? 

Lo schermo è indicato come viola o rosa, ma in realtà il colore è magenta scuro (RGB:171,0,171 | CMYK:0.00, 1.00, 0.00, 0.33) 

Perché succede il PSOD? 

Der PSOD ist eine Kernel-Panik. Auch wenn wir alle wissen, dass ESXi nicht auf UNIX basiert, passt die Implementierung der Panik zur UNIX-Definition. Der Kernel von ESXi (vmkernel) führt diese Sicherheitsmaßnahme als Reaktion auf ein nicht wiederherstellbares Ereignis/Ereignis durch, das bei fortgesetztem Betrieb ein erhöhtes Risiko für die Dienste und die VMs darstellt. Per dirla in modo semplice: quando l'host ESXi sente di essere stato corrotto, commette "harakiri" e, mentre sanguina di sangue viola, scrive una lettera di suicidio dettagliando il perché l'ha fatto!

Die häufigsten Ursachen für einen PSOD sind:

1. Hardwarefehler, die vor allem mit dem RAM oder der CPU zusammenhängen. Normalerweise tritt ein Fehler "MCE" oder "NMI" auf. 

  • "MCE" - Machine Check Exception, das ist ein Mechanismus im Inneren der CPU, um Hardware-Probleme zu lösen und zu erkennen. Es gibt wichtige Hinweise zur Identifizierung der Hauptursache des Problems in den auf dem Bildschirm angezeigten Dateien. 
  • "NMI" - non-maskable interrupt, d.h. ein Hardware-Interrupt, der vom Prozessor nicht ignoriert werden kann. Da der NMI eine sehr wichtige Meldung für eine Hardware ist, ist die vordefinierte Lösung ab ESXi 5.0 und folgenden die, einen PSOD zu aktivieren. Die Vorgängerversionen registrierten den Fehler einfach und setzten ihn fort. Wie bei den MCEs liefert die durch NMI verursachte Schemaverletzung wichtige Daten , die für die Lösung der Probleme entscheidend sind.

2. Bug del Software

  • Ungenaue Interaktionen zwischen den SW-Komponenten von ESXi (es: KB2105711)
  • Siruazioni di "corsa" o "race conditions" (es: KB2136430)
  • risorse esaurite: memoria, heap, buffer (es: KB2034111, KB2150280)
  • ciclo infinito + Stapelüberlauf (Beispiel: KB2105522)
  • unzulässige oder nicht unterstützte Konfigurationsparameter (z. B. KB2012125, KB2127997)

3. Treiber, die sich in anomaler Weise verhalten; Fehler in den Treibern, die auf einen fehlerhaften Eintrag oder eine nicht vorhandene Methode zugreifen (es: KB2148123)


LO SAPEVATE?

Sie können auch manuell einen PSOD zu Testzwecken oder einfach aus Neugierde auf das Programm aktivieren. 
Accedere all'host ESXi tramite DCUI o SSH con un account privilegiato ed eseguire:
vsish -e set /zuverlässigkeit/crashMe/Panik
Sie benötigen ein Testsystem, idealerweise ein virtuelles ESXi, das so konfiguriert ist, dass Sie die Konsole leicht bedienen können. Stellen Sie sicher, dass Sie auch diesen Artikel lesen, um die Auswirkungen dieser Aktion auf Ihr Testsystem zu verstehen.

Wie wichtig ist der PSOD?

Wenn eine Panik festgestellt wird und der Rechner abstürzt, werden alle Dienste auf dem Rechner zusammen mit allen genutzten virtuellen Maschinen beendet . Die virtuellen Maschinen werden nicht auf "elegante" Weise, sondern sofort beendet. Wenn der Host Teil eines Clusters ist und HA konfiguriert wurde, werden diese VMs an andere Hosts des Clusters ausgelagert. Neben der Unterbrechung und der Unverfügbarkeit der VMs während des Zeitraums, in dem sie genutzt werden, können einige kritische Anwendungen wie der Datenbankserver, der Nachrichtencode oder das Backup durch die "sporadische" Auslösung unterbrochen werden.

Außerdem werden alle anderen vom Host bereitgestellten Dienste beendet, d. h., wenn der eigene Host Mitglied eines VSAN-Clusters ist, hat ein PSOD auch auf vSAN Auswirkungen .

Wahrscheinlich ist der wichtigste Aspekt eines PSOD der, dass er das Vertrauen in die Infrastruktur verliert und eine Störung hervorruft, bis hin zu dem Zeitpunkt, an dem er nicht mehr in der Lage ist, zu reagieren. Ok, si può recuperare riavviando il sistema e si può avere HA o anche FT quindi l'impatto potrebbe non essere devastante... ma finché non si risolve la causa principale, il pensiero che questo possa accadere di nuovo o su un altro server può tenere svegli la notte.

Cosa fare quando succede il PSOD?

1. Analizzare il messaggio dello schermo viola

Eine der wichtigsten Aufgaben bei einem PSOD ist es, einen Screenshot anzufertigen. Bei einer Fernverbindung (IMM, iLO, iDRAC...) zur Konsole ist es einfach, einen Screenshot zu erstellen, aber wenn Sie im Rechenzentrum arbeiten, können Sie auch von außen auf das Telefon zugreifen und ein Foto des Bildschirms machen. Ci sono molte informazioni utili sulla causa del crash in quella schermata.

Die violette Bildschirmmeldung
Legenda: 1) Prodotto e numero di build 2) Messaggio di errore - Questa sezione della schermata diagnostica viola identifica il messaggio di errore riportato. Ci sono solo un numero finito di messaggi di errore che possono essere riportati. Diese Fehlermeldungen werden in diesem Artikel behandelt. 3) CPU-Register - Dies sind die Werte, die im Moment des Fehlers in den CPU-Registern angezeigt wurden. Le informazioni in questi registri possono variare notevolmente da un errore VMkernal all'altro. Diese Register können nur intern verwendet werden, wenn die Fehlersuche in einem Core-Dump eines VMkernel-Fehlers gestartet wird. 4) Processore fisico - Il processore fisico che ha eseguito le istruzioni e il mondo (processo) che è stato eseguito durante l'errore VMkernel. 5) Uptime - Die Zeit, seit wann der ESXi-Host verfügbar ist. 6) Stack Trace - Was hat der VMkernel im Moment des Fehlers gemacht. Diese Information ist ein wichtiges Element für die Fehlerdiagnose im Systemfehler, das die Kernel-Aktivitäten zum Zeitpunkt des Fehlers bewertet. 7) Core Dump - Dies zeigt an, dass der Speicherinhalt des VMkernel ausgelesen wurde. www.DeepL.com/Translator (kostenlose Version)

2. Kontaktaufnahme mit dem VMware-Support

Vor der Einleitung weiterer Untersuchungen und der Problemlösung ist es ratsam, den VMware-Support zu kontaktieren, wenn Sie über einen Supportvertrag verfügen. Parallel zur Untersuchung sind wir in der Lage, bei der Durchführung der Root Cause Analysis (RCA) zu helfen. 

3. Den betroffenen ESXi-Host umstellen

Per recuperare il server, è necessario riavviarlo. Es empfiehlt sich außerdem, den Server in den Wartungsmodus zu versetzen, bis die Ursache identifiziert und behoben ist, wenn die RCA nicht vollständig gelöscht wurde. Wenn es nicht möglich ist, das Gerät bei Rissbildung in Betrieb zu nehmen, sollte das DRS so konfiguriert werden, dass nur die unwichtigen VM über das Gerät abgesichert werden, so dass bei Auftreten eines anderen PSODs die Auswirkungen minimal sind.

4. Ottenere il core dump

Nachdem der Server in Betrieb genommen wurde, sollten Sie den Coredump nachverfolgen. Der Coredump, auch vmkernel-zdump genannt, ist eine Datei, die ähnliche, aber detailliertere Informationen wie die im Diagnoseschema angezeigten enthält und für weitere Problemlösungen genutzt werden kann. Auch wenn die Absturzursache möglicherweise auf die in Schritt 1 analysierte PSOD-Nachricht zurückzuführen ist, ist es ratsam, die Ursache anhand des Coredump-Protokolls zu überprüfen.

Je nach Konfiguration des Kernspeichers kann eine der folgenden Formen gewählt werden:

a. Sulla partizione scratch 

b. Come file .dump su uno dei datastore dell'host

c. Come file .dump sul vCenter - attraverso il servizio netdump

 

Der Coredump ist besonders wichtig, wenn die Konfiguration des Hosts nach einem PSOD automatisch zurückgesetzt werden muss, da in diesem Fall die Nachricht auf dem Bildschirm nicht angezeigt werden kann.

Sie können das Dumpfile mit SCP vom ESXi-Host kopieren und anschließend mit einem Editor (z. B. Notepad++) bearbeiten. Diese Datei enthält den Inhalt des Speichers zum Zeitpunkt des Absturzes und die ersten Teile der Datei enthalten die Meldungen, die auf dem Bildschirm zu sehen sind. Diese Datei kann vom VMware-Support angefordert werden, aber es ist auch möglich, nur das Protokoll des VMkernels zu löschen , da es etwas weniger ... aussagekräftig ist:

Fehlermeldung, die durch den violetten Bildschirm erzeugt wird

5. Decifrare l'errore

Die Lösung der Probleme und die Analyse der Ursachen können sich wie Sherlock Holmes anfühlen. I PSOD possono a volte trasformarsi in una storia ispirata da Arthur Conan Doyle, ma nella maggior parte dei casi, è un processo abbastanza semplice dove sarà difficile arrivare al quinto "perché" della tecnica dei 5 Whys.

Der wichtigste Hinweis, mit dem man beginnen sollte, ist die Fehlermeldung, die von der Bratsche erzeugt wird. Glücklicherweise ist die Anzahl der Fehlermeldungen, die erzeugt werden können, begrenzt:

Da die Kernel-Panik von der CPU gesteuert wird, finden Sie weitere Informationen zu diesen Vorgängen im Handbuch für Entwickler von Software für die Architekturen Intel 64 und IA-32, Band 1: Basisarchitektur und im Handbuch für Entwickler von Software für die Architekturen Intel 64 und IA-32, Band 3A.

Die häufigsten Fälle sind in separaten Artikeln der VMware KB enthalten, so dass ich nur eine Referenztabelle für diese Fehler hier wiedergebe, da die Artikel sehr detailliert und gut dokumentiert sind. Betrachten Sie diese Tabelle als Hinweis für alle PSOD-Fehler:

6. Controllare i registri

Es kann sein, dass die Ursache durch die Überwachung der Meldung über die Schermo-Viola oder des Protokolls des Kernspeicherauszugs nicht eindeutig feststellbar ist, so dass die nächste Stelle, an der Sie Hinweise finden können, in den Protokollen des Hosts zu finden ist, insbesondere in dem Zeitintervall vor dem PSOD. Auch wenn Sie glauben, die Ursache gefunden zu haben, ist es ratsam, nicht zu kleinlich zu sein und die Ursache im Protokoll zu vermerken.

Wenn Sie eine Unternehmensumgebung verwalten, ist es wahrscheinlich, dass Sie eine spezielle Lösung für die Verwaltung von Protokollen zur Hand haben (z. B. VMware Log Insight oder SolarWinds LEM), so dass es einfach ist, diese Protokolle zu sperren.

I file di log più interestingi da esplorare sarebbero:


Wie kann man PSOD vorbeugen?

Der größte Teil der PSOD, die mit der Software verbunden sind, wird durch Patches aktualisiert, so dass Sie sicher sein können, dass Sie mit den neuesten Versionen ausgestattet sind.

Vergewissern Sie sich, dass der Server in der Liste der kompatiblen Hardware von VMware aufgeführt ist, zusammen mit allen Geräten und Anschlüssen. Dies schützt vor einigen Hardware-Problemen, stellt aber auch sicher, dass der VMware-Support im Falle eines PSOD in der Lage ist, Sie zu unterstützen.

Wie oben in "Perché succede" beschrieben, sind fehlerhafte Treiber eine häufige Ursache für PSOD, daher ist es wichtig, die Support-Webseiten der Hersteller regelmäßig auf neue Firmware und neue Treiber zu überprüfen und vor allem auf dokumentierte Treiber, die PSOD verursachen, zu achten, damit sie schnellstmöglich nachgerüstet werden können.

Wir von Runecast analysieren regelmäßig die interne Knowledge Base von VMware(kb.vmware.com), die aus über 30.000 Artikeln besteht. Wir verfügen über nützliche Anleitungen aus der KB, um virtualisierte Infrastrukturen noch widerstandsfähiger, sicherer und effizienter zu machen. Wir sind mit PSOD sehr gut vertraut und können den größten Teil der Voraussetzungen für dieses Problem erkennen. Runecast Analyzer analysiert proaktiv Ihre Umgebung und hilft Ihnen, diese Probleme zu beseitigen, damit Sie die Möglichkeit haben, den größten Teil der PSODs in Ihrer Umgebung zu verhindern.


Screenshot der VMware Knowledge Base

>> Scarica la prova gratuita di Runecast Analyzer (in lingua inglese)

‍‍‍

Ebook Come affrontare il PSOD (in englischer Sprache)

Tutto quello che devi sapere sul PSOD (The Purple Screen of Death), in un ebook del CTO di Runecast Aylin Sali.

Ebook Come affrontare il PSOD (in englischer Sprache)Scaricare Ebook