Lidar mit PSOD - Die Todesursache
Dieser Artikel ist in den folgenden Sprachen verfügbar:
Inhalt
O que é PSOD?
Porque é que isso acontece?
Wie sind die Auswirkungen?
O que fazer quando isso acontece?
Wie lässt sich das vermeiden?
TL;DR
Der problematischste Aspekt eines PSOD ist, dass er das Vertrauen in die eigene Infrastruktur und die dadurch entstehende Unruhe zerstört. Auch wenn sich die Ursache nicht beheben lässt, kann die Idee, dass dies neu auftreten könnte oder ein anderer Dienstanbieter, während der Nacht aufrecht erhalten werden.
Verwenden Sie den Runecast Analyzer(kostenloser Test), um zu überprüfen, ob einer der Server durch Umstände beeinträchtigt ist, die den Tod von VMware verursachen können.
O que é PSOD?
PSOD bedeutet Ecrã Roxo de Diagnóstico, häufig auch als Ecrã Roxo da Morte bezeichnet (abgeleitet von Ecrã Azul da Morte, oft in Microsoft Windows zu finden).
Es handelt sich um eine Diagnosemeldung, die von VMware ESXi angezeigt wird, wenn der Kern einen schwerwiegenden Fehler feststellt, der nicht mehr sicher behoben werden kann oder der Betrieb nicht mehr fortgesetzt werden kann, ohne dass ein größeres Risiko des Verlusts wichtiger Daten besteht.
Zeigt den Speicherstatus zum Zeitpunkt des Vorfalls sowie weitere wichtige Informationen zur Lösung von Problemen mit der Ursache des Vorfalls an: ESXi-Version und -Revision, Exceção-Typ, Registo-Dump, Backtrace, Funktionsdauer des Servidors, Fehlermeldungen und Informationen über den Core-Dump (eine nach dem Fehler erstellte Datei, die weitere Diagnoseinformationen enthält).
Dieser Bildschirm ist auf der Konsole des Servers sichtbar. Um es zu sehen, müssen Sie sich in der Datenzentrale befinden und einen Monitor anschließen oder eine Fernsteuerung für das Band des Servers verwenden (iLO, iDRAC, IMM... je nach Hersteller).
VOCÊ JÁ SABIA?
O ecrã é referido como Roxo ou Rosa , mas na realidade a cor é Magenta Escura (RGB:171,0,171 | CMYK:0.00, 1.00, 0.00, 0.33)
Wie kommt es, dass der PSOD zustande kommt?
O PSOD é um evento de pânico. Obwohl wir alle wussten, dass ESXi nicht auf UNIX basiert, ist die Implementierung von PSOD eine Frage der Definition von UNIX. O core do ESXi (vmkernel) desencadeia esta medida de segurança em resposta a um evento/erro que é irrecuperável e que significaria que continuar a funcionar representaria um risco elevado para os serviços e VMs. Dito de forma simples: quando os servidores do ESXi se sentem corrompidos, cometem "seppuku" e, enquanto sangram o seu sangue púrpura, escrevem uma carta de suicídio detalhando porque o fizeram!
Die häufigsten Ursachen für einen PSOD sind folgende:
1. Hardware-Fehler, die in den meisten Fällen mit RAM oder CPU zusammenhängen. Normalerweise werden sie mit einem Fehler "MCE" oder "NMI" angezeigt.
- "MCE" - Machine Check Exception, ein Mechanismus innerhalb der CPU zur Erkennung und Meldung von Hardwareproblemen. Es gibt wichtige Hinweise zur Identifizierung der Ursache des Problems in den im Bildschirm angezeigten Daten.
- "NMI" - Nicht-Maskarenzustand, d.h. eine Hardwareunterbrechung, die vom Prozessor nicht ignoriert werden kann. Auch wenn ein NMI ein wichtiger Hinweis auf einen HW-Fehler ist, ist die Antwort, die mit ESXi 5.0 und späteren Versionen gegeben werden kann, das Aufheben eines PSODs. Frühere Versionen konnten lediglich den Fehler registrieren und fortfahren. Genau wie bei den MCEs wird der durch die NMI verursachte Fehler wichtige Daten liefern, die für die Problemlösung von entscheidender Bedeutung sind.
2. Fehler in der Software
- Interaktionen zwischen Komponenten der ESXi-SW (z. B. KB2105711)
- condições competitivas (ex: KB2136430)
- Ressourcenmangel: Speicher, Pilger, Puffer (z. B. KB2034111, KB2150280)
- Endlosschleife + Stapelüberlauf (Beispiel: KB2105522)
- unvollständige oder nicht unterstützte Konfigurationsparameter (z. B. KB2012125, KB2127997)
3. Fehlerhafte Kontrolladressen; Fehler unter den Kontrolladressen, die versuchen, einen unzutreffenden Indikator oder eine nicht vorhandene Methode zu ermitteln (z. B. KB2148123)
VOCÊ JÁ SABIA?
Sie können aber auch manuell einen PSOD zum Testen oder aus reiner Neugier auf das Geschehen auslösen.
Starten Sie die Sitzung auf der ESXi-Anlage über DCUI oder SSH mit einem privilegierten Zugang und funktionieren Sie:
vsish -e set /zuverlässigkeit/crashMe/Panik
Natürlich empfiehlt es sich, ein Testsystem zu verwenden, idealerweise ein virtuelles ESXi, das "verschachtelt" ist, damit Sie die Konsole leicht beobachten können. Vergewissern Sie sich auch, dass Sie diesen Artikel zu Ende gelesen haben, um die Auswirkungen dieses Vorgehens und die Auswirkungen auf Ihr Testsystem zu verstehen.
Welche Auswirkungen hat der PSOD?
Wenn das Problem auftritt und der Anfitrião abbricht, werden alle Dienste, die noch nicht funktionieren, zusammen mit allen virtuellen Maschinen , die sich im System befinden, beendet . As VMs não são desligadas graciosamente, mas sim abruptamente desligadas. Wenn der Server Teil eines Clusters ist und HA konfiguriert hat, werden diese VMs von den anderen Servern des Clusters gestartet. Abgesehen von der Unterbrechung und Unverfügbarkeit der VMs während des Zeitraums, in dem sie abgeschaltet sind, können einige wichtige Anwendungen, wie z. B. Datenbank-, Nachrichten- oder Backup-Server, durch die Unterbrechung in Mitleidenschaft gezogen werden.
Darüber hinaus werden alle anderen vom Server bereitgestellten Dienste beendet, und wenn der Server Mitglied eines VSAN-Clusters ist, wirkt sich ein PSOD auch auf das vSAN aus.
Für mich ist der problematischste Aspekt eines PSOD, dass er das Vertrauen in die eigenen Fähigkeiten und die daraus resultierende Unruhe verliert, zumindest bis zur Klärung des Grundes für die Frage. Ok, sie können sich wieder erholen und HA oder FT haben, was sich nicht verheerend auswirken muss... aber wenn die Ursache geklärt ist, kann die Idee, dass dies neu auftreten kann oder ein anderer Dienstanbieter, während der Nacht beibehalten werden.
O que fazer quando o PSOD acontece?
1. Analisar a mensagem do ecrã roxo
Eine der wichtigsten Aufgaben, die Sie erledigen können, wenn Sie einen PSOD haben, ist das Abfotografieren des Bildschirms. Wenn Sie über eine Remote-Verbindung (IMM, iLO, iDRAC...) mit der Konsole verbunden sind, ist es einfach, ein Foto vom Computer zu machen, aber wenn Sie in die Datenzentrale gehen müssen, können Sie auch wortwörtlich das Telefon benutzen und ein Foto vom Computer machen. Há muita informação útil sobre a causa da queda nesse ecrã.
2. Kontaktieren Sie den VMware-Support
Bevor Sie mit weiteren Untersuchungen und Problemlösungen beginnen, sollten Sie sich mit dem VMware-Support in Verbindung setzen, wenn Sie einen Support-Vertrag haben. Parallel zu dieser Untersuchung können Sie ihm bei der Analyse der Ursache (RCA) helfen.
3. Reiniciar o servidor ESXi afectado
A fim de recuperar o servidor, terá de o reiniciar. Achten Sie auch darauf, das Gerät im Wartungsmodus zu halten, bis Sie eine vollständige Fehlerbehebung durchführen, die Ursache feststellen und die Fehler beheben können. Wenn Sie sich den Luxus nicht leisten können, das System im Betriebsmodus zu halten, sollten Sie auf jeden Fall Ihre DRS-Rechner so einstellen, dass nur wichtige VMs funktionieren, damit die Auswirkungen eines anderen PSOD nur minimal sind.
4. Obter o despejo do núcleo
Nach der Inbetriebnahme des Servers sollten Sie den Coredump wiederherstellen. Der Coredump, der auch als vmkernel-zdump bezeichnet wird, ist eine Datei mit ähnlichen, aber detaillierteren Informationen als die, die auf der Diagnosetafel zu sehen sind, und wird für die Lösung anderer Probleme verwendet. Auch wenn die Ursache für die Übersäuerung aufgrund der in Schritt 1 analysierten PSOD-Messung wahrscheinlich ist, sollte sie durch die Beobachtung der Aderlassregister bestätigt werden.
Abhängig von Ihrer Konfiguration können Sie den Speicherauszug des Kerns in verschiedenen Formaten speichern:
a. Na partição scratch
b. Mit einer .dump-Datei auf dem Datenspeicher des Servers
c. Wie ficheiro .dump no vCenter - mit Hilfe des Dienstes netdump
O coredump torna-se especialmente importante se a configuração do servidor for reiniciar automaticamente após um PSOD, caso em que poderá não ver a mensagem no ecrã.
Kopieren Sie die Dump-Datei des ESXi-Servers mithilfe von SCP und schreiben Sie sie anschließend mit einem Texteditor (z. B. Notepad++) ab. Diese Datei enthält den Inhalt des Speichers zum Zeitpunkt der Überprüfung und die ersten Teile der Datei enthalten die Meldungen, die auf dem Bildschirm zu sehen sind. Die vollständige Datei kann von der VMware-Supportfirma angefordert werden, aber es ist möglich, nur das Protokoll vmkernel zu extrahieren, das um einiges anschaulicher ist:
5. Decifrar o erro
Die Lösung von Problemen und die Analyse der Ursache können dazu führen, dass wir uns wie Sherlock Holmes fühlen. Die PSODs können sich manchmal in eine von Arthur Conan Doyle inspirierte Geschichte verwandeln, aber in den meisten Fällen handelt es sich um einen sehr einfachen Prozess, bei dem es schwierig ist, das fünfte "Warum" der 5-Whys-Theorie zu verstehen.
Der wichtigste und wichtigste Hinweis, den es zu beachten gilt, ist eine Fehlermeldung, die von einem Schreibgerät erzeugt wird. Glücklicherweise ist die Anzahl der Fehlermeldungen, die produziert werden können, begrenzt:
Uma vez que o pânico no core é tratado pelo CPU, para mehr informações sobre estas exceções ver Intel 64 e IA-32 Architectures Software Developer's Manual, Volume 1: Basic Architecture e Intel 64 e IA-32 Architectures Software Developer's Manual, Volume 3A.
Die häufigsten Fälle sind in separaten Artikeln in der VMware KB aufgeführt. Wir möchten hier nur eine Referenztabelle für diese Fehler aufbewahren, auch wenn die Artikel sehr detailliert und gut dokumentiert sind. Verwenden Sie diese Tabelle auch als Indikator für PSOD-Fehler:
6. Überprüfen der Registereinträge
Es kann vorkommen, dass die Ursache nicht sehr weit von der Quelle entfernt ist, so dass der nächste Ort, an dem die Daten abgerufen werden sollten, in den Protokollen des Servers zu finden ist, insbesondere in dem Zeitintervall, das dem PSOD vorausgeht. Wenn Sie das Gefühl haben, die Ursache gefunden zu haben, sollten Sie vermeiden, sich zu verzetteln und dies durch Beobachtung der Protokolle bestätigen.
Wenn Sie eine Unternehmensumgebung verwalten, sollten Sie eine spezielle Lösung für die Protokollverwaltung (z. B. VMware Log Insight oder SolarWinds LEM) bei sich haben, mit der Sie diese Protokolle leicht abrufen können, und wenn Sie keine Protokollverwaltung haben, können Sie diese problemlos exportieren.
Die interessantesten Registereinträge, die es zu entdecken gibt, sind seriam:
Wie kann man PSOD vorbeugen?
Ein Großteil der PSODs, die mit der Software zusammenhängen, werden durch Korrekturpakete gelöst, daher ist es wichtig zu wissen, dass die neuesten Versionen auf dem neuesten Stand sind.
Es wird sichergestellt, dass die eigenen Server auf der Liste der überprüften Hardwarekompatibilität von VMware stehen, und zwar zusammen mit allen Geräten und Adaptern. Dies schützt vor einigen unvorhergesehenen Hardwareproblemen, stellt aber auch sicher, dass der VMware-Support im Falle eines PSOD in der Lage ist, zu helfen.
Wie bereits unter "Porque acontece" beschrieben, sind schlecht funktionierende Steuergeräte ebenfalls eine häufige Ursache für PSODs, Deshalb ist es unerlässlich, regelmäßig die Internet-Seiten der Hersteller auf der Suche nach aktualisierter Firmware und Steuergeräten zu überprüfen, insbesondere im Hinblick auf die dokumentierten PSODs, um sicherzustellen, dass die Steuergeräte durch ihre Aktualisierung so schnell wie möglich reagieren.
Im Rahmen von Runecast analysieren wir regelmäßig die Base de Conhecimento VMware(kb.vmware.com), die aus mehr als 30.000 Beiträgen besteht. Wir erweitern die Erkenntnisse aus der KB, um virtualisierte Infrastrukturen proaktiv robuster, sicherer und effizienter zu machen. Wir sind mit dem PSOD gut vertraut und in der Lage, eine Vielzahl von Vorbedingungen zu erkennen, die zu diesem Problem führen können. Der Runecast Analyzer hilft Ihnen bei der proaktiven Analyse Ihrer Umgebung, damit Sie sicher sein können, dass ein Großteil der PSODs, die in Ihrer Umgebung auftreten, vermieden werden können.
>> Registrieren Sie den Runecast Analyzer zur kostenlosen Überprüfung (auf Englisch)
Ebook - Como Lidar com PSOD (in englischer Sprache)
Alles, was Sie über PSOD (The Purple Screen of Death) wissen müssen, in einem eBook von Runecast CTO Aylin Sali.