Über den Autor | Aylin Sali
Keine Artikel gefunden.

In diesem Artikel:

Dieser Artikel ist in den folgenden Sprachen verfügbar:

Niederländisch
Portugiesisch
Spanisch
Russisch
Französisch
Italienisch
Ungarisch
Rumänisch
Deutsch
Englisch

‍‍‍

Inhalt

¿Qué es la PSOD? 

¿Por qué ocurre esto?

¿Cuál es el impacto?

¿Qué hacer cuando ocurre?

¿Cómo prevenirlo?

 

TL;DR

Der problematischste Aspekt eines PSOD ist, dass er das Vertrauen in Ihre Infrastruktur und die dadurch entstehende Unruhe schwinden lässt. Hasta que no resuelvas la causa raíz, pensar que esto puede volver a ocurrir en este, o en otro servidor puede quitarte el sueño.
Verwenden Sie den Runecast Analyzer(kostenloser Test), um zu prüfen, ob einer Ihrer Hosts von den Bedingungen betroffen ist, die die Todesanzeige von VMware hervorrufen können.

¿Qué es la PSOD?

PSOD bedeutet Pantalla Púrpura de Diagnóstico, oft auch als Pantalla Púrpura de la Muerte bezeichnet (abgeleitet von der bekannteren Pantalla Azul de la Muerte , die manchmal in Microsoft Windows zu finden ist).

Es handelt sich um eine Diagnoseanzeige, die VMware ESXi anzeigt, wenn der Kernel einen schwerwiegenden Fehler feststellt, der nicht mehr sicher behoben werden kann oder der Betrieb nicht mehr fortgesetzt werden kann, ohne dass ein größeres Risiko eines Datenverlusts besteht. 

Zeigt den Speicherstatus zum Zeitpunkt des Fehlers und weitere wichtige Informationen zur Behebung der Fehlerursache an: ESXi-Version und -Kompilierung, Ausnahmetyp, Registry-Volumen, Backtrace, Aktivitätsdauer des Servers, Fehlermeldungen und Informationen über das Núcleo-Volumen (ein nach dem Fehler generiertes Archiv, das weitere Diagnoseinformationen enthält). 

Diese Anzeige ist in der Konsole des Servidors sichtbar. Um es zu sehen, müssen Sie sich in der Datenzentrale befinden und einen Monitor anschließen oder die Fernsteuerung außerhalb des Servers verwenden (iLO, iDRAC, IMM... abhängig von Ihrem Anbieter).

Beispiel für einen violetten Bildschirm der Diagnostik

¿LO SABÍAS? 

Der Bildschirm wird als rosa oder rot bezeichnet, aber in Wirklichkeit ist die Farbe   

Aus welchen Gründen wird der PSOD hergestellt? 

Der PSOD ist ein Kernel-Panel. Obwohl wir alle wissen, dass ESXi nicht auf UNIX basiert, wird die Implementierung des Pánico an die UNIX-Definition angepasst. Der Kernel von ESXi (vmkernel) aktiviert diese Sicherheitsmaßnahme als Reaktion auf ein nicht wiederherstellbares Ereignis/Fehler und bedeutet, dass die Fortsetzung des Betriebs ein hohes Risiko für die Dienste und die VMs birgt. Kurz gesagt: Wenn der ESXi-Host merkt, dass er beschädigt wurde, begeht er "Seppuku" und schreibt, während er sein eigenes Blut singt, eine Selbstmordklage, in der er beschreibt, warum er sich selbst getötet hat.

Die häufigsten Ursachen für einen PSOD sind:

1. Hardwarefehler, hauptsächlich im Zusammenhang mit dem RAM oder der CPU. Normalerweise wird ein Fehler "MCE" oder "NMI" angezeigt. 

  • "MCE" - Machine Check Exception ist ein Mechanismus innerhalb der CPU zur Erkennung und Meldung von Hardwareproblemen. Wichtige Hinweise zur Identifizierung der Problemursache finden Sie in den Zeichen, die auf dem Bildschirm angezeigt werden. 
  • "NMI" - interrupción no enmascarable ist eine Hardwareunterbrechung, die vom Prozessor nicht ignoriert werden kann. Da es sich bei NMI um einen wichtigen Hinweis auf einen HW-Fehler handelt, ist die Antwort auf diesen Fehler ab ESXi 5.0 und später die Aktivierung eines PSOD. Frühere Versionen beschränkten sich darauf, den Fehler zu registrieren und fortzufahren. Genauso wie bei den MCEs werden in der durch NMI verursachten Anzeige wichtige Hinweise angezeigt, die für die Problemlösung entscheidend sind.

2. Fehler in der Software

  • Unzulässige Wechselwirkungen zwischen den SW-Komponenten von ESXi (z. B. KB2105711)
  • Karrierekonditionen (z. B. KB2136430)
  • keine Ressourcen: Speicher, Heap, Puffer (Beispiel: KB2034111, KB2150280)
  • bucle infinito + desbordamiento de pila (por ejemplo, KB2105522)
  • unpassende oder nicht kompatible Konfigurationsparameter (z. B. KB2012125, KB2127997)

3. Controladores que se comportan mal; fallos en los controladores que intentan acceder a algún índice incorrecto o a un método inexistente (por ejemplo: KB2148123)

 

¿LO SABÍAS? 

Sie können auch einen PSOD manuell aktivieren, um ihn auszuprobieren oder wenn Sie nur neugierig sind, ihn zu sehen. 
Starten Sie eine Sitzung auf dem ESXi-Host über DCUI oder SSH mit einer privilegierten Benutzerkennung und führen Sie sie aus:
vsish -e set /zuverlässigkeit/crashMe/Panik
Natürlich empfiehlt sich ein Testsystem, idealerweise ein virtuelles ESXi, mit dem sich die Konsole leicht beobachten lässt. Außerdem sollten Sie diesen Artikel lesen, um die Auswirkungen dieses Vorgangs und die Auswirkungen auf Ihr Testsystem zu verstehen. 

¿Cuál es el impacto de la PSOD?

Wenn das Paket produziert und der Host blockiert wird, werden alle Dienste , die er ausführt, zusammen mit allen virtuellen Maschinen , die er beherbergt, beendet . Las máquinas virtuales ne se apagan con gracia, sino que se apagan abruptamente. Wenn der Host Teil eines Clusters ist und HA konfiguriert hat, werden diese VMs auf den anderen Hosts des Clusters gestartet. Abgesehen von der Unterbrechung und der Unverfügbarkeit der virtuellen Maschinen während der Zeit, in der sie außer Betrieb sind, können auch einige kritische Anwendungen, wie z. B. die Datenbankdienste, die Mailsammlungen oder die Sicherheitskopien, durch den "Sucio"-Abbruch beeinträchtigt werden.

Darüber hinaus werden alle anderen vom Host bereitgestellten Dienste unterbrochen, so dass ein PSOD, wenn Ihr Host Mitglied eines VSAN-Clusters ist, auch vSAN beeinträchtigt.

Para mí, el aspecto más molesto de un PSOD es que te hace perder la confianza en tu infraestructura y la ansiedad que genera, al menos hasta que llegues al fondo del asunto. Vale, puedes recuperarte reiniciando y puede que tengas HA o incluso FT por lo que el impacto puede no ser devastador... pero hasta que no resuelvas la causa raíz, el pensar que esto puede volver a ocurrir en este o en otro servidor, puede mantenerte despierto por la noche.


¿Qué hacer cuando se produce una PSOD?

1. Analizar el mensaje de la pantalla púrpura

Eine der wichtigsten Aufgaben, die bei der Verwendung eines PSOD zu erledigen sind, ist die Aufnahme eines Bildschirms. Wenn Sie eine Remote-Verbindung (IMM, iLO, iDRAC...) zur Konsole haben, ist es einfach, ein Bildschirmfoto zu erstellen, wenn Sie jedoch zur Datenzentrale gehen müssen, kann es sein, dass Sie Ihr Telefon buchstäblich sperren und ein Bildschirmfoto erstellen müssen. Auf diesem Bildschirm finden Sie viele nützliche Informationen über die Ursache des Ausfalls.

Die violette Bildschirmmeldung
Leyenda: 1) Producto y número de compilación 2) Mensaje de error - Esta sección de la pantalla de diagnóstico púrpura identifica el mensaje de error reportado. Sólo hay un número limitado de mensajes de error que pueden ser reportados. Diese Fehlermeldungen werden in diesem Artikel beschrieben. 3) CPU-Register - Dies sind die Werte, die sich zum Zeitpunkt des Fehlers in den CPU-Registern befanden. Die Informationen in diesen Registern können von einem Fehler zu einem anderen sehr unterschiedlich sein. Diese Register können nur intern verwendet werden, wenn ein Fehler im VMkernel auftritt. 4) Procesador Físico - El procesador físico que ejecutó las instrucciones y el mundo (proceso) que se ejecutó durante el error del VMkernel. 5) El tiempo de actividad - El tiempo desde que se inició el host ESXi. 6) Stack Trace - Lo que el VMkernel estaba haciendo en el momento del error. Diese Information ist ein wichtiges Hilfsmittel bei der Diagnose von Grafikfehlern durch die Auswertung der Kernel-Aktivitäten zum Zeitpunkt des Fehlers. 7) Core Dump - Dies zeigt an, dass sich der Speicherinhalt des VMkernel verflüchtigt hat.

2. Kontaktaufnahme mit dem VMware-Support

Bevor Sie mit der Untersuchung und Problemlösung beginnen, sollten Sie sich mit dem VMware-Support in Verbindung setzen, sofern Sie einen Support-Vertrag haben. Paralelamente a tu investigación, ellos podrán ayudarte a realizar el análisis de causa raíz (RCA). 

3. Reinicia el host ESXi afectado

Para recuperar el servidor, tendrás que reiniciarlo. Außerdem empfehlen wir Ihnen, das Gerät im Wartungsmodus zu belassen, bis Sie die RCA vollständig durchgeführt, die Ursache identifiziert und die Fehler behoben haben. Wenn Sie es nicht zulassen können, sollten Sie zumindest Ihre DRS-Regeln so anpassen, dass nur virtuelle Maschinen, die nicht so wichtig sind, in diesem System ausgeführt werden, so dass die Auswirkungen, wenn ein anderer PSOD erzeugt wird, gering sind.

4. Obtener el volcado del núcleo

Nach dem Arrangieren des Servers müssen Sie den Kernspeicherauszug wiederherstellen. Der Coredump, der auch als vmkernel-zdump bezeichnet wird , ist ein Archiv, das ähnliche, aber detailliertere Informationen enthält wie die, die in der Diagnosemaske angezeigt werden, und das für die Lösung späterer Probleme verwendet werden kann. Auch wenn die Ursache des Fehlers aufgrund der in Schritt 1 analysierten PSOD-Meldung offensichtlich ist, ist es ratsam, sie anhand der Coredump-Register zu überprüfen.

Abhängig von Ihrer Konfiguration können Sie den Kreislauf in einer der beiden Formen nutzen:

a. En la partición scratch 

b. Als ein Archiv .dump auf einem der Datenspeicher des Hosts

c. Mit einem .dump-Archiv im vCenter - über den Dienst netdump

 

Der Coredump ist besonders wichtig, wenn die Konfiguration des Hosts nach einem PSOD automatisch wiederhergestellt werden muss , da Sie in diesem Fall die Meldung nicht in der Anzeige sehen können.

Kopieren Sie das Archiv von außerhalb des Hosts ESXi mit SCP und öffnen Sie es anschließend mit einem Texteditor (z. B. Notepad++). Das Archiv enthält den Inhalt des Speichers zum Zeitpunkt der Auswahl und die ersten Teile des Archivs enthalten die Nachrichten, die auf dem Bildschirm zu sehen sind. Das komplette Archiv kann über den VMware-Support angefordert werden, aber es kann nur das vmkernel-Register extrahiert werden, das etwas weniger gut lesbar ist:

Fehlermeldung, die durch den violetten Bildschirm erzeugt wird

5. Descifrar el error

Die Lösung von Problemen und die Analyse der Ursache können dazu führen, dass man sich wie Sherlock Holmes fühlt. Los PSOD pueden convertirse a veces en una historia inspirada en Arthur Conan Doyle, pero en la mayoría de los casos se trata de un proceso bastante sencillo en el que será difícil llegar al quinto "por qué" de la técnica de los 5 porqués.

Der wichtigste Hinweis, mit dem Sie beginnen sollten, ist die Fehlermeldung, die auf dem Bildschirm angezeigt wird. Zum Glück ist die Anzahl der Fehlermeldungen, die erzeugt werden können, begrenzt: 

Da der Kernel von der CPU verwaltet wird, finden Sie weitere Informationen zu diesen Ausnahmen im Handbuch für Softwareentwickler der Architekturen Intel 64 und IA-32, Band 1: Grundarchitektur und im Handbuch für Softwareentwickler der Architekturen Intel 64 und IA-32, Band 3A.

Die gängigsten Fälle sind in separaten Artikeln in der KB von VMware aufgeführt, und da die Artikel sehr detailliert und gut dokumentiert sind, habe ich hier nur eine Referenztabelle für diese Fehler erstellt. Daher wird diese Tabelle als ein Indikator für die PSOD-Fehler verwendet:

6. Comprobar los registros

Es kann vorkommen, dass die Ursache nicht sehr offensichtlich ist, wenn man die Meldung auf dem Bildschirm oder das Verzeichnis des Netzes betrachtet, so dass die nächste Stelle, an der man nach Hinweisen suchen sollte, in den Registern des Hosts zu finden ist, insbesondere in dem Zeitintervall, das dem PSOD vorausgeht. Auch wenn Sie glauben, die Ursache gefunden zu haben, ist es ratsam, nicht zu parsimonisch zu sein, sondern sie in den Registern zu überprüfen.

Wenn Sie ein Unternehmen verwalten, ist es wahrscheinlich, dass Sie eine spezielle Lösung für die Verwaltung von Registern haben (wie VMware Log Insight oder SolarWinds LEM), so dass Sie diese Register leicht überprüfen können, aber wenn Sie keine Lösung für die Verwaltung von Registern haben, können Sie diese problemlos exportieren .

Los archivos de registro más interesantes para explorar serían:

¿Cómo prevenir la PSOD?

Die meisten der mit der Software zusammenhängenden PSODs werden mit Hilfe von Paketen behoben, so dass Sie immer mit den neuesten Versionen arbeiten sollten.

Achten Sie darauf, dass Ihre Server in der Liste der Hardwarekompatibilität von VMware aufgeführt sind, zusammen mit allen Geräten und Adaptern. Dies schützt Sie vor einigen unvorhergesehenen Problemen mit der Hardware, stellt aber auch sicher, dass der VMware-Support im Falle eines PSOD in der Lage ist, Sie zu unterstützen.

Wie bereits in "Por qué sucede" beschrieben, sind auch nicht funktionierende Steuerungen eine häufige Ursache für PSOD, weshalb es unerlässlich ist, regelmäßig die Support-Webseiten der Hersteller zu überprüfen, um festzustellen, ob die Firmware und die Steuerungen auf dem neuesten Stand sind, und insbesondere die Steuerungen, die PSOD verursachen, zu dokumentieren, damit sie so bald wie möglich aktualisiert werden können.

In Runecast analysieren wir regelmäßig die Wissensdatenbank von VMware(kb.vmware.com), die aus mehr als 30.000 Artikeln besteht. Wir erweitern die Wissensdatenbank um verarbeitbare Informationen, um die Virtualisierungsinfrastrukturen widerstandsfähiger, sicherer und effizienter zu machen. Wir sind mit dem PSOD sehr vertraut und in der Lage, die meisten der Vorbedingungen zu erkennen, die zu diesem Problem führen können. Runecast Analyzer analysiert proaktiv Ihr Umfeld und hilft Ihnen, diese Probleme zu vermeiden, so dass Sie die Gewissheit haben, dass die meisten PSODs, die in Ihrem Umfeld auftreten, verhindert werden können.

Screenshot der VMware Knowledge Base

>> Kostenlose Testversion von Runecast Analyzer herunterladen (Sprache: Englisch)

Ebook - Cómo lidiar con la PSOD (Idioma en Inglés)

Todo lo que necesitas saber sobre la PSOD (Pantalla Púrpura de la Muerte), en un ebook de Aylin Sali, CTO de Runecast.

Ebook - Cómo lidiar con la PSOD (Idioma en Inglés)Descargar Ebook