Despre Autor | Aylin Sali
Keine Artikel gefunden.

In diesem Artikel:

Dieser Artikel ist in den folgenden Sprachen verfügbar:

Niederländisch
Portugiesisch
Spanisch
Russisch
Französisch
Italienisch
Ungarisch
Rumänisch
Deutsch
Englisch

‍‍‍

Cuprins

Ce este PSOD? 

De ce se întâmplă acest lucru?

Care este impactul?

Ce trebuie să faci când se întâmplă?

Cum să o prevenim?

TL;DR

Der problematischste Aspekt für den PSOD ist die Tatsache, dass er mit der Infrastruktur, die er benötigt, und den damit verbundenen Ängsten zu kämpfen hat. Până când nu rezolvați cauza principală, gândul că acest lucru se poate întâmpla din nou sau pe un alt server vă poate ține treaz noaptea.
Utilizați Runecast Analyzer(kostenlose Version von încercare), um zu überprüfen, ob die Daten aus dem Gasdele dvs. durch die Bedingungen beeinträchtigt werden, die zu einem violetten Hintergrund bei VMware führen können.

Ce este PSOD?

PSOD înseamnă Purple Screen of Diagnostics (Ecranul mov de diagnosticare), denumit adesea Purple Screen of Death (derivat din mai cunoscutul Blue Screen of Death (Ecranul albastru al morții), întâlnit uneori în Microsoft Windows).

Este un ecran de diagnosticare afișat de VMware ESXi atunci când nucleul detectează o eroare fatală din care fie nu poate recupera în siguranță, fie nu poate continua să ruleze fără a avea un risc mult mai mare de pierdere majoră de date. 

Aceasta arată starea memoriei în momentul blocării și, de asemenea, detalii suplimentare care sunt importante pentru a identifica cauza blocării: Versiunea și construcția ESXi, tipul de excepție, registrul de vidare, backtrace, timpul de funcționare a serverului, mesajele de eroare și informații despre core dump (un fișier generat după eroare, care conține informații suplimentare de diagnosticare). 

Dieser Bildschirm ist über die Serverkonsole abrufbar. Wenn Sie den Bildschirm in der Datendrehscheibe anschließen, können Sie ihn mit einem Monitor verbinden, und Sie können ihn mit einem Server (iLO, iDRAC, IMM...) verbinden.

Beispiel für einen violetten Bildschirm der Diagnostik

ȘTIAȚI CĂ? 

Der Bildschirm ist violett und rot, die Farbe des Bildes ist magenta (RGB:171,0,171 | CMYK:0.00, 1.00, 0.00, 0.33).

De ce se întâmplă PSOD? 

PSOD este o panică a nucleului. Wenn der ESXi unter UNIX läuft, wird die Panikumsetzung in der UNIX-Definition nicht mehr berücksichtigt. Kernelul ESXi (vmkernel) declanșează această măsură de siguranță ca răspuns la un eveniment/eroare irecuperabil și care ar însemna că continuarea funcționării ar reprezenta un risc ridicat pentru servicii și VM-uri. Zur Vereinfachung: Wenn die ESXi-Gazdele einfach nur korrumpiert werden, wird das Komitee "seppuku" și, d.h. wenn die ESXi den Zweck erfüllt haben, ein Skript über die Gründe für die Unterbrechung schreiben, in dem die Gründe für die Unterbrechung aufgeführt sind!

Cele mai frecvente cauze ale unei PSOD sunt:

1. Defecțiuni hardware, majoritatea legate de RAM sau CPU. În mod normal, acestea generează o eroare "MCE" sau "NMI". 

  • "MCE" - Machine Check Exception (Ausnahmeregelung zur Überprüfung von Maschinen), die einen Mechanismus im Prozessorkopf darstellt, der Hardwareprobleme erkennt. În codurile afișate pe ecranul violet există detalii importante pentru identificarea cauzei principale a problemei. 
  • "NMI" - întrerupere nemăsurabilă, care este o întrerupere hardware care nu poate fi ignorată de procesor. Deoarece NMI este un mesaj foarte important despre o defecțiune HW, răspunsul implicit începând cu ESXi 5.0 și ulterior este declanșarea unui PSOD. Die Vorgängerversionen, die noch nicht registriert sind, sind weiterhin verfügbar. Der violette Bildschirm des NMI enthält wichtige Informationen , die für die Abrechnung entscheidend sind, wenn es um das MCE-System geht.

2. Erori de Software

  • interacțiuni necorespunzătoare între componentele SW ESXi (ex: KB2105711)
  • condiții de rasă (ex: KB2136430)
  • Epuizate wiederherstellen: Speicher, Heap, Puffer (z.B. KB2034111, KB2150280)
  • buclă infinită + depășire de stivă (ex: KB2105522)
  • Parameter für die Konfiguration von notwendigen Einstellungen (z. B. KB2012125, KB2127997)

3. Drivere care se comportă greșit; erori în drivere care încearcă să acceseze un index incorect sau o metodă inexistentă (ex: KB2148123)

ȘTIAȚI CĂ?

Puteți chiar să declanșați manual un PSOD în scopuri de testare sau dacă sunteți pur și simplu curios să vedeți cum se întâmplă. Conectați-vă la gazda ESXi prin DCUI sau SSH cu un cont privilegiat și rulați:
vsish -e set /zuverlässigkeit/crashMe/Panik
Evident, se recomandă un sistem de testare, în mod ideal un ESXi virtual imbricate, astfel încât să puteți observa cu ușurință consola. De asemenea, asigurați-vă că ați terminat de citit acest articol pentru a înțelege implicațiile acestei acțiuni și efectul asupra sistemului de testare. 

Care este impactul PSOD?

Wenn die Panik ausbricht, die Gazda se prăbușește, werden die Dienste , die in der Regel für alle gelten, zusammen mit den virtuellen Daten, die in der Datenbank gespeichert sind , in Betrieb genommen. Mașinile virtuale nu sunt închise în mod grațios, ci mai degrabă sunt oprite brusc. In einer Situation, in der eine virtuelle Maschine Teil eines Clusters ist, das als HA konfiguriert ist, werden einige virtuelle Maschinen für einige der virtuellen Maschinen im Cluster gesperrt. In der Zeit, in der die VMs in Betrieb sind, können einige wichtige Anwendungen, wie z. B. die Server für die Datenerfassung, die Speicherverwaltung oder die Datensicherung, von der "Murdară"-Operation betroffen sein.

Darüber hinaus können einige der bereitgestellten Dienste von Gasdiensten unterbrochen werden, wenn Gasdatensätze in einem VSAN-Cluster gespeichert sind und ein PSOD auf das VSAN wirkt .

Pentru mine, cel mai problematic aspect al unui PSOD este că te face să-ți pierzi încrederea în infrastructura ta și în anxietatea pe care o creează, cel puțin până când ajungi la capăt. Bine, poți recupera prin repornire și este posibil să ai HA sau chiar FT, astfel încât impactul să nu fie devastator... dar până nu rezolvi cauza principală, gândul că acest lucru se poate întâmpla din nou sau pe un alt server te poate ține treaz noaptea.

Ce trebuie să faceți atunci când se întâmplă PSOD?

1. Analizați mesajul de pe ecranul violet

Eine der wichtigsten Einnahmequellen, die Sie mit einem PSOD erreichen können, ist die Erfassung von Rechnern. Dacă vă conectați de la distanță (IMM, iLO, iDRAC...) la consolă, va fi ușor să faceți o captură de ecran, dar dacă trebuie să mergeți la centrul de date, s-ar putea să fiți nevoit să scoateți literalmente telefonul și să faceți o fotografie a ecranului. Auf dem Bildschirm gibt es eine Vielzahl von Informationen, die bei Unfällen nützlich sind. 

Legenda: 1) Produsul și numărul de construcție 2) Mesajul de eroare - Această secțiune a ecranului de diagnosticare violet identifică mesajul de eroare raportat. Există doar un număr finit de mesaje de eroare care pot fi raportate. Einige der Fehlermeldungen werden in diesem Artikel beschrieben. 3) Registrele CPU - Einige dieser Werte werden im CPU-Register angezeigt, wenn ein Fehler aufgetreten ist. Die Informationen in den einzelnen Registern können sich nach dem Auftreten eines Fehlers ändern. Diese Register können für mehrere interne Ebenen verwendet werden, wenn der Kern eines VMkernel-Fehlers entfernt wird. 4) Procesorul fizic - Procesorul fizic care a rulat instrucțiunile și lumea (procesul) care a fost rulat în timpul erorii VMkernel. 5) The Uptime - Zeit, in der ESXi nicht läuft. 6) Stack Trace - Ce făcea VMkernel-ul în momentul erorii. Diese Informationen sind ein wichtiges Instrument für die Fehlerdiagnose, wenn der violette Bildschirm zur Auswertung der Kernel-Aktivität im Moment des Fehlers verwendet wird. 7) Core Dump - Aceasta indică faptul că este salvat conținutul memoriei VMkernel.


2. Contactați serviciul de asistență VMware

Nach der Untersuchung der Deponierung wird empfohlen, sich mit dem VMware-Service in Verbindung zu setzen, um einen Vertrag über die Unterstützung zu erhalten. În paralel cu investigația dumneavoastră, aceștia vă vor putea ajuta la realizarea analizei cauzelor de bază (RCA). 

3. Reporniți gazda ESXi afectată

Wenn der Server wiederhergestellt werden soll, muss er wiederhergestellt werden. De asemenea, v-aș sfătui să îl păstrați în modul de întreținere până când efectuați un RCA complet, identificați cauza și o remediați. Dacă nu vă puteți permite să îl mențineți în modul de întreținere, cel puțin reglați bine regulile DRS astfel încât doar VM-urile neimportante să ruleze pe el, astfel încât, dacă un alt PSOD lovește, impactul va fi minim.

4. Obțineți descărcarea nucleului

După ce serverul pornește, ar trebui să colectați coredump-ul. Coredump, numit și vmkernel-zdump, este un fișier care conține jurnale cu informații similare, dar mai detaliate decât cele observate pe ecranul de diagnosticare violet și va fi utilizat în continuare pentru depanare. Da sich der Blutdruck in der PSOD-Methode, die in der Phase 1 analysiert wurde, bereits deutlich erhöht hat, ist es ratsam, dies in der Fachzeitschrift "Coredump" zu bestätigen.

În funcție de configurația dumneavoastră, este posibil să aveți descărcarea nucleului în una dintre aceste forme:

a. Pe partiția kratzen 

b. Ca un fișier .dump pe unul dintre stocurile de date ale gazdei.

c. Ca fișier .dump pe vCenter - prin serviciul netdump

Coredump-ul devine deosebit de important în cazul în care configurația gazdei trebuie resetată automat după un PSOD, caz în care nu veți putea vedea mesajul pe ecran.

Puteți copia fișierul de descărcare din gazda ESXi folosind SCP și apoi îl puteți deschide folosind un editor de text (cum ar fi Notepad++). Acesta va conține conținutul memoriei în momentul accidentului, iar primele părți ale acestuia conțin mesajele pe care le-ați văzut pe ecranul violet. Der Support von VMware muss angefordert werden, um die Fachzeitschrift vmkernel zu lesen , die ein sehr lesenswertes Bild enthält:

Fehlermeldung, die durch den violetten Bildschirm erzeugt wird

5. Descifrați eroarea

Rezolvarea problemelor și analiza cauzelor care le generează pot face pe cineva să se simtă ca Sherlock Holmes. PSOD-urile se pot transforma uneori într-o poveste inspirată de Arthur Conan Doyle, dar, în majoritatea cazurilor, este un proces destul de simplu, în care va fi greu să ajungi la al cincilea "de ce" din tehnica celor 5 motive.

Der wichtigste einfache Grund für den Einsatz von Treuhandsystemen ist die mit einem violetten Bildschirm erzeugte Fehlermeldung. Din fericire, numărul de mesaje de eroare care pot fi produse este finit:

Deoarece panica nucleului este gestionată de CPU, pentru multe informații despre aceste excepții, consultați Intel 64 and IA-32 Architectures Software Developer'sManual, Volume 1: Basic Architecture și Intel 64 and IA-32 Architectures Software Developer's Manual, Volume 3A.

Die häufigsten Probleme werden in separaten Artikeln in der VMware KB behandelt, die Sie hier in einer Tabelle mit Hinweisen auf die Fehlerquellen finden, da die Artikel detailliert dokumentiert sind. Așadar, utilizați acest tabel ca index pentru erorile PSOD:

6. Verificați jurnalele

Se poate întâmpla ca cauza să nu fie foarte evidentă dacă vă uitați la mesajul de pe ecranul violet sau la jurnalul de descărcare a nucleului, așa că următorul loc unde trebuie să căutați indicii este în jurnalele gazdei, în special în intervalul de timp care precede PSOD. Chiar și atunci când credeți că ați localizat cauza, este totuși recomandabil să evitați să fiți parcimonios și să o confirmați prin consultarea jurnalelor.

Dacă administrați un mediu de întreprindere, este probabil că aveți la îndemână o soluție specializată de gestionare a jurnalelor (cum ar fi VMware Log Insight sau SolarWinds LEM), astfel încât va fi ușor să răsfoiți aceste jurnale, dar dacă nu aveți o soluție de gestionare a jurnalelor, le puteți exporta cu ușurință.

Die interessanteste Zeitschrift für die Erforschung der Welt:

Cum să prevenim PSOD?

Die meisten PSOD-Software-Legate wurden mit Patches überarbeitet, um die neuesten Versionen zu aktualisieren.

Asigurați-vă că serverele dvs. se află pe lista de verificare a compatibilității hardware a VMware, împreună cu toate dispozitivele și adaptoarele. Dieser Hinweis schützt Sie vor einigen kleineren Problemen mit der Hardware und zeigt Ihnen, dass der VMware-Assistenzdienst im Rahmen des PSOD-Systems zur Verfügung steht.

După cum s-a descris mai sus în secțiunea "De ce se întâmplă", driverele cu comportament necorespunzător sunt, de asemenea, o cauză frecventă a PSOD-urilor, astfel încât este imperativ să verificați în mod regulat site-urile de asistență ale furnizorilor pentru firmware și drivere actualizate și, în special, pentru driverele care cauzează PSOD documentate, pentru a răspunde cât mai curând posibil prin actualizarea acestora.

La Runecast, analizăm în mod regulat întreaga bază de cunoștințe VMware(kb.vmware.com), care cuprinde peste 30.000 de articole. Extragem informații utile din KB pentru a face infrastructurile virtualizate mai rezistente, mai sigure și mai eficiente în mod proactiv. Cunoaștem foarte bine PSOD și suntem capabili să identificăm majoritatea condițiilor prealabile care pot duce la această problemă. Mit dem Runecast Analyzer können Sie proaktiv die wichtigsten PSOD-Bedingungen für die Vermeidung von Dumneavoastră-Problemen analysieren und die wichtigsten PSOD-Bedingungen für die Vermeidung von Dumneavoastră-Problemen ermitteln.

Screenshot der VMware Knowledge Base

>> Descărcați Runecast Analyzer kostenlos testen (în limba engleză)

‍‍‍

Ebook - Der Umgang mit PSOD (în limba engleză)

Tot ce trebuie să știți despre PSOD (The Purple Screen of Death), într-un ebook realizat de Aylin Sali, CTO al Runecast.

Ebook - Der Umgang mit PSOD (în limba engleză)Descărcați Ebook