Bei vielen VMware ESXi-Administratoren ist das Problem "Purple Screen of Death" aufgetreten. Das Ärgerlichste an diesem Problem ist, dass Sie Ihrer eigenen Infrastruktur misstrauen. Die Gedanken drehen sich ständig in meinem Kopf, dass das gleiche Problem auf einem anderen Server wiederholt werden kann.
Was ist PSOD?
PSOD steht für Purple Screen of Diagnostics , oft als Purple Screen of Death bezeichnet, und zwar aus dem bekannteren Blue Screen of Death in Microsoft Windows.
Dies ist ein Diagnosebildschirm, der von VMware ESXi angezeigt wird, wenn der Kernel auf einen schwerwiegenden Fehler stößt, bei dem er entweder nicht sicher wiederhergestellt werden kann oder nicht weiter ausgeführt werden kann.
Es zeigt den Speicherstatus zum Zeitpunkt des Absturzes sowie zusätzliche Informationen an, die zur Behebung der Ursache des Absturzes wichtig sind: ESXi-Version und -Erstellung, Ausnahmetyp, Registerspeicherauszug, Rückverfolgung, Serververfügbarkeit, Fehlermeldungen und Kernel-Speicherauszugsinformationen. (Datei, die nach dem Fehler erstellt wurde und zusätzliche Diagnoseinformationen enthält).
Dieser Bildschirm wird in der Serverkonsole angezeigt. Um dies zu sehen, müssen Sie sich entweder im Rechenzentrum befinden und einen Monitor anschließen oder eine Remote-Verbindung über die Out-of-Band-Serververwaltung (iLO, iDRAC, IMM usw., abhängig von Ihrem Anbieter) herstellen.

Warum erscheint PSOD?
PSOD - . , ESXi UNIX, UNIX. ESXi (vmkernel) , , , . : ESXi , , «» , , « » , !
PSOD:
1. , RAM CPU. «MCE» «NMI».
«MCE» — , . , , .
«NMI» — , , . NMI HW, , ESXi 5.0 , PSOD. . MCE, , NMI, , .
2.
· ESXi SW (. KB2105711)
· (. KB2136430 )
· : , , (. KB2034111, KB2150280)
· + (. KB2105522 )
3. ; , (. KB2146526, KB2148123)
PSOD?
, , , . . HA, . , «» , , .
, , , , , VSAN, PSOD vSAN.
?
1. .
, - . (IMM, iLO, iDRAC, …), , , . .

2. VMware.
, VMware, . (RCA).
3. ESXi.
, . , RCA, . , , DRS, , PSOD .
4. coredump
- coredump. Coredump, vmkernel-zdump, , , , , . PSOD, 1, , coredump.
:
b. .dump
c. .dump vCenter — netdump
Coredump , PSOD , . ESXi SCP, (, Notepad ++). , , . VMware , vmkernel, :

5. .
. , , - , . , :
Exception Type 0 #DE: Divide Error
Exception Type 1 #DB: Debug Exception
Exception Type 2 NMI: Non-Maskable Interrupt
Exception Type 3 #BP: Breakpoint Exception
Exception Type 4 #OF: Overflow (INTO instruction)
Exception Type 5 #BR: Bounds check (BOUND instruction)
Exception Type 6 #UD: Invalid Opcode
Exception Type 7 #NM: Coprocessor not available
Exception Type 8 #DF: Double Fault
Exception Type 10 #TS: Invalid TSS
Exception Type 11 #NP: Segment Not Present
Exception Type 12 #SS: Stack Segment Fault
Exception Type 13 #GP: General Protection Fault
Exception Type 14 #PF: Page Fault
Exception Type 16 #MF: Coprocessor error
Exception Type 17 #AC: Alignment Check
Exception Type 18 #MC: Machine Check Exception
Exception Type 19 #XF: SIMD Floating-Point Exception
Exception Type 20-31: Reserved
Exception Type 32-255: User-defined (clock scheduler)
, . Intel 64 IA-32, 1: Intel 64 IA-32, 3A.
VMware. PSOD:
|
|
LINT1/NMI (motherboard nonmaskable interrupt), undiagnosed | |
Panic requested by one or more 3rd party NMI handlers | |
COS Error: Oops | |
Lost Heartbeat | |
ASSERT bora/vmkernel/main/pframe_int.h:527 | |
NOT_IMPLEMENTED /build/mts/release/bora-84374/bora/vmkernel/main/util.c:83 | |
Spin count exceeded (iplLock) — possible deadlock | |
PCPU 1 locked up. Failed to ack TLB invalidate | |
#GP Exception(13) in world 4130:helper13-0 @ 0x41803399e303 | |
#PF Exception type 14 in world 136:helper0-0 @ 0x4a8e6e | |
Machine Check Exception: Unable to continueHardware (Machine) Error | |
Hardware (Machine) Error | |
PCPU: 1 hardware errors seen since boot (1 corrected by hardware) |
6.
, , , , - , , PSOD. , , , .
, , (, VMware Log Insight SolarWinds LEM ), , , .
:
|
| |
| /var/log/syslog.log | . |
VMkernel | /var/log/vmkernel.log | , ESXi. , PSOD, , . |
ESXi | /var/log/hostd.log | , ESXi . |
VMkernel | /var/log/vmkwarning.log | , . , (Heap WorkHeap). |
vCenter | /var/log/vpxa.log | , vCenter, , vCenter PSOD. |
shell | /var/log/shell.log | , PSOD . |