HW-MEM-ERROR
설명: Corrected Memory Error
장애 메모리 확인 방법
섹션 제목: “장애 메모리 확인 방법”- System log 확인

→ CPU_SrcID#0_MC#0_Chan#2_DIMM#0(CPU0_CH2_DIMM0) 메모리 위치가 명시적으로 표기
→ 예1) CPU1_CH2_DIMM1 에러 밝생한 경우 /var/log/messages 표기되는 위치
→ CPU_SrcID#1_MC#0_Chan#2_DIMM#1
→ 예2) CPU1_CH4_DIMM0 에러 발생한 경우 /var/log/messages 표기되는 위치
→ CPU_SrcID#1_MC#1_Chan#1_DIMM#0
- /var/log/messages 로그에서 표기되는 메모리 위치 (각각의 CPU가 MC0과 MC1을 표기함)

- Correctable error count 확인
grep [0-9] /sys/devices/system/edac/mc/mc*/csrow*/ch*
cat /sys/devices/system/edac/mc/mc*/dimm*/dimm_ce_countdmidecode -t 17 | egrep -n "Memory Device|Locator|Bank Locator|Size|Channel|CPU"for mci in /sys/devices/system/edac/mc/mc*; do echo "$(basename $mci):" cat "$mci/ce_count" "$mci/ue_count" 2>/dev/null echo "------------------------"donefor mc in /sys/devices/system/edac/mc/mc*; do echo "$(basename $mc):" echo " Corrected: $(cat $mc/ce_count)" echo " Uncorrected: $(cat $mc/ue_count)"done
→ MC : 메모리 DIMM SLOT의 가장 큰 분류. 24개의 메모리 DIMM이 있는 서버의 경우
MC0, MC1, MC2, MC3 총 4개의 MC로 구분.
csrow : 각 채널의 (2개 한묶음) DIMM 위치
ch : 채널
/sys/devices/system/edac/mc/mc0/csrow0/ch_2_ce_count:662- Ce_count 모니터링 후 10회 미만 → 1회성 error로 처리

- Management Web tool

→ System Event log 확인 [장비 또는 장애 상황에 따라 event log 발생]