콘텐츠로 이동

HW-MEM-ERROR

설명: Corrected Memory Error

  1. System log 확인

스크린샷 2024-04-29 오후 6.48.51.png

→ CPU_SrcID#0_MC#0_Chan#2_DIMM#0(CPU0_CH2_DIMM0) 메모리 위치가 명시적으로 표기

→ 예1) CPU1_CH2_DIMM1 에러 밝생한 경우 /var/log/messages 표기되는 위치

→ CPU_SrcID#1_MC#0_Chan#2_DIMM#1

→ 예2) CPU1_CH4_DIMM0 에러 발생한 경우 /var/log/messages 표기되는 위치

→ CPU_SrcID#1_MC#1_Chan#1_DIMM#0

  • /var/log/messages 로그에서 표기되는 메모리 위치 (각각의 CPU가 MC0과 MC1을 표기함)

스크린샷 2024-05-02 오전 10.43.40.png

  1. Correctable error count 확인
grep [0-9] /sys/devices/system/edac/mc/mc*/csrow*/ch*
cat /sys/devices/system/edac/mc/mc*/dimm*/dimm_ce_count
dmidecode -t 17 | egrep -n "Memory Device|Locator|Bank Locator|Size|Channel|CPU"
for mci in /sys/devices/system/edac/mc/mc*; do
echo "$(basename $mci):"
cat "$mci/ce_count" "$mci/ue_count" 2>/dev/null
echo "------------------------"
done
for mc in /sys/devices/system/edac/mc/mc*; do
echo "$(basename $mc):"
echo " Corrected: $(cat $mc/ce_count)"
echo " Uncorrected: $(cat $mc/ue_count)"
done

스크린샷 2024-05-02 오전 11.11.54.png

→ MC : 메모리 DIMM SLOT의 가장 큰 분류. 24개의 메모리 DIMM이 있는 서버의 경우

MC0, MC1, MC2, MC3 총 4개의 MC로 구분.

csrow : 각 채널의 (2개 한묶음) DIMM 위치

ch : 채널

/sys/devices/system/edac/mc/mc0/csrow0/ch_2_ce_count:662
  • Ce_count 모니터링 후 10회 미만 → 1회성 error로 처리

스크린샷 2024-05-02 오후 2.46.25.png

  1. Management Web tool

스크린샷 2024-05-02 오후 2.47.08.png

→ System Event log 확인 [장비 또는 장애 상황에 따라 event log 발생]