콘텐츠로 이동

HW-MC-ERROR

설명: Memory Error또는1회성Error

  1. System log 확인

스크린샷 2024-04-29 오후 6.48.51.png

→ CPU_SrcID#0_MC#0_Chan#2_DIMM#0(CPU0_CH2_DIMM0) 메모리 위치가 명시적으로 표기

→ 예1) CPU1_CH2_DIMM1 에러 밝생한 경우 /var/log/messages 표기되는 위치

→ CPU_SrcID#1_MC#0_Chan#2_DIMM#1

→ 예2) CPU1_CH4_DIMM0 에러 발생힌 경우 /var/log/messages 표기되는 위치

→ CPU_SrcID#1_MC#1_Chan#1_DIMM#0

  • /var/log/messages 로그에서 표기되는 메모리 위치 (각각의 CPU가 MC0과 MC1을 표기함)

스크린샷 2024-05-02 오전 10.43.40.png

  1. Correctable error count 확인
grep [0-9] /sys/devices/system/edac/mc/mc*/csrow*/ch*
  • Ce_count 모니터링 후 10회 미만 → 1회성 error로 처리

스크린샷 2024-05-02 오전 11.11.54.png

→ MC : 메모리 DIMM SLOT의 가장 큰 분류. 24개의 메모리 DIMM이 있는 서버의 경우

MC0, MC1, MC2, MC3 총 4개의 MC로 구분.

csrow : 각 채널의 (2개 한묶음) DIMM 위치

ch : 채널

스크린샷 2024-05-02 오후 2.46.25.png

  1. Management Web tool

스크린샷 2024-05-02 오후 2.47.08.png

→ System Event log 확인 [장비 또는 장애 상황에 따라 event log 발생]

→ System information - Memory

스크린샷 2024-05-10 오후 2.43.56.png

  1. ipmitool

    → 로그 상에 있는 메모리 코드 값 (Memory #0x87 부분)을 확인

ipmitool sel list

→ 메모리 코드 값을 이용한 해당 메모리 슬롯 확인

ipmitool sdr type "Memory"

스크린샷 2024-05-10 오후 2.46.03.png

  1. 장애 메모리 확인
  2. 담당 SE를 통한 서비스 제외 또는 셧다운 확인
  3. 장애 메모리 교체
  4. 서버 On 후 정상 확인
  5. Web Management tool - System log 에 메모리 에러 관련 로그 있는 경우 → Log clear
  6. 담당 SE 전달 및 종료
  • CPU0_CH2_DIMM0 Uncorrecrable ECC 에러 발생하여 서버 OFF 후 해당 슬롯 교체 및 정상 확인