HW-MC-ERROR
설명: Memory Error또는1회성Error
장애 메모리 확인 방법
섹션 제목: “장애 메모리 확인 방법”- System log 확인

→ CPU_SrcID#0_MC#0_Chan#2_DIMM#0(CPU0_CH2_DIMM0) 메모리 위치가 명시적으로 표기
→ 예1) CPU1_CH2_DIMM1 에러 밝생한 경우 /var/log/messages 표기되는 위치
→ CPU_SrcID#1_MC#0_Chan#2_DIMM#1
→ 예2) CPU1_CH4_DIMM0 에러 발생힌 경우 /var/log/messages 표기되는 위치
→ CPU_SrcID#1_MC#1_Chan#1_DIMM#0
- /var/log/messages 로그에서 표기되는 메모리 위치 (각각의 CPU가 MC0과 MC1을 표기함)

- Correctable error count 확인
grep [0-9] /sys/devices/system/edac/mc/mc*/csrow*/ch*- Ce_count 모니터링 후 10회 미만 → 1회성 error로 처리

→ MC : 메모리 DIMM SLOT의 가장 큰 분류. 24개의 메모리 DIMM이 있는 서버의 경우
MC0, MC1, MC2, MC3 총 4개의 MC로 구분.
csrow : 각 채널의 (2개 한묶음) DIMM 위치
ch : 채널

- Management Web tool

→ System Event log 확인 [장비 또는 장애 상황에 따라 event log 발생]
→ System information - Memory

-
ipmitool
→ 로그 상에 있는 메모리 코드 값 (Memory #0x87 부분)을 확인
ipmitool sel list→ 메모리 코드 값을 이용한 해당 메모리 슬롯 확인
ipmitool sdr type "Memory"
처리 순서
섹션 제목: “처리 순서”- 장애 메모리 확인
- 담당 SE를 통한 서비스 제외 또는 셧다운 확인
- 장애 메모리 교체
- 서버 On 후 정상 확인
- Web Management tool - System log 에 메모리 에러 관련 로그 있는 경우 → Log clear
- 담당 SE 전달 및 종료
티켓 처리 문구
섹션 제목: “티켓 처리 문구”- CPU0_CH2_DIMM0 Uncorrecrable ECC 에러 발생하여 서버 OFF 후 해당 슬롯 교체 및 정상 확인