HW-MEM-ERROR(메모리 장애)
작성 일시: 2024년 5월 9일 오후 12:30 태그: TMS[장애대처], 데일리
작업 순서
섹션 제목: “작업 순서”- 장애 티켓 확인

(보라색이 가산)

(내가 오늘 장애 담당이 아니어서 워크로 알림이 오지 않는다. 아지트에서 찾아봄)

(댓글들 보면 이전 작업자들이 작업한 내용을 알 수 있다. 현재는 전원 off상태라고 한다. 그래서 서버 원격접속은 불가한 상태이다.)


위와 같은 결과를 얻고싶을 때
cat /sys/devices/system/edac/mc*/csrow*/ce_count(전원off 이기 때문에 서버에 원격접속 할 수 없는 대신, 이전 작업자들이 이미 서버의 어떤 메모리가 어떤 문제를 발생 시키는지 찾아놨다. 보면 CPU_SrcID#1_MC#0_Chan#0_DIMM#0 메모리 장애 이다.)

(해당 위치에 메모리 교체를 진행해야함을 알 수 있다.)
======= 물리 서버 메모리 교체 중……… =======
교체완료
-
업무일지 작성
-
ipmi 접속 후 ‘event log 삭제’ 를 진행 또는 서버에 원격 접속 후 “ipmitool sel clear” 명령어로 삭제
있었던 일
섹션 제목: “있었던 일”- 이미 확인작업이 끝나 있었다.
- 실제로는 내가 서버에 원격 접속하여 문제를 찾아내야 한다.
해야할 일
섹션 제목: “해야할 일”- HW-MEM-ERROR 오류코드에 대한 문제해결 명령어들 숙지