콘텐츠로 이동

HW-MEM-ERROR(메모리 장애)

작성 일시: 2024년 5월 9일 오후 12:30 태그: TMS[장애대처], 데일리

  1. 장애 티켓 확인

스크린샷 2024-05-09 오후 12.32.30.png

(보라색이 가산)

스크린샷 2024-05-09 오후 12.33.28.png

(내가 오늘 장애 담당이 아니어서 워크로 알림이 오지 않는다. 아지트에서 찾아봄)

스크린샷 2024-05-09 오후 12.34.49.png

(댓글들 보면 이전 작업자들이 작업한 내용을 알 수 있다. 현재는 전원 off상태라고 한다. 그래서 서버 원격접속은 불가한 상태이다.)

스크린샷 2024-05-09 오후 12.36.13.png

스크린샷 2024-05-09 오후 12.36.22.png

위와 같은 결과를 얻고싶을 때

cat /sys/devices/system/edac/mc*/csrow*/ce_count

(전원off 이기 때문에 서버에 원격접속 할 수 없는 대신, 이전 작업자들이 이미 서버의 어떤 메모리가 어떤 문제를 발생 시키는지 찾아놨다. 보면 CPU_SrcID#1_MC#0_Chan#0_DIMM#0 메모리 장애 이다.)

스크린샷 2024-05-09 오후 12.38.57.png

(해당 위치에 메모리 교체를 진행해야함을 알 수 있다.)


======= 물리 서버 메모리 교체 중……… =======


교체완료

  1. 업무일지 작성

  2. ipmi 접속 후 ‘event log 삭제’ 를 진행 또는 서버에 원격 접속 후 “ipmitool sel clear” 명령어로 삭제

  • 이미 확인작업이 끝나 있었다.
  • 실제로는 내가 서버에 원격 접속하여 문제를 찾아내야 한다.
  • HW-MEM-ERROR 오류코드에 대한 문제해결 명령어들 숙지