콘텐츠로 이동

HW-MC-ERROR

작성 일시: 2024년 5월 30일 오후 1:49 태그: TMS[장애대처], 데일리

  1. 티켓 발행

스크린샷 2024-05-30 오후 1.49.06.png

  1. 서비스 OFF 가 필요한 메모리 장애 이기 때문에 요청 올때까지 티켓 돌림

스크린샷 2024-05-30 오후 1.50.36.png

  1. 영역 장애 확인 후 담장자에게 개인 연락(워크)으로 교체 가능 여부 전달

  2. 교체할 파트 스팩 확인

  • 2666v
  • 32G
  1. 작업등록

  2. 작업등록

  3. 작업등록

  4. 상면이동

  5. 서버 케이블 연결 해제 후 파트 교체 진행

  6. 만약 영역 정보가 없다면 다음의 방법으로 알아볼 수 있음

    1. grep [0-9] /sys/devices/system/edac/mc/mc*/csrow*/ch* 명령어를 통한 영역 확인
    2. IPMI 접속을 통한 메모리 영역 확인
    3. 등….
  7. 파트 교체 후 서버 마운트 및 케이블 연결

  8. 자동으로 전원 올라오면 OK, 안올라오면 전원버튼 눌러주기

  9. sys-gate 에서 아래 명령어들을 통해 연결 확인. (mping은 계-속 핑 때리는거 / pping 는 한번만 때리는거)

    1. mping [호스트네임]
    2. pping [호스트네임]
  10. 연결 확인되면 원격 접속 후 아래 명령어를 통해 교체 위치에 메모리 정상 인식하는지 확인

    1. tb info memory
    2. 또는
    3. tb info mem
  11. 작업완료 후 장애처리 상세등록 진행

스크린샷 2024-05-30 오후 1.59.47.png

  1. IPMI 로 접속해서 LOG 기록 남아있다면 지워주기.
  2. IPMI 로 접속해서 LOG 기록 남아있다면 지워주기.
  3. IPMI 로 접속해서 LOG 기록 남아있다면 지워주기.
  • bb
  • 작업등록 해볼 기회가 있으면 기억하고 기록하기