콘텐츠로 이동

Krane(크레인) 서버 장애 처리 _ HW-MC-ERROR

작성 일시: 2024년 6월 10일 오전 11:51 태그: TMS[장애대처], 데일리

  1. 티켓

스크린샷 2024-06-10 오전 10.22.59.png

  1. 작업 진행 상황 파악

스크린샷 2024-06-10 오전 10.23.16.png

  1. 포폴트 장비 확인

스크린샷 2024-06-10 오전 10.28.10.png

장애난 장비와 같은 스팩의 포폴트 장비를 찾아야 하기 때문에 기존 장애 장비의 스팩부터 확인.

현재 확인된 장비는 NVMe 1.6TB OS 디스크.

스크린샷 2024-06-10 오전 10.29.50.png

카카오위키의 크레인 장비 부분에 가면 각 세터별 사용 가능한 크레인 장비가 있음. 그. 중 현재 장애난 장비와 같은 스팩의 장비를 찾으면 됨.

스크린샷 2024-06-10 오전 10.30.00.png

찾은 장비를 ssh 원격 접속으로 접속하여 스팩을 확인해본다. (장애난 서버의 포폴트 장비로 사용해도 되는지.)

스크린샷 2024-06-10 오전 10.30.20.png

두 서버의 디스크 구성 및 CPU 가 일치함. = 사용 가능.

  1. 확인 했으면 작업 시작하겠다고 멘션.

스크린샷 2024-06-10 오전 10.23.26.png

  1. 멘션 남기는 작업과 함께 관제에 크레인 장비 공지 부탁.

스크린샷 2024-06-10 오전 10.23.51.png

스크린샷 2024-06-10 오후 6.36.40.png

그럼 이렇게 공지 올라감.

  1. 이제 작업 등록 후 해당 상면으로 이동해서 포폴트 장비 박교 (이번에는 어차피 RMA 끝난 서버라서 그냥 메모리만 교체함)

스크린샷 2024-06-10 오전 11.42.17.png

  1. 작업
cd /apps/oapi
./checkvms.sh [pm 호스트네임]
oapi stop [pm 호스트네임]
---init 0 또는 shutdown 으로 서버 내린 메모리 전량 교체 서버 재부팅---
cd /apps/oapi
./checkvms.sh [pm 호스트네임]
oapi start [pm 호스트네임]
./checkvms.sh [pm 호스트네임]
만약 FAIL VM 있다면 접속 되는지 확인부터 해보고 접속되면 기다리고 안되면 해당 VM oapi stop 다시 진행
없으면 상태 체크한 마무리
  1. 후작업

스크린샷 2024-06-10 오전 11.34.22.png

완료 처리 멘션

스크린샷 2024-06-10 오전 11.43.18.png

작업 등록 종료

스크린샷 2024-06-10 오전 11.43.38.png

스크린샷 2024-06-10 오전 11.44.07.png

장애처리 상세등록

스크린샷 2024-06-10 오전 11.34.44.png

관제에 장애처리 완료 공지. (그러면 관제가 이렇게 장애처리 완료 공지 띄움)

  • [ ]