Krane(크레인) 서버 장애 처리 _ HW-MC-ERROR
작성 일시: 2024년 6월 10일 오전 11:51 태그: TMS[장애대처], 데일리
작업 순서
섹션 제목: “작업 순서”- 티켓

- 작업 진행 상황 파악

- 포폴트 장비 확인

장애난 장비와 같은 스팩의 포폴트 장비를 찾아야 하기 때문에 기존 장애 장비의 스팩부터 확인.
현재 확인된 장비는 NVMe 1.6TB OS 디스크.

카카오위키의 크레인 장비 부분에 가면 각 세터별 사용 가능한 크레인 장비가 있음. 그. 중 현재 장애난 장비와 같은 스팩의 장비를 찾으면 됨.

찾은 장비를 ssh 원격 접속으로 접속하여 스팩을 확인해본다. (장애난 서버의 포폴트 장비로 사용해도 되는지.)

두 서버의 디스크 구성 및 CPU 가 일치함. = 사용 가능.
- 확인 했으면 작업 시작하겠다고 멘션.

- 멘션 남기는 작업과 함께 관제에 크레인 장비 공지 부탁.


그럼 이렇게 공지 올라감.
- 이제 작업 등록 후 해당 상면으로 이동해서 포폴트 장비 박교 (이번에는 어차피 RMA 끝난 서버라서 그냥 메모리만 교체함)

- 작업
cd /apps/oapi
./checkvms.sh [pm 호스트네임]
oapi stop [pm 호스트네임]
---init 0 또는 shutdown 으로 서버 내린 뒤 메모리 전량 교체 후 서버 재부팅---
cd /apps/oapi
./checkvms.sh [pm 호스트네임]
oapi start [pm 호스트네임]
./checkvms.sh [pm 호스트네임]
만약 FAIL 난 VM 있다면 접속 되는지 확인부터 해보고 접속되면 기다리고 안되면 해당 VM 만 oapi stop 다시 진행
없으면 상태 체크한 뒤 마무리- 후작업

완료 처리 멘션

작업 등록 종료


장애처리 상세등록

관제에 장애처리 완료 공지. (그러면 관제가 이렇게 장애처리 완료 공지 띄움)
있었던 일
섹션 제목: “있었던 일”해야할 일
섹션 제목: “해야할 일”- [ ]