티켓 레이어
장애 처리 프로세스
섹션 제목: “장애 처리 프로세스”TMS 장애 발생 → 관제 확인 → Dceng 티켓 전달 → DCeng 확인 → 레벨 프로세스에 따라 장애 처리 → 티켓 처리
티켓 레이어란 장애 티켓이 발생했을 때 장애 등급을 색으로 표현한 것으로 블랙, 그린, 오렌지, 레드 가 존재하며 레드 - 오렌지 - 그린 - 블랙 순으로 장애 등급이 분류된다.
티켓 레이어별 장애처리 절차와 방식이 다르므로 티켓 색상에 따른 장애처리를 진행한다.
- Hadoop, Krane, Kafka, Hbase, kage & tenth 등의 장비는 해당 전용 매뉴얼대로 절차를 수행하여야 하므로 티켓 레이어가 아닌 별도 문서를 참조한다.
- 장애 티켓은 가능한 빠르게 완료처리를 하거나 담당 SE 에게 전달하여 잔존하지 않도록 한다.
- 2일이상 보관중인 티켓중에서 반납된 장비는 “삭제” 처리하고 운영중인 장비는 담당 SE 에게 연락하여 전달 또는 완료처리를 할 수 있도록 한다.
TMS 장애 레벨 등급
섹션 제목: “TMS 장애 레벨 등급”- BLACK , GREEN , ORANGE , RED
- 서비스 카테고리 장애레벨에 따라 주간 / 야간 처리 등 처리 기준 정의
- 불필요한 장애 연락 감소
장애 레벨 주/야간 처리 프로세스
BLACK
섹션 제목: “BLACK”운영중이지 않거나 테스트 중인 서버의 장애, 서비스에 영향 없음.
장애 발생 등급 중 가장 낮은 단계이며 서비스에 영향이 없는 단계
주간 / 야간 동일
섹션 제목: “주간 / 야간 동일”- OS설치가 필요한 장애 케이스를 제외한 모든 장애에 대해서 단독 판단하에 처리 진행.
- OS 재설치가 필요한 장애시에는 SE에게 아지트 멘션하여 재설치 여부 및 카라스 번호 요청
- 하루 이상 답이 오지 않는 경우 카카오 워크 연락 진행
- TMS 발생한 “싱글로 구성된 OS 디스크 장애를 제외한 모든 H/W 장애” 를 DCeng 판단 하에 장애 처리 진행
- 싱글로 구성된 OS 디스크 장애 담당 SE 아지트(TMS) 멘션 → 담당 SE 조치 방안 댓글 → 장애 대응 진행
- 전달된 TMS 장애 티켓 “완료 처리”
- TMS 티켓(장애 방생) → 관제 → Dceng 자체 처리 → 티켓 종료(처리 상황 서버 ON / OFF 포함)
GREEN
섹션 제목: “GREEN”장애 3급, 서비스에 영향 없음, 일부 서버는 2~3대 이상 동일 서버라인 장애 발생시 2급으로 상향 조정.
장애 발생 등급 중 두번째로 낮은 단계이며 서비스에 영향이 없는 단계.
평일 “주간 근무”(10 ~ 19시)
섹션 제목: “평일 “주간 근무”(10 ~ 19시)”| 서버 ON | * 온라인 상태에서 처리 가능 장애에 한하여 처리 및 장애 티켓 “완료 처리”
-
적용 장애 → OOM, CALL_TRACE, 이중화 된 파트 (RAID 구성 디스크, REDUNDANT POWER SUPPLY) → OOM, CALL_TREACE 발생 후 병도의 처리 없이 자동 정상화 시 “티켓 종료”
-
TMS 티켓(장애 발생) → 관제 → Dceng 티켓 종료 | | --- | --- | | 서버 OFF | * 오프라인 상태에서의 처리가 필요한 경우 “담당 SE 에게 장애 상황 전달” 및 후속 조치 대기
-
TMS 티켓(장애 발생) → 관제 → DCeng + SE 협의 후 처리 → 담당 SE 티켓 전달 → 티켓 종료 |
“당직 근무”(평일 19 ~ 22시, 주말, 공휴일)
섹션 제목: ““당직 근무”(평일 19 ~ 22시, 주말, 공휴일)”| 서버 ON | * H/W 장애 주간 처리 진행 → 예외 : 이중화 된 파트(RAID 구성 디스크, REDUNDANT POWER SUPPLY)
-
온라인 상태에서 처리 가능 장애에 한하여 처리 및 장애 티켓 “완료 처리”
-
장애 발생 시 서버 운영에 이슈 없는 H/W 장애는 서버 OFF 하지 않고 “주간 처리” → 적용 장애 : SYSTEM_FAN, Ctrl battery, Power supply → 싱글 구성된 Power supply 에서 OS 상에서 감지가 되는 경우 ”주간 처리”
-
처리 완료 시 : TMS 티켓(장애 발생) → 관제 → DCeng → 티켓 종료
-
주간 처리 시 : TMS 티켓(장애 발생) → 관제 → Dcemg → 당담 SE 티켓 전달(장애 내용 작성) | | --- | --- | | 서버 OFF | * 오프라인 상태에서의 처리가 필요한 경우 서버 “shutdown”
-
TMS 티켓(장애 발생) → 관제 → DCeng → 담당 SE 티켓 전달(장애 내용 작성, 카톡 연락 x)
-
디스크 I/O 장애 → RW 체크 후 정상 확인 및 1회성으로 판단 될 경우 티켓 종료(처리 내역 작성 필수)
-
HANG_UP → 서버 접속 후 1회성 판단 될 경우 별도 조치 없이 티켓 종료(처리 내역 작성 필수) → 서버 정상화 불가 판단 시 서버 “shutdown” 후 담당 SE 티켓 전달 → 서비스팀 요청으로 리붓 처리 후 발생 된 PING_FAIL 티켓 종료(처리 내역 작성 필수) → DCeng 장애 티켓 종료 및 TMS 장애 아지트 담당 SE 멘션
-
서비스 담당자 장애 요청 시 → 장애 처리 후 TMS 아지트 담당 SE 멘션과 조치 내용 작성(핑페일 티켓 발생 시 티켓에 내용 작성)
-
Ping_fail 발생 시 1회성이라도 자체 완료 처리 x (내용 작성 후 담당 SE 전달)
-
아래의 비 긴급건 장애 케이스는 OFF 하지 않고 주간으로 인계 → SE 에게 티켓 전달 및 아지트 멘션만 * FAN 장애 * 컨트롤러 배터리 * 1 PSU (서버가 꺼지지 않은 경우) * 2 PSU 중 PSU 재고가 없는 경우 * PING_FAIL_IPV6 티켓 발생시 ipv4 주소의 핑이 정상이고 서버 접속에 문제가 없는 v6 단독 장애시
-
아래 케이스 또는 그 외 오프라인 처리 후 진행이 필요한 경우 서버오프 후 담당 SE 에게 티켓 전달 및 아지트 멘션 내용기재 후 주간작업 인계 * 오토리붓이 발생한 경우 * NIC 카드 장애 * 메모리 에러 카운트가 10이상 발생시 * OS 디스크가 장애 원인 / 재설치 필요 케이스인 경우 * 박스교체가 필요한 경우 * None 레이드 / 레이드 0 데이터 디스크 장애 |
ORANGE
섹션 제목: “ORANGE”장애 2급, 일부 서버는 동일 서버라인에서 단독 장애시 3급으로 하향 조정.
장애 발생 시 서비스에 영향을 줄 수 있는 단계
평일 “주간 근무”(10 ~ 19시)
섹션 제목: “평일 “주간 근무”(10 ~ 19시)”| 서버 ON | * 온라인 상태에서 처리 가능 장애에 한하여 처리 및 장애 티켓 “완료 처리”
-
적용 장애 → OOM, CALL_TRACE, 이중화 된 파트 (RAID 구성 디스크, REDUNDANT POWER SUPPLY) → OOM, CALL_TREACE 발생 후 별도의 처리 없이 자동 정상화 시 “티켓 종료”
-
Ping_Fail 발생 원인이 아래의 케이스인 경우 (처리 후 담당 SE 에게 상황 공유 및 티켓 재액팅) * 서버는 정상이나 서비스 케이블이 문제인 경우 * 반납 / 이전 서버등의 작업 미등록 후 오프된 서버 * 담당자의 수동 재부팅 / 오프인 경우
-
PING_FAIL_IPV6 티켓 발생시 iPv4 주소의 핑이 정상이고 서버 접속에 문제가 없는 IPV6 주소만의 문제일 경우에도 핑페일 장애 프로세스와 동일하게 처리 (SE 연락) | | --- | --- | | 서버 OFF | * 오프라인 상태에서의 처리가 필요한 경우 “담당 SE 에게 장애 상황 전달” 및 후속 조치 대기
-
TMS 티켓(장애 발생) → 관제 → DCeng → SE 전달(장애 내용 작성)
-
디스크 I/O 장애 → R/W 체크 후 정상 확인 및 1회성으로 판단 될 경우 티켓 종료 (처리 내역 작성 필수)
-
HANG_UP → 서버 접속 후 1회성 판단 될 경우 티켓 종료 (처리 내역 작서 필수) → 서버 정상화 불가 시 서버 shutdown → 서비스팀 요청으로 리붓 처리 후 발생된 PING_FAIL 티켓 종료 (처리 내역 작성 필수) → DCeng 장애 티켓 종료 및 TMS 장애 아지트 담당 SE 멘션
-
서비스 담당자 장애 요청 시 → DC에서 관제로 전달, 관제에서 SE 로 전달해서 확인 후 진행 (SVC → DC → 관제 → SE)
-
Ping_fail 발생 시 1회성이라도 자체 완료 처리 x(내용 작성 후 담당 SE 전달) |
“당직 근무”(평일 19 ~ 22시, 주말, 공휴일)
섹션 제목: ““당직 근무”(평일 19 ~ 22시, 주말, 공휴일)”| 서버 ON | * H/W 장애 주간 처리 진행 → 예외 : 이중화 된 파트(RAID 구성 디스크, REDUNDANT POWER SUPPLY)
-
온라인 상태에서 처리 가능 장애에 한하여 처리 및 장애 티켓 “완료 처리”
-
장애 발생 시 서버 운영에 이슈 없는 H/W 장애는 서버 OFF 하지 않고 “주간 처리” → 적용 장애 : SYSTEM_FAN, Ctrl battery, Power supply → 싱글 구성된 Power supply 에서 OS 상에서 감지가 되는 경우 “주간 처리”
-
처리 완료 시 : TMS 티켓(장애 발생) → 관제 → DCeng → 티켓 종료
-
주간 처리 시 : TMS 티켓(장애 발생) → 관제 → DCeng → SE 전달 (장애 내용 작성) | | --- | --- | | 서버 OFF | * 평일 주간 근무 서버 OFF 와 동일 |
RED
섹션 제목: “RED”장애 1급, 서비스에 영향이 생길 수 있음.
장애 발생 시 서비스에 영향이 발생하는 단계
주간 / 야간 동일
섹션 제목: “주간 / 야간 동일”-
온, 오프라인 상태에서의 처리가 필요한 경우 “즉시 담당 SE에게 장애 상황 전달” 및 후속 조치 대기
-
TMS 티켓(장애 발생) → 관제 → SE → DCeng 협의 및 장애 처리 진행 → SE 티켓 종료
-
디스크 I/O 장애
→ RW 체크 후 정상 확인 및 1회성으로 판단 될 경우 티켓 종료함(처리 내역 작성 필수)
-
HANG_UP
-
서버 접속 후 1회성 판달 될 경우 병도 조피 없이 티켓 종료 (처리 내역 작성 필수)
→ 서비스팀 요청으로 리붓 처리 후 발생 된 PING_FAIL 티켓 종료 (처리 내역 작성 필수)
→ DCeng 장애 티켓 종료 및 TMS 장애 아지트 담당 SE 멘션