콘텐츠로 이동

티켓 레이어

TMS 장애 발생 → 관제 확인 → Dceng 티켓 전달 → DCeng 확인 → 레벨 프로세스에 따라 장애 처리 → 티켓 처리

티켓 레이어란 장애 티켓이 발생했을 때 장애 등급을 색으로 표현한 것으로 블랙, 그린, 오렌지, 레드 가 존재하며 레드 - 오렌지 - 그린 - 블랙 순으로 장애 등급이 분류된다.

티켓 레이어별 장애처리 절차와 방식이 다르므로 티켓 색상에 따른 장애처리를 진행한다.

  • Hadoop, Krane, Kafka, Hbase, kage & tenth 등의 장비는 해당 전용 매뉴얼대로 절차를 수행하여야 하므로 티켓 레이어가 아닌 별도 문서를 참조한다.
  • 장애 티켓은 가능한 빠르게 완료처리를 하거나 담당 SE 에게 전달하여 잔존하지 않도록 한다.
  • 2일이상 보관중인 티켓중에서 반납된 장비는 “삭제” 처리하고 운영중인 장비는 담당 SE 에게 연락하여 전달 또는 완료처리를 할 수 있도록 한다.

  • BLACK , GREEN , ORANGE , RED
  • 서비스 카테고리 장애레벨에 따라 주간 / 야간 처리 등 처리 기준 정의
  • 불필요한 장애 연락 감소

장애 레벨 주/야간 처리 프로세스

운영중이지 않거나 테스트 중인 서버의 장애, 서비스에 영향 없음.

장애 발생 등급 중 가장 낮은 단계이며 서비스에 영향이 없는 단계

  • OS설치가 필요한 장애 케이스를 제외한 모든 장애에 대해서 단독 판단하에 처리 진행.
    • OS 재설치가 필요한 장애시에는 SE에게 아지트 멘션하여 재설치 여부 및 카라스 번호 요청
    • 하루 이상 답이 오지 않는 경우 카카오 워크 연락 진행
  • TMS 발생한 “싱글로 구성된 OS 디스크 장애를 제외한 모든 H/W 장애” 를 DCeng 판단 하에 장애 처리 진행
  • 싱글로 구성된 OS 디스크 장애 담당 SE 아지트(TMS) 멘션 → 담당 SE 조치 방안 댓글 → 장애 대응 진행
  • 전달된 TMS 장애 티켓 “완료 처리”
  • TMS 티켓(장애 방생) → 관제 → Dceng 자체 처리 → 티켓 종료(처리 상황 서버 ON / OFF 포함)

장애 3급, 서비스에 영향 없음, 일부 서버는 2~3대 이상 동일 서버라인 장애 발생시 2급으로 상향 조정.

장애 발생 등급 중 두번째로 낮은 단계이며 서비스에 영향이 없는 단계.

| 서버 ON | * 온라인 상태에서 처리 가능 장애에 한하여 처리 및 장애 티켓 “완료 처리”

  • 적용 장애 → OOM, CALL_TRACE, 이중화 된 파트 (RAID 구성 디스크, REDUNDANT POWER SUPPLY) → OOM, CALL_TREACE 발생 후 병도의 처리 없이 자동 정상화 시 “티켓 종료”

  • TMS 티켓(장애 발생) → 관제 → Dceng 티켓 종료 | | --- | --- | | 서버 OFF | * 오프라인 상태에서의 처리가 필요한 경우 “담당 SE 에게 장애 상황 전달” 및 후속 조치 대기

  • TMS 티켓(장애 발생) → 관제 → DCeng + SE 협의 후 처리 → 담당 SE 티켓 전달 → 티켓 종료 |

“당직 근무”(평일 19 ~ 22시, 주말, 공휴일)

섹션 제목: ““당직 근무”(평일 19 ~ 22시, 주말, 공휴일)”

| 서버 ON | * H/W 장애 주간 처리 진행 → 예외 : 이중화 된 파트(RAID 구성 디스크, REDUNDANT POWER SUPPLY)

  • 온라인 상태에서 처리 가능 장애에 한하여 처리 및 장애 티켓 “완료 처리”

  • 장애 발생 시 서버 운영에 이슈 없는 H/W 장애는 서버 OFF 하지 않고 “주간 처리” → 적용 장애 : SYSTEM_FAN, Ctrl battery, Power supply → 싱글 구성된 Power supply 에서 OS 상에서 감지가 되는 경우 ”주간 처리”

  • 처리 완료 시 : TMS 티켓(장애 발생) → 관제 → DCeng → 티켓 종료

  • 주간 처리 시 : TMS 티켓(장애 발생) → 관제 → Dcemg → 당담 SE 티켓 전달(장애 내용 작성) | | --- | --- | | 서버 OFF | * 오프라인 상태에서의 처리가 필요한 경우 서버 “shutdown”

  • TMS 티켓(장애 발생) → 관제 → DCeng → 담당 SE 티켓 전달(장애 내용 작성, 카톡 연락 x)

  • 디스크 I/O 장애 → RW 체크 후 정상 확인 및 1회성으로 판단 될 경우 티켓 종료(처리 내역 작성 필수)

  • HANG_UP → 서버 접속 후 1회성 판단 될 경우 별도 조치 없이 티켓 종료(처리 내역 작성 필수) → 서버 정상화 불가 판단 시 서버 “shutdown” 후 담당 SE 티켓 전달 → 서비스팀 요청으로 리붓 처리 후 발생 된 PING_FAIL 티켓 종료(처리 내역 작성 필수) → DCeng 장애 티켓 종료 및 TMS 장애 아지트 담당 SE 멘션

  • 서비스 담당자 장애 요청 시 → 장애 처리 후 TMS 아지트 담당 SE 멘션과 조치 내용 작성(핑페일 티켓 발생 시 티켓에 내용 작성)

  • Ping_fail 발생 시 1회성이라도 자체 완료 처리 x (내용 작성 후 담당 SE 전달)

  • 아래의 비 긴급건 장애 케이스는 OFF 하지 않고 주간으로 인계 → SE 에게 티켓 전달 및 아지트 멘션만 * FAN 장애 * 컨트롤러 배터리 * 1 PSU (서버가 꺼지지 않은 경우) * 2 PSU 중 PSU 재고가 없는 경우 * PING_FAIL_IPV6 티켓 발생시 ipv4 주소의 핑이 정상이고 서버 접속에 문제가 없는 v6 단독 장애시

  • 아래 케이스 또는 그 외 오프라인 처리 후 진행이 필요한 경우 서버오프 후 담당 SE 에게 티켓 전달 및 아지트 멘션 내용기재 후 주간작업 인계 * 오토리붓이 발생한 경우 * NIC 카드 장애 * 메모리 에러 카운트가 10이상 발생시 * OS 디스크가 장애 원인 / 재설치 필요 케이스인 경우 * 박스교체가 필요한 경우 * None 레이드 / 레이드 0 데이터 디스크 장애 |


장애 2급, 일부 서버는 동일 서버라인에서 단독 장애시 3급으로 하향 조정.

장애 발생 시 서비스에 영향을 줄 수 있는 단계

| 서버 ON | * 온라인 상태에서 처리 가능 장애에 한하여 처리 및 장애 티켓 “완료 처리”

  • 적용 장애 → OOM, CALL_TRACE, 이중화 된 파트 (RAID 구성 디스크, REDUNDANT POWER SUPPLY) → OOM, CALL_TREACE 발생 후 별도의 처리 없이 자동 정상화 시 “티켓 종료”

  • Ping_Fail 발생 원인이 아래의 케이스인 경우 (처리 후 담당 SE 에게 상황 공유 및 티켓 재액팅) * 서버는 정상이나 서비스 케이블이 문제인 경우 * 반납 / 이전 서버등의 작업 미등록 후 오프된 서버 * 담당자의 수동 재부팅 / 오프인 경우

  • PING_FAIL_IPV6 티켓 발생시 iPv4 주소의 핑이 정상이고 서버 접속에 문제가 없는 IPV6 주소만의 문제일 경우에도 핑페일 장애 프로세스와 동일하게 처리 (SE 연락) | | --- | --- | | 서버 OFF | * 오프라인 상태에서의 처리가 필요한 경우 “담당 SE 에게 장애 상황 전달” 및 후속 조치 대기

  • TMS 티켓(장애 발생) → 관제 → DCeng → SE 전달(장애 내용 작성)

  • 디스크 I/O 장애 → R/W 체크 후 정상 확인 및 1회성으로 판단 될 경우 티켓 종료 (처리 내역 작성 필수)

  • HANG_UP → 서버 접속 후 1회성 판단 될 경우 티켓 종료 (처리 내역 작서 필수) → 서버 정상화 불가 시 서버 shutdown → 서비스팀 요청으로 리붓 처리 후 발생된 PING_FAIL 티켓 종료 (처리 내역 작성 필수) → DCeng 장애 티켓 종료 및 TMS 장애 아지트 담당 SE 멘션

  • 서비스 담당자 장애 요청 시 → DC에서 관제로 전달, 관제에서 SE 로 전달해서 확인 후 진행 (SVC → DC → 관제 → SE)

  • Ping_fail 발생 시 1회성이라도 자체 완료 처리 x(내용 작성 후 담당 SE 전달) |

“당직 근무”(평일 19 ~ 22시, 주말, 공휴일)

섹션 제목: ““당직 근무”(평일 19 ~ 22시, 주말, 공휴일)”

| 서버 ON | * H/W 장애 주간 처리 진행 → 예외 : 이중화 된 파트(RAID 구성 디스크, REDUNDANT POWER SUPPLY)

  • 온라인 상태에서 처리 가능 장애에 한하여 처리 및 장애 티켓 “완료 처리”

  • 장애 발생 시 서버 운영에 이슈 없는 H/W 장애는 서버 OFF 하지 않고 “주간 처리” → 적용 장애 : SYSTEM_FAN, Ctrl battery, Power supply → 싱글 구성된 Power supply 에서 OS 상에서 감지가 되는 경우 “주간 처리”

  • 처리 완료 시 : TMS 티켓(장애 발생) → 관제 → DCeng → 티켓 종료

  • 주간 처리 시 : TMS 티켓(장애 발생) → 관제 → DCeng → SE 전달 (장애 내용 작성) | | --- | --- | | 서버 OFF | * 평일 주간 근무 서버 OFF 와 동일 |


장애 1급, 서비스에 영향이 생길 수 있음.

장애 발생 시 서비스에 영향이 발생하는 단계

  • 온, 오프라인 상태에서의 처리가 필요한 경우 “즉시 담당 SE에게 장애 상황 전달” 및 후속 조치 대기

  • TMS 티켓(장애 발생) → 관제 → SE → DCeng 협의 및 장애 처리 진행 → SE 티켓 종료

  • 디스크 I/O 장애

    → RW 체크 후 정상 확인 및 1회성으로 판단 될 경우 티켓 종료함(처리 내역 작성 필수)

  • HANG_UP

  • 서버 접속 후 1회성 판달 될 경우 병도 조피 없이 티켓 종료 (처리 내역 작성 필수)

    → 서비스팀 요청으로 리붓 처리 후 발생 된 PING_FAIL 티켓 종료 (처리 내역 작성 필수)

    → DCeng 장애 티켓 종료 및 TMS 장애 아지트 담당 SE 멘션