콘텐츠로 이동

하남 업무

이슬림코리아 카카오 서버 발표 자료

섹션 제목: “이슬림코리아 카카오 서버 발표 자료”

📎 24.06.04_이슬림코리아_카카오_서버발표자료(SPR).pdf (대용량 28MB — 웹 미게시)


1. DHCP 아이피 할당.pdf

2. OS 설치.pdf


근무자 육안점검 중 장애 확인 및 티켓 미발생 시 절차

섹션 제목: “근무자 육안점검 중 장애 확인 및 티켓 미발생 시 절차”
  • 내용

    1. 워런티 IN

      • RMA 신청 후 차트 수급 진행
      • 포폴트 서버 있을 경우 선 조치 후 RMA 진행
    2. 워런티 OUT

      • 교체 가능 파트 미보유 시 타센터 통하여 수급 진행
    3. 공통

      • 티켓 미발생으로 인해 관제 통하여 티켓 생성 후 서비스 및 티켓 레벨에 맞게 진행

    PS. 멘션 남길시 육안점검을 통해 발견 되었으며, 관제 통하여 티켓 생성 진행 했다는 내용 포함 하여 멘션 진행


  • 내용

    [ipmi 변경]

    tb conf ipmi <ipmi ip주소> <넷마스트> <게이트웨이>


    Ubuntu 18.04 / 20.04

    Ubuntu 의 공인 IP 설정

    /etc/hosts 에서 ip 변경

    /etc/networks 에서 network 변경(tb 사용 안했을 경우에만)

    /etc/systemd/network 경로에 아래 3개 파일(표) 생성 및 최종 확인

    systemctl restart systemd-networkd

    networkctl reload (Ubuntu 20.04 +)

    eth0.networketh0.20.networketh0.20.netdev
    [Match]
    Name=eth0

    [Network] DHCP=no LinkLocalAdressing=no DNS=10.20.30.40 Domains=dakao.io VLAN=eth0.20

    [Link] MTUBytes=1500 | [Match] Name=eth0.20

    [Network] DHCP=no LinkLocalAddressing=no DNS=10.20.30.40 Donmains=dakao.io

    [Link] MTUBytes=1500

    [Address] Address=ip주소/bit

    [Route] Gateway=게이트웨이 주소 GatewayOnKink=yes | [NetDev] Name=eth0.20 Kind=vlan

    [VLAN] Id=20 | | 기존 파일 수정 | 새 파일 작성 | 새 파일 작성 |

    스크린샷 2024-08-19 오후 4.16.49.png

tb conf addr list IP 리스트 확인
tb conf addr add eth0.502 공인ip/bit 변경할 공인IP 추가
tb conf addr del eth0 기존ip/bit eth0 사설 IP 삭제

신규 장비 이슈 요약.docx


ID : hanamkakao@gmail.com

PW : dkadmin1!


육안 점검중 크레인 서비스 장애 확인 시

섹션 제목: “육안 점검중 크레인 서비스 장애 확인 시”
  • 내용

    티켓 미 발생 및 off 장애처리가 필요할 경우에도 메뉴얼에 맞게.

    1. VM 있을경우 작업 공지 후 진행
    2. VM 없을 경우 작업 공지 없이 진행

    이렇게 진행하시면됩니다.


크레인 & GPU 서버 장애처리 요약

섹션 제목: “크레인 & GPU 서버 장애처리 요약”

크레인,GPU 장애처리 요약(V2).pdf


Eslim SPR 장비 CPLD F:WUpdate.pdf

SP7-2104E_YZMB-02757-101_CPLD_v3.10.hpm


GPU서버 장애처리 가이드-압축됨.pdf


  • 내용

    장비 신규입고시 신규입고와(작업수량= 서버수량, 작업시간=0) 기타업무로 나누어 입력부탁드립니다~!

    KakaoTalk_Photo_2024-07-04-18-55-03.png



신규장비 및 파워 & 네트워크 케이블 변경 사항

섹션 제목: “신규장비 및 파워 & 네트워크 케이블 변경 사항”

신규장비 및 파워,네트워크 케이블 변경 사항 정리(V2).pdf


크레인 & GPU 서버 장애처리 요약_V2

섹션 제목: “크레인 & GPU 서버 장애처리 요약_V2”

크레인,GPU 장애처리 요약(V2).pdf


eslim 메모리 위치.pdf

eslim 메모리 위치 (ft.설명).pdf


IDC 출입신청 (출입신청 시스템 똑똑)

섹션 제목: “IDC 출입신청 (출입신청 시스템 똑똑)”

OP메뉴얼.pptx


kaytus(eslim) SPR 장비 PSU 장애교체시 제조사확인 필요

섹션 제목: “kaytus(eslim) SPR 장비 PSU 장애교체시 제조사확인 필요”


📎 GPU(DELL_4140)_장애처리_가이드_.pdf (대용량 39MB — 웹 미게시)


작업계획서 양식 (중량물 인력운반)

섹션 제목: “작업계획서 양식 (중량물 인력운반)”

작업계획서 양식(중량물 인력운반) (240430).docx


신규 장비 이슈 요약 (1).docx


  • 내용

    -발급 프로세스-

    일방문관리 → 당일입문관리 → 하남IDC 선택 → 명단 조회됨(인원수만큼) → 승인된 문서에 대해서는 카톡으로 하남 IDC 전 인원한테 알림 감 → 방문증 번호 입력 후 방문증 리딩기에 스캔 (꼭! 입문 처리) → 퇴실시 → 출문 관리 → 출문 클릭 → 끝 (연장처리란? 작업자에게 21시에…. 자정이 넘어갈꺼같으면 우리한테 연장처리 받으라고….)

    -출입신청-

    센터 출입신청 → 하남IDC 선택 → 작업내역 작성 → 방문일정 (당일로부터 최대 1달까지도 됨) 선택 → 여부 선택 → 빌링존 방문 시에는 상시권한 있는 사람 참조 → 다음 → 출입자 추가 가능 → 회사 인원은 이름 혹은 LDAP ID 쓰면 나머지 자동으로 들어감 → 비회원 출입자는 약관 동의를 받아야함 (이름/회사명/휴대폰번호 로 대조함) → 지원 근무자분들은 참조가 안되니 dc.sys에게 노티(참고 연락) 드려야함 → 이렇게 신청한 내용은 당일입문관리 및 참조 페이지에 “출입신청관리” 가 있음. 해당 내용을 LG 에 전달해줘야 하는거임. → 스낵24나 정수기 같이 한달에 한 번 올까말까한 인원들은 “간편출입예약” 하면됨.

    작업자들은 카톡에있는 알림에 약관동의 혹은 간편출입예약 버튼 누르면됨


10G 서비스 환경, 카카오 신규 표준장비(SPR)에 설치작업 발생, 기본 설정이 필요

섹션 제목: “10G 서비스 환경, 카카오 신규 표준장비(SPR)에 설치작업 발생, 기본 설정이 필요”
  • 내용

    스크린샷 2024-07-23 오전 11.04.23.png

    KakaoTalk_Photo_2024-07-23-10-50-07.png

    KakaoTalk_Photo_2024-07-23-10-50-15.png

    KakaoTalk_Photo_2024-07-23-10-50-20.png


  • 내용

    수행업무 내역

    • 외부 업체의 출입 등록 방법 및 반입 / 반출 관리(비지터 카드 불출)
    • UTP 케이블 제작(다이렉트, 크로스 케이블)
    • 각 업무 페이지 숙지 및 활용
      1. 운영업무 / 업무일지 작성
      2. TMS 페이지 모니터링
      3. IMS 페이지 관련 업무
    • 장비운영
      1. 워런티 유무 확인
      2. 신규 입고 서버 바코드 출력 및 부착
      3. 신규입고 시 다량 장비 입고로 인한 출입문 장시간 열림 방지 작업등록 진행 [큐베 활용]
    • 장비작업
      1. 스펙변경
      2. IMS 수정
      3. KARAS OS설치
      4. ip / ipmi 체크 완료
      5. tb info bios 기본 설정
    • 자산관리
      1. 자산 실사 A. IMS 페이지 [ 자산 -> 재고관리 -> 재고 실사 ] B. 매주 금요일 디스크, 메모리 수량 구글 Docs 취합 진행
      2. 자산 이동 A. 퀵 사용(고고밴 활용 및 퀵 대장 기입)
    • 장애처리
      1. 장애 발생 시, 커뮤니케이션 대응
      2. 각 장애 티켓 별 행동강령 숙지
      3. 지빅 장애 A. 장애구간 지빅 교체 완료 및 교체 전/후 지빅 모델 및 시리얼 정보 아지트 멘션 후 구글 독스에 입력
      4. 서비스 장애 A. Hadoop 장애처리 B. Tenth 장애처리 C. Kage 장애처리 D. HBase/Druid 장애처리 E. Krane 장애처리 F. Kafka 장애처리 G. wcache 장애처리
      5. 메모리 장애 A. 서버 메모리 교체 완료 후 로그 클리어 완료
      6. NIC 장애 A. NIC 장애 확인 후 교체 과정 숙지
      7. CPU 장애 A. 박스 교체
      8. Vendor RMA 요청 A. 지빅 RMA 구글 독스 작성 B. server, part RMA 페이지 작성
      9. 잔류 전원 제거
      10. 등급별 장애처리 진행

    본인 평가

    Dceng가 어떤 업무를 하는지 정확하게 알게 되었으며 Dceng 업무 프로세스를 이해하고 있습니다.

    • 각 벤더사별 서버 모델 구분 및 명령어 숙지하고 있습니다
    1. 장비 설치
      • 신규 입고 진행 순서를 숙지하고 있으며 외부 업체의 IDC 센터 출입 등록 방법 및 비지터 카드 불출 방법도 숙지하고 있습니다.
      • 파트 작업 같은 경우 증설 및 제거 진행과정은 숙지하였으나 작업 경험이 부족합니다.
    2. 자산관리
      • 장비 센터 내 이전 / 센터 간 이전 후 진행 과정을 숙지하고 있습니다.
      • 자산 실사 진행 과정을 숙지하고 있습니다.
      • 퀵(고고밴) 사용 방법을 숙지하고 있습니다.
      • 디스크 삭제기 운용법을 숙지하고 있습니다.
    3. 장애 업무
      • 긴급대응 프로세스를 숙지하고 있습니다.
      • 티켓레이어를 숙지하고 있습니다.
      • 주,야간 티켓별 장애 처리 방법을 숙지하고 있으며 지속적으로 서비스 장애, H/W, S/W 장애 처리 매뉴얼 학습이 필요할 거 같습니다.
      • 크레인 장애 유형별 처리 방법 및 infra-sys-gate 서버 접속 후 /apps/oapi/oapi 툴 사용하는 방법을 숙지하고 있습니다.
      • 디스크 교체 및 파티셔닝하는 방법을 숙지하고 있습니다.
    4. 네트워크 작업
      • UTP 케이블 제작 가능하며 vts, hub 장비 같은 경우 설치 및 포설 작업은 아직 부족한 거 같습니다.
    5. 업무 페이지
      • TMS, IMS, Karas, Agit 등 각 업무 페이지를 숙지하고 있으며 어려움은 없습니다.

https://app.notion.com


xfusion 바이오스창 진입 (맥북) = “fn + dell 키”

섹션 제목: “xfusion 바이오스창 진입 (맥북) = “fn + dell 키””
  • 내용

DKT 비상연락체계도.pdf


  • 내용

    dct set ipmi
    설정할 서버의 호스트네임 또는 IP-입력
    서브넷 입력 (ex. 255.255.255.0)
    IPMI IP-입력
    스크립트 돌아감
    완료

  • 변경법

    (ipmitool 사용)

    KakaoTalk_Photo_2024-09-19-14-13-06.png

    (tb 스크립트 사용)

    tb conf ipmi [mgmt ip] [prefix] [gateway]

    Sys-gate에서 pping all 로 호스트쳐서 변경된 ipmi 확인. —> hp서버는 ipmi변경 후 mc 리셋 해줘야함. —> tb conf hp ilo reset , ipmitool mc reset cold

    BMC 재부팅 = ipmitool mc reset cold BMC 재부팅 =  ipmitool mc reset warm Ilo 재부팅 = tb conf hp ilo reset


    ipmi 변경 후 KARAS 상에서 해당부분 FAILED 안바뀔 때

    섹션 제목: “ipmi 변경 후 KARAS 상에서 해당부분 FAILED 안바뀔 때”
  • 재검수

    dct 명령어 사용하여 ipmi 변경 후 정상 확인 되었음에도 KARAS 상에서는 ‘FAILED’ 안사라짐

    스크린샷 2024-09-19 오후 3.06.47.png

    curl http://scripts.iwilab.com/karas/check_os_config.sh | bash
    또는
    tb karas inspect os

    해당 명령어 사용하여 ‘재검수’ 진행하면

    스크린샷 2024-09-19 오후 3.07.04.png

    정상적으로 바뀜


[카카오] VTS CSE-T32 매뉴얼_1.3.pdf


dct set ip
설정할 서버의 호스트네임 또는 IP-입력
서브넷 입력 (ex. 255.255.255.0)
IP-입력
스크립트 돌아감
완료

  • 내용

    KakaoTalk_Photo_2024-10-21-15-09-11 001.jpeg

    KakaoTalk_Photo_2024-10-21-15-09-12 002.jpeg

    KakaoTalk_Photo_2024-10-21-15-09-12 003.jpeg

    KakaoTalk_Photo_2024-10-21-15-09-12 004.jpeg


화웨이 서버 BIOS 에서 10G NIC 죽이는 방법

  • 내용

    KakaoTalk_Photo_2024-10-24-22-06-02.jpeg

    KakaoTalk_Photo_2024-10-24-22-06-39.jpeg

    KakaoTalk_Photo_2024-10-24-22-07-27.jpeg

    KakaoTalk_Photo_2024-10-24-22-07-47.jpeg

    KakaoTalk_Photo_2024-10-24-22-08-03.jpeg

    KakaoTalk_Photo_2024-10-24-22-08-31.jpeg


  • 내용

    KakaoTalk_Photo_2024-10-28-17-49-04.png



설치시 닉카드 인식 안되서 PXE 안걸리 경우

섹션 제목: “설치시 닉카드 인식 안되서 PXE 안걸리 경우”
  • 내용

    KakaoTalk_Photo_2024-10-30-18-27-06.png

    bios advanced - MIsc configuration - slot PXE function enable 확인.



boot mode 레거시 → UEFI 변경시 주의할 점

섹션 제목: “boot mode 레거시 → UEFI 변경시 주의할 점”
  • 내용

    스크린샷 2024-11-06 오후 5.39.35.png

    스크린샷 2024-11-06 오후 5.39.47.png

    Network 도 “UEFI”로 같이 바꿔줘야 함.


  • 내용

    [3차]

    장비운영 업무 관련

    ❖ 아지트 업무 일정 초과 할 경우

    ❖ 아지트 업무 누락 할 경우

    ❖ 아지트 업무 요청과 다른게 업무를 수행 할 경우

    아지트 요청 업무 일정과 요청에 맞지 않게 업무를 수행 할 경우 오류 카운트 증가합니다.

    장애처리 업무 관련❖ 요청 장애처리 미수행❖ 장애처리 미숙으로 인한 처리 지연*

    장애 업무 수행 중 중요 서비스에 대한 장애처리 지연이 발생하거나 장애 처리를 제대로 이행 할 지 못할 경우 오류 카운트 증가합니다.

    자산 업무 관련❖ 월 1회 전수실사 미수행❖ 자산등록(바코드) 인프라자산 분실❖ 자산등록(바코드) 인프라자산 망실*

    위와 같이 오류가 발생하면 카운트 증가합니다.

    보안 업무 관련

    ❖ 외부인력 인솔/동행 미수행 ❖ 물리보안 담당자 “승인”전 외부인력 인솔, 똑똑 방문(승인) 요청없이 인솔된 건, 요청업무 미수행 건❖ DC 상면 문열림 알람 발생❖ 자리 부재시 화면 보호기 비활성화, 업무문서 세절, 개인PC 보안위배, 디스크 삭제 위반❖ 비지터 카드 분실

    환경 관리 관련

    ❖ 작업 간 위험한 작업 수행 시 안전화 미착용❖ 컨테인먼트내 랙 전면부 블랭크 판넬 미장착❖ 컨테인먼트내 온도 상승 10분 이내 상황인지 및 안내

    인적장애 오류 건

    ❖ 작업 간 타 운영장비 영향 발생❖ 데이터 유실, 교체 스펙 오류, 운영장비 영향 장애발생❖ 비인가 프로그램 설치, 업무 단톡 방에 외부인원 초대

    =====================================================================

    [1차]

    시스템 - <장애발생 가능 포인트>

    시스템적으로 작업을 하면서 발생할 수 있는 장애발생 가능 포인트에 대해 숙지하고 업무 시 주의 해주세요

    1. 디스크 교체 시 장애 디스크가 아닌 다른 디스크를 교체

    2. 주간 작업 및 장애처리로 인한 서버 OFF 시 대상 서버가 아닌 운영중인 서버 OFF

    3. 장애처리 미숙으로 인한 장애처리 지연

    4. 케이블 환경 정리 작업 중 운영중인 서버에 영향을 주어 서버 OFF 및 Ping fail 발생

    5. 작업 중 IP 중복으로 인한 Ping fail 발생

    장애방지를 위해 아래 사항은 꼭 숙지하세요

    장애가 발생 되는 주요 사항에 대해 방지를 위해 아래 리스트 중 꼭 지켜야 할 부분에 대해 체크해주세요

    1. 디스크 교체 시 장애난 디스크의 시리얼 확인 후 해당 시리얼의 디스크 점등 후 디스크 교체

    2. 주간 작업 및 장애처리로 인한 서버 OFF 필요 시

    꼭 업무 간 지켜야 할 부분에 대해 체크 후 제출해주세요

    주간 작업 : 작업 요청자에게 서버 OFF 요청

    장비에 콘솔 연결 후 서버 정보 확인하여 서버 OFF 진행

    UID 점등, 바코드 및 시리얼 정보 확인 후 서버 OFF 진행

    주니어 엔지니어의 경우 현장 대리인 이상의 근무자와 2인 1조로 장애처리 진행

    환경 정리 작업으로 서버에 영향을 줄 수 있다고 판단 될 경우 작업 중지

    서버 OFF 및 IP 할당 필요 시 작업 요청 담당자 통해서 진행

    네트워크 - <장애발생 가능 포인트>

    네트워크 작업을 하면서 발생할 수 있는 장애발생 가능 포인트에 대해 숙지하고 업무 시 주의 해주세요

    <장애 발생 가능 포인트>

    1. 모니터링 Alert 발생

    1.1 케이블 정리 및 벨크로 과정에서 기존 케이블 충격으로 인한 핑 페일

    1.2 작업 대상이 아닌 타 운영 포트에서 케이블 제거/연결

    1.3 카카오 담당자 공유 없이 무단으로 지빅 탈장/실장, 케이블 제거/연결

    1. 모니터링 Alert 발생 & 서비스 장애 발생

    2.1 네트워크 열에서 붐비는 작업자로 인해, 케이블 및 지빅 물리적 충격으로 인한 손상

    2.2 케이블 철거 시, 대상인 아닌 운영 중인 케이블 절단

    2.3 장비 철거/파워 교체 시, 대상이 아닌 다른 장비의 파워케이블 제거

    1. 업무 간 주의 사항
    • DK Techin에 센터별 전담 인력 지정 요청. 전담 인력 없이 작업 진행 X

    • 작업 전, 사진 촬영을 통해 작업 대상 인식 / 작업 후, 사진 촬영을 통해 담당자 최종 확인

    • 카카오 담당자의 동행 없이, 전원이 켜진 장비에 대해선 어떠한 작업도 불허함

    • 기존 케이블에 영향을 줄 수 있는 케이블 잡아당기는 행위/마찰로 인한 열 손상/부주의한 작업 등 주의 요청

    • 작업 간, 작업자의 물리적인 충격으로 인해 발생할 수 있는 장애에 대한 위험 인지 교육 요청

    • 주의 사항을 위반하여 서비스 장애가 발생할 경우, 입찰 참여 제한 등 업체 페널티 부여 예정임을 알림

    [네트워크]장애방지를 위해 아래 사항은 꼭 숙지하세요

    장애가 발생 되는 주요 사항에 대해 방지를 위해 아래 리스트 중 꼭 지켜야 할 부분에 대해 체크해주세요

    1. 모니터링 Alert 발생<예방 방안>

    1.1 케이블 정리 작업 시, 벨크로를 바로 풀지 않고 케이블을 먼저 잡고 벨크로를 푸는 방식으로 진행

    1.2 센터별 전담 인력(파트장, 현장대리인급)의 주관하에 물리적 네트워크 작업 진행

    1.3 모든 물리적 네트워크 작업은 카카오 담당자 승인 이후 진행하며, DK Techin 자체 판단/임의 진행을 금지함

    1.4 네트워크 공사 업체에 장애 관련 주의 사항 재전달

    1. 모니터링 Alert 발생 & 서비스 장애 발생

    2.1 전담 인력의 현장 감독하에 작업자 배치 및 물리적인 충격에 유의하며 작업 진행

    2.2 케이블 철거 시, 양 끝단 커넥터 부분을 제외하고 그 외 부분 절단 금지

    2.3 rPDU<->장비 연결된 파워케이블 눈이 아닌 손으로 경로를 확인하는 작업 선행. 단일 파워 장비는 요청자에 재확인

    2.4 릴리즈 노트 작성 및 필터 적용/포트 셧다운 여부 요청자에 재확인

    =====================================================================

    [2차]

    인적오류 발생 방지를 위한 대응 방안_1

    한번씩 정독하고 업무 수행 해주세요.

    • 아지트 업무 수시 체크
    • 일일 업무일지 작성으로 업무 누락 방지
    • 월 말 작업 작업 미완료 리스트 취합 및 일정 확인
    • 장애 발생 시 업무 최우선 순위로 업무 진행 처리
    • 장애 지연 대비 하여 장애처리 중 중간 노티 진행 및 타센터 원격 업무 지원 진행

    인적오류 발생 방지를 위한 대응 방안_2

    한번씩 정독하고 업무 수행 해주세요.

    • IMS 자산관리 실사 일자 파악 하여 누락 방지
    • 일일 / 주간 / 월간으로 재고 자산 실사 진행 및 담당자 요청 파트는 데일리로 실사 하여 재고 관리
    • 매각 리스트 작성 후 DKT 내부에서 이중 체크 진행, 현업 담당자 통해 이중 체크 진행

    인적오류 발생 방지를 위한 대응 방안_3

    한번씩 정독하고 업무 수행 해주세요.

    • 외부 인원 방문 시 인솔 및 동행 상시 수행
    • 물리 보안 담당자 출입 승인 진행 전까지 외부 인원 인솔 미진행
    • 출입문 알람 발생 작업 등록
    • 상면 입/퇴실 시 출압문 확인 진행

    인적오류 발생 방지를 위한 대응 방안_4

    한번씩 정독하고 업무 수행 해주세요.

    • 일일 비지터 카드 불출/반납 수량 확인
    • 매주 전체 비지터 카드 수량 파악 조사
    • 서버실 작업 간 항상 안전화 착용 및 상시 교육 진행
    • 작업 후 또는 육안점검 진행 간 블랭크 판넬 부착 진행

    인적오류 발생 방지를 위한 대응 방안_5

    한번씩 정독하고 업무 수행 해주세요.

    • 상시 교육 및 온도 알람 5분이내 대응
    • 주간 작업 시 2인 1조 진행 하여 크로스 체크 진행
    • 주간은 2인 1조 장애처리 진행 및 장애 방지를 위해 장애 업무 절차로 업무 수행

    =====================================================================

    [4차]

    장비운영 업무 관련

    ❖ 아지트 업무 일정 초과 할 경우

    ❖ 아지트 업무 누락 할 경우

    ❖ 아지트 업무 요청과 다른게 업무를 수행 할 경우

    아지트 요청 업무 일정과 요청에 맞지 않게 업무를 수행 할 경우 오류 카운트 증가합니다.

    장애처리 업무 관련❖ 요청 장애처리 미수행❖ 장애처리 미숙으로 인한 처리 지연*

    장애 업무 수행 중 중요 서비스에 대한 장애처리 지연이 발생하거나 장애 처리를 제대로 이행 할 지 못할 경우 오류 카운트 증가합니다.

    자산 업무 관련❖ 월 1회 전수실사 미수행❖ 자산등록(바코드) 인프라자산 분실❖ 자산등록(바코드) 인프라자산 망실*

    위와 같이 오류가 발생하면 카운트 증가합니다.

    보안 업무 관련

    ❖ 외부인력 인솔/동행 미수행 ❖ 물리보안 담당자 “승인”전 외부인력 인솔, 똑똑 방문(승인) 요청없이 인솔된 건, 요청업무 미수행 건❖ DC 상면 문열림 알람 발생❖ 자리 부재시 화면 보호기 비활성화, 업무문서 세절, 개인PC 보안위배, 디스크 삭제 위반❖ 비지터 카드 분실

    환경 관리 관련

    ❖ 작업 간 위험한 작업 수행 시 안전화 미착용❖ 컨테인먼트내 랙 전면부 블랭크 판넬 미장착❖ 컨테인먼트내 온도 상승 10분 이내 상황인지 및 안내

    인적장애 오류 건

    ❖ 작업 간 타 운영장비 영향 발생❖ 데이터 유실, 교체 스펙 오류, 운영장비 영향 장애발생❖ 비인가 프로그램 설치, 업무 단톡 방에 외부인원 초대


장애래퍼런스 매뉴얼.pdf


2024 신규 표준 서버 및 파트소개

섹션 제목: “2024 신규 표준 서버 및 파트소개”

2024 신규 표준 서버 및 파트 소개 _ 고화질_compressed.pdf



Python_자료.pdf


052상면_VTS_세팅 리스트.xlsx


목동네트워크구조.pptx


  • 크레인

    forfault 서버장비명바코드위치
    krane-hn-forfault-hs5610-m32g4800-nvme3200-001HS5610s24k10729051-05-03-28
    krane-hn-forfault-sp72104e-m32g4800-nvme3200-001SP7-2104Es24k9673051-03-04-14
  • 카프카

    운영 서버forfault 서버장비명바코드위치
    kc-common3-kafka[006:010]kc-common3-forfault002KAYTUS(SP7-2212P(LFF))s23s1382051-05-14-8
    dp-cdc-kafka[011:020]dp-cdc-forfault002XFUSION(2288H-V7)s24k12578051-03-05-4
    billing-aml-hn-kafka[001:003]billing-aml-hn-forfault001KAYTUS(SP7-2104E_LFF)s24k4309074-02-01-30
    kananx-service-kafka[002,005,008,011]kananax-service-forfault002KAYTUS(SP7-2104E_LFF)s24k10362071-05-03-20

하남GPU상면_RSW,HUB 철거 리스트

섹션 제목: “하남GPU상면_RSW,HUB 철거 리스트”

하남GPU상면_RSW,HUB 철거 리스트.xlsx


IDC긴급장애 대응 방안(240122).pdf


/토글

lspci -vvv|grep “NVIDIA” -A28|grep -e “NVIDIA” -e “LnkSta”


하남 IPMI.xlsx


스크린샷 2025-08-07 오후 3.43.22.png

스크린샷 2025-08-07 오후 3.43.01.png


크레인장애처리v33.pdf


NAS 위치 및 ipmi

HN1-052-11-15 1대 HN1-052-11-16 2대

10.121.163.243 10.121.163.246 10.121.163.249 ( 파이어폭스 사용)

ID: pureuser password: dkadmin1!


cd /opt/eslim

./arcconf getconfig 1 (또는 2)

./arcconf CREATE 2 LOGICALDRIVE MAX 10 0 0 0 1 0 2 0 3 noprompt

(2번 컨트롤러에 논리드라이브 용량 풀로 1+0으로 채널0 디바이스0, 0 1, 0 2, 0 3 잡아라. 되묻지 마라.)


  • 내용

    스크린샷 2026-01-13 오전 10.55.15.png

    스크린샷 2026-01-13 오전 10.55.51.png

    스크린샷 2026-01-13 오전 10.56.15.png

    스크린샷 2026-01-13 오전 10.57.43.png

    100% 다차면 끝


  • 내용
    • 샹시출입자(내부감사자, 인솔자)는 즉, 권한이 있는 사람은 콘솔 위 대장 적을필요 없음
    • 임시출입자(카카오, 외부업체)는 콘솔 위 출입대장 작성
    • 4개의 각 존 출입대장 (임시출입자, 상시출입자인데 예를들어 CA만 권한이 있는데 MGMT존의 들어가야 할 경우는 기재한다)
    • 들어갈때 출입대장에 날짜 기입하고 출입자서명하고
    • 나올때도 출입대장에 날짜별로 선긋고 퇴실시 내이름(인솔자)서명 하고 퇴실해야함

  • 내용

    Horse_2026<>;


  • 내용

    smartctl -a /dev/sd* | grep -i “serial”

    해서 시리얼 확인 후

    ./storcli /c1/eall/sall show all | grep -A 6 -B 6 “확인한 시리얼”

    로 인클로저랑 슬롯번호 확인 후

    ./storcli /c*/e*/s* start locate

    로 확인한 인클로저랑 슬롯 영역 입력해서 led 킨다.

    멈출때는 stop


이슬림 P장비 BIOS 납품시 초기 설정값(ex.SP7-2212P(LFF)

섹션 제목: “이슬림 P장비 BIOS 납품시 초기 설정값(ex.SP7-2212P(LFF)”

P장비(캐스캐이드) 바이오스 설정 값_eSlim.pdf


  • 내용

    dd if=/dev/zero of=/dev/$device count=512 bs=10

    $device 부분에 MBR 날릴 서버의 OS 깔려있는 디스크 영역 입력

    dd if=/dev/zero of=/dev/sda count=512 bs=10

    우리회사는 앵간해선 ‘sda’


GPU48.Stably<>;