콘텐츠로 이동

PING_FAIL (NIC 카드 교체)

작성 일시: 2024년 5월 10일 오후 5:55 태그: IMS, TMS[장애대처], 데일리

  1. 장애 티켓 확인.

스크린샷 2024-05-10 오후 5.56.15.png

  1. 접속 후 장애 원인 알아봐야 함.

  2. dceng@infra-sys-gate에서 원격접속 안됨.

  3. ipmi 접속 안됨.

  4. 서버실 가서 콘솔 연결 후 장애원인 파악.

  5. 해당 상면 위치 파악 후 서버에 콘솔 접속 및 로그 확인.

sudo -i
cat /var/log/messages

스크린샷 2024-05-10 오후 6.00.03.png

(장애조취 후 캡처한 화면임)

May 10 15:38:40 t-common01-bwcache66 kernel: bnx2x: [bnx2x_attn_int_deasserted0:4172(eth0)]SPIO5 hw attention
May 10 15:38:40 t-common01-bwcache66 kernel: bnx2x 0000:06:00.0 eth0: Fan Failure on Network Controller has caused the driver to shutdown the card to prevent permanent damage.#012Please contact OEM Support for assistance

위와같은 오류 로그 확인.

bnx2x = NIC 카드.

  1. NIC 의 FAN 오류였음.

    → NIC 교체해야함.

  2. 전원 OFF 후 서버 열어서 NIC 을 교체해야 하는 상황이라 SE 에게 연락.

  3. SE와 소통 후 안전하게 서버 서비스 DOWN.

  4. 서버 UID 점등 → ‘핫존’ 에서 ‘서비스케이블’ 및 ‘매니지먼트케이블’ 및 ‘전원선’ 제거 → ‘쿨존’ 에서 서버 빼서 뚜껑 까기 → NIC 제거 후 교체

  5. SE 에게 작업 내역 보고.

  6. NIC 을 교체했기 때문에 MAC 주소가 변경 되었음. IMS 에서 MAC 주소 수기로 변경해야 함.

  7. IMS 에서 호스트네임으로 상세정보 들어간 뒤 교체한 NIC 의 MAC 주소로 변경.

    → MAC 주소 알아보는 방법.

    ifconfig

    스크린샷 2024-05-10 오후 6.12.01.png

    eth0 = 현재 연결된 NIC

    MAC 주소 = 00:0a:f7:58:1d:90

  8. IMS 의 정보 수정한 뒤 TMS 에서 장애처리 완료조치.

스크린샷 2024-05-10 오후 6.17.09.png

스크린샷 2024-05-10 오후 6.18.22.png

스크린샷 2024-05-10 오후 6.18.58.png

  1. 사용한 NIC 의 정보도 IMS 에서 수정해야 함.(1개 사용)

스크린샷 2024-05-10 오후 6.25.04.png

  • 처음부터 끝까지 다뤄볼 일이 있으면 좋겠음.
  • 명령어 알아보기
194 2024-05-10 16:28:25 ifconfig
195 2024-05-10 16:30:19 ethtool eth0
196 2024-05-10 16:32:02 ifconfig
197 2024-05-10 16:41:06 ps -ef | grep wcache
198 2024-05-10 16:41:09 netstat -anpto
199 2024-05-10 16:41:12 uptime
200 2024-05-10 16:41:21 df -Th
201 2024-05-10 16:41:31 exit
202 2024-05-10 16:33:25 ethtool
203 2024-05-10 16:33:27 ifconfig
204 2024-05-10 16:34:14 df
205 2024-05-10 16:34:43 ethtool eth0
206 2024-05-10 16:35:17 ethtool -i eth0
207 2024-05-10 16:38:54 ifconfig
208 2024-05-10 16:39:25
209 2024-05-10 16:42:29 cat /var/log/messages
210 2024-05-10 16:42:56 cat /var/log/messages | grep eth
211 2024-05-10 16:35:50 dmesg -T
212 2024-05-10 16:36:05 w
213 2024-05-10 16:36:56 dmesg -T |grep -i err
214 2024-05-10 16:37:09 lsb_release -d
215 2024-05-10 16:37:17 cat /var/log/messages
216 2024-05-10 16:37:26 cat /var/log/messages |grep -i error
217 2024-05-10 16:37:36 cat /var/log/messages |grep -i mem
218 2024-05-10 16:37:54 history
219 2024-05-10 16:38:22 ifconfig
220 2024-05-10 16:38:32 ethtool eth0
221 2024-05-10 16:39:11 w
222 2024-05-10 16:39:15 netstat -tlnp
223 2024-05-10 16:39:17 ,sb,m
224 2024-05-10 16:39:18 lsblk
225 2024-05-10 16:39:30 netstat -tlnp
226 2024-05-10 16:39:33 uptime
227 2024-05-10 16:39:34 dmesg -T
228 2024-05-10 16:39:37 ifconfig
229 2024-05-10 16:39:46 /data/server/wcache/run.sh start
230 2024-05-10 16:39:48 /data/server/wcache/run.sh startignorecat
231 2024-05-10 16:42:39 w
232 2024-05-10 16:42:43 netstat -tlnp