부산역에서 서울행 17:20 KTX를 놓치고 혼자서 씩씩댔는데,
17:45 자유석을 끊으려고하는데 갑자기 전산단말기가 먹통이 되더니만
korail.com도 접속 불통... 심지어는 리테일 상점의 POS 단말기까지 먹통...
부산역에서는 서울역 상황 보도나온것처럼은 아니었지만
비상발매 자체가 거의 불가능할정도로 홀릭 상태였습니다.
우여곡절끝에 그냥 타고나서 도착역인 서울역에서 정산을 마치는걸로 끝냈는데
올라오는 KTX에서 상황을 계속 연락해봤는데 정리를 해봤습니다.
- 17:25 갑작스런 서버다운사태
- 17:28 (부산역기준) 안내방송 시작
- 17:30 (부산역기준) 손님들 및 직원들 우왕좌왕사태..
(이때까지만해도 몇분안에 해결될걸로 예상했었죠.)
- 17:32 예약/예매했던 승객들 차내 승무원에게 직접 좌석지정받으라고 안내시작
(실제로 예매를 미리 했었지만 좌석번호를몰라서 차내에서 입석으로가던 승객도 있었습니다.)
- 17:35경 원인을 알수없다고 비상발매 조작시작
(근데 발매직원들이 최근들어서 비상발매를 해본적이 있어야지 -_-a;; 직원들도 홀릭 승객도 홀릭..)
- 17:40 서울지사에 전산팀에 근무하는 선배한테 전화했으나...
올 6월에 계약 만료된 전문계약직들 재계약을안하고 인원을축소해버리는바람에 다른부서로 전출됐다는 소식;;
- 18:00경 다되갈쯤 연합뉴스 첫 보도 전송
- 18:30 대전 본사에 계신분과 통화완료
사유 : 코레일 서울지사내에있는 메인전산서버 정전으로인한 다운
복구예정 : 20:00정도로 잡고있었음
- 19:40경 복구완료 (연합뉴스 기사전송 및 승무원 단말기 정상가동)
여기서 드는 의문점 및 책임론
1. 정말 정전이라면 UPS(무정전전원공급장치)가 작동을 하지않은 이유는?
2. 왜 하필 철도파업도중?.. (처음에는 순간 과다트래픽으로인한 서버다운인줄알았음..)
3. 서울지사에 소속되어있던 전문계약직 인원이 꽤 됐었는데 왜 이들을 인력감축시키기위한 활용이었는가?
(적어도 파업기간만큼은 파업나가는인원 땜빵으로 타 부서에있던 전문계약직들을 대기를 시켜야 정상이 아닌지?)
과연 진실은 무엇인지 궁금하기만합니다.
누군가가 일부러 단자를내렸는지.. 아니면 어쩌다보니 그렇게 된건지...
어쨌든 사상 초유의사태는 2시간반만에 해결이되었지만
절대로 이런일이 다시는 일어나면 안된다고 생각합니다.
삭제된 댓글 입니다.
UPS가 버티는시간은 짧게는 10분~ 길게는 1시간까지 가능하죠. 코레일같은경우 대형서버이기때문에 30~40분정도는 무난히 버텨줄수있을것같다고 판단됩니다. 아무리 파업기간이었다고해도 서버관리 필수유지인력이 있었을텐데.. 정전이 5분인 상황에서 서버 리붓과 복구에 무려 2시간이라는 시간이 소요되었다는것자체도 이해가안됩니다. 거기다가 하필 금요일 피크RH때말이죠...
UPS의 목적 자체가 "영원한 전기 공급"이 아니라, 정전시 갑자기 컴퓨터가 꺼져 데이터가 소실되는 경우를 막기 위해 정전 후 서버가 정상적으로 종료될 때까지 유예를 주는 정도에 불과합니다. 보통 30분~1시간 정도로 시간을 잡는데, 정전이 되면 UPS 배터리가 다 떨어지기 전에 자체발전기 등의 비상전원을 투입을 하든 서버를 내리든 둘 중 하나를 수행해야 합니다.
서울지사 건물에 자체발전기의 여부는 잘 모르겠네요. 전산실 근무했던 선배한테 연락해서 물어봐야겠네요. 근데 정전은 단 5분이었는데.. 파업기간이아니고 평소였다면 충분히 큰 불편은 없었을거라는 생각이드네요. 어차피 그 시간이면 직원들 퇴근했을 시간도 아니었을테고요..
몇년 전에 IDC가 연달아 정전되는 사고가 벌어졌었는데, 정전 후 대처가 늦어서 그렇다고 볼 수도 있겠습니다. 보통 대규모의 서버를 운용하는 곳은 각종 비상상황(정전, 해커에 의한 서버 공격, 회선 사용 불능 등)에 대처하는 훈련을 하는데, 철공의 훈련 커리큘럼이 잘못되었거나, 어떠한 이유로 그런 교육을 받은 사람이 자리에 없었거나 등의 이유를 생각해 볼 수 있겠죠.
그리고 서버 리붓에는 상당한 시간이 필요합니다. 일단 서버가 종료 과정을 수행하는데 길게는 수십분이 걸리며, 다시 기동할 때도 그정도 시간이 걸린다고 보시면 됩니다. 즉, 일정시간 안에 초기 대응(비상전원 투입 등)을 하지 못해 서버가 셧다운 과정을 진행해버렸고, 꺼지고 다시 켜지는 데 시간이 걸려 거의 두시간에 가까운 시간을 잡아먹었다고 생각할 수 있겠습니다.
코레일이 해킹 혹은 갑작스런 정전 및 다운에 대응할수있는 인력들과의 재계약을 하지않아서 이번사태가 더욱 컸다고 생각이됩니다. 생각해보니 철공에서 그 분야의 커리큘럼은 없는것같네요. 정전초기에 비상전원투입만했었더라고 어제사고는 막을수있었을텐데말이죠..
이날 전국 각 역에서는 '대수송 예약발매 기간'이 울고 갈 정도였습니다. 처음에는 파업 때문에 고의로 전원 내려버린 줄 알았습니다. 그러고보니 비상발매 하려면 비상발매용 아이디가 있어야 하는데 최근(어제를 제외한)에 이 아이디로 로그인했던 적은 없었군요 -_-
이런사태가 사상 초유의사태이다보니... 현장에서 근무하는직원들이 비상발매아이디를 써봤을까나 -_-.. 교육때 대충 지나가면 끝일텐데...ㅎㅎㅎ 하튼 서울역 보도자료보니 완전 패닉+홀릭 = 서울역 ㅎㅎㅎ
파업하는 노동자들 중 헤커 경력이 있었던 사람들도 있어서 일부러 먹통이 되게 했다.라는 의견도 조심스럽게 내놓을 만 합니다.
사실 처음에는 해킹에의한 서버다운이라고 생각을 했었습니다. 하필 시간이 금요일 피크타임이었기때문이죠. 근데, 서울지사 건물 정전이 사실로 확인되어서 생각을 바꾸게 되었죠.. ㅎㅎ
삭제된 댓글 입니다.
UPS가 노후된건 아닐겁니다. 코레일에 메인서버가있는 서울지사의 서버를 대수송예약 등 여러가지를 이유로 증설한지 얼마안되었기때문에말이죠. 보통 증설할때 그에맞게 UPS도 증설시키고 비상전력테스트를 가동하는건 기본인데.. 솔직한심정으로는 문제를 크게만들어서 사고재발이 없게하고싶기만합니다.
대수송기간이 아님에도.. / UPS 어찌하여... 이 두 가지가 논란이 되겠네요.
해킹은 그닥 가능성이 없는 이야기인듯 합니다.