보안뉴스 창간 17주년을 축하합니다!!

Home > 전체기사

행정전산망 마비 사태 왜 일어났나? 네트워크 장비 교체 시기와 시스템 이중화 대처 ‘미흡’ 논란

입력 : 2023-11-20 15:26
페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기 네이버 블로그 보내기
사고 발생 하루 전 펌웨어 업데이트 작업...롤백하고 정상 작동 확인
국가보안기술연구소에서 장애 원인 관련 테스트 예정
좀 더 신속한 장비 교체와 시스템 이중화 구성 미흡 지적


[보안뉴스 김경애 기자] 대국민 민원 서비스인 ‘정부24’와 공무원 전용 행정전산망 ‘새올’ 시스템을 비롯한 국가 행정전산망이 약 3일 동안 마비됐다가 복구된 가운데, 이를 관리하는 행정안전부 산하 국가정보자원관리원에서 발생한 장애 원인이 아직까지 명확하게 밝혀지지 않고 있어 이에 대한 관심이 커지고 있다. 본지 취재 결과 네트워크 장애 원인으로는 △장비 교체 과정에서의 문제 △네트워크 작업 과정에서의 오류 △OS 펌웨어 문제로 인한 오류 등 크게 3가지 중 하나로 추정되고 있다.

▲국가정보자원관리원의 장애 발생 이슈와 관련해 정부24 홈페이지에 올라온 공지사항[이미지=정부24]


첫째, 네트워크 장비 교체의 경우 장비를 교체하는 과정에서 호환성 문제 등으로 제대로 통신이 이뤄지지 않거나 장애가 발생하는 일이 흔하기 때문이다. 그러나 전산망 마비 사태 이후 장비가 교체됐기 때문에 장비 교체로 인한 원인은 아닌 것으로 보인다.

장비 교체와 관련해 본지 취재 결과, 사고 발생 이후 18일 국가정보자원관리원의 요청으로 기존에 사용하던 L4 스위치 제품을 고성능의 L4 스위치 새 제품으로 교체한 것으로 파악됐다. 이후 서비스가 가오픈됐으며, 행안부에서 19일(일요일) 장비 교체에 대해 공식 발표했다.

따라서 장비 관련해서는 장비의 노후화 또는 다른 부분에서 문제가 됐을 가능성이 있다. 국가보안기술연구소는 추후 이번 사태의 원인 파악을 위해 장비에 대한 테스트를 진행할 계획으로 알려졌다.

둘째, 네트워크 작업 과정에서의 오류다. 이는 작업자의 실수를 예로 들 수 있다. 이와 관련 한 보안전문가는 “L4의 경우 장비가 많으면 스크립트를 짜서 명령을 내리는데, 스크립트가 돌면서 자동으로 명령에 따라 수행한 후, 해당 장비에서 빠져 나와 또 다른 장비에서 명령을 수행하게 된다”며, “그런데 출구 명령이라고 할 수 있는 엑시트를 잘못 넣으면 장비에서 빠져나오지 않고 그 안에서 머물러 돌면서 작업 수행이 제대로 이뤄지지 않는다”고 설명했다. 즉, 작업자의 실수로 인한 오류 발생 가능성도 배제할 수 없다는 얘기다. 그러나 본지 취재에 따르면 작업과정에서의 오류는 파악되지 않았다.

마지막 세번 째는, OS 펌웨어 문제다. 이 경우, 네트워크 장애에 있어 비일비재하게 발생하는 이슈 중 하나로 L4 스위치는 여러 서버를 연결해주는 중개 역할이기 때문에 많은 장비와 연결돼 있는데, 업데이트 과정에서 호환성 문제 등 여러 변수와 요인들로 인해 한 번에 업데이트가 안 되는 경우가 많다는 지적이다.

이와 관련 한 보안전문가는 “OS 펌웨어 업데이트의 경우 워낙 변수가 많아 한 번에 되는 경우는 거의 없다”며 “예를 들어 방화벽 장비도 똑같은 것을 사용하는데 동작하지 않는 경우도 있다. 그래서 일반 기업, 기관에서도 OS 펌웨어 업데이트는 시간을 정해두지 않고 작업한다. 이번 사태의 경우 롤백을 했는데도 문제가 발생했다는 건 특이 케이스로 펌웨어 동작 자체의 문제점일 수도 있고, 버전 업데이트 과정에서 통신에 문제가 발생한 것일 수도 있다”고 예측했다.

이와 관련 본지 취재 결과, 국가정보자원관리원의 네트워크 장애 발생 하루 전날인 16일(목요일) 당시 L4 OS 펌웨어 작업이 진행됐지만, 별다른 특이점이 발견되지는 않은 것으로 조사됐다.

이와 관련 익명을 요구한 보안업계 관계자는 “국가정보자원관리원의 요청으로 펌웨어 업데이트 일정에 따라 사고 발생 전날 펌웨어 OS 작업을 한 건 맞다. 사고 발생 이후 롤백(이전 단계로 원상 복구)으로 원상복구를 시켰지만 특이점, 이상한 점을 발견하지 못했다”며 “펌웨어는 당시 정상 운영된 것으로 확인됐다”고 밝혔다.

이처럼 네트워크 장애에 대한 정확한 원인이 파악되고 있지 않은 가운데, 장애 발생 시 서비스를 신속하게 대체할 수 있는 조치인 서비스 이중화 구성은 미흡했다는 지적이 일고 있다. 서비스 이중화는 정상적인 서비스 제공을 위해 한쪽에서 장애가 발생하면 빠르게 대체되어 정상적으로 서비스가 유지될 수 있도록 하는 장애대응 시스템 구성이다.

이와 관련 익명의 보안전문가는 “일반적으로 서비스 장애 발생시 서비스가 정상 운영되도록 이중화하는 게 일반적인데, 이번 사건의 경우 장애가 오래 지속된 걸 봐서는 이중화 체계가 제대로 갖춰지지 않은 것으로 보인다”고 했다. 또 다른 보안 관계자는 “장애 이중화 구성에 대해서는 언급할 수 없다”며 양해를 구했다.

따라서 이번 장애 발생 사건과 관련해 사고 발생시 신속한 장비 교체에 대한 부분과 서비스 이중화에 대해서는 뭇매를 피할 수 없게 됐다.

고려대학교 정보보호대학원 임종인 교수는 “L4 스위치가 문제였고, 이중화 백업 시스템이 제대로 작동하지 않은 점이 사실이라면 지난해 카카오 화재 사건과 같은 경우”라며 “당시 설계 미스 등 여러 요인으로 백업체계가 제대로 작동하지 않아 복구에 여러 날이 소요됐다”며, “무엇보다 위기관리 시스템이 잘 작동될 수 있도록 시스템 구축 및 관리가 철저히 이뤄져야 한다”고 지적했다.

서울여자대학교 정보보호학과 김명주 교수는 “업무영속성(BCP)과 재난복구성(DRP)이 실질적으로 이루어지지 않은 것이 문제”라며 “L4 스위치는 이중화를 해도 같은 제품일 경우 펌웨어 갱신시 동시에 망가질 수도 있다. 더 큰 차원에서의 이중화를 생각해볼 시점이며, 지금까지 잘 운영해온 시스템이라고 안주하지 말고 어느 시점에서는 원점 기반 리모델링이 필요하다. 지금이라도 이러한 근원적이며 거시적인 리뷰가 진행돼야 한다”고 강조했다.

스틸리언 신동휘 CTO는 “펌웨어, 네트워크 작업 등에서 문제가 발생했을 가능성이 있다”며, “원인 파악이 쉽지 않은 만큼 정상화 이후 충분히 파악할 수 있도록 시간이 확보돼야 한다”고 말했다.

익명을 요청한 또 다른 교수는 “장애의 원인 규명이 철저히 이뤄져야 한다. 이는 동일 유형 장애의 재발 방지를 위해 매우 중요하기 때문”이라며, “또한, 장애대응 체계의 전반적인 점검과 개선이 필요하다”고 당부했다.
[김경애 기자(boan3@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

  •  
  • 4
  • 페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기 네이버 블로그 보내기

  •  SNS에서도 보안뉴스를 받아보세요!! 
 하이젠 파워비즈 23년 11월 16일~2024년 11월 15일까지 아스트론시큐리티 파워비즈 2023년2월23일 시작 위즈디엔에스 2018 넷앤드 파워비즈 진행 2020년1월8일 시작~2021년 1월8일까지
설문조사
2023년 주요 보안 위협 가운데, 올해 말까지 가장 큰 피해를 끼칠 것으로 예상되는 위협은?
공급망 공격
다크웹 기반 랜섬웨어 조직
북한/중국/러시아 등 국가 지원 해킹그룹 활동
스마트폰을 노린 보안 위협
OT 타깃 공격
피싱 공격
기타(댓글로)