Home > 전체기사

3차례 카카오톡 장애 점검결과 살펴보니... 무엇이 문제였고 어떻게 개선해야 하나

입력 : 2024-05-31 17:15
페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기 네이버 블로그 보내기
과기정통부, 카카오 연속 장애 시정 요구
사전테스트 실시, 작업관리 통제, 매뉴얼 구체화 등 3개월내 시정조치 요구사항 심의·의결


[보안뉴스 권준 기자] 5월에만 세 차례에 걸쳐 발생한 카카오톡 장애와 관련해서 과기정통부의 조사와 함께 관리계획 점검 결과가 발표됐다.

과학기술정보통신부(장관 이종호, 이하 과기정통부)는 최근 3차례 발생한 카카오톡 서비스 장애의 원인 및 대응·복구현황에 대한 카카오의 통신재난관리계획의 이행 여부를 지난 21일과 23일에 점검하고, 통신재난관리심의위원회를 개최해 카카오의 미흡사항에 대한 시정조치 요구사항을 심의·의결했다.

이에 과기정통부는 카카오에게 1개월 이내 개선 조치계획을 수립해 제출하고, 3개월 이내에 시정결과를 제출하도록 할 계획이라고 31일 밝혔다.

▲카카오톡 소개 화면[이미지=카카오]


△첫 번째 장애 : 5.13(월) 13:44~13:50(6분간)
첫 번째 장애는 당시 카카오톡 이용자의 약 80%가 카카오톡 메시지 발신 지연과 실패로 불편을 겪었을 것으로 추정되며, 장애의 원인은 카카오톡 서비스가 운영되고 있는 데이터센터 서버의 파일을 업데이트하는 작업 중 기존 파일을 삭제하는 과정에서 오류가 발생했기 때문이다.

카카오는 5월 13일 장애 발생(13:44) 직후 서비스 이중화와 여유 서버를 가동(13:47)해 6분 만에 서비스를 복구(13:50)했다. ‘서비스 이중화’란 평상시 동일 서비스를 2개 이상의 데이터센터에서 중복 운영하면서 하나의 데이터센터에 서비스 장애가 발생한 경우에도 다른 데이터센터에서 서비스를 지속 제공하는 방식으로서, 카카오는 지난 2022년 10월 15일 판교 데이터센터 화재로 인한 후속 대책으로 카카오톡에 대해 이중화 조치를 완료한 바 있다.

점검 결과, 카카오는 실제 작업을 진행하기 전에 사전테스트를 실시하지 않아 발생 가능한 오류에 대비하지 못한 것으로 확인됐다.

△두 번째 장애 : 5.20(월) 14:52~14:58(6분간)
두 번째 장애의 경우 당시 카카오톡 이용자의 약 80%가 메시지 수발신 실패로 불편을 겪었을 것으로 추정되며, 네트워크 부하 분산을 위한 내부 시스템 기능개선 작업 중 발생한 오류가 원인이다. 카카오는 5월 20일 장애 발생(14:52) 직후 이전 장애와 동일하게 서비스 이중화를 가동(14:53)하여 6분 만에 서비스를 정상화(14:58)했다.

점검 결과, 카카오는 실제 작업을 진행하기 전에 사전테스트는 실시했으나 개발결과물의 테스트 환경이 실제 카카오톡 운영환경과 차이가 커 미리 장애 가능성을 식별하지 못한 것으로 확인됐다.

△세 번째 장애 : 5.21(화) 08:30~09:24(54분간)
가장 길었던 5월 21일 장애는 당시 카카오톡 이용자의 약 8%에 영향을 미쳤을 것으로 추정되며, PC용 카카오톡 로그인 실패 및 모바일용 카카오톡 메시지 수발신 지연이 있었다. 특히, 서비스 이용률이 높은 아침 출근 시간에 54분간 장애가 발생해 이용자들의 불편이 컸다.

이번 장애는 두 번째 장애를 일으킨 서버의 오류를 미해결한 상태에서 동일 데이터센터에 있는 다른 서버에 Java 프로그램 업데이트를 진행한 것이 원인이었다.

카카오는 장애 탐지(08:30) 즉시 자동화 도구 등을 이용해 복구를 시도하는 것과 동시에 장애 원인 분석 및 조치방안을 검토(08:30~09:04)한 후, 서비스 이중화를 가동(09:04)하고 추가적인 수동 복구 작업을 거쳐 서비스를 정상화(09:24)했다.

점검 결과, 카카오는 내부적으로 작업 통제를 하지 않아 전날 장애가 발생한 서버의 오류를 미해결한 상황에서 통제 없이 새로운 작업을 진행해 오류가 발생한 것으로 확인됐다.

과기정통부는 이번 장애의 원인 및 대응·복구현황에 대한 카카오의 2024년 통신재난관리계획의 이행여부를 점검하고 미흡사항에 대해 시정을 요구했다. 통신재난관리계획은 ‘방송통신발전법’ 제36조에 따라 사업자가 수립한 통신재난·장애 예방-대비-대응-복구를 위한 전주기적 계획을 의미한다.

이에 따라 카카오는 1개월 이내로 시정 요구사항에 대한 개선 계획을 마련해 제출하고, 3개월 이내에 시정한 결과를 과기정통부에 제출해야 한다. 개선 계획과 관련한 과기정통부의 요구사항은 다음과 같다.

① 주요 작업 전 사전테스트 체계 강화
SW 업데이트, 시스템 교체, 신규 서비스 출시(배포) 등 주요 작업 전에 발생할 수 있는 오류를 사전 검증하기 위해 사전테스트 실시 대상 작업과 수행해야 할 테스트 범위(단계) 등에 대한 구체적인 내부지침의 보완과 함께 사전테스트 환경을 실제 운영환경과 유사하게 구성하도록 3개월 이내에 고도화 계획을 마련하여 제출하고, 계획대로 추진할 것을 요구했다.

실제 카카오의 경우 첫 번째 장애 때는 테스트를 실시하지 않았고,. 두 번째 장애 당시에는 테스트를 실시했지만, 결과 관리가 미흡했던 것으로 드러났다.

②작업관리 통제 강화
또한, 주요 작업에 대한 승인·통제가 가능하도록 작업의 성격이나 작업 규모 등을 고려한 작업관리 프로세스를 정립해 작업관리 전반을 체계화하고, 카카오가 당초 2024년 통신재난관리계획에 반영한 작업관리 시스템의 도입을 계획대로 차질 없이 추진할 것을 요청했다.

작업관리 시스템의 경우 작업등급 구분, 작업계획 수립, 승인체계, 작업전 환경점검, 작업수행, 모니터링, 작업 결과보고, 작업이력 관리 등 작업관리 전반에 대한 체계적인 내부정책을 마련하는 것이다.

③통신재난 관련 매뉴얼 및 지침 보완
재난·장애 발생시 신속한 대응과 의사결정을 할 수 있도록 장애유형별·부서별 역할(전사 전파, 복구물자·인력투입, 이용자 고지 등)을 반영해 매뉴얼을 보완하고, 기술적 오류방지 조치, 트래픽 집중·증가 대비 조치 등을 위해 형식적인 ‘서비스 안정성 자체지침’을 구체적으로 보완할 것을 요구했다.

④모니터링 시스템 고도화를 통한 장애 탐지 강화
현재 서버, 네트워크, 서비스 등 개별 운영 중인 모니터링 체계를 보완해 재난총괄부서에서 재난·장애 시 개발부서와 협업해 전파하고 총괄 대응할 수 있도록 3개월 이내에 통합 모니터링 시스템 구축 계획을 수립해 제출하고, 계획대로 추진할 필요가 있다는 점을 강조했다.

⑤장애 원인분석, 사후관리 체계화
유사한 장애가 재발하지 않도록 카카오가 운영 중인 ‘장애 회고 프로세스’를 표준화·공식화하고, 이번 장애의 복구·재발 방지방안을 포함한 전사 차원의 중·장기적 장애 재발 방지대책을 마련하고, 체계적으로 그 결과를 관리할 필요가 있다고 당부했다.

⑥장애 사실 이용자 고지 개선
장애 탐지 및 기업 내에 전파 후 이용자 고지 담당부서에서 즉시 대응 조치할 수 있도록 장애 고지 기준 및 시점에 대한 지침을 마련하고, 이용자가 보다 더 빠르고 쉽게 장애사실, 장애복구 여부 등을 인지할 수 있도록 카카오 고객센터 홈페이지 외에도 SNS 등 다양한 채널을 활용해 고지 채널 및 고지 방법을 보다 실효성 있게 개선할 필요가 있다는 점도 요구했다.

과기정통부는 5월 31일 카카오의 재난대응 총괄 책임자와 별도 면담을 통해 통신재난관리심의위원회의 심의·의결 결과에 따른 시정 요구사항을 전달하고, 카카오가 서비스를 안정적으로 제공하기 위한 책임 있는 대책을 마련하도록 엄정 촉구했다.

이종호 과기정통부 장관은 “국민 생활에 큰 영향을 주는 디지털 서비스 장애가 다시는 반복되지 않아야 한다”고 강조하며, “디지털 서비스 장애는 국민 일상의 불편을 넘어 사회·경제 전반에 지대한 영향을 끼치는 만큼 재발 방지를 위해 사업자의 관리체계를 면밀히 점검하겠다”고 말했다. 이어 “카카오도 국민들의 관심으로 성장한 기업인 만큼 재난·장애 관리를 위한 조직문화 개선과 함께 이용자에게 편리하고 안정적인 서비스를 제공하도록 책임을 다할 필요가 있다”고 밝혔다.
[권준 기자(editor@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

  •  
  • 0
  • 페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기 네이버 블로그 보내기

  •  SNS에서도 보안뉴스를 받아보세요!! 
 하이젠 파워비즈 23년 11월 16일~2024년 11월 15일까지 아스트론시큐리티 파워비즈 2023년2월23일 시작 위즈디엔에스 2018
설문조사
3월 15일부터 시행되고 있는 개정 개인정보보호법과 관련해 가장 까다롭고 이행하기 어려운 조항은 무엇인가요?
인공지능(AI) 등 자동화된 결정에 대한 정보주체 권리 구체화
접근권한 관리 등 개인정보 안전성 확보조치 강화 및 고유식별정보 관리실태 정기조사
영향평가 요약본 공개제도 도입 등 개인정보 영향평가제도
영상정보처리기기 및 안전조치 기준
개인정보 보호책임자의 전문성 강화 위한 전문CPO 지정
국외 수집·이전 개인정보 처리방침 공개 등 개인정보 처리방침 평가제도
손해배상책임 의무대상자 변경 및 확대
공공기관 개인정보 보호수준 평가 확대
기타(댓글로)