세계 보안 엑스포  전자정부 솔루션 페어  개인정보보호 페어  국제 사이버 시큐리티 컨퍼런스  세계 태양에너지 엑스포  스마트팩토리  세계 다이어트 엑스포  INFO-CON
Home > 전체기사
[한국정보보호학회 칼럼] 인공지능 기반 사이버 보안을 위한 선결요건
  |  입력 : 2017-05-29 14:30
페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기
대용량 악성코드 샘플 확보와 공유에 대한 논의 시작해야

[보안뉴스= 이정현 숭실대학교 교수] 구글의 인공지능 알파고가 지난 5월 27일 중국 저장성에서 열린 바둑 대국에서 세계 1위인 커제 9단을 3연승으로 꺾고, 중국의 바둑 최고수 5명이 단체로 도전한 경기마저 이기며 인간 바둑고수들에게 굴욕을 안겼다. 지난해 이세돌 9단과 5번기를 시작으로 연 초 인터넷 대국 60판, 이번 중국 대국까지 인간을 상대로 모두 68승 1패의 전적을 기록했다. 이세돌 9단의 유일한 1승이 오히려 위대해 보이기도 하다.

[이미지=Iclickart]


이에 앞서 작년 11월에는 구글이 신경망에 기반을 둔 딥 러닝을 적용해 지금까지 우리가 알던 번역기와는 차원이 다른 인공지능 번역기를 선보였다. 실제 필자가 최근에 한글 문서를 번역해 보니 매우 만족스런 결과를 얻을 수 있었음에 매우 놀랐고, 한편으로는 고맙기도 했다.

알파고로 대표되는 최근 인공지능의 핵심 기술은 ‘딥 러닝(Deep Learning)’이라 말할 수 있다. 딥 러닝이란 충분한 데이터와 기본 원리들로 부터 새로운 방법을 스스로 학습하게 하는 것이다. 따라서 구글 딥마인드 CEO가 언급한 것처럼 새로운 환자 치료 및 진단이나 에너지 소비 감축, 혁신적인 소재 등을 찾기 위해 앞으로 더욱 활발한 연구들이 진행될 것으로 예상된다.

딥 러닝 기술을 사이버 보안 분야에 활용하면 어떨까? 기존 악성코드 DB로부터 새로 등장할 것으로 예상되는 잠재적인 위협요소들을 스스로 학습해 사전에 차단할 수 있는 패턴을 만들어 낼 가능성이 있다면 적극 도입할 가치가 충분해 보인다. 하지만 딥 러닝을 사이버 보안에 적용함에 있어서 한 가지 놓치지 말아야 할 중요한 선결요건이 있다.

앞서 언급한 구글 번역기 예를 다시 살펴보면 이 선결요건에 대한 힌트를 얻을 수 있다. 종전의 번역기들은 문장의 구조를 주어, 동사 등 형태소로 분류한 다음 개별 단어들을 일대일 치환하여 번역문을 재조립하는 방식이었다. 그래서 혹자는 한글과 일본어가 문장 구조가 같아서 일본어로 먼저 번역한 다음 영어로 번역하면 더 잘된다는 노하우 아닌 노하우를 전하는 시절도 있었다.

하지만 새로 바뀐 구글 번역기는 이러한 문장의 구조 분석 즉, 머신 러닝에서 얘기하는 특성(Feature)을 추출하는 것이 아니라, 구글이 이미 확보하고 있는 빅데이터를 기반으로 주어진 문장에 가장 가까운 번역 샘플을 통계적 추론에 의해 찾아주는 방식이다. 즉, “대부분의 사람들이 이 문장은 이렇게 번역하는구나”하고 판단을 내려주는 방식인데, 이것의 만족도가 매우 뛰어나다는 점이다. 여기서 핵심은 딥 러닝 알고리즘이라기보다는 이미 구글이 확보하고 있는 방대한 양의 빅데이터에 있다.

이러한 관점에서 지능형 사이버위협 대응을 위한 우리의 현실을 냉정하게 한번 살펴보자. 인공지능이 핫 이슈여서 충분한 악성코드 데이터 확보 없이 너도 나도 딥 러닝 알고리즘을 성급하게 사이버 보안 분야에 적용해 본다고 하자. 기본적으로 딥 러닝은 베이즈 이론(Bayes Theorem)에 따른 최대 우도 예측(Maximum Likelihood Estimation)을 하는 것이다. 다시 말해 악성코드 판단 시에 51 대 49의 통계적 확률이 나왔을 때 딥 러닝은 악성 확률이 2% 정도 높다라고 하는 것이 아니라 100 대 0으로 보정해 악성코드라고 판단해 버리는 방식인 것이다.

만약, 100개 또는 1,000개의 초미니 악성코드 샘플 DB를 기반으로 딥 러닝을 적용하여 새로운 악성코드를 분석하고 그 결과를 다시 기존 악성코드 샘플 DB에 추가한다면 어떤 결과가 초래될지 상상해 보라. 이것은 역으로 그동안 악성코드 분석가들이 힘들게 분석해 모아 둔 순도 높은 악성코드 DB들을 오염시켜서 오탐 또는 미탐 확률만 높이는 역효과를 거두게 될 지도 모른다.

그러므로 이제라도 더 늦기 전에 딥 러닝 기반 악성코드 분석을 실용성 있게 활성화하려면 대용량 악성코드 샘플을 국가적으로 공유할 수 있는 방안에 대해 산학연이 머리 맞대고 적극적으로 논의해야 할 시점이다. 미국의 경우 DARPA(Defense Advanced Research Projects Agency), NSA(National Security Agency), DoE(Department of Energy) 등이 악성코드 샘플들을 수십 테라바이트(TB) 단위로 자국 내에서 연구목적으로 활용하는 조건으로 학교와 연구기관들에 제공하고 있는 사례들은 우리에게 시사한 바가 크다.
[글_ 이정현 숭실대학교 사이버보안연구센터 센터장/교수(jeongy@gmail.com)]

필자 소개_숭실대학교 이정현 교수는 Univ. of California, Irvine에서 박사학위를 취득했고 ETRI 부호기술부, 미국표준기술연구소(NIST), 삼성종합기술원을 거쳐 현재 숭실대학교 소프트웨어학부 교수, 융합특성화자유전공학부 정보보호전공 주임교수, 숭실대학교 사이버보안연구센터 센터장을 맡고 있다. 또한, 한국정보보호학회 상임 이사와 논문지 편집위원으로 활동하고 있다.

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

  •  
  • 1
  • 페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기


  •  SNS에서도 보안뉴스를 받아보세요!! 
위즈디엔에스 2018WD 파워비즈 2017-0305 시작
설문조사
내년 초 5G 상용화를 앞두고 통신사들의 경쟁이 더욱 치열해지고 있습니다. 다가오는 5G 시대, 무엇보다 보안성이 중요한데요. 5G 보안 강화를 위해 가장 잘 준비하고 있는 통신사는 어디라고 보시는지요?
SK텔레콤
KT
LG유플러스
잘 모르겠다
기타(댓글로)