[제2차 정보보호산업 진흥계획 집중진단-2] 정보보호 데이터 활용기반 조성

과기정통부, 정보보호 원천데이터 가공 및 지원해 AI보안 학습데이터 강화한다
CCTV 영상 및 얼굴 등 생체인식 데이터, 실제와 똑같은 환경으로 영상 제작해 제공

[보안뉴스 원병철 기자] 과기정통부가 2021년부터 2025년까지 5년간 정보보호산업의 발전전략으로 수립한 ‘제2차 정보보호산업 진흥계획’이 한 걸음씩 준비되고 있다. 특히, 진흥계획의 핵심인 ‘10대 중점 추진과제’ 중 두 번째 ‘정보보호 데이터 활용기반 조성’은 정보보호 데이터 활용을 통한 AI 기반 보안기술 확산을 목표로 추진될 예정이다.

현재 글로벌 IT 기업들은 정보보호 빅데이터를 축적해 AI기반의 지능형 차세대 보안 기술개발에 적극적인 투자를 하고 있다. 구글은 AI를 활용해 일 1억 개 이상의 스팸메일을 추가로 차단하고 있고, IBM은 사이버범죄를 원천봉쇄할 수 있는 보안위협 지능형 플랫폼을 개발하고 있다. 또한, 아마존도 머신러닝으로 자사 클라우드 계정을 보호하는 기술을 개발하고 있다.

하지만 국내 AI 기술 수준은 미국 대비 78% 수준으로 미흡하고, 해킹·비정상 데이터 학습 등 사이버 위협에 대한 대비도 부족한 것으로 과기정통부는 판단하고 있다. 실제로 국내 데이터 시장은 수요와 공급이 모두 부족한 상황이며. 거래량도 미국의 1/400 수준이다. 아울러 데이터 기술력은 미국 대비 79%이며, AI 기술력은 78% 수준으로 평가하고 있다. 이에 데이터3법 개정으로 AI와 데이터를 활용한 보안산업 활성화를 위해 정부차원의 AI보안 기술·학습데이터 지원이 필요한 것으로 과기정통부는 진단하고 있다.

과기정통부의 추진전략은?
이에 과기정통부는 두 가지 추진전략을 세웠다. 우선 정보보호 관련 원천데이터를 AI보안 학습용으로 가공·지원해 ‘정보보호+AI’에 활용할 수 있는 데이터 지원체계를 구축한다. 이를 위해 AI·데이터 바우처 사업을 통해 수집한 데이터를 최대한 활용할 계획이다. 두 번째로는 AI 기반 보안제품 신규개발, 기존 제품의 AI 적용 및 테스트베드 환경 지원 등 AI를 적용한 보안제품 개발 활성화를 유도하는 방법이다. 아울러 추진전략을 위한 ①AI 기반 보안제품 확산을 위한 학습데이터 가공·공유 체계 구축과 ②정보보호기업의 AI 학습데이터 이용 지원 등 두 가지 추진과제를 준비했다.

①AI 기반 보안제품 확산을 위한 학습데이터 가공·공유 체계 구축
과기정통부는 정보보호 기업을 비롯한 산·학·연의 AI 기반 정보보호 기술 및 제품·서비스 개발 지원을 위한 학습데이터 가공·공유 체계를 구축(2021~)한다. 여러 곳에 분산되어 제공 중인 정보보호 원천 데이터를 종합적으로 수집·가공하고, AI 학습데이터 공유를 위한 이용 기반을 강화할 계획이다.

이와 관련 과기정통부 정보보호산업과 정은수 과장은 “정보보호 관련 원천 데이터 확보를 위해 한국인터넷진흥원(이하 KISA)이 자체적으로 수집·가공할 뿐 아니라, 정보보호 관련 산학연과도 협력해 진행하고 있다”고 설명했다.

과기정통부는 악성코드 및 악성앱 데이터는 KISA에서 운영 중인 K-사이버 시큐리티 챌린지 대회를 통해 확보한 데이터를 기반으로 재가공해 AI 학습데이터로 구축하고 있다. 또한, 중·장기적으로 2021년에는 앱을 포함한 악성 및 정상 데이터, 2022년은 네트워크 학습데이터 등으로 데이터 종수를 지속적으로 확장할 예정이다. 이를 통해 구축된 데이터의 경우 클라우드 기반 데이터 제공 플랫폼 개발을 통해 공유할 계획이며, 산·학·연에서 AI보안 제품 개발 시에 활용할 수 있을 것으로 기대하고 있다.

아울러 물리보안의 경우 기업이 자체적으로 확보하기 어려운 영상을 AI를 활용해 가상데이터로 제작하고 있다고 덧붙였다. 2018년에는 기업이 AI연구개발용 영상데이터 3,500개를 배포한 바 있으며, 앞으로는 지능형 CCTV 성능시험을 위해 필요한 날씨(눈·비·안개 등) 환경에서의 이상행위(침입·배회 등) 영상과 산불, 홍수, 폭설 등 재난 환경에 대한 영상을 제작해 배포할 계획이라고 밝혔다.

다만 실제 환경에서 수집된 CCTV 영상은 개인정보보호법 문제로 반출이 어렵기 때문에 연기자를 활용해 촬영한 데이터를 수집한다고 과기정통부는 밝혔다. 또한, AI를 활용한 재난재해 가상데이터를 제작해 제공할 예정이다. 가상데이터는 AI 기술을 활용, 현실에서 발생하거나 발생 가능성이 있는 상황을 가정해 실제와 유사한 수준으로 제작한다. 지문도 어느 특정인의 지문이 아닌 가상의 지문을 제작하고, CCTV 영상은 활용가능 하도록 실제 산불과 홍수 등과 유사한 수준으로 제작할 계획이다.

해외에서도 AI기술을 활용해 가상의 데이터를 제작하는 것은 초기 연구 단계이며, 이미 KISA에서 가상데이터 제작도구(SW)를 프로토타입 수준으로 개발해 가능여부를 확인한 바 있다. 2021년부터는 데이터의 품질 향상과 더불어 수량도 확대해 산업계 등이 활용할 수 있도록 적극 지원할 예정이라고 정은수 과장은 설명했다.

이와 함께 정보보호 제품의 품질 향상을 위해 데이터의 규모, 다양성 등을 확대해 양질의 AI 보안 학습데이터를 단계적 제공할 계획이다. 또한, 민간 클라우드 서비스 등을 통해 AI 보안 학습데이터를 개방해 시공간 제약 없이 제품 개발이 이루어질 수 있도록 기업을 지원한다.

②정보보호기업의 AI 학습데이터 이용 지원
정보보호기업의 영상, 생체인식 등 데이터 기반의 지능형 보안제품·서비스 개발을 위해 학습 데이터 구매 및 가공을 집중 지원(2022~)한다. 특히 데이터 구매, 일반 가공, AI 가공 등을 데이터바우처 사업과 연계해 지원할 계획이다.

이를 위해 AI 보안 학습데이터의 안전한 활용을 위한 비식별처리(기업정보, 피해자 정보 제거 등) 및 비식별 처리기술(데이터, 영상정보 등에 개인정보를 비식별처리, 영상합성 등) 개발을 지원(2022~)할 방침이다.

또한, AI 보안 성능을 검증할 수 있는 AI 보안 테스트 지원(AI 기반 보안제품 신규개발 또는 기존 제품에 AI 기능 적용을 위해 필요한 샘플 데이터셋 제공 및 AI 보안 성능개선 컨설팅)을 통해 AI 보안 머신 학습의 정확도 개선과 제품 고도화를 추진(2022~)할 예정이다. 그리고 정보보호 AI 제품 신규개발 또는 기존 제품에 AI 기능 적용을 위해 필요한 샘플 데이터셋을 제공하고 AI 보안 성능개선 컨설팅을 추진한다.

AI보안 데이터를 활용해 산학연 전문가가 기술개발·성능을 경쟁하는 AI 보안 기술개발 챌린지 대회도 개최(2022~)한다. 개방형 문제해결 플랫폼인 (가칭) 한국형 캐글(Kaggle)로 단계적인 확대 개편을 통해 데이터 이용역량 강화와 제품 개발을 촉진할 계획이다. 캐글이란 기업이 해결하려는 문제에 데이터와 상금을 걸면, 전문가들이 해결책을 찾는 방식으로, AWS와 페이스북, 마이크로소프트가 캐글을 통해 총 상금 100만 달러 상당의 ‘딥페이크 식별 알고리즘 개발 챌린지’를 개최해 13개국 1,000개 이상의 팀이 참여한 바 있다.
[원병철 기자(boanone@boannews.com)]

우리나라 정보보호 수준 향상을 위해 이재명 정부에게 가장 바라는 점은 무엇인가요?
	ISMS 등 보안 인증 제도 실효성 개선
	AI 보안, 양자보안 등 보안 기술 연구개발 지원 확대
	중소 기업 보안 지원 확대
	기업 보안 예산 비율 의무화
	국가 정보보호 거버넌스 체계 정비
	기타(댓글로)