Home > 전체기사
새롭게 등장한 머신러닝 개발 프레임워크, ‘설계부터 보안’ 강조해
  |  입력 : 2020-02-17 15:13
페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기
베리빌머신러닝기관의 프레임워크, 위험 요소 나열하고 분석하는 것으로 시작
일반 보안과 머신러닝 보안의 가장 큰 차이는 ‘데이터 보안’의 범위와 개념


[보안뉴스 문가용 기자] 베리빌머신러닝기관(Berryville Institute of Machine Learning, BIML)에서 안전한 머신러닝 시스템 개발을 위한 프레임워크를 개발했다. 이 프레임워크의 독특한 점은 시스템 설계와 구축의 초기 단계에서 개발자와 엔지니어들이 집중해야 할 문제들을 주로 다루고 있다는 것이다. 현존하는 프레임워크 대부분은 OS와 데이터를 특정 공격으로부터 보호하는 법에 치중되어 있었다.

[이미지 = iclickart]


BMIL의 공동 창립자이자 보안 전문가인 개리 맥그로(Gary McGraw)는 “머신러닝을 구축하고 사용하는 데에 있어 발생할 수 있는 위험들에 대한 탄탄한 기술적 정보를 제공하는 데에 주력했다”고 설명한다. “즉, 위험 분석이라는 접근법을 머신러닝 개발 프레임워크를 만드는 데 활용한 것입니다. 설계 단계에서부터 참조할 수 있는 머신러닝 개발 프레임워크가 반드시 필요하다는 걸 깨닫고 시작한 작업입니다.”

BIML측은 머신러닝 시스템을 설계하고, 구축하고, 훈련시키고, 실전에 활용하는 전 과정에서 고민해야 할 사항들을 아홉 가지로 정리하고 있다.
1) 원시 자료(raw data)
2) 데이터셋 조합
3) 데이터셋
4) 학습 알고리즘
5) 평가
6) 입력
7) 훈련된 모델
8) 추론 알고리즘
9) 출력

그런 후 각 항목에 대한 보안 고려 사항들을 다시 꼽기 시작했다. 예를 들어 ‘원시 자료’ 항목에서 꼽힌 건, 1) 기밀성, 2) 데이터 출처의 신뢰도, 3) 데이터 저장소였다. ‘데이터셋’ 항목의 경우에는 ‘데이터 오염 시도’가 가장 큰 위협 요소인 것으로 나타났다. 공격자들이 데이터셋을 오염시킬 경우 학습 알고리즘을 전혀 다른 방향으로 진화시킬 수 있기 때문이다. 이렇게 해서 꼽힌 위협의 수는 총 78개인 것으로 집계됐다.

하지만 BIML의 프레임워크는 이런 위험 요소들의 대처법을 상세하게 다루고 있지는 않다. “저희가 프레임워크를 만든 건 머신러닝과 관련된 위험 요소들에 어떤 것이 있는지 알리고, 이를 다 같이 방비함으로써 안전한 머신러닝 생태계를 구축하자고 북돋기 위함입니다. 즉, 이런 위험 요소들이 있으니 얘기를 한 번 해보자고 대화를 시작한 것에 불과하죠. 대처법까지 알려주며 교화하려는 의도는 없었습니다. 또한 위험 요소들을 식별하고 정리하는 것만으로도 충분히 우리의 역할을 했다고 믿습니다.”

그 외에도 BMIL은 가장 큰 위협이 되는 10대 위험 요소들을 따로 정리해 꼽기도 했다. 1위는 머신러닝 시스템에 잘못된 예시나 데이터를 주입하는 공격이 차지했다. 이럴 경우 시스템이 완전히 잘못된 방향으로 성장해 사용자에게 엉뚱하고 오류 가득한 결과를 내기 때문이다. 데이터 오염 시도, 온라인 시스템 공격, 데이터 기밀성 공격, 데이터 무결성 침해 등이 여기에 포함된다.

데이터 보안의 중요성
그렇다면 머신러닝 시스템 보안과 일반 사이버 보안에는 어떤 차이가 있을까? 맥그로는 “데이터 보안의 중요도가 엄청나게 높다는 것”이라고 짚는다. “데이터 보안을 제대로 하지 못할 경우 머신러닝 시스템이 인종이나 성별, 특정 국적을 혐오하거나 차별하는 성향을 띌 수 있다는 것이 이미 수차례 증명되기도 했습니다. 즉, 데이터를 온전하고 깨끗하며 아무런 편견 없이 보호하는 것이 머신러닝 계통에서의 ‘데이터 보안’의 의미입니다.”

그러면서 그는 한 가지 예를 들기도 했다. “마이크로소프트가 개발한 테이(Tay)를 보세요. 실험성 강한 AI 프로젝트였는데, 트위터 피드를 학습시키니 독설을 자동으로 뱉는 기계가 되어버렸죠. 그것도 혐오 발언에 능숙한 욕쟁이가 되었어요. 트위터를 학습했을 때 나오는 결과는 그리 아름답지 않다는 커다란 교훈을 남기고 해당 프로젝트는 사라졌습니다.” 머신러닝에서의 사이버 보안은 이런 부분에까지 신경을 써야 한다는 게 그의 설명이다. 맥그로는 “잘 알려진 사실이 아니지만, 머신러닝 시스템을 겨냥해 해킹 공격을 실시하는 게 그리 어려운 일은 아니다”라고 덧붙이기도 했다.

“다행히 이런 여러 가지 위험 가능성을 크게 낮출 수 있는 사람들이 있어요. 바로 엔지니어와 디자이너들이죠. 머신러닝 시스템을 설계하고 구축하는 사람들의 의지에 따라 시스템의 안전성이 달라진다는 겁니다. 그래서 저희가 설계 단계에 투입되는 사람들을 위한 프레임워크를 개발한 것이기도 합니다.”

해당 프레임워크는 여기(https://berryvilleiml.com/2020/02/13/biml-releases-first-risk-framework-for-securing-machine-learning-systems/)서 열람이 가능한 상태다.

3줄 요약
1. 머신러닝 시스템 설계자와 개발자를 위한 새 프레임워크 등장.
2. 이 프레임워크는 머신러닝 시스템이 가지고 있는 위험 요소들을 분석하는 접근법 가지고 있음.
3. 문제 해결 방법이 실린 것은 아님. 문제가 있다는 걸 지적하고 같이 대화해보자는 게 이 프레임워크의 목적이었으므로.

[국제부 문가용 기자(globoan@boannews.com)]

Copyrighted 2015. UBM-Tech. 117153:0515BC
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

  •  
  • 0
  • 페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기


  •  SNS에서도 보안뉴스를 받아보세요!! 
그린존시큐리티 4개월 배너모니터랩 파워비즈 6개월 2020년6월22~12월 22일 까지넷앤드 파워비즈 진행 2020년1월8일 시작~2021년 1월8일까지위즈디엔에스 2018파워비즈배너 시작 11월6일 20181105-20200131
설문조사
코로나19 팬더믹 이후, 가장 기승을 부리고 있는 사이버 공격 유형은 무엇이라고 보시나요?
랜섬웨어
피싱/스미싱
스피어피싱(표적 공격)/국가 지원 해킹 공격
디도스 공격
혹스(사기) 메일
악성 앱
해적판 소프트웨어
기타(댓글로)