Home > 전체기사
진정한 시각화는 좋은 질문에서 시작된다
  |  입력 : 2017-03-29 17:44
페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기
시각화, 인간의 눈과 뇌 활용한 강력한 데이터 분석법
무엇을 찾고 싶은지 구체적인 질문 있어야 효과 발휘해


▲ 무엇이 문제인가? 그것이 문제로다

[보안뉴스 문가용 기자] 낯이 익어 반가운 척 하고보니 이름이 기억나지 않아 난감했던 기억이 있는가? 누군가를 만난 기억은 있는데, 장소만큼은 하얗게 지워진 기억은? 아마 누구나 이런 경험들 한 번씩 있었을 것이다. 왜냐하면 인간의 뇌가 시각적인 정보와 그렇지 않은 정보를 처리하는 방식이 전혀 다르기 때문이다.

글을 써나가기 전에 하나 밝히고 싶은 건, 필자가 뇌 과학자가 아니라는 것이다. 하지만 여러 가지 다양한 경험을 해본 결과 인간의 눈은 시각적인 패턴을 꽤나 빠르게 파악한다는 걸 잘 알고는 있다. 예를 들어 딱 한 개의 이상점이 있는 막대 그래프가 있다고 해보자. 아마 한 번 쓰윽 훑어보기만 해도 이 이상점을 파악하는 게 그리 어렵지 않을 것이다. 그런데 막대 그래프가 아니라 숫자가 빼곡히 적혀 있는 표라면 어떨까? 이상점을 한 눈에 짚어내기가 훨씬 힘들 것이다.

이 새로울 것 없는 예시에는 보안 전문가들을 위한 교훈이 담겨 있다. 데이터의 시각화가 강조되는 데에는 이유가 있다는 것이다. 시각화는 이상 현상을 탐지해내는 인간의 가장 자연적인 능력을 발휘하게 해주는 방법이다. 이 자연적인 능력이 얼마나 강력한지, 데이터의 시각화만 제대로 할 수 있다면 일반인들조차 이상한 점을 발견할 수 있게 해준다. 그러나 이 시각화에 대한 ‘경시 현상’이 너무나 두드러지고 있다. 일부 기업의 마케팅 전략으로만 치부하거나, 모니터 몇 개 설치해놓고는 시각화가 끝났다고 말하기도 한다.

하지만 그런 선입견이나 편견을 굳히기 전에, 먼저 한 걸음 뒤로 물러서서 시각화 자체에 대해서 생각해보자. 데이터를 시각화해서 우리가 얻을 수 있는 건 무엇인가? 보안의 어떤 분야에 도움을 줄 수 있는가? 바로 정보 분석이다. 데이터를 더 잘 이해하기 위해서 인간의 눈이 가진 분석력을 빌리자는 것이다. 깊은 분석도 아니고, 그저 좀 튀는 이상한 부분을 먼저 대략이라도 골라내는 데에 눈 만큼 좋은 도구도 없다. 그런데 왜 시각화의 발전과 도입이 이리도 더딘 것일까?

현대의 데이터 분석 과학은 구체적인 질문에 대한 답을 찾아내는 데에 매우 특화되어 있다. 아니면 특정한 사용 사례도를 위한 자료 제시에 큰 기능을 발휘한다. 무슨 말일까? “뭔가 재미있는 걸 찾아내라”라는 광범위한 주제보다, “침해당한 것으로 보이는 권한 계정을 찾으시오”라는 질문이 더 선호된다는 것이다. 현재의 데이터 분석학은 아직 이 점을 간과하고 있다. “아직 분석 과학에 요구하는 것이 모호하다는 것이죠.”

이는 시각화에도 그대로 적용된다. 기업들이나 단체들은 1) 처리되지 않은 각종 원 데이터를 가지고 2) 도식화 하거나 그래프를 만든다. 시계열이나 산점도, 막대 그래프 등이 바로 그런 예들이다. 그런데 여기에는 어떤 ‘중점 사안’이나 ‘주제’가 없다. 그냥 데이터를 다른 방식으로 열거한 것일 뿐이다. “그래서 데이터를 이런 식으로 시각화 했을 때 얻을 수 있는 게 뭘까요?”라고 물어보면 침묵만이 돌아온다. 그러니 시각화 한다고 해도, 전혀 시각화의 이득을 볼 수 없는 것이다.

그러면 어떻게 해야 할까? 올바른 질문에 대한 해답을 구하는 차원에서 시각화 작업을 진행해야 한다. 질문이 있어야 생각을 좀 더 깊게 해볼 수 있게 되고, 답을 찾는 과정에서 생각지도 못한 결과들을 얻어낼 수 있는 것이다. 예를 들어 악성 C&C 서버를 찾아내라는 임무보다, 콜백(callback)을 탐지하라는 문제가 주어진다면 어떨까? 시스템이 악성 코드에 감염되면, 보통 C&C 인프라로 연락을 취하는 게 보통이다. 그런데 C&C 인프라가 온라인이 채 되지 않은 경우가 있다. 아니면 C&C 서버를 통해 공격자들이 잠시 쉬고 있으라고 명령을 보냈을 수도 있다. 이런 경우 콜백 추적을 잘 하면 온라인화 되지 않거나 잘 알려지지 않은 C&C 인프라를 잡아낼 수도 있다.

이 예시를 DNS 데이터로 옮기는 것도 가능하다. 일정 시간(24시간 정도) 응답이 없는 도메인 요청을 찾아내기 위해 데이터를 필터링해야 한다. 그리고 마지막으로 도메인 이름, 요청의 횟수 등으로 데이터를 재분류하는 게 가능해진다. 이렇게, 보다 구체적인 질문을 바탕으로 진행된 시각화는 맹목적으로 데이터를 그래프 위에 올려놓은 시각화 작업과는 차원이 다른 결과를 보여준다.

예를 들어 요청의 횟수에 따라 데이터를 시각화했다고 치자. 도메인 요청에 응답이 없는 경우는, 도메인 이름에 오타가 섞였다든지 환경설정에 실수가 있을 때도 가능하다. 하지만 시스템이 감염되었기 때문에 요청에 대한 응답이 없는 거라면, 위 두 경우보다 요청 횟수가 훨씬 높다. 즉 눈으로 얼른 보기에 충분히 튀어보일 수 있는 이상점이 된다는 것이다. 근거가 확실한 그래프화와 한 눈에 보이는 이상점. 이 경험이야말로 시각화가 줄 수 있는 명료함이다.

시각화라는 말이 최근 대두가 되어서 그렇지, 사실은 데이터와 눈의 효율적인 사용을 뜻할 뿐이다. 그러나 아무 데이터나 그래프화 시킨다고 시각화에 성공한 것은 아니다. 내가 찾고자 하는 것이 무엇인지 정확히 알고, 정확한 질문을 탐구할 수 있어야 한다. 시각화는 그 답을 찾아가는 방법 중 하나이며, 아주 강력하기도 하다. 그러니 질문을 잘 하자. 시각화는 곧 질문이다.
[국제부 문가용 기자(globoan@boannews.com)]

Copyrighted 2015. UBM-Tech. 117153:0515BC
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

  •  
  • 1
  • 페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기


  •  SNS에서도 보안뉴스를 받아보세요!! 
모니터랩 파워비즈 6개월 2020년6월22~12월 22일 까지넷앤드 파워비즈 진행 2020년1월8일 시작~2021년 1월8일까지위즈디엔에스 2018파워비즈배너 시작 11월6일 20181105-20200131
설문조사
코로나19 팬더믹 이후, 가장 기승을 부리고 있는 사이버 공격 유형은 무엇이라고 보시나요?
랜섬웨어
피싱/스미싱
스피어피싱(표적 공격)/국가 지원 해킹 공격
디도스 공격
혹스(사기) 메일
악성 앱
해적판 소프트웨어
기타(댓글로)