보안뉴스 창간 17주년을 축하합니다!!

Home > 전체기사

[보.알.남] 다크 데이터, 한때 잊혀졌었지만 다시 주목받을 수 있는 죽은 정보들

입력 : 2022-08-26 18:14
페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기 네이버 블로그 보내기
빅데이터와 비슷하면서도 구조화돼 있지 않고, 더는 사용하지 않는 ‘죽은’ 데이터
저장공간만 차지하고 심각한 보안 위험 초래할 수 있는 다크 데이터 감소방안 마련해야


알쏭달쏭한 보안 용어들을 알기 쉽게 풀어주는 코너, ‘보안 알려주는 남자’입니다. 어디선가 들어는 봤지만, 막상 설명하려면 쉽지 않은 생활 속 보안 용어의 개념, 역사 등을 스토리텔링 방식으로 소개하는 [보.알.남]은 매주 다양하고 ‘핫’한 내용으로 연재됩니다[편집자주]

[보안뉴스 김영명 기자] ICT 발전에 따라 기업 내에서 정보의 생산량이 늘어나고, 관련 데이터가 증가하고 있다. 하지만 정보의 수집, 가공, 저장 등을 총괄하는 정보 시스템이 분산되면서 데이터가 효율적으로 통합 관리되지 않고 다크 데이터(Dark Data)가 많아졌다.

[이미지=utoimage]


다크 데이터는 무엇을 의미하는가?
다크 데이터는 빅데이터(Big Data)와 비슷하면서도 구조화돼 있지 않고, 더는 사용하지 않는 ‘죽은’ 데이터를 의미한다. 일반적으로 다크 데이터는 정보를 수집해 저장한 이후 분석이나 특별한 목적을 위해 활용하는 데이터가 아니다. 하지만 많은 개인과 조직에서 매일 수많은 데이터를 생성하지만, 활용되지 않는 데이터도 수없이 많다. 단지 향후 사용할 가능성이 있다는 이유로 삭제되지 않고 방치되는 다크 데이터는 저장공간만 차지하고 심각한 보안 위험을 초래할 수 있다.

미국 IT분야 리서치 기업 가트너(Gartner)는 다크 데이터를 ‘어떤 한 그룹이 정기적인 비즈니스 활동 중에 수집, 처리 또는 저장하지만, 일반적으로 분석이나 비즈니스 관계 형성 또는 직접적인 수익 창출 등 다른 목적으로 사용하지 않는 정보 자산’으로 정의했다.

물리학 또는 천문학에서 언급되는 암흑 물질(Dark Matter)과 유사하기도 한 다크 데이터는 보통 특정 조직의 정보 자산의 일부로 구성돼 있다. 따라서 조직은 규정 준수 목적으로만 다크 데이터를 보유하는 경우가 많다.

여러 이유로 조직은 다크 데이터를 보유하게 되는데, 기업 대부분은 자신들의 다크 데이터 중 단 1%만을 분석하고 있는 것으로 추산된다. 또한, 일부 조직은 더욱 뛰어난 분석 및 비즈니스 인텔리전스 기술을 갖고 있다면 정보 처리를 위해 다크 데이터가 미래에 유용하게 활용될 자산이 될 것으로 믿고 있다. 하지만 데이터를 저장하고 보호하려면 일반적으로 해당 데이터의 가치보다 더 큰 비용 또는 더 큰 위험이 발생하기도 한다.

유형에 따른 다크 데이터의 분류
다크 데이터의 유형은 산업에 따라 다양하게 존재한다. 스마트폰의 메인 화면의 날씨 데이터는 실행 중인 앱에서, 브라우저 검색 또는 접속 기록은 쇼핑 앱에서 수집될 수 있다.

다크 데이터는 기본적으로 인터넷을 통해 접속하고, 전송되는 모든 것으로부터 생성된다고 봐도 무관하다. 운영 소프트웨어 및 서비스 관리 기업인 BMC 소프트웨어에 따르면 데이터 패키지는 한쪽에서 다른 한쪽으로 전송되는데, 이 과정에서 암호화할 수 있으며 데이터를 찾는 사람들은 패키지 자체에 무엇이 있는지 손쉽게 확인하기는 어려울 수 있지만, 그 과정에서 이미 공개된 데이터 등 또 다른 정보를 찾을 수도 있다.

다크 데이터의 유형은 △로그 파일(서버, 시스템, 아키텍처 등) △이전 직원 데이터 △재무제표 △지리적 위치 데이터 △원시 설문 조사 데이터 △감시 비디오 영상 △고객 통화 기록 △이메일 서신 △메모, 프레젠테이션 또는 오래된 문서 등 산업별 혹은 유형별로 다양하다.

인터넷 데이터센터(IDC)는 전체 데이터의 90%가 비정형 데이터일 것으로 추정하고 있다. 비정형 데이터는 데이터 구조가 없어 그 자체만으로는 내용에 대한 질의 처리를 할 수 없는 무의미한 데이터다. 따라서 비정형 데이터의 분량을 줄여야 하지만, 이를 줄여나가기 위해 기계 학습 모델을 구축하는 것보다 비정형 데이터의 수집이 훨씬 간편하기 때문에 비정형 데이터의 증가 추세는 아주 가파르다. 다크 데이터는 활용 가능한 정형화된 데이터가 아닌 비정형 데이터에 포함돼 몇 년 안에 전체 데이터 비율의 95~97%를 차지할 수 있다는 분석도 있다. 심지어는 전 세계의 모든 데이터의 99% 이상을 다크 데이터가 차지할 것이라는 이야기도 나온다.

효율적인 다크 데이터 검색 방법
다크 데이터는 거의 모든 스토리지 리포지토리(repository, 정보를 모아 놓고 공유할 수 있게 한 정보의 저장소)에서 찾을 수 있다. PC의 하드 드라이브, 스토리지 어레이 또는 하위 시스템 또는 공용 클라우드에도 존재할 수 있다. 다크 데이터를 발견하기는 쉽지 않으며, 이를 찾아내고, 식별하며, 수정하기 위해서는 다양한 방법으로 찾으려는 노력이 필요하다.

다크 데이터를 자동으로 검색 및 식별할 수 있는 도구나 방법은 없다. 다크 데이터를 찾기 위해 IT 관리자는 △비즈니스에 존재하는 애플리케이션 및 기타 데이터 소스를 이해하고 △해당 데이터 소스에 프로비저닝된 스토리지 자산을 인식하며 △2차 데이터 검색은 로그 파일, 문서, 이미지, 비디오와 PDF 등 콘텐츠 유형을 포함해 광범위한 검색 방법을 동원해야 한다.

IT 팀은 비즈니스 목적에 사용되는 전체 데이터 콘텐츠의 양을 파악하고, 새로 발견된 데이터 자산의 보안, 보존 및 규정 준수 상태를 평가하고 함께 정리할 필요성이 있다. IT 전문매체 테크타깃에서 제시한 ‘다크 데이터의 효율적인 검색을 위한 주요 체크리스트’는 다음과 같다.

- 기업이 보유하고 있는 총 데이터는 얼마나 됩니까?
- 응용 프로그램, 시스템 또는 사용자와 같은 데이터의 출처는 어디입니까?
- 서버, 스토리지 어레이 또는 클라우드와 같은 데이터는 어디에 저장됐습니까?
- 해당 데이터 중 얼마나 많은 데이터가 분석 또는 수익 창출에 사용되고 있습니까?
- 얼마나 많은 데이터가 사용되지 않습니까?
- 발견된 모든 다크 데이터는 어떻게 보호되거나 액세스 여부가 모니터링됩니까?
- 규정 준수와 같은 비즈니스 목적에는 얼마나 많은 다크 데이터가 필요합니까?
- 다크 데이터에는 데이터 보존 및 삭제 정책이 적용됩니까?

기업의 담당자가 위의 항목을 중심으로 평가를 주기적으로 반복한다면 총 데이터 증가 및 다크 데이터의 관리, 보안 준수 정책의 격차 등 데이터 추세를 쉽게 인식하고 처리할 수 있다.

[이미지=utoimage]


다크 데이터를 유용하게 사용할 수 있는 노하우
한 그룹의 데이터를 전문적인 지식을 갖춘 IT 담당자가 제대로 관리한다면, 꾸준한 데이터의 관리와 평가를 통해 그룹 전체와 클라우드에 있는 스토리지 자산에 보관돼 있으나 미처 사용되지 않는 다크 데이터를 확인할 수 있다. 그룹이 다크 데이터를 식별하고 출처를 인식하면 리더는 다크 데이터의 효율적인 사용방법에 대해 다양한 결정을 내릴 수 있다.

다크 데이터 사용 노하우는 해당 데이터를 비즈니스 프로세스에 통합하는 것이다. 그룹의 리더는 보안, 비즈니스 프로세스, 개인정보보호 및 규정 준수의 관점에서 다크 데이터를 검토할 수 있다. 다크 데이터가 보호되지 않으면 리더는 적절한 보안 조치를 취할 수 없기 때문이다.

그룹의 운영 및 성장 정책 중에는 다크 데이터가 포함될 수도 있다. IoT 장치의 데이터의 유용 기간은 그렇게 길지 않다. 일반적으로 데이터가 6개월 이상 사용되거나 활용되지 않는 경우 해당 데이터를 별도로 보관하거나 관리할 이유는 거의 없다. 이러한 데이터는 데이터 폐기 정책에 따라 삭제가 가능하며, 이 같은 조치를 통해 스토리지 리소스를 복구할 수 있다.

다크 데이터를 사용할 수 있는 노하우는 많지만, 그룹에서는 일반적으로 비즈니스 전략을 개발하고 개선하는데 도움이 되는 빅데이터 분석과 AI의 적용에 중점을 두고 있다. 기존 분석에 다크 데이터를 추가해 통찰력을 구체화하거나 새로운 통찰력과 기회를 제공할 수도 있다.

예를 들면, 물품 제조기업에서 제조에 사용하는 공장의 특정 기계를 작동시킬 때 기계 내부에 있는 IoT 장치에서 매번 수없이 생성되는 운영 데이터를 수집하지만, 해당 IoT 데이터는 결국 다크 데이터가 된다. 기업은 해당 IoT 데이터를 사용해 예측장비 유지관리를 위한 제조 프로세스를 분석한 뒤, 이를 활용해 전반적인 비즈니스 비용을 절약할 수 있다.

IT 인프라를 구성하는 서버, 방화벽, 네트워크 모니터링 도구 및 데이터센터 전체의 각각 구성단계와 기타 구성요소에서 방대한 양의 데이터를 생성하게 된다. 생성된 데이터 대부분은 운영상 특정한 문제가 발생하지 않는 이상 신경 쓰지 않아 다크 데이터로 남을 수밖에 없다. 이를 분석해 활용 방안을 찾는다면 IT 인프라의 유용성과 성능 향상이 가능하다.

다크 데이터, 효율적인 관리와 감소 방안
다크 데이터는 그룹 전체의 수많은 애플리케이션, 장치 로그와 기타 지류에서 생성된 최하위층의 데이터로 특별히 관심을 두지 않는 한 유용하게 활용될 가능성은 희박하고, 구조화되지 않은 방대한 데이터의 바다다. 따라서 이렇게 끊임없이 생산되는 다크 데이터를 조금 다른 관점에서 바라보고 이를 제대로 관리할 수 있는 방법을 찾는 것은 특히 데이터를 중요시하는 IT 기업 등 몇몇 기업에는 새로운 기회가 될 수 있다. 테크타깃에서는 다크 데이터를 줄이기 위해서는 일반적으로 4가지 단계를 제시했다.

첫 번째 단계는 ‘PC 내 형성된 소스를 충분히 이해’하는 것이다. 모든 다크 데이터는 소스를 추적할 수 있어야 한다. 다크 데이터를 발견하는데 사용되는 감사(조사)는 고객 거래기록, 시스템 및 네트워크 로그 또는 IoT 장치 스트림이 될 수 있는 출처를 밝히는 것이 필요하다.

두 번째 단계는 ‘중요도의 결정’이다. 다크 데이터로 분류되는 모든 데이터는 비즈니스에 유용하게 사용되지도 않으며, 유용한 데이터 중에서 유효기간이 지난 데이터도 있을 수 있다. 그룹 담당자는 보안 또는 인프라 정책을 기준으로 보관할 데이터와 보존기간을 결정해야 한다.

세 번째는 ‘보존 및 삭제 절차의 설정’이다. 기업은 데이터 보존 도구를 사용해 규정된 기간에 스토리지 및 보안 정책을 시행하고, 만료된 데이터는 삭제한다. 데이터 보존 도구는 저장 비용을 절감하고 중요한 데이터만 처리하는 것이 필요하다.

네 번째는 ‘원치 않는 소스를 종료’하는 것이다. 비즈니스는 데이터는 꼭 필요한 것은 아니다. 비즈니스에 주어진 데이터 세트가 필요하지 않은 경우 해당 데이터 소스를 비활성화할 수 있다. 애플리케이션과 IoT 장치에는 로깅과 같은 특정 작업을 비활성화하는 구성 옵션이 있다. 비즈니스 데이터 세트가 증가하면 다크 데이터는 꾸준히 생성될 것이다. 따라서 IT 담당자는 다크 데이터를 정확하게 파악하고, 분석하며, 효율적인 관리를 위한 조치가 필요하다.
[김영명 기자(sw@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

  •  
  • 0
  • 페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기 네이버 블로그 보내기

  •  SNS에서도 보안뉴스를 받아보세요!! 
 하이젠 파워비즈 23년 11월 16일~2024년 11월 15일까지 아스트론시큐리티 파워비즈 2023년2월23일 시작 위즈디엔에스 2018 넷앤드 파워비즈 진행 2020년1월8일 시작~2021년 1월8일까지
설문조사
2023년 주요 보안 위협 가운데, 올해 말까지 가장 큰 피해를 끼칠 것으로 예상되는 위협은?
공급망 공격
다크웹 기반 랜섬웨어 조직
북한/중국/러시아 등 국가 지원 해킹그룹 활동
스마트폰을 노린 보안 위협
OT 타깃 공격
피싱 공격
기타(댓글로)