Home > 전체기사

[테크칼럼] 이미지를 알면 보안과 업무효율 동시에 향상된다

  |  입력 : 2020-12-29 16:22
페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기
이미지에서 문자를 추출하는 OCR 모듈과 이를 활용한 이미지 속 개인정보보호 대책

[보안뉴스= 최복희 엘세븐시큐리티 대표이사] 최근 4차 산업에 많은 관심을 갖고 있고, 다양한 산업의 변화가 이루어지고 있다. 또한, 정부에서도 뉴딜정책을 발표하면서 새로운 분야에 많은 기술이 발표되고 있다. 이런 4차 산업의 기본이 되는 기술 중에서 이미지에서 문자를 추출하는 OCR(Optical Character Recognition : 광학적 문자인식) 모듈이 각광을 받고 있다.

최근 코로나 사태로 인하여 비대면 업무처리가 많아지면서 이미지에서 문자를 추출하여 업무에 바로 활용할 수 있는 RPA(Robotic Process Automation : 로봇프로세스자동화)가 그 예라고 볼 수 있다. RPA는 기업의 재무, 회계, 제조, 구매, 고객 관리 분야 데이터를 수집해 입력하고 비교하는 단순 반복업무를 자동화해서 빠르고 정밀하게 수행하는 자동화 소프트웨어 프로그램으로 인공지능(AI)과 결합하며 빠르게 발전하는 분야다. 이런 RPA 분야에서도 기본적으로 OCR 모듈이 사용되고 있다. 이와 같이 기본이 되고 있는 OCR 모듈과 이를 사용한 제품들과 업무자동화에 대해서 알아보자.

OCR의 원리
이미지에서 문자를 추출하는 OCR은 인식률이 가장 중요하다. 그 인식률을 높이기 위하여 다양한 전처리 과정이 필요한데 이미지에서 글자 색과 배경 화면을 분리하고 이미지에 기울어진 각도를 보정하여 문자를 추출하는 것이 일반적이다. 따라서 배경색과 글자색이 비슷하거나 홀로그램이 있는 곳에 글자가 쓰여져 있다면 문자 추출해서 오탐이 발생할 확률이 높다. 이런 오타를 줄이기 위하여 다양한 전처리 알고리즘을 사용하고 있다.

▲OCR의 원리[자료=엘세븐시큐리티]


엘세븐시큐리티에서는 이런 이미지에서 문자를 추출할 수 있는 OCR 모듈을 개발하여 GS인증을 받았다. 제품명은 ImageOCR이며 가장 큰 특징은 100 DPI, 10폰트의 글자에서도 인식율이 90% 이상이며 문자의 추출 속도가 빠르다는 것이다. 국내에서는 OCR 모듈을 사용하기 위해 외산 제품들을 사용하고 있다. 이런 제품들보다는 가격이 저렴하고 멀티코어의 사용을 통하여 응답속도가 10~20배 이상 빠르다. 또한, 국산 제품이기에 다양한 커스터마이징을 통하여 다른 보안장비들과도 연동이 가능하다.

OCR의 적용범위
OCR은 이미 다양한 분야에서 사용을 해 오고 있다. 최근 금융기관에서 하는 비대면 통장 개설이나 주차 시스템에서 차량번호를 인식하는 시스템, 명함인식 시스템 등 오래 전부터 OCR은 사용되어 왔다. 최근 이런 OCR이 분야에도 적용이 되고 있다.

▲ImageOCR과 연동 되는 제품들[자료=엘세븐시큐리티]


보안 분야에서의 OCR
예전에는 문서내의 텍스트만 보안을 적용했다. 예를 들어 내부정보유출차단 솔루션에서는 내부정보의 유출을 차단하기 위하여 문서내의 텍스트에 대해서만 보안이 가능했다. 그러나 이제는 이미지에서 문자를 추출하는 OCR 모듈의 개발로 문서내의 텍스트뿐만 아니라 이미지에 있는 글자를 인식하여 내부정보를 유출을 탐지할 수 있는 시대가 되었다.

또한, 개인정보보호 부분에 적용된 것을 보면 문서 내에 이미지로 주민등록증이나 인감증명서, 가족관계증명서 등이 포함되어 있다면 이런 이미지에서 문자를 추출하여 개인정보의 유출을 차단할 수 있는 제품이 개발됐다. 이 뿐만 아니라 서버 내에 문서들 중에서 개인 정보가 있는지를 스캔 할 수 있는 제품도 개발됐다.

RPA 분야
이미지에서 문자를 추출하여 최근 RPA 분야에 적용하는 사업이 많이 이루어지고 있다. 금융기관에서 하는 비대면 계좌 개설이나 비대면 대출 등의 업무들이 모두 RPA가 적용된 것이라고 보면 된다. 이런 분야의 적용을 위해서는 OCR 인식률이 가장 중요하기에 다양한 머신러닝 기법을 적용한 OCR 모듈을 사용하고 있다. 이런 OCR의 적용으로 인해 업무 자동화 기틀이 마련됐다.

이미지 문서의 디지털화
예전에는 종이문서를 많이 보관했다. 그러나 그 종이 문서를 전산화하기 위해 PDF 파일로 대부분 변환하여 기관에서 저장을 하고 있다. 그러나 그 PDF 파일은 보관이 간편하나 파일 내의 내용을 검색할 수 없는 단점을 가지고 있다. 따라서 이제는 각 기관에서 PDF로 된 파일을 텍스트로 변환해 DB로 저장하는 사업을 준비하고 있다. 이 뿐만 아니라 기관에서는 이미지로 접수되는 각종 민원 신청서를 받는 즉시 텍스트로 변환해 자동 저장하는 사업을 준비하고 있다. 이런 것들이 모두 이미지에서 문자를 추출하는 OCR 기술이 발달되면서 가능해졌다.

OCR을 사용한 개인정보보호 제품
OCR을 사용한 다양한 제품들이 있지만 그 중에서 개인정보보호 제품에 대해서 알아보자. 2006년부터 홈페이지 게시판에 개인 정보가 많이 포함되어 있는 것을 보고 행안부에서는 홈페이지 게시판 내에 있는 개인 정보가 유출되지 못하도록 다양한 사업을 했다. 최근 전국의 모든 공공기관과 교육청, 대학교는 홈페이지를 통한 개인정보 유출을 차단하고자 홈페이지 개인정보 차단 솔루션을 모두 도입했다. 그러나 그 제품들은 문서내의 텍스트에 대해서만 개인 정보를 차단할 뿐 최근 이슈가 되고 있는 이미지에 대한 개인정보 차단은 되지 않고 있다. 이러한 문제점을 해결하고자 엘세븐시큐리티에서는 이미지에서 문자를 추출하여 개인정보를 차단할 수 있는 ImageOCR & OCR Filtering 제품을 출시했다. 이 제품은 문서내의 텍스트는 물론이고 이미지 파일이나 이미지가 포함된 문서에서 개인정보가 있을 경우 외부로 유출되지 않도록 팝업을 통하여 차단하는 기능을 갖고 있다.

▲개인정보보호제품의 개념[자료=엘세븐시큐리티]


ImageOCR & OCR Filtering 제품의 주요 기능
문서내의 텍스트는 물론이고 이미지 속의 문자도 추출하여 차단할 수 있는 것이 가장 큰 특징이다. 이러기 위해서는 이미지에서의 문자 인식률이 가장 중요하다 이런 인식률을 높이기 위하여 다양한 전처리 알고리즘과 머신러닝을 통한 학습으로 인식률을 계속 높이고 있다.

두 번째로 중요한 것은 인식률뿐만 아니라 문자의 추출 속도이다. 웹 시스템 앞단에 설치되는 이미지개인정보 차단 솔루션은 실시간으로 개인정보를 차단하기에 문자의 추출 속도가 늦다 보면 홈페이지 전체의 응답속도가 느려질 수 있는 문제가 발생한다. 이런 부분을 해결하고자 CPU의 병렬처리 기법과 대량 트래픽의 처리 기술 등 다양한 알고리즘이 적용되어 개발됐다.

이미지 개인정보 차단 솔루션의 선정기준
이미지 개인정보 차단 솔루션을 도입하기 위하여 반드시 체크해야 되는 몇 가지 기능이 있다. 홈페이지 게시판에 사용자가 글을 올릴 때 차단하는 업로드 차단 기능은 모든 제품이 갖고 있지만, 이것보다 더 중요한 것은 다운로드 차단 기능이다. 다운로드 차단 기능이란 사용자가 게시판에 있는 글을 클릭시 전송될 문서 안에 개인정보 포함되어 있다면 팝업을 통하여 전송되지 못하게 차단하는 기능이다. 이런 다운로드 차단 기능은 검색 엔진인 구글이나 네이버 등을 통하여 개인정보가 유출되는 것을 차단할 수 있고 인터넷 진흥원에서 개인정보를 스캔했을 때도 개인정보를 차단할 수 있다.

▲개인정보차단 솔루션의 다운로드 차단[자료=엘세븐시큐리티]


따라서 개인정보 유출을 가장 완벽히 차단하려면 반드시 다운로드 기능이 되어야만 한다. 다운로드 기능이 되려면 일단 대량의 트래픽을 처리할 수 있는 기술이 접목되어야 한다. 엘세븐시큐리티는 다운로드 차단 기능을 위하여 다양한 알고리즘을 적용했다. 다운로드 기능이 되면서 홈페이지 속도도 떨어지지 않도록 한 것이 ImageOCR & OCR Filtering 제품의 가장 큰 특징이다. 이외에도 문자를 추출할 수 있는 OCR 성능이 중요하고 홈페이지 시스템의 소스 수정 없이 필터링 제품을 설치하는 것이 추후 운영을 간단히 하고 개인정보의 유출을 차단할 수 있는 좋은 방법이다.

웹서버 내의 이미지 개인정보 스캔 ImageScanner
웹서버 내에 문서들 중에서 개인정보가 포함된 문서를 스캔하는 제품이 있다. 문서의 텍스트는 물론이고 이미지 속에 있는 문자까지도 추출하여 개인정보가 포함된 파일을 찾아내고 있다. 이 제품에서 가장 중요한 것은 이미지에서 문자를 인식하는 인식률은 기본이지만, 24시간이 시스템을 운영할 수 있도록 개발하는 것이 무엇보다 중요하다. 만약 업무시간이 끝난 야간에만 개인정보를 스캔할 수 있도록 운영한다면 개인정보를 스캔하는 시간이 너무 많이 걸리기에 24시간 운영하면서도 웹 시스템에 장애를 주지 않는 구성으로 되어 있다면 개인정보를 스캔하는 시간이 현저히 빨라질 수 있다.

엘세븐시큐리티에서 개발한 이미지 스캔 제품은 이런 고객의 니즈를 반영하여 24시간 운영하는 것은 물론이고, 고객 서버 내에 에이전트를 설치하지 않기에 간단한 세팅만으로 웹 시스템을 24시간 스캔하면서 개인정보를 탐지해 낼 수 있다.

▲서버내의 개인정보스캔[자료=엘세븐시큐리티]


메일을 통한 내부정보 유출 차단 OCR MailFilter
엘세븐시큐리티에서 이미지를 통한 개인정보보호 제품을 사업하다 보니 많은 기업체에서 메일을 통한 개인정보 유출을 차단해 달라는 요구를 받게 되었다. 이에 OCR MailFilter 제품을 개발하여 메일을 통한 개인정보 유출과 대외비 문서 등의 중요정보를 차단할 수 있는 제품을 개발했다. 모그룹 사에서는 외부로 전송되는 메일을 확인해 본 결과, 중요 정보를 사진으로 찍어 문서파일에 붙였거나 스캔 받아서 첨부한 문서들이 외부로 많이 전송되고 있는 것이 발견됐다. 이에 보안팀에서는 외부로 전송되는 이메일에서 개인정보나 중요 정보를 검출한 뒤에 승인을 받고 전송할 수 있도록 제품개발을 요청했다. 따라서 기업체의 인사 DB와 연동하여 전송될 이메일에서 개인정보나 중요정보를 검색한 뒤 상급자에게 결제를 받고 전송할 수 있도록 OCR MailFilter를 개발했다.

이미지 문서의 디지털화
대부분 PDF로 저장된 문서에서 텍스트를 추출하여 DB에 저장하고자 한다. 각종 신청서나 공문서 등에서 양식을 인식한 뒤 필요한 부분만 OCR을 통하여 문자를 추출하고 추출된 문자에 대하여 DB로 저장한다면, 추후 기관에서는 다양한 검색을 통하여 그 문서를 사용할 수 있게 된다. 대부분의 기관에서는 이미지로 접수된 다양한 서류들을 일일이 타이핑치는 업무를 하고 있기도 하다. 이제는 이런 부분을 OCR 모듈을 통하여 읽은 다음에 담당자가 확인하는 작업만 거쳐 DB로 저장된다면 업무의 효율을 높일 수 있게 된다. 또한, 타이핑으로 인한 오타를 줄일 수도 있기에 더욱 정확한 데이터의 저장이 가능하다.

▲이미지 문서의 디지털화[자료=엘세븐시큐리티]


금융기관에서는 이미 OCR 모듈을 사용하여 다양한 업무자동화를 하고 있지만 아직 공공 분야에서는 많이 적용되어 있지는 않다. 공공 분야에서 주로 사용하는 OCR 모듈은 외산이 대부분이지만 이제는 국산 OCR의 활용도 가능해졌다. 엘세븐시큐리티에서 개발한 ImageOCR 모듈은 외산의 제품과 비교하여 인식률에서 차이가 별로 없지만 문자 추출 속도는 외산 제품보다 약 10배 이상 빠르다. 이는 외산 제품은 다양한 언어를 인식하지만 국산 제품은 한글과 영어, 숫자, 특수 문자만을 인식하기에 응답 속도가 빠르고 많은 CPU 코어를 사용할 수 있기에 속도가 발라질 수 있는 장점이 있다.

앞으로 OCR의 전망
OCR 모듈은 머신러닝 기법으로 점점 더 고도화되어 인식률이 좋아지고 응답속도도 빨라지고 있다. 정부에서는 이런 OCR 모듈의 성능 개선에 필요한 데이터셋 라벨링 작업에 매년 많은 지원을 하고 있고, 올해도 여러 차례에 거쳐 데이터셋 라벨링 작업을 지원하고 있다. 아마 내년 초에는 올해까지 사업한 데이터셋 라벨링 결과물이 공개되면서 많은 기업체에서 개발한 OCR 모듈의 성능이 더욱 좋아질 것이다.

최근 들어 OCR 모듈은 4차 산업의 기반이 되는 기술이 되었다. OCR 모듈이 보안 분야에도 적용되고 있지만, 이러한 기술을 바탕으로 비대면 업무에 대한 효율이 높아질 뿐만 아니라 최근까지 PDF로 저장된 파일들을 모두 디지털화 하면서 다양한 분야에서 데이터화되고, 이를 검색하여 업무에 활용할 수 있게 된다. 따라서 앞으로 OCR 모듈은 모든 분야에서 일반화되는 기술로 인식될 것이고 누가 더 많은 학습을 하고 좋은 알고리즘으로 개발했느냐에 따라 사업의 성공을 좌우하게 될 것이다. 정부에서도 뉴딜 정책에 따라 AI 기술의 발전에 많은 예산을 투입하고 있기에 AI를 통한 OCR 기술의 발달은 우리의 생활과 업무환경을 크게 바꾸어 놓을 것이다.
[글_최복희 엘세븐시큐리티 대표이사]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

  •  
  • 1
  • 페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기

  •  SNS에서도 보안뉴스를 받아보세요!! 
파워비즈배너 시작 11월6일 20181105-20200131위즈디엔에스 2018
설문조사
보안전문 기자들이 뽑은 2022년 보안 핫키워드 10개 가운데 가장 주목되는 키워드는?
다크웹의 대중화 추세, 사이버범죄의 확산을 이끌다
월패드 등 가정집 노리는 해킹, IoT 보안의 패러다임을 바꿔라
클라우드 확산에 따른 보안 위협, 이제부터가 진짜 시작
전략의 혁신으로 중흥기 맞은 랜섬웨어
분산 네트워크와 제로트러스트의 대두
대선·올림픽·월드컵 등 대형 이벤트 노린 사이버공격 대응
메타버스·NFT 등 가상세계 플랫폼 확산과 보안위협
수술실·지하철·요양원까지... CCTV 의무 설치 확대
중대재해처벌법 시행에 따른 안전과 보안장비의 융합
비대면 트렌드에 따른 인증수단 다양화와 보안 강화