보안뉴스 창간 17주년을 축하합니다!!

Home > SecurityWorld

[구축사례] 생활 속 문제 해결하는 새로운 AI 패러다임

입력 : 2023-02-03 14:56
페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기 네이버 블로그 보내기
NIA 인공지능 학습용 데이터 구축사업 성공사례
‘개인 특정을 위한 자필과 모사 필기 데이터 구축’ 사업 진행
필체 데이터 구축해 관련 부분 인공지능 발전에 활용 가능


[보안뉴스= 한수연 에스엠시스템즈 이사] 과학기술정보통신부와 한국지능정보사회진흥원이 주관한 ‘2022년 인공지능 학습용 데이터 구축사업’의 신기술 선도 부문에 에스엠시스템즈가 금천구청과 뉴코리아전자통신, 비젼인 및 호서대학교 산학협력단과 구성해 참여한 컨소시엄이 최고 점수를 획득해 성공적으로 사업을 완수했다. 사업명은 ‘개인 특정을 위한 자필과 모사 필기 데이터 구축’이다.

[이미지=Utoimage]


개인의 필체는 개인을 식별할 수 있는 고유한 속성이다(그림 1). 이를 근거로 공공 및 민간에서 어떤 서류든 작성 중 개인의 동의 또는 확인 시 마지막에 서명으로 마무리하고 있다. 하지만, 고유한 개인의 필체 정보를 고유하게 취득하고 진위 여부를 확인할 방법이 정확하지 않아 다양한 유형의 사건과 사고가 발생한다. 이는 각종 서류 위조 등에 대한 기사가 증명한다(그림 2). 이에 대한 문제의식을 느낀 본 컨소시엄은 ICT 기술을 활용해 이를 해결할 방법과 기술 적용을 위한 데이터의 필요성을 느끼고 ‘필체 비교’에 관한 데이터 구축을 기획하게 됐다.

[자료=에스엠시스템즈]


경험과 주관을 객관화시키는 검증, 필적감정
본인과 타인의 필체를 비교해 위조를 증명하는 서비스를 ‘필적감정’이라고 한다. 필적감정 영역은 고대 로마제국부터 시행된 오래된 학문 분야로 일반적인 필적감정의 기준이 되는 내용과 방법은 그림 3과 같다. 필적감정의 전제 조건은 사람이 글씨를 쓸 때 동일 환경에서 동일 방법으로 필기했을 경우로 이때는 신뢰도가 높다. 하지만, 상황(시간 제한, 감정 기복 등) 또는 환경(펜과 종이의 특성 등)으로 인해 유사한 듯하지만 다르게 필기하는 경우가 종종 있다. 이때는 필적감정의 결과가 확률에 따른 추정으로 표현된다. 즉, 동일해 보이는 다른 사람 간의 필체의 경우 필적감정의 신뢰도가 높게 나타날 수 있고, 유사도가 낮은 동일인 필체의 경우는 신뢰도가 낮게 나타나는 현상이 발생한다.

사업의 기획 : 필적감정에 사용될 수 있는 데이터 필요
개인의 필체가 고유하다는 내용을 연구하기 위해서는 데이터가 필요했지만, 한글로 작성된 연구 데이터는 찾을 수 없었다. 이에 ICT 기술을 이용해 인공지능이 해결할 수 있도록 데이터가 만들어져야 한다는 필요성을 느꼈다. ‘종이와 볼펜을 이용해 작성된 보편적인 손글씨 데이터를 단순히 이미지로서의 결과 외에 위치의 변화, 필압, 회전 반경 등 필기 과정 데이터를 취득해 분석한다면 더 높은 신뢰도로 개인을 특정할 수 있기 때문이다. 이때 필기 상황이나 환경이 변하더라도 필기 특성의 간격(획간의 시간차, 필압의 변화차 등)은 일정한 비율로 변할 것’이라는 과제 증명을 목표로 삼았다. 이를 증명하기 위해 본 데이터 구축사업을 다음과 같이 기획했다.

① 수학능력시험 등에서 자필 식별을 위해 사용되는 15글자 내외의 변별력 있는 표준문장 30셋을 기본 문장으로 활용
② 연령별·성별 일정 분포의 3,000명 이상의 개인이 자필로 하나의 문장을 3가지 자세(서서·앉아서·기대서)로 각각 5회 이상 작성하게 해 자필문장 데이터를 수집
③ 비교를 위해 미대생 모사 전문가를 채용해 이들이 자필문장 데이터와 동일 필체, 동일 내용으로 모사문장 데이터를 작성
④ 이때 사용되는 종이와 펜은 ‘닷 패턴(Dot Pattern)’ 기술을 적용(그림 4, 닷 패턴은 일반 A4용지에 위치정보 인식을 위한 점데이터를 1차 출력한 후, 그 위에 내용·서식을 재출력하는 기술을 말한다. 인식을 위해서는 유핏에서 생산한 적외선 카메라가 부착된 디지털펜을 활용했다. 이 펜은 특정인이 필기 시, 닷 패턴을 초당 60회 인식해 펜의 위치(x, y), 필압(1,024등급) 등의 정보를 블루투스 방식으로 전용 애플리케이션에 제공하는 특징이 있다.)
⑤ 한사람이 작성한 같은 문장 15번 이상의 자필 데이터를 필체 간의 필적감정 검증을 위해 상관 모델을 이용해 일치도 평가
⑥ 작성된 자필 데이터를 동일하게 모사한 모사 데이터 간에도 필적감정 검증을 위해 상관 모델을 이용해 일치도 평가
⑦ ICT 기술과 인공지능을 결합한 결과 도출을 위해 Signet 모델과 CNN+LSTM 모델로 학습 후 예측 성능 평가(이때의 비교기준은 한 자필의 그 사람의 다른 자필 간에, 한 자필과 그 모사본 간에, 동일한 문장 기준으로 다른 자필과 여러 모사본 간에 평가한다)
⑧ 서비스로서의 제공 가능성을 확인하기 위해 EER(Equal Error Rate)로 최종 평가

이러한 과정은 사업참여 이전에 관련 논문을 참고하고 ‘1 Cycle Test’를 진행해 가능성을 확인했으며 이 기획을 기초로 제안서 작성, 발표, 그리고 과제조정위원회도 무난하게 진행했다. 물론 사업 진행도 매우 성공적으로 완수됐다.

▲그림 4. 데이터 구축에 사용된 디지털펜 구성도[자료=에스엠시스템즈]


자필문장 데이터 수집 : 국민과 함께 만든 데이터
에스엠시스템즈 컨소시엄은 다양한 자필문장 데이터를 수집하기 위해 금천구청의 도움으로 금천구 관내 10개소에서 3주간 로드쇼를 진행하고 3,000명 이상의 자필 데이터를 수집했다(그림 5, 6). 이렇게 수집한 데이터의 분포도와 다양성은 표 1과 같다.

[자료=에스엠시스템즈]


모사문장 데이터 수집·가공 : 전문가와 함께 만든 데이터
베껴쓰기능력 테스트를 통해 검증된 미대생들이 정규화 및 자필 유사도 검증 완료한 자필문장 데이터(그림 7)를 특정한 방법으로, 원본과 동일하게 모사문장 데이터로 작성했다(그림 8).

[자료=에스엠시스템즈]


데이터 검증 : 상관함수, Signet, CNN+LSTM 그리고 EER
데이터 특성을 확인하기 위해 디지털펜에서 전송돼 검증을 위해 반영된 특성(feature)은 표 2와 같다. 이 특성(feature)은 자필·모사 모두 작성자가 기록할 때 펜에서 자동으로 실시간 취득돼 노트북으로 전송된 후, 그대로 또는 계산된 데이터이다.

비교는 △자필에 대한 동일 내용의 모사에 대한 유사도 평가 △동일 문장에 대한 사람 A와 사람 B에 대한 유사도 평가 △동일인의 개별 자필들간의 유사도평가 등 세 가지 관점에서 진행됐으며 표 3과 같은 전제를 가지고 평가가 진행됐다. 이 항목들은 뒤에서 설명할 차트들의 x축 순서이며, y축 스케일 조정을 위해 표준편차를 활용한 표준화(Standardization) 처리돼 차트가 생성됐다.

[자료=에스엠시스템즈]


[Case 1. True Negatives]
True Negatives는 자신의 필체와 모사한 필체가 이미지는 높은 수준으로 유사해 보이지만 필체 정보 취득하면 정확히 다름을 판별할 수 있는 경우이다. 그림 9와 같이 이미지만 가지고 구분했을 때는 같은 사람의 필체로 판별할 확률이 높지만, 필압이나 속도 등 시계열 특징들을 활용했을 때는 모사 필체임을 정확하게 판별하는 것을 확인할 수 있다. 이번 프로젝트에서는 임계값 0.4595를 기준으로 평가했다.

[Case 2. False Negatives]
그림 10의 소량 발생한 False Negatives는 자신의 필체와 타인의 필체를 구분하지 못한다. 우연하게도 환경변수 결과가 같지만, 필체는 다르게 나타난다.

[Case 3. True Positives]
True Positives는 같은 사람의 필체임을 정확하게 판별한 경우로 그림 11과 같다.

[Case 4. False Positives]
False Positives는 동일인이 쓴 두 문장을 타인의 필체로 잘못 인식한 경우(그림 12)다. CNN+LSTM 모델 정확도가 100%가 아니기 때문에 실제 적용 시에 추가 학습 및 딥러닝 네트워크 모델 업데이트를 통해 해결해야 한다.

[자료=에스엠시스템즈]


Case Study 결론
그림 13의 왼쪽은 필적감정과 같이 이미지만으로 평가한 정확도를, 오른쪽은 환경데이터 취득 후 이미지와 함께 평가한 정확도 결과를 표현한 것으로 신뢰도가 약 3배 높아진 것을 확인할 수 있다.

그림 13. 환경변수 입력 전(좌)과 후(우)의 정확도 결과[자료=에스엠시스템즈]


EER(Equal Error Rate) 측정 결과 : 실제 도입 가능성
이번 결과가 서비스로 적용 가능할지를 확인해 보기 위해, TTA에 최종 데이터 제출 전 EER 사전 평가도 진행했다. EER은 특정인이 특정인임을 판별하지 못하고 인증 거부되는 비율(FRR : False Reject Rate)과 다른 사람을 특정인으로 오인식해 인증 허용되는 비율(FAR : False Acceptance Rate)이 동일할 때의 정확도를 측정하는 평가지표로 각종 인증 시스템에서 사용되고 있다. 이번 프로젝트의 최종 결과인 EER0.1673(16.73%)는 ID의 개념을 적용하지 않고 임의의 두 쌍의 데이터를 이용해 평가한 결과이고 단일 이미지만 이용해 판별한 경우보다 13% 정도의 높은 정확도를 보인다(그림 14). 이는 실제 애플리케이션에서 ID 정보를 활용해 개발하면 충분히 상용화가 가능할 만한 매우 높은 신뢰를 제공할 수 있다는 의미이다.

▲그림 14. 환경변수 입력 전(좌)과 후(우)의 EER 개선 효과 비교[자료=에스엠시스템즈]


데이터 검증 결과 : 자필 고유 특성이 있고 실제 적용가능 확인
이상의 결과를 통해 ① 종이와 디지털펜을 이용한 데이터 수집시 결과 이미지와 필체 데이터를 취득할 수 있었고, ② 수집된 데이터는 육안식별이 불가능한 자필 글씨와 모사 글씨 등의 필체 비교에 더 많은 차원의 추가 정보를 제공하며 높은 신뢰도로 제공할 수 있음을 확인할 수 있었다. 즉, 전문가가 똑같이 베껴 쓰더라도 작성 순서와 획간 시간 간격, 획간 속도 비율 등이 다르기 때문에 두 문장 작성자가 다른 사람임을 확인할 수 있게 한다.

이 결과를 기초로 디지털펜을 보편화하고 개인의 필체에 관해 지속해서 연구한다면, 신분증 확인 없이 문장 작성만으로 본인 인증을 할 수 있는 인증의 새로운 방안이 될 수 있다. 또, 활용할 수 있는 영역은 시험과 계약 등 무궁무진한 것으로 예상된다.

사업 목표 달성을 위한 신규 개발된 데이터 구축 플랫폼
인공지능 학습용 데이터셋 구축사업은 정해진 기간 동안 대량의 데이터를 구축하는 사업이다. 또한, 정부의 뉴딜 정책 방향을 따라 국민 참여형 일자리 창출을 위해 대규모 크라우드워커를 채용해야 한다. 우리 컨소시엄은 약 3,100명이 넘는 크라우드워커의 업무 편의성을 제고하고 대량 데이터의 구축 단계별 효율성을 높이기 위해 그림 16과 같은 데이터 구축 플랫폼을 자체 개발해 이 사업에 적용했다. 이로 인해 4개월이라는 시간 내에 모든 사업을 성공적으로 완수할 수 있었다.

[자료=에스엠시스템즈]


전문적인 교육 시스템
또한, 참여 인력의 증가는 데이터 일관성에 있어 치명적인 오류를 도출할 수 있는 위험성이 있는데, 이를 해결하기 위해 수 차례의 교육과 결과 피드백을 통해(그림 16) 일관된 품질의 데이터가 구축되게 했다.

데이터 강국, 대한민국을 꿈꾸며
ICT 영역에서도 트렌드가 존재한다. 하드웨어(HW)와 인프라에서 시작돼 소프트웨어(SW)와 어플라이언스로 발전되고, 이제는 데이터와 인공지능으로 관심 전환 중임을 누구도 부인하지 않는다. 이런 상황에서 정부와 NIA의 데이터 구축사업은 ‘당연히 만들어져야 할’ 사업이자 방향이다. 일부에서는 데이터 구축사업을 ‘인형 눈붙이기’ 등으로 폄하하기도 하고, 또 일부 데이터는 실제 그렇게 만들어지기도 하지만, 대부분의 데이터는 철저한 기획과 다양한 검증과정을 거쳐 성공적이고 수준 높은 데이터로 구축·완성된다.

거시적 관점에서, 구축된 학습용 데이터는 시대적인 관심에 따라 활용에 편중현상을 보이기 때문에 모든 데이터가 지금 모두 사용될 수는 없다. 하지만 창의적으로 앞날을 예견하고, 가이드에 따라 기준을 세워 우수한 품질의 데이터를 생산 및 보관하다 보면 필요한 시점에 해당 서비스 분야를 일시 도약시킬 수 있는 강력한 무기가 될 수 있다. 데이터의 양과 종류가 많을수록 정신적으로든 현실적으로든 우리 국민의 창고를 가득 채워 배부름을 느끼게 할 것이다.

에스엠시스템즈 컨소시엄이 구축한 ‘개인 특정을 위한 자필과 모사 필기체 데이터’ 구축사업은 개인의 필체인 자필 데이터와 필체를 모사한 모사 데이터를 학습해 개인을 특정할 수 있다는 결론을 도출한 데이터이다. 최초로 구축된 필체 데이터로 관련 부분 인공지능 발전에 매우 유용하게 활용될 수 있을 것이라 자부한다. 한편, 금천구청은 이번 결과를 기반으로 추가 사업을 준비하고 있다.
[글_ 한수연 에스엠시스템즈 이사]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

  •  
  • 0
  • 페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기 네이버 블로그 보내기

  •  SNS에서도 보안뉴스를 받아보세요!! 
아스트론시큐리티 파워비즈 2023년2월23일 시작 위즈디엔에스 2018 넷앤드 파워비즈 진행 2020년1월8일 시작~2021년 1월8일까지
설문조사
2023년 주요 보안 위협 가운데, 올해 말까지 가장 큰 피해를 끼칠 것으로 예상되는 위협은?
공급망 공격
다크웹 기반 랜섬웨어 조직
북한/중국/러시아 등 국가 지원 해킹그룹 활동
스마트폰을 노린 보안 위협
OT 타깃 공격
피싱 공격
기타(댓글로)