[CSRC@KAIST 차세대보안R&D리포트] AI 보안: 적대적 기계학습과 인공일반지능

인공지능 완전히 신뢰하기 위해서는 공격들에 대한 방어기술의 개발이 반드시 선행돼야
인공지능 보안 문제는 신뢰가능한 인공지능 개발 위해 인간이 끊임없이 고민해야 할 문제

[보안뉴스= 고기혁 KAIST 사이버보안연구센터 AI보안팀장] 지난 2018년 3월, 미국의 운송 네트워크 회사 우버에서 운행하던 시범 자율주행 택시가 보행자를 들이받는 사고가 있었습니다. 밤중에 자전거와 함께 무단으로 차도를 횡단하던 보행자를 자율주행 우버 택시가 미처 확인하지 못하고 들이받은 것입니다. 이 사고로 보행자 일레인 헤르츠베르크는 사망했고, 자율주행 자동차가 일으킨 첫 보행자 사망사고로 알려졌습니다.

[이미지=utoimage]

추후 사고의 원인을 분석하기 위해 자율주행 소프트웨어를 살펴본 결과 소프트웨어가 사고 직전에 보행자를 인식했으나, ‘미확인 물체’, ‘자동차’, 그리고 ‘자전거’로 오판했다고 합니다. 비록 어두운 밤에 무단횡단을 한 보행자의 잘못도 있지만, 인공지능이 길을 건너는 보행자를 ‘사람’으로서 잘 인식했더라면 사고를 막을 수도 있었을 것이기에, 더욱 안타깝다고 생각된 사고였습니다.

이와 같은 사고는 인공지능이 우리가 생각하는 것만큼 만능이 아니라는 것을 다시금 일깨워 줍니다. 이는 적대적 상황에서 더욱더 도드라지는데, 만약 허술하게 설계된 인공지능에서 공격자가 인공지능의 취약점을 악용, 역기능을 유발할 수 있다면 민간인들에게 편의를 주어야 할 자율주행 기술이 테러 등 잔혹한 행위에 사용될 가능성이 있습니다. 이처럼 인공지능 모델을 대상으로 오작동, 오류 등의 역기능을 유발하는 공격을 적대적 기계학습(혹은 적대적 인공지능)이라고 부르며, 공격자가 인공지능의 역기능을 악용하는 것을 막기 위해 다양한 공격 및 방어에 대한 연구들이 진행되어 왔습니다.

여타 다른 시스템에 대한 적대적 공격과 유사하게, 적대적 기계학습 또한 인공지능 모델의 설계부터 사용까지의 과정에 존재하는 다양한 프로세스들의 취약점을 이용합니다. 보통 인공지능 모델의 경우 먼저 ①학습 데이터를 통해 모델 파라미터를 학습 ②다양한 데이터에 대해 모델을 검증 및 테스트하는 과정을 거쳐 ③학습된 모델을 실제 입력에 사용하는 프로세스를 따르는데, 이에 따라 인공지능 모델에 대한 적대적 공격은 학습에서 사용에 이르기까지 공격자가 간섭하는 프로세스에 따라 회피(Evasion), 오염(Poisoning), 그리고 유추(Inference)의 크게 세 가지 유형으로 나눌 수 있습니다.

먼저 회피(Evasion) 공격은 인공지능 모델이 판단에 사용하는 다양한 결정 기준을 회피 혹은 역이용하여 오작동을 유발하는 공격으로, 대표적인 예로 주어진 입력에 사람이 알아보기 힘든 만큼의 노이즈를 섞어 오분류(misclassification)를 유도하는 ‘적대적 예시(Adversarial example)’를 들 수 있습니다. 적대적 예시를 사용하면 길가에 있는 정지(Stop) 사인을 속도제한(Speed limit) 사인으로 속여 사고를 유도하거나 혹은 얼굴인식 소프트웨어를 속여 다른 사람으로 위장하는 등 큰 규모의 인명 및 재산 피해로 이어질 수 있기에 많은 연구자들이 집중적으로 연구를 진행하고 있습니다.

다음으로, 오염(Poisoning) 공격은 인공지능 모델의 학습 과정에 직접적으로 관여, 학습 데이터를 오염시킴으로서 각종 역기능을 유도합니다. 인공지능의 학습 데이터를 적당히 오염시킬 수 있다면 학습의 결과로 나오는 인공지능 모델의 정확도를 떨어트리거나 특정 입력에서만 오작동을 유도할 수 있습니다. 최근에는 입력 이미지에 몇 개의 특정 픽셀로만 이루어진 일종의 ‘트리거(Trigger)’를 주입하면 오작동을 일으키는 ‘백도어 공격(Backdoor attack)’ 등이 가능하다고 알려져 그 방어 기법에 대한 연구의 시급성이 강조되고 있습니다.

마지막 유추(Inference) 공격은 프라이버시와도 관련이 있는 공격으로, 이를 사용하면 허술하게 설계된 인공지능 모델을 통해 공격자가 알아서는 안 되는 정보나 지식을 유추할 수 있습니다. 여기에는 인공지능 모델의 출력을 통해 입력을 복구해 내는 ‘모델 도치(Model inversion)’ 공격이나 알려지지 않은 모델의 파라미터를 복사하여 사용하는 ‘모델 추출(Model extraction)’ (혹은 ‘모델 훔침’) 공격 등이 있습니다. 특히, 모델 추출 공격의 경우 많은 시간과 돈을 들여가며 학습한 모델을 공격자가 간단히 훔쳐갈 수 있다는 점에서 구글, 아마존 등의 인공지능 기반 회사들이 관련 방어 기술 개발에 열을 올리고 있습니다.

이처럼 허술하게 설계 및 학습된 인공지능 모델에 대한 적대적 공격은 보안 문제뿐만 아니라 프라이버시, 공정성 등의 측면에서도 다양한 역기능을 유도할 수 있게 하기에 인공지능을 완전히 신뢰하기 위해서는 이러한 공격들에 대한 방어기술의 개발이 반드시 선행되어야 합니다.

하지만 적대적 기계학습 공격을 가능케 하는 핵심 요인은 단순히 ‘인공지능 모델이 허술하다’는 점 보다는 ‘인공지능 모델이 사람의 기대와는 다르게 작동한다’는 데에 있습니다. 사실 인공지능 모델은 주어진 학습 데이터와 학습 알고리즘을 사용하여 학습되고, 주어진 입력에 대해서 학습된 대로 출력을 도출해 내므로 어느 의미에서는 ‘인간이 설계한 그대로’ 작동하는데, 이것이 인간의 기능적·보안적·보편적 기대와는 다를 때 문제가 발생하는 것이지요.

▲고기혁 카이스트 사이버보안연구센터 AI보안팀장[사진=보안뉴스]

이는 앞서 간략히 소개한 적대적 예시의 개념에서도 살펴볼 수 있습니다. 인간이 알아보지 못하게 미세한 잡음을 섞어 오류를 유도하는 적대적 예시의 존재는, 인공지능의 판단 기준이 인간이 판단하는 방식과는 현저히 다를 수 있음을 내포합니다. 강아지 사진을 보았을 때 인간은 전체적인 생김새, 색깔, 배경 등을 보고 강아지임을 판단하는 데에 반해, 인공지능은 색깔이나 특정 위치에 존재하는 픽셀만으로 판단할 수 있는 것입니다. 이 경우 ‘인공지능이 인간과 비슷한 기준으로 판단할 것이다’는 기대와는 달리 판단 기준의 차이가 생겨 적대적 예시와 같은 문제점이 발생하게 되며, 이는 다른 적대적 기계학습 공격들의 경우에도 동일하다고 할 수 있습니다. 그렇다면 적대적 기계학습 공격이 통하지 않는 인공지능을 개발하려면 인공지능의 판단 기준을 인간과 비슷하게 만들어야 하는 것일까요?

인간과 비슷한 방식으로 사고하고 판단하며, 복수의 ‘일반적·일상적인 태스크’ 여러 개를 동시에 해결할 수 있는 인공지능을 학술적으로는 ‘인공 일반 지능(Artificial General Intelligence)’이라고 부릅니다. 이미지 판별, 음성 인식 등 한 가지 특정 태스크에만 능숙한 현재의 인공지능 모델에 내재하는 기능적·보안적 문제점을 해결하기 위해서는 인공 일반 지능의 연구개발에 힘을 쏟아야 한다는 목소리도 커지고 있습니다.

그렇다면 과연 인간 인공 일반 지능의 개발은 적대적 기계학습이 제시하고 있는 모든 인공지능의 문제점을 해결해 줄까요? 단적으로 이야기할 수는 없지만, 아무리 완벽에 가까운 인간도 크고 작은 다양한 실수를 할 수 있듯이, 인공 일반 지능이 개발된다고 하더라도 이에 대한 보안 문제는 끊임없이 발생할 것으로 보입니다. 인공지능의 보안 문제는 진정으로 신뢰가능한 인공지능의 개발을 위해서 인간이 끊임없이 고민해야 할 문제인 것입니다.
[글_ 고기혁 KAIST 사이버보안연구센터 AI보안팀장]

SK텔레콤 해킹 사태로 최근 잇슈가 되고 있는 ‘BPF도어’ 관련, 어떤 솔루션을 사용중인가요?
	안랩 V3 Net for Linux
	소만사 Server-i
	파이오링크 점검 도구
	잉카인터넷 전용 백신
	트렌드 마이크로 백신
	기타 국산(솔루션명은 댓글로)
	기타 외산(솔루션명은 댓글로)
	사용하지 않는다