[보.알.남] 내 얼굴과 목소리를 빼앗겼다, 딥페이크

인공지능 통해 영상에 다른 이미지를 교묘하게 합성하는 기술
GANs라는 학습법 통해 두 인공지능이 서로 경쟁하며 완성도 높여
대선 앞둔 미국은 인공지능 기반 딥페이크 탐지 기술 개발도 활발

[보안뉴스 이상우 기자] 지난 2018년 넷플릭스를 통해 공개된 공포영화 ‘캠 걸스’에 대해 잠깐 이야기해보자(스포일러가 포함돼 있으니 원치 않으면 넘어갈 것을 권한다). 영화속 주인공 앨리스는 제목처럼 인터넷 성인방송 출연자(캠 걸)다. 가족에게도 숨겨가며 꾸준한 방송으로 인기 순위를 높여가던 어느 날, 자신과 외모는 물론 목소리까지 똑같은 여자에게 계정을 해킹 당하고 방송 자체를 빼앗긴다. 당연히 녹화한 방송을 재생했을 것이라 판단하고, 새로 만든 계정으로 방송에 나오는 ‘자신’에게 말을 걸어보니 대화가 실시간으로 이어진다. 도대체 어떻게 된 일일까?

장르가 공포영화이기 때문에 ‘귀신’처럼 초자연적인 존재를 생각할 수도 있지만, IT나 인공지능에 관심이 있는 사람이라면 ‘딥페이크(DeepFake)’라는 단어를 먼저 떠올렸을 것이다. 딥페이크란 심층학습(Deep learning)과 가짜(Fake)의 합성어로, 인공지능을 통해 기존 영상물에 다른 이미지를 자연스럽게 덧입히는 기술이다. 영화에서는 기존 영상에 덧입히는 방식을 넘어 인물 자체를 컴퓨터 그래픽처럼 생성했으며, 인공지능이 마치 주인공인 것처럼 다른 사용자와 대화하며 행동했다. 이는 딥페이크의 더 발전된 형태로 볼 수 있다.

인공지능으로 더 교묘해진 영상 합성 기술
과거에도 영상에 다른 이미지를 합성하는 기술은 존재했다. 예를 들어 기존에 촬영한 영상에서 인물의 얼굴만 바꾼다고 하자. 이러한 합성의 경우 촬영한 영상에서 각 프레임을 추출하고, 포토샵 등의 도구를 이용해 한 장 한 장 얼굴을 합성한 뒤 다시 영상으로 출력하는 방식을 썼다. 과거 영화가 1초에 24프레임, 오늘날 디지털 영상은 60프레임 정도이니 약 1분짜리 영상에 얼굴만 합성하는 데도 얼마나 많은 수작업이 필요한지 알 수 있다. 이러한 결과물은 얼굴이 작게 보이는 장면에서는 시청자의 눈을 속일 수 있겠지만, 상반신만 확대한 인터뷰 영상처럼 눈이나 입에 주목하는 영상의 경우 어색하다는 것을 쉽게 눈치챌 수 있다.

딥페이크는 이러한 단순 노동을 인공지능이 대신하게 하는 기술이다. 원본 영상에 다양한 각도에서 촬영한, 합성할 인물의 사진만 몇 장 있으면 인공지능이 알아서 작업을 마친다. 원본 인물의 표정이나 입술 움직임 등 세밀한 모습까지 합성할 수 있고, 여기에 인공지능 기반 음성 합성 기술까지 접목하면 특정 인물의 외형적 특징을 완전히 복제해 다른 인물의 영상에 덧씌울 수 있다.

▲딥페이크는 인공지능을 기반으로 하는 영상 합성 기술이다[이미지=utoimage]

생성적 적대 신경망(Generative Adversarial Networks, GANs 혹은 GAN)이라는 인공지능 학습법이 딥페이크에 더해지면서 과거와는 비교하기 어려운 수준의 정교한 결과물을 낼 수 있게 됐다. 잘 알려진 것처럼 인공지능이 더 나은 결과를 내려면 학습이 필요하다. 가령 인공지능이 개와 고양이를 구분하기 위해서는 수많은 사진을 통해 둘이 무엇이 다른지 학습해야 한다.

생성적 적대 신경망은 이러한 과정을 두 개의 인공지능을 통해 계속해서 반복한다. 1번 인공지능이 고양이와 개 사진을 구분해 나누면 2번 인공지능은 이 결과를 평가한다. 1번 인공지능은 해당 평가를 통해 미비점을 보완하고 다시 구분한 결과를 내놓으며, 2는 이를 또 평가한다. 이러한 작업이 무수히 반복되면 개처럼 생긴 고양이도 확실하게 고양이로 분류할 수 있다. 딥페이크에 적용하는 GANs 역시 이와 같은 방식이다. 특정 인물을 합성하는 인공지능과 이를 평가하는 인공지능으로 나뉘어 과물을 꾸준히 개선해 구분하기 어려운 가짜 영상을 만들어낼 수 있다.

오늘날 이 기술을 가장 활발히 쓰는 곳은...
사실 딥페이크는 엔터테인먼트 분야에서 엄청난 가능성을 만들 수 있는 기술이다. 게임 속 3D 그래픽을 더 사실적으로 구현하는 것은 물론, 이미 망자가 된 배우를 마치 살아있을 때처럼 영화에 등장시킬 수도 있다. 지난해 개봉한 영화 ‘터미네이터 : 다크 페이트’에서도 이와 유사한 기술이 쓰였다. 다크 페이트에는 전작(터미네이터2 : 심판의 날, 1991년 7월)에 등장한 ‘존 코너’가 30여년 전 어린 모습 그대로 등장한다. 비슷한 또래의 대역 배우에 당시 주인공의 얼굴을 자연스럽게 합성한 결과물로, 이를 통해 관객의 향수를 자극했다는 평가다.

안타깝게도 오늘날 딥페이크 기술을 가장 활발하게 사용하는 분야는 성인물이다. 오죽했으면 구글에서 ‘딥페이크’라는 단어를 검색하면 성인 인증을 하라는 메시지까지 나온다. 포르노 배우가 등장한 음란물에 유명 배우나 지인의 얼굴을 합성한 영상은 해당 인물의 이미지에 큰 피해를 줄 수 있다.

딥페이크 탑지 솔루션을 개발하는 보안기업 딥트레이스가 발표한 조사 결과에 따르면, 지난 2019년을 기준으로 딥페이크 영상 중 96%가 포르노며, 특히 과거에는 영미권 여배우가 이런 합성에 많이 쓰였으나, K팝이 세계적인 인기를 끌면서 국내 아이돌 그룹 등을 합성한 딥페이크 영상 역시 전체의 1/4에 이를 정도가 됐다. 특히, 중국에서 이러한 영상을 주로 생성하고 소비한다고 덧붙였다.

▲K팝의 인기와 더불어 국내 연예인이 딥페이크 음란물의 피해자가 되고 있다[이미지=utoimage]

새로운 형태의 가짜뉴스에 대한 위협도 커졌다. 인물의 외형과 음성까지 모두 합성할 수 있는 만큼 적당한 배우가 연기한 영상에 실제 인물의 사진과 음성을 덧씌워 그 인물이 하지도 않은 말을 한 것처럼 꾸며내는 것이 가능하다. 이러한 딥페이크 가짜뉴스의 위협을 본격적으로 경고하기 시작한 것은 지난 2018년이다. 영화 ‘겟아웃’을 제작한 몽키포 프로덕션은 감독이자 배우인 ‘조던 필’이 버락 오바마 전 대통령의 성대모사를 하는 영상에 대통령의 얼굴을 합성하고, 현 대통령을 조롱하는 가짜 영상을 제작하기도 했다.

뿐만 아니라, 현재 대선을 2주 정도 앞둔 미국에서는 김정은 국무위원장과 푸틴 대통령을 이용한 합성 영상이 등장하기도 했다. 미국의 비영리단체가 제작한 이 영상에는 해당 인물이 등장해 “민주주의가 무너지는 것은 어렵지 않다. 아무 것도 하지 않면 된다”고 말한다. 물론 이 사례는 가짜뉴스를 전파할 목적이 아닌, 투표 독려를 위한 제작한 광고 영상이지만, 인물의 음성이나 영상 등 결과물은 상당히 높은 수준이다. 만약 이러한 영상에 ‘독재자’가 아닌 실제 대선 후보를 합성하고 다른 메시지를 내보낸다면 엄청난 피해를 입힐 수도 있다.

이러한 딥페이크 악용에 어떻게 대응하고 있나?
이처럼 딥페이크는 악용 시 엄청난 사회적 파장을 일으킬 수 있다. 그렇다면 이러한 딥페이크를 예방하기 위해 어떤 시도를 하고 있을까? 미국의 경우 딥페이크로 합성한 성인물을 일종의 리벤지 포르노로 취급해 처벌한다. 버지니아주는 지난 2019년 7월부터 딥페이크 포르노 사진 및 영상을 리벤지 포르노 범주에 포함시켰다.

주요 소셜 미디어 역시 이러한 동향에 참여하고 있다. 트위터는 올해 3월부터 합성 및 조작된 콘텐츠를 공유해 남을 속이는 것을 금지한다는 규정을 새롭게 발표했으며, 해당 콘텐츠를 삭제하거나 ‘조작됨’이라는 표시를 콘텐츠 아래에 달기로 했다.

페이스북 역시 올해 1월 딥페이크 영상을 게시하는 것을 금지하는 정책을 적용했으며, 인공지능을 통한 딥페이크 탐지 기술에 투자하기로 결정했다. 어도비는 뉴욕타임스, 트위터 등과 함께 사진이나 동영상 혹은 뉴스 같은 콘텐츠의 원저작자와 원본을 찾을 수 있는 디지털 워터마크를 도입해 뉴스의 진위성을 판별하는 기술을 지난해 말부터 적용 중이다.

마이크로소프트 역시 가짜뉴스에 대응하기 위해 ‘동영상 인증기’라는 이름의 인공지능 기반 딥페이크 탑지 기술을 자사의 블로그를 통해 올해 9월 공개했다. 인공지능으로 제작한 딥페이크를 인공지능으로 잡아내는 셈이다. 동영상 인증기는 사진이나 동영상이 몇 퍼센트의 확률로 조작됐는지 일종의 신뢰도 점수를 보여준다. 빛의 양이 변화하는 모습이나 미묘한 겹침 등 사람 눈으로는 감지하기 어려운 부분을 인공지능을 통해 분석하고, 영상의 경우 각 프레임마다 신뢰도 점수를 실시간으로 보여주는 것도 가능하다.

대선 앞둔 한국도 대응책 마련 시급
국내 움직임은 어떨까? 국내에서는 지난 6월 25일부터 개정된 성폭력범죄의 처벌 등에 관한 특례법을 시행하면서 딥페이크 등 인공지능 기술을 이용해 합성한 영상물을 제작 및 배포할 경우 5년 이하의 징역 혹은 5,000만 원 이하의 벌금에 처한다. 특히, 영리를 목적으로 이러한 행위를 할 경우 7년 이하 징역으로 가중처벌한다. 기존 규정의 경우 딥페이크 음란물이 명예훼손이나 음란물 유포 등의 요건을 충족할 경우에만 처벌할 수 있었던 반면, 이제는 해당 음란물을 제작 및 배포만 하더라도 처벌할 수 있어 상대적으로 빠른 대응이 가능해진 셈이다.

미국의 경우 대선을 앞둔 올해부터 각종 소셜 미디어에서는 딥페이크를 통한 가짜뉴스 전파 차단에 힘쓰고 있다. 한국 역시 내후년 대선을 앞두고 있는 상황에서 이러한 문제에 대응해야 한다. 현재 국내에서 마련된 법안은 딥페이크를 통한 합성 음란물에 초점을 맞췄지만, 향후 가짜뉴스 제작이나 유포에 관한 영역에도 대응할 필요가 있다. 뿐만 아니라 국내 인터넷 서비스 기업의 자발적인 노력 역시 필요할 것으로 보인다. 이러한 가짜뉴스가 전파되는 대표적인 경로는 많은 사용자가 모이는 커뮤니티나 소셜 미디어 혹은 메신저 등이기 때문이다. 장기적으로는 이러한 탐지 기술을 기업이 자체적으로 개발해야겠지만, 이미 완성돼 신뢰도가 있는 해외 솔루션을 참고하는 것 역시 좋은 방법이다.
[이상우 기자(boan@boannews.com)]

AI 및 AI 보안 솔루션이 보안 인력의 업무에 어떤 식으로 영향을 미칠것이라고 생각하시나요
	부족한 인력 보충: 만성적인 인력 부족 문제를 해결하는 보완재 역할을 하고 있다(100% 대체는 불가)
	업무 영역의 분리: AI는 대량 데이터 처리를, 전문가는 고도의 전략적 판단을 맡는 등 역할이 완전히 다르다
	업무 총량의 전이: 단순 업무는 줄었으나, AI 모델 관리·검증 등 새로운 형태의 운영 업무가 발생해 전체 업무량은 비슷하다
	인력 대체 가능: 단순 반복 업무를 넘어 분석/판단 영역까지 대체하여 인력을 줄일 수 있다
	신뢰도 부족: 아직은 AI의 오탐이나 환각(Hallucination) 우려로 인해 사람이 일일이 재검토해야 하므로 실질적인 도움은 적다