챗GPT 사용해 업무 능력 향상하려다 민감한 정보와 기밀까지 입력해

약 4% 정도 되는 사용자들이 챗GPT로 뭔가를 해 보려다가 회사의 기밀과 개인의 민감 정보를 입력한 경험을 가지고 있다고 한다. 인공지능이 본격적으로 활용되면 이 숫자는 늘어날 가능성이 높아 보인다. 새로운 보안 위협의 등장이다.

[보안뉴스 문가용 기자] 챗GPT로 인해 새로운 위협이 불거지고 있다는 지적이 나왔다. 챗GPT 열풍이 대형 언어 모델(Large Language Model, LLM)이라는 기술 자체에 대한 관심의 급증으로 이어졌는데, 수많은 사용자들이 이 기술을 시험해 보는 과정에서 회사의 기밀과 개인의 민감한 정보를 LLM 알고리즘에 제공한다는 것이다. 사용자들이 재미 삼아 입력한 데이터를 나중에 추출하는 것이 가능하다고 보안 전문가들은 지적하고 있다.

[이미지 = utoimage]

보안 업체 사이버헤이븐(Cyberhaven)은 이러한 내용을 담아 최근 보고서를 발표했다. 조사 결과 사이버헤이븐의 고객사에서 근무하는 160만 명의 임직원들 중 4.2%에 해당하는 인원이 기밀, 고객 정보, 소스코드, 규정상 반출이 금지된 정보를 LLM에 입력하고 있었다는 사실을 알아냈다고 한다. “한 임원의 경우 기업 전체의 전략이 담긴 문서를 통째로 챗GPT에 입력한 후 파워포인트로 변환시켜 달라는 요청을 했습니다. 어떤 의사의 경우, 환자의 이름과 의료 기록을 챗GPT에 입력한 후 보험사에 보낼 서신을 작성해 달라고 요청하기도 했고요.”

사이버헤이븐의 CEO인 하워드 팅(Howard Ting)은 “점점 많은 사람들이 챗GPT를 업무에 활용하기 시작했는데, 이 현상이 증가하면 할수록 보안 위협이 커질 것”이라고 짚었다. “이미 우리는 온프레미스에서 클라우드로 대량의 데이터가 이동하는 걸 경험하고 있습니다. 그 과정에서 얼마나 많은 보안 사고가 있었나요? 다음으로는 대량의 데이터가 인공지능 앱으로 이동할 차례인 것으로 보입니다. 그 과정에서 어떤 일이 일어날지는 아무도 예측할 수 없습니다만, 좋은 것일 확률은 낮아 보입니다.”

챗GPT를 비롯해 각종 LLM들에 대한 일반 사용자들의 관심이 올라가면서 기업들과 보안 전문가들에게는 걱정거리가 하나 생겼다. ‘인공지능에 주입된 정보를 나중에 누군가 추출할 수 있다면 어떻게 될까?’였다. 그래서 조치를 취한 기업들도 있다. JP모건(JPMorgan)의 경우 임직원들이 업무에 챗GPT를 사용하지 못하도록 했다. 아마존, MS, 월마트는 챗GPT나 그와 유사한 인공지능 서비스를 사용하지 말라고까지 하지는 않지만, 주의할 것을 거듭 경고한 것으로 알려져 있다.

로펌 세이파스쇼(Seyfarth Shaw)의 파트너인 칼라 그로센바허(Karla Grossenbacher)는 블룸버그의 칼럼을 통해 “챗GPT를 애플리케이션과 연동하여 사용하는 소프트웨어 회사들이 늘어나고 있다”며 “이 과정에서 인공지능 모델을 통해 상상을 초월하는 민감 데이터들이 수집되고 있으며, 이는 다른 걸 떠나 규정 위반을 초래할 수 있다”고 경고하기도 했다.

이미 2021년 6월 애플, 구글, 하버드대학, 스탠포드대학 등의 연구원들은 공동으로 ‘훈련 데이터 추출 공격(training data extraction attack)’이라는 기법이라는 걸 개발해 논문으로 발표한 바 있다. 인공지능 모델을 훈련시키는 데이터를 추출하여 개인 식별 정보 등 민감 정보를 빼내는 데 성공했던 것이다. 당시 실험에 사용되던 모델은 GPT2로 챗GPT보다 한 단계 전의 모델이라고 할 수 있다.

지금도 ‘훈련 데이터 추출 공격’은 머신러닝을 연구하는 사람들 사이에서 핵심 위협 중 하나로 꼽히고 있다. 참고로 마이터(MITRE)의 ‘인공지능 시스템을 겨냥한 적대적 위협 지형도(Adversarial Threat Landscape for Artificial Intelligence Systems, Atlas)’ 지식베이스에서는 이 공격을 ‘머신러닝 추론을 통한 유출(exfiltration via machine learning inference)’이라고 부르기도 한다. 생성형 인공지능 시스템에 특정 아이템과 관련된 대한 기록을 다시 떠올리게 하는(즉, 사람으로 따지면 회상하게 하는) 질문을 만들어 던짐으로써 특정 정보를 확보할 수 있다는 것이 이 마이터의 설명이다. 실제로 깃허브의 인공지능 모델인 코파일럿(Copilot)을 통해 특정 개발자의 이름과 코딩 습관이 추출된 사례도 존재한다.

챗GPT와 유사한 인공지능 모델들만 문제가 되는 것이 아니다. 자동으로 녹취록을 작성해 주는 인공지능 서비스인 오터(Otter.ai)의 경우, 음성 파일을 텍스트 파일로 변환시켜 주는 데 특화되어 있지만 그 외에 자동으로 화자를 인식하거나 특정 단어와 문장을 자동으로 태깅해 주는 기능도 가지고 있다. 일부 문장에 중요 표시를 자동으로 하기도 한다. 오터 측은 인공지능이 식별한 화자와 중요하다고 표시한 문장, 태깅된 단어와 같은 정보를 내부에 보관하고 있는 것으로 알려져 있으며, 이러한 정보 수집 행위가 올바른 것인지에 대한 논쟁은 지금도 이어지고 있다.

한편 소셜미디어 회사인 스냅(Snap)과 쇼핑 플랫폼인 인스타카트(Instacart)와 쇼피파이(Shopify)의 경우, API를 통해 챗GPT를 자신들의 서비스에 직접 접목하기도 했다. 그렇기 때문에 이 세 서비스를 활용하는 사람이라면 누구나 이 챗GPT의 사용자가 될 가능성이 높다. 하워드 팅은 “이렇게 서비스와 서비스 간 접목으로 챗GPT가 활용되기 시작하면 더 많은 데이터가 LLM으로 유입될 것”이라며 “사용자들 역시 LLM의 편리함에 더욱 매료될 것”으로 보고 있다.

“챗GPT와 같은 인공지능 모델들에 정보를 주입할 때 어떤 점을 조심해야 하고, 어떤 윤리 가이드라인을 따라야 하는지 아무도 이야기하지 않는 상태에서 이미 인공지능으로의 거대한 데이터의 흐름이 형성되었다는 뜻입니다. 사용하지 않으면 경쟁에서 뒤쳐질 거 같아서, 혹은 사용자들이 떠날 거 같아서, 혹은 생산이 느려질 거 같아서죠. 일종의 공포심과 강박증이 봐야 할 것을 못 보게 만들고 있습니다.”

팅은 “그래도 희망적인 부분이 있다” 며 “아직 민감한 정보를 생각없이 마구 입력하는 사람의 비율이 극히 낮다는 것”이라고 설명을 잇는다. “그 동안 알게 모르게 진행됐던 보안 교육, 특히 데이터의 중요성에 대한 교육이 어느 정도 작용을 하는 것으로 보입니다. 이런 정보를 여기에 입력해도 될까, 라고 멈칫하는 사람들이 훨씬 많아졌다는 것입니다. 그러니 부지런히 인공지능 사용과 관련된 가이드라인을 만들어 교육해야 할 것입니다. 그 동안 보안 업계가 괜한 수고를 한 건 아니었던 거 같습니다.”

3줄 요약
1. 챗GPT가 생산 및 업무 현장에 널리 투입되기 시작.
2. 그러면서 각종 민감 정보를 입력하는 경우들이 하나 둘 늘어나기 시작.
3. 인공지능에 주입된 정보를 추출하는 방법들은 이미 예전부터 개발되어 왔음.
[국제부 문가용 기자(globoan@boannews.com)]

SK텔레콤 해킹 사태로 최근 잇슈가 되고 있는 ‘BPF도어’ 관련, 어떤 솔루션을 사용중인가요?
	안랩 V3 Net for Linux
	소만사 Server-i
	파이오링크 점검 도구
	잉카인터넷 전용 백신
	트렌드 마이크로 백신
	기타 국산(솔루션명은 댓글로)
	기타 외산(솔루션명은 댓글로)
	사용하지 않는다