단단히 착각 속에 빠진 대형 언어 모델, 개발자들을 위험에 빠트린다

인공지능 모델들은 거짓을 생성한다. 환각 증세를 보인다고 표현하기도 한다. 이를 악용할 경우 개발자들이 악성 코드를 다운로드 받아 설치하게 만들 수도 있다.

[보안뉴스 = 자이 비자얀 IT 칼럼니스트] 소프트웨어 개발자들이 대형 언어 모델을 보다 적극적으로 활용하기 시작하면서 장점들도 발휘되고 있지만 반대로 부작용들도 나오기 시작했다. 대형 언어 모델 보안 전문 업체인 라소시큐리티(Lasso Security)에 의하면 이른 바 ‘대형 모델의 환각 증상(hallucination)을 악용하는 게 가능하다’고 한다. 이를 통해 대단히 설득력 높은 콘텐츠를 만들어 피해자를 감쪽같이 속일 수 있다는 것이다.

[이미지 = gettyimagesbank]

인공지능의 환각
이전에도 이런 방향의 연구와 실험은 많이 실행됐다. 예를 들어 라소시큐리티 측에서 실시한 지난 연구의 경우, 챗GPT가 코드 라이브러리들의 이름을 ‘창작’한다는 사실이 드러났다. 공공 코드 리포지터리에 있지도 않은 패키지들에 대한 링크를 개발자들에게 제공하는 경우들이 있다는 것이다. 이건 ‘개발’이라는 맥락에서 나올 수 있는 이야기이다. 그 외에도 인공지능이 허상을 만드는 일들이 계속해서 발견되는 중이다.

라소의 보안 전문가 바 라냐됴(Bar Lanyado)는 “공격자들이 이러한 챗GPT의 환각 증세를 활용해 멀웨어를 퍼트릴 수 있다”는 사실을 최근 발견해 경고했다. 챗GPT가 가져다 주는 것이므로 신뢰하고 다운로드 받아 사용할 경우 개발자는 공격자의 손에 넘어가게 되며, 여러 정보를 빼앗기거나 시스템이 마비되는 현상을 겪거나 랜섬웨어에 마비되는 일을 겪게 된다.

라냐도는 GPT3.5 터보, GPT-4, 제미나이 프로, 코럴이라는 네 가지 대표적인 대형 언어 모델을 실험에 활용했고, 이를 통해 ‘패키지 환각’ 문제가 공통적으로 존재함을 알아낼 수 있었다. 그리고 이러한 성향을 악용하여 다양한 프로그래밍 언어 환경에서 ‘환각 현상으로서만 존재하는 패키지들’을 생성할 수도 있었다고 한다.

실험을 위해 라냐도는 먼저 다양한 프로그래밍 언어를 전문으로 삼고 있는 개발자들이 프로젝트를 진행하면서 대형 언어 모델들에 물을 수 있는 다양한 질문들을 목록으로 만들었다고 한다. 질문이 수천 개에 이르렀다. “그리고 이 질문을 여러 모델들에 실제로 해가며 개발자의 코딩 파트너 혹은 조수로서 활용해 보았습니다. 그리고 문제를 해결하는 데 도움이 될 패키지를 10가지 추천해 달라고 요청했습니다. 이 추천 질문은 실제 개발자들이 현장에서 많이 하는 질문 중 하나입니다.”

반복되는 결과들
결과는 심각했다. 제미나이와 라냐도가 대화를 해가며 코딩 작업을 진행했을 때 64.5%의 경우 있지도 않은 패키지들에 대한 답변이 제미나이로부터 나왔다. 코럴이 경우 29.1%가 그랬다. GPT-4는 24.2%, GPT3.5는 22.5%가 기록됐다. 제미나이가 압도적으로 높아서 그렇지 다른 모델들의 성적이 양호하다고 말할 수 없는 상황이라고 라냐도는 정리한다.

뒤이어 라냐도는 각 모델들에 같은 질문 세트들을 100번 넘게 주입해 답변을 요구했다. 똑같은 작업을 100번 정도 실행한다고 했을 때 없는 패키지를 제안하는 경우가 몇 번이나 될까를 알아보기 위함이었다. 결과는 이번에도 놀라웠다. 코히어(Cohere)의 경우 존재하지 않는 패키지를 답변에 섞어 놓은 경우가 24%를 넘어섰다. 챗GPT 3.5와 제미나이는 14%, GPT4는 20%였다. 서로 다른 모델인데 존재하지 않는 패키지들의 이름을 동일하게 말하는 경우들이 있었다. 착각으로 언급된 이름이 신기하게도 일부 겹친다는 건데, GPT3.5와 제미나이 사이에 특히 동일한 이름들이 많이 나왔다.

“만약 대형 언어 모델을 옆에 두고 코딩을 한다면, 가짜 패키지에 대한 추천을 받을 때가 빈번하게 생길 겁니다. 여러 언어 모델들이 똑같이 추천을 한다면 깜빡 속기 쉽겠죠. 공격자는 이를 활용해 환각으로 나올 만한 이름으로 악성 패키지를 꾸려 리포지터리에 올려두면 됩니다. 그러면 개발자들이 활발하게 가져가죠. 그런 패키지들이 없으면 대형 언어 모델이 이상한 답을 내놓았다고 여기며 끝날 일인데, 가짜 패키지를 미리 준비해 두면 인공지능의 환각과 같은 의심은 전혀 들지 않습니다. 속기에 딱 좋죠.”

익스플로잇 난이도도 낮아
이를 익스플로잇 하기 위해 공격자가 미리 준비해야 할 것은 인공지능 모델들이 제공하는 ‘환각 패키지’의 이름들이다. 스스로 인공지능 모델들을 좀 만지면서 패키지 이름을 확보하기만 하면, 그 이름을 가지고 악성 패키지를 만들어 리포지터리에 업로드 하면 그만이다. 해커들로서는 대단히 간단한 작업이다.

“이보다 더 심하고 어려운 공격도 서슴지 않고 하는 게 요즘 해커들입니다. 인공지능이 뱉어내는 이상한 패키지 이름들을 다수 확보한다는 건 일도 아닙니다. 개발자들을 노리는 방법은 더욱 교묘해졌고요. 더 쉽고 센 공격 기법이 대형 언어 모델들 덕분에 존재하게 되었다는 뜻이 됩니다.”

전체적으로 봤을 때 GPT3.5가 환각을 가장 적게 만들어내는 것으로 조사됐다. 제미나이가 가장 많은 환각을 생성했다. 전체 모델의 평균 ‘환각 응답률’은 18%인 것으로 계산됐다. “대형 언어 모델과 함께 개발 작업을 하는 게 마냥 불가능한 건 아닙니다만 아직은 깊은 주의와 꼼꼼한 점검이 요구됩니다.”

글 : 자이 비자얀(Jai Vijayan), IT 칼럼니스트
[국제부 문정후 기자(globoan@boannews.com)]

우리나라 정보보호 수준 향상을 위해 이재명 정부에게 가장 바라는 점은 무엇인가요?
	ISMS 등 보안 인증 제도 실효성 개선
	AI 보안, 양자보안 등 보안 기술 연구개발 지원 확대
	중소 기업 보안 지원 확대
	기업 보안 예산 비율 의무화
	국가 정보보호 거버넌스 체계 정비
	기타(댓글로)