이미지와 오디오 악용하면 인공지능 챗봇을 앵무새로 만들 수 있다

대형 언어 모델 기술의 발전이 눈부신 속도로 진행되고 있다. 그러자 보안 업계가 가만히 있지 않는다. 악성 이미지와 오디오를 이용해 이 눈부신 기술을 단순 앵무새로 만드는 기법이 새롭게 발견됐다.

[보안뉴스 문가용 기자] 챗GPT와 같은 인공지능 기술의 배경이 되는 ‘대형 언어 모델(LLM)’도 더 이상 안전하지 않다. 새로운 공격 기법들이 자꾸만 발견되고 있기 때문이다. 가장 최근에는 ‘간접 프롬프트 주입(indirect prompt injection)’이라는 공격 기법이 개발돼 알려지기 시작했다. 이를 통해 피해자에게 악성 URL을 내보내거나, 피해자로부터 개인정보를 추출하거나, 악성 페이로드를 유포하는 등의 악성 행위를 할 수 있다고 한다.

[이미지 = gettyimagesbank]

이러한 공격 기법을 발견한 건 미국 코넬대학의 연구원들로, 이미지와 오디오를 사용해 LLM에 명령을 주입하는 데 성공했다고 한다. 공격에 성공할 경우 인공지능이 사용자와 상호작용하는 프롬프트 창에 공격자가 지정한 텍스트와 명령어를 출력할 수 있게 된다. 참고로 코넬대학 연구원들은 판다GPT(PandaGPT)와 라바(LLaVa)라는 LLM을 이번 실험에 사용했다. “결국 인공지능과 사용자 간에 이뤄지는 대화에 공격자가 개입하는 게 가능하다는 뜻이 됩니다.”

개념 증명 공격에서 연구원들은 온라인에서 흔히 구할 수 있는 오디오 클립에 악성 명령을 주입하여 판다GPT가 공격자가 원하는 문자열을 답변으로 출력하도록 만드는 데 성공했다고 한다. “저희가 조작한 오디오 클립을 피해자가 인공지능 프롬프트 창에 넣고 ‘소리를 분석해 달라’는 요청을 한다면, 인공지능 모델은 저희가 원하는 답을 냅니다. 이번 실험에서 저희는 판다GPT가 ‘흔치 않은 새소리이니 보다 상세한 정보를 위해서는 이 사이트를 방문하라’는 답변을 출력하도록 꾸몄습니다.”

이미지에 악성 명령을 주입하는 공격도 성공시켰다. “한 건물의 이미지에 저희만의 명령을 주입했습니다. 이 이미지를 피해자가 라바 프롬프트에 넣고 그림을 분석해달라는 식의 요청을 했을 때 해리 포터의 말투로 대답하라는 것이었죠. 실제 라바는 해리 포터처럼 대답했습니다.”

이번 연구에 참여한 벤 나시(Ben Nassi)의 경우 “이번 연구의 목적 중 하나는 챗봇의 명령 프롬프트에 간접적으로 명령을 주입하는 게 가능한지 알아보는 것이었다”고 설명한다. “당연하지만 직접 명령을 주입하는 사람은 전혀 그 사실을 인지하지 못한다는 전제 하에 진행된 연구입니다. 거기에 더해 간접 명령 주입에 사용되는 오디오나 이미지의 원본을 전혀 손상시키지 않는다는 것도 중요 전제 조건이었습니다.”

이미 이번 연구 전에도 인공지능 프롬프트 창을 공략하는 다양한 방법들이 연구된 바 있고 지금도 그렇다. 나시는 “기존의 연구들에서 많은 영감을 받았고, 우리의 연구도 LLM 프롬프트를 공략하는 수많은 연구 중 하나”임을 강조했다. LLM, 더 나아가 인공지능은 난공불락의 기술이 아니며, 이미 공격 기법이 다양하게 나오고 있다는 경고성 메시지라고 해석할 수 있다. “최근 구글과 여러 대학의 전문가들이 챗GPT에 간단한 명령을 주입해 민감한 정보를 쏟아내게 유도한 적도 있죠. 결국 인공지능도 취약점이 존재할 수밖에 없는 인간의 생산물이라는 겁니다.”

구글의 연구와 이번 코넬대학의 연구는 ‘LLM을 공략한다’는 점에서는 동일하다. 하지만 프롬프트 창을 공격자가 직접 사용하느냐(즉 공격을 직접 입력하느냐), 아니면 피해자를 통해 사용하느냐(즉 공격을 간접적으로 입력하느냐)라는 차원에서 커다란 차이를 보이고 있기도 하다. LLM에 이상을 일으키는 그 시점에 프롬프트를 만지고 있는 게 공격자냐 피해자냐로 크게 갈리는 것이다. “이는 실제 사건이 발생했다고 했을 때 범인 추적과 사건 전말 파악 방식을 아예 다르게 만들어 버리는 정도의 차이입니다.”

인공지능 프롬프트를 간접적으로 조작한다는 개념의 실험은 이전부터 있어 왔다. 5월에는 독일의 자를란트대학교에서 데이터에 명령어를 숨기는 방식으로 인공지능을 공략하는 방법에 대한 연구 보고서를 발표하기도 했었다. 당시 연구원들은 “LLM 기능의 확장성이 너무 뛰어나 오히려 프롬프트를 통한 공격이 그리 어렵지 않다”고 결론을 내리기도 했었다.

이번 코넬대학이 제시한 공격 시나리오에는 한 가지 중요한 전제 사항이 하나 있다. 간접 공격에 당하는 사용자, 즉 프롬프트 창에 직접 뭔가를 입력하는 사람이 공격자가 조작해 둔 오디오와 이미지를 있는 그대로, 의심 없이 사용한다는 것이다. 여기에 대해 연구원들은 “소셜 엔지니어링과 피싱 공격이 고도로 발전해 있기 때문에 다양한 방법으로 해낼 수 있다”고 말한다. “인공지능을 조작하는 것보다 오히려 피해자를 속이는 것에 더 많은 노력을 기울여야 할 수 있습니다. 하지만 불가능한 건 아닙니다.”

3줄 요약
1. 코넬대학의 연구원들, LLM 농락하는 새로운 방법 연구해 성공시킴.
2. 이미지와 오디오에 악성 명령 주입하여, 누군가 대신 프롬프트 창에 입력하도록 하는 것.
3. 피싱 공격 및 소셜 엔지니어링 공격이 고도화 되어 충분히 가능한 일.
[국제부 문가용 기자(globoan@boannews.com)]

우리나라 정보보호 수준 향상을 위해 이재명 정부에게 가장 바라는 점은 무엇인가요?
	ISMS 등 보안 인증 제도 실효성 개선
	AI 보안, 양자보안 등 보안 기술 연구개발 지원 확대
	중소 기업 보안 지원 확대
	기업 보안 예산 비율 의무화
	국가 정보보호 거버넌스 체계 정비
	기타(댓글로)