보안뉴스 창간 17주년을 축하합니다!!

Home > 전체기사

챗GPT 등 ‘생성형 AI’에서 개인정보가 새는 구멍은?

입력 : 2023-06-15 14:24
페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기 네이버 블로그 보내기
생성형 AI, 기업 경쟁력 제고에 필요하나 정보 유출 우려로 사용 제한 이어져
챗GPT의 보안위협 이슈는 작동방식과 데이터수집·학습과정, 그리고 추론 능력
‘제4회 서울시 개인정보보호포럼’에서 생성형 AI 서비스에서의 개인정보 이슈 강연


[보안뉴스 박은주 기자] 챗GPT의 등장으로 생성형 AI 시대가 열렸다. AI를 활용해 기업 경쟁력을 끌어올리고, 업무 효율을 높일 수 있다. 생성형 AI는 막대한 양의 데이터와 알고리즘을 활용해 고도의 지능과 창의력을 가진 기계학습 모델이다. AI에 언어를 가르치고 인간 피드백 기반의 강화 학습(RLHF, Reinforcement Learning from Human Feedback)을 적용하면서 자연스러운 대화를 나눌 수 있게 됐다. 2022년 Open AI사가 발표한 챗GPT-3.5는 1,750억개의 매개변수를 가진 대규모 언어 모델로 일상적인 대화는 물론 복잡한 추론 작업을 해내는 똑똑한 챗봇이다.

[이미지=gettyimagebank]


이와 같은 생성형 AI 서비스의 개인정보와 관련된 논의가 ‘제12회 개인정보보호페어 & CPO워크숍(PIS FAIR 2023)’의 동시개최 행사인 ‘제4회 서울시 개인정보보호포럼’에서 진행됐다. 연세대학교 권태경 교수가 ‘생성형 AI 서비스의 관련 쟁점과 개인정보 보호방안’을 주제로 강연을 했다.

생성형 AI의 발전은 예기치 못한 변수를 만들었다. 개인정보가 유출되는 보안 취약점이 생겨난 것이다. 이 과정에서의 이슈는 생성형 AI 작동방식과 데이터 수집과정, 학습과정, 추론 능력이다.

대표적 생성형 AI인 챗GPT가 작동하는 과정에서 데이터 흐름은 Open AI 서버의 비공개 모델과 플러그인, 외부 확장 프로그램으로 흐른다. 플러그인은 △최신 정보에 접근하게 돕는 ‘브라우징’ △파이썬 코드를 실행하는 ‘코드 인터프리터’ △개인·비공개 접근을 허용하는 ‘검색’ △타사 애플리케이션에 의해 작동하는 ‘서드 파티 플러그인’으로 구분된다. 예를 들어 챗GPT를 활용해 보고서 작성에 도움을 받을 때, 회사와 관련된 데이터를 입력하게 된다. 이러한 데이터가 Open AI 서버와 플러그인, 여러 확장 프로그램을 거치면서 유출 가능성이 생기는 것이다.

데이터 수집 과정의 문제는 AI 서비스 제공자가 데이터를 처리하는 방식이다. 실제로 지난 3월 이탈리아에서 GDPR(General Data Protection Regulation, ER의 일반 개인정보보호법) 위반을 이유로 챗GPT 접속이 차단됐다. 챗GPT가 대규모 학습 데이터를 수집하는 과정의 적법성, 데이터 처리 근거와 사용자 연령 확인 절차가 없다는 이유였다.

챗GPT는 공개된 웹사이트에서 데이터를 수집하고 학습한다. 학습한 데이터를 다양한 정보와 합성하고 추론하는 과정을 통해 많은 정보를 제공하게 된다. 이때, 개인정보 유출이 발생할 수 있다는 우려가 제기된다. 여러 EDPB(European Data Protection Board) 회원국도 학습 데이터와 관련한 모델의 추론 능력으로 인한 데이터 유출 가능성을 지적했다.

2021년 국내에서는 AI 챗봇 ‘이루다’로 인한 개인정보 유출사건이 발생했다. 이루다의 제작사 스캐터랩은 자사의 앱에서 수집한 카카오톡 대화를 이루다의 개발과 운영에 사용했다. 데이터 수집 과정에서 명시적 동의를 구하지 않았고, 이름·전화번호·주소 등 가명처리되지 않은 개인정보가 담겨 있었다. 이와 더불어 성희롱 이슈가 발생하면서 이루다는 출시 2주 만에 서비스를 종료하는 상황에 이르렀고, 스캐터랩은 개인정보보호위원회로부터 1억 330만원의 과태료 처분을 받았다. 이는 AI 기술의 무분별한 개인정보 처리를 제재한 첫 번째 사례로 남았다. 사건 이후 스캐터랩은 수집한 개인정보에 대한 성별과 나이 범주화, 식별 정보를 치환하는 가명처리를 진행했다.

▲제4회 서울시 개인정보보호 포럼에서 강연하고 있는 연세대 권태경 교수[사진=보안뉴스]

가명처리는 개인정보의 일부를 삭제·대체해 추가 정보 없이는 특정 개인을 식별할 수 없게 하는 기술을 뜻한다. 가명정보는 통계작성이나 과학적 연구 등 제한적 목적으로 이용할 수 있다. 다만, 일부 개인정보를 가리더라도 희귀한 성씨나 직업을 가진 경우에는 안전하다고 보긴 어렵다. 이와 더불어 권태경 교수는 “가명정보라 하더라도 발전하는 대규모 언어 모델을 사용하면 개인을 특정할 가능성이 있다”고 말했다.

생성형 AI의 수집·학습과정에서 ‘공개된 개인정보’를 사용하는 과정에 대한 논란도 이어진다. 지난 2016년 해당 사안에 대해 소송이 이어졌던 ‘로앤비’ 사건이 대표적인 사례다. 재판 결과 공개된 개인정보는 객관적으로 인정 범위 내에서 동의 없이 사용 가능하다고 결정됐다. 호주와 미국의 일부 주에서도 ‘공개된 개인정보’를 동의 없이 수집·이용하는 것은 위법이 아니라고 판결했다. 반면, 영국, 프랑스, 캐나다에서는 개인정보보호법 위반으로 판결했다.

국내에서도 생성형 AI에 대한 다양한 규제가 이어지고 있다. 지난 5월 행정안전부에서는 ‘챗GPT 활용방법 및 주의사항 안내서’를 배포해 생성형 AI를 올바르게 활용할 수 있도록 안내했다. 국가정보원 또한 6월 중으로 챗GPT 등 언어 모델 인공지능(AI) 활용 과정에서 발생하는 보안 문제를 예방하는 가이드라인을 마련하겠다고 밝혔다.

반면, 보안을 더욱 중요시하는 금융권의 경우 개인정보 등 핵심정보 유출을 우려해 챗GPT 사용을 금지했다. 여러 기업에서는 사내 전용 서비스 도입 등 별도의 방안을 마련할 예정으로 알려졌다. 카카오는 챗GPT 사용가이드를 제작하고, 개인정보 및 사내 정보 입력, 고객사 정보와 개발 노하우 입력 주의를 강조했다.

해외 각국에서는 생성형 AI의 안전한 사용과 신뢰 환경 구축을 위해 각종 제도와 규제를 마련 중에 있다. G7은 정상회의에서 챗GPT로 대표되는 생성형 AI와 관련한 규제 대책과 국제적 정보 유통의 틀을 구축하겠다고 발표했다. EU에서는 AI 프로그램 위험도에 따라 ‘최소 위험’, ‘제한된 위험’, ‘높은 위험’, ‘용납불가 위험’ 4가지로 평가·분류했다. 가장 위험한 용납불가 등급은 배포·사용을 금지하는 인공지능법(AI Act) 초안이 유럽의회 상임위원회를 통과했다.

해외 기업들은 AI 활용이 기업 경쟁력 제고에 필요하다는 의견과 회사 기밀정보 및 개인정보 유출 가능성을 우려하는 의견이 분분하다. 미국의 글로벌 기업 아마존과 애플은 보안을 이유로 사내 챗GPT 사용을 금지했다. 해외 금융업계 또한 재무 데이터 등 기밀정보가 챗GPT를 통해 공유될 가능성을 우려했다. 특히, JP모건체이스, 뱅크 오브 아메리카 등은 챗GPT의 정확도 부족과 그로 인한 평판 및 신뢰도 하락을 문제 삼아 사용을 금지하기도 했다.
[박은주 기자(boan5@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

  •  
  • 0
  • 페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기 네이버 블로그 보내기

  •  SNS에서도 보안뉴스를 받아보세요!! 
 하이젠 파워비즈 23년 11월 16일~2024년 11월 15일까지 아스트론시큐리티 파워비즈 2023년2월23일 시작 위즈디엔에스 2018 넷앤드 파워비즈 진행 2020년1월8일 시작~2021년 1월8일까지
설문조사
2023년 주요 보안 위협 가운데, 올해 말까지 가장 큰 피해를 끼칠 것으로 예상되는 위협은?
공급망 공격
다크웹 기반 랜섬웨어 조직
북한/중국/러시아 등 국가 지원 해킹그룹 활동
스마트폰을 노린 보안 위협
OT 타깃 공격
피싱 공격
기타(댓글로)