‘대형 vs 소형’ 양분된 생성형 AI 언어모델... 실용성 강조한 sLLM 주목

소형 언어모델... 하드웨어 부담 및 구독 시간과 비용 해결, 성능도 우수
이글루코퍼레이션, ‘소형 언어모델’ 분석...국내 기업들도 잇달아 sLLM 출시 예정

[보안뉴스 김영명 기자] 오픈AI가 지난해 11월 말, 기존의 GPT-3.5와 GPT-4를 기반으로 챗GPT(ChatGPT)를 선보이며 생성형 AI가 전 세계의 시선을 끌고 있다. 이와 함께 대형 언어모델(Large Language Model, LLM)과 소형 언어모델(small Large Language Model, sLLM) 등 언어모델에 대한 관심도 커지는 추세다. 최근 이글루코퍼레이션이 발표한 ‘소형 언어모델’ 리포트를 중심으로 sLLM에 대해 살펴본다.

‘언어모델(Language Model)’이란 대용량의 텍스트에서 언어 이해 능력과 지식을 학습하도록 훈련된 AI 모델을 뜻한다. 이는 방대한 텍스트가 포함된 데이터로부터 정보를 추출하고 분류하는 것에서부터 더 나아가서는 직접 텍스트를 생성하기까지 한다. 언어모델은 딥러닝을 통해 수많은 데이터를 미리 학습해 추론하고, 이를 문장으로 표현하며 대화를 이어갈 수 있는 모델로, 사실상 ‘생성형 AI’의 핵심기술로 알려져 있다.

언어모델의 구분자, ‘매개변수’는 무엇인가
생성형 AI의 시작을 알린 오픈AI의 ‘챗GPT’는 LLM을 기반으로 한다. 언어모델의 크기는 일반적으로 매개변수(파라미터) 개수에 따라 결정되는데 보통 1,000억개 이상일 때 LLM으로 분류된다. 챗GPT에 적용된 ‘GPT-3’의 매개변수는 1,750억개, 구글이 개발한 ‘팜(PaLM)’의 경우에는 약 5,400억개의 매개변수가 있는 것으로 알려졌다.

매개변수는 사람의 뇌에서 정보를 학습하고 기억하는 시냅스(synapse)와 비슷한 역할을 한다. 이론상으로는 매개변수의 수가 많으면 많을수록 성능이 높아지고, 더욱 복잡하고 정교한 기능을 수행할 수 있다고 판단한다. 세계 굴지의 빅테크 기업들이 매개변수의 수를 언급하며 각자의 언어모델에 대한 성능을 강조하는 것도 이러한 이유에서다.

언어모델에서 매개변수의 수가 많으면 무조건 좋을까? 언어모델은 누가 어떻게 활용하느냐에 따라 다를 수 있어 매개변수가 많은 것만이 좋은 것은 아니다. 비즈니스에 맞게 상황에 따라 최적화된 경량 언어모델을 사용하는 것이 더욱 효율성을 높일 수도 있다.

▲국내 기업의 언어모델 개발 추진 현황[출처=한국과학기술기획평가원 과학기술정책센터]

메타의 ‘라마’를 시작으로 떠오르는 sLLM
sLLM은 LLM과 비교했을 때 매개변수의 수가 수십억~수백억개로 비교적 크기가 작은 언어모델을 의미한다. sLLM은 올해 초 메타(Meta, 구 페이스북)가 ‘라마(LLaMA)’를 공개하면서부터 주목받기 시작했다. 메타는 라마를 매개변수 개수에 따라 총 4가지 버전으로 내놓았다. 가장 작은 모델은 매개변수가 70억개에 불과했지만, 가장 큰 모델은 650억개로 타 경쟁사와 대비해 매개변수의 수에는 차이가 두드러졌다.

메타는 라마를 통해 매개변수의 수를 강점으로 내세웠다. 개수는 적지만, 용량을 다른 모델 대비 1/10 수준으로 낮춰 훨씬 적은 컴퓨팅 파워를 요구함으로써 모바일이나 노트북에서도 활용하도록 실용성을 높였다. 또한, 이러한 장점을 돋보이게 하기 위해 라마를 오픈소스로 공개했다.

▲개방성과 효율성을 강조한 메타의 LLaMA[출처=Meta AI 블로그]

LLM에서 꾸준히 지적되고 있는 가장 큰 단점은 구동 비용이 너무 크다는 것이다. 부피가 큰 만큼 훈련과 유지에 막대한 비용과 시간이 소요되기 때문이다. 구글의 팜은 4,000개의 칩으로 이뤄진 슈퍼컴퓨터 2대로 50일 이상 훈련됐으며, 챗GPT의 GPT-3는 초기 훈련 비용에만 1,000만 달러(한화 약 132억원)가 투입됐다. 또한, 챗GPT가 전 세계에서 흥행을 했지만, 오픈AI는 최근 수천억원대의 영업 손실을 냈는데, 이는 챗GPT의 훈련 및 유지 비용이 그 원인이었다.

반면에 sLLM은 훈련에 요구되는 데이터, 시간, 비용이 상대적으로 적다는 것이 강점이다. 미국 스탠퍼드대는 메타의 라마 중 매개변수가 가장 작은 7B 버전을 기반으로 한 소형 언어모델 ‘알파카 7B’를 선보였다. 알파카는 5만 2,000개의 데이터를 토대로 AI 반도체를 탑재한 컴퓨터 8대를 통해 단 3시간 만에 훈련을 끝냈다. 개발에 들어간 비용은 오픈AI의 API 사용 비용 약 500달러, 라마 7B 사용 비용 100달러 안팎으로 총 600달러(약 77만원)에 불과했다. 하지만, 연구진에 따르면 스탠퍼드대의 알파카가 GPT-3.5와 질적으로 비슷한 성능을 보였다고 한다. 메일 작성, 생산성 도구 등 다양한 분야에서 GPT와 비교했을 때 알파카는 90개 항목에서, GPT는 89개 항목에서 성능이 상대보다 앞섰다고 연구팀은 밝혔다.

▲소형 언어모델 Alpaca 7B[출처=스탠퍼드대 기초모델 연구센터(CRFM) 블로그]

미국의 데이터 플랫폼 기업 데이터브릭스(Databricks)는 1대의 서버로 3시간 훈련해 개발한 매개변수 60억개의 sLLM ‘돌리(Dolly)’를 선보였다. 미국의 AI 반도체 스타트업 세레브라스(Cerebras)는 매개변수 1억~130억개의 소형 언어모델 7종을 개발해 오픈소스로 공개했다. 비싸고 무거운 LLM과 차별화한 언어모델 경량화를 통해 운영 비용을 줄이고 다양한 곳에 적용하려는 접근법이 트렌드가 되고 있다.

구글도 최근 연례 개발자 콘퍼런스인 ‘구글 I/O’를 통해 ‘팜2(PaLM2)’를 게코(Gecko), 오터(Otter), 비슨(Bison), 유니콘(Unicorn)의 4가지 크기로 세분화함으로써 다양한 사용 사례에 맞게 모델의 크기를 선택하고 쉽게 배포하도록 출시했다. 그중에서도 가장 규모가 작은 게코는 모바일과 오프라인에서도 작동 가능한 것으로 알려졌다.

챗GPT가 백과사전이라면, 특정 산업과 영역에 맞게 설계되고 최적화된 버티컬 AI(Vertical AI)로 활용하기에는 sLLM이 적합하다. 일상적인 대화 역량은 떨어지더라도, 학습 데이터의 깊이와 질에 따라 특정 분야에서는 LLM을 뛰어넘는 답을 낼 잠재력이 충분하기 때문이다. 또한, 다른 애플리케이션과의 통합 사용에서도 가볍고 유연한 점이 장점이다. 미세 조정을 통해 매개변수를 줄이고 비용을 절감하며 정확도를 높인 맞춤형 언어모델의 활용도가 높아질 것으로 보인다.

미국의 AI 스타트업 갓잇AI(Got It AI)는 챗봇 애플리케이션에 적용할 수 있는 기업용 sLLM ‘엘마(ELMAR)’를 공개했다. 엘마는 소규모 온프레미스 언어모델이다. 데이터 외부 유출에 민감한 기업들을 타깃으로 가볍게 실행하면서도 미세 조정을 통해 성능을 높였다.

▲다양한 규모의 언어모델 제품군을 선보인 구글 및 온프레미스형 소형 언어모델 ELMAR[출처=구글, 갓잇AI]

갓잇AI의 피터 레란(Peter Relan) CEO는 “모든 기업이 크고 강력한 모델을 필요로 하는 것은 아니며 오히려 데이터가 외부로 반출되는 것을 원하지 않는 기업이 많다”며 sLLM의 또 다른 강점을 강조했다.

폐쇄적이고 활용이 어려운 LLM과 달리 sLLM은 기업의 입장에서 보다 경제적이고 신속하게 만들 수 있으며, 보유한 데이터를 활용해 맞춤형으로 구축할 수 있기 때문이다. 향후에는 정보 유출을 우려하는 기업이나 각국 정부가 저마다의 독자적인 언어모델을 구축해 자체적으로 운영하는 모습을 볼 수 있을 것으로 전망된다.
[김영명 기자(boan@boannews.com)]

AI 및 AI 보안 솔루션이 보안 인력의 업무에 어떤 식으로 영향을 미칠것이라고 생각하시나요
	부족한 인력 보충: 만성적인 인력 부족 문제를 해결하는 보완재 역할을 하고 있다(100% 대체는 불가)
	업무 영역의 분리: AI는 대량 데이터 처리를, 전문가는 고도의 전략적 판단을 맡는 등 역할이 완전히 다르다
	업무 총량의 전이: 단순 업무는 줄었으나, AI 모델 관리·검증 등 새로운 형태의 운영 업무가 발생해 전체 업무량은 비슷하다
	인력 대체 가능: 단순 반복 업무를 넘어 분석/판단 영역까지 대체하여 인력을 줄일 수 있다
	신뢰도 부족: 아직은 AI의 오탐이나 환각(Hallucination) 우려로 인해 사람이 일일이 재검토해야 하므로 실질적인 도움은 적다