LLM과 차별되는, 더 똑똑하고 경제적인 SLM

LLM과 차별되는, 더 똑똑하고 경제적인 SLM

지난 기사에서 생성형 AI의 등장과 함께 주목받고 있는 기술, LLM(Large Language Models, 대규모 언어 모델)에 대해 살펴보았다. LLM은 방대한 데이터와 고급 딥 러닝 기술을 이용해 자연어 처리를 효과적으로 실행하기 위해 만든 모델인데, 여러 장점이 있지만 이에 수반되는 다양한 단점 또한 갖고 있다.

최근에는 LLM과 함께 이에 대비되는 개념인 SLM(Small Language Model, 소규모 언어 모델)도 많은 주목을 받고 있다. LLM의 단점으로 지적됐던 문제를 해결하기 위해, 그리고 이밖에 다양한 이유로 인해 많은 기업이 SLM에 주목하면서 실제로 다양한 SLM이 등장하고 있다. 이번 기사에서는 지난 기사의 LLM에 이어 SML에 대해 다루어보고자 한다.


세 줄 요약

  • SLM은 대규모 범용 언어 모델인 LLM과 달리 특정 도메인이나 분야에 특화된 언어 모델을 말한다.
  • SLM은 전문화, 낮은 개발 비용, 빠른 학습 시간, 할루시네이션 가능성 최소화 등으로 인해 주목받고 있다.
  • SLM은 LLM에 비해 범용성이 떨어지고, 특정 목적을 위해 학습시키기 위한 전문 지식을 입수하기가 어렵다는 단점이 있다.

SLM은 무엇인가?

SLM은 대규모 범용 언어 모델인 LLM과 달리 특정 도메인이나 분야에 특화된 언어 모델을 말한다.

LLM은 인터넷상의 방대한 텍스트 데이터를 활용하여 학습된, 수십억 개에서 수조 개의 파라미터를 가진 언어 모델이다. 참고로 언어 모델의 규모를 나타내는 지표 중 하나가 ‘파라미터 수’이며, 파라미터는 모델이 학습할 때 조정되는 변수를 의미한다. 파라미터 수가 많을수록 모델이 표현할 수 있는 언어의 복잡성이 증가하고 더 자연스러운 문장을 생성할 수 있게 된다.

대표적인 LLM으로 OpenAI의 GPT-3(1,750억 파라미터)와 GPT-4(약 1조 7,600억 개), DeepMind의 Gopher(2,800억 파라미터) 등이 있는데, LLM은 다양한 자연어 처리 작업에서 높은 성능을 보이지만, 특정 분야에 대한 지식은 제한적이다. 한 마디로 ‘넓고 얕게’를 위한 언어 모델인 것이다.

SLM의 특징. (사진 출처 : obusgreyling.com)

반면, SLM은 법률, 금융, 의료 등 특정 분야와 관련된 대량의 텍스트 데이터를 활용하여 학습된다. 파라미터 수는 LLM만큼 많지 않지만, 해당 분야에 대한 깊은 지식을 가지고 있다. 일반적인 SLM의 파라미터 수는 수십억 정도(Microsoft의 Phi-3-mini는 38억 파라미터)로 한 마디로 ‘좁고 깊게’를 위한 언어 모델인 셈이다.

예를 들어 의료 분야의 SLM은 의학 논문이나 진료 기록과 같은 의료 데이터를 활용하여 의학적 개념이나 전문 용어를 이해하며, 진단 및 치료에 관한 지식을 보유하고 있는데, 이런 성능은 LLM에서는 기대하기 어렵다. 아니, 정확히 말하면 이론상으로는 가능하지만, 이를 위한 비용과 시간을 고려하면 경제적으로는 쓸모가 없다. 볼펜도 만년필도 지울 수 있지만 1개에 10억 원짜리 지우개를 사용하는 셈이랄까?

SLM와 LLM이 이렇게 파라미터 수에서 차이를 보이는 건 사용되는 데이터의 범위와 양 때문이다. LLM은 인터넷상의 방대한 정보를 학습 및 훈련에 활용하기 때문에 사용자의 모든 질문이나 명령에 대응할 수 있고, 이로 인해 모델의 크기가 대규모로 커진다.

전문 분야 특화가 장점

SLM이 실제 활용 현장에서 어떤 장점을 보이는지 예를 들어 살펴보자.

로펌 등의 법률사무소에서는 계약서 검토에 많은 시간과 노력을 투자하고 있다. 계약서 문구 하나 때문에 수십억, 수백억이 오갈 수 있으므로 당연한 부분이다. 계약서에는 법률 특유의 전문 용어나 복잡한 문장 구조가 많이 포함되어 있어 검토에는 고도의 전문 지식이 필요하므로 보통 변호사가 이를 검토한다.

그런데, 시간당 비용을 받는 변호사가 수십 시간을 들여 검토해야 하는 계약서 내용을 SLM을 활용하면 반자동화하여 작업 효율을 크게 높일 수 있다. 변호사는 더 중요한 부분에 집중해 검토할 수 있으므로 작업 시간의 단축뿐만 아니라 검토 완성도도 높일 수 있다.

금융 기관은 대출 심사를 위해 대출 신청서나 재무 보고서 등 많은 문서를 검토해야 한다. 금융 분야 역시 법률 분야처럼 특유의 전문 용어나 관용 표현이 많이 포함되어 있는데, SLM을 활용하면 이러한 문서를 자동으로 분석하여 대출 여부 판단에 큰 도움을 줄 수 있다. 또한, SLM을 사용하면 심사하는 사람의 정성적인 평가 기준을 제거해 심사 기준을 통일할 수 있어, 대출 판단의 공정성과 투명성을 높일 수도 있다.

이처럼 SLM은 LLM과 비교해 범용성은 부족하지만, 그 대신 모델 크기를 작게 유지할 수 있어 비용을 줄일 수 있으며 특정 분야나 영역에 대해서는 LLM보다 뛰어난 성능을 발휘할 수 있다. 이로 인해 많은 기업이 목적에 맞게 LLM과 SLM을 적절히 조합해 사용하고 있다.

LG유플러스가 최근 선보인 생성형 AI ‘익시젠’(ixi-GEN). LG AI연구원의 LLM인 ‘엑사원(EXAONE)’을 기반으로 LG유플러스의 통신, 플랫폼 데이터를 학습시킨 SLM이다.

SLM이 주목받는 이유

LLM을 다룬 지난 기사에서도 언급한 바 있는데, LLM은 다양한 메리트를 제공하고 있지만, 해결해야 할 문제도 여럿 내포하고 있다. SLM은 LLM과 어떤 차별점이 있어서 주목받는 것일까 살펴보자.

개발 비용을 낮출 수 있다

LLM의 가장 큰 단점은 개발 비용이 너무 많이 든다는 것이다. 다양한 용도로 두루 사용할 수 있는 범용성은 매력적이지만, 특정 용도로만 사용하려는 사람에게는 필요한 성능에 비해 개발 비용이 부담스러운 것도 사실이다.

LLM은 수천억에서 수조 개에 달하는 파라미터를 가지고 있다. 따라서 학습 및 프롬프트 실행에 필요한 계산 능력과 에너지 소비가 막대하게 커지는데, 이는 하드웨어 추가 구매와 전력 소비로 이어져 비용이 증가한다. 실제로 GPT-4의 훈련 비용은 최소 1억 달러 이상이 든다고 알려져 있다. 이처럼 높은 비용으로 인해 LLM 연구, 개발 및 LLM을 활용한 서비스 개발은 자금력 있는 기업에만 가능한 상황이다.

ChatGPT의 등장 이후 글로벌 대기업들이 LLM 연구에 적극적으로 뛰어들면서 LLM은 GPT-4를 비롯해 고성능 모델이 많이 등장했다. 또한, 성능을 계속해서 높이기 위해 연구 및 개발이 꾸준히 진행되고 있다. 그러나 LLM 모델의 성능이 높아질수록 파라미터 수가 증가하고, 이는 비용 증가로 이어진다는 문제를 발생시킨다.

그러나 SLM은 모델의 크기가 LLM에 비해 작아서 계산에 필요한 GPU 성능, 에너지 소비가 적고, 이로 인해 설비 비용과 인건비, 전력 소비를 크게 줄일 수 있다. 그러면서도 해당 분야에서는 뛰어난 성능을 제공하기 때문에 주목받고 있다.

훈련과 학습에 드는 시간을 절약

LLM에서 수천억에서 수조 개에 달하는 파라미터를 학습하고 훈련하려면 방대한 데이터가 필요하다. 그리고 이 방대한 데이터를 모두 훈련하고 학습시키기 위해선 시간 역시 매우 많이 걸린다. 또한, 고성능 LLM의 학습을 위해선 방대한 데이터와 복잡한 툴, 테크닉이 필요하고, 사용자 프롬프트에 정확하게 응답하기 위해서, 그리고 잘못된 응답을 피하기 위한 훈련 및 세부 조정에도 노력을 기울여야 한다. 이 역시 많은 시간이 필요한 작업이다.

SLM은 LLM과 비교해 학습에 걸리는 시간을 크게 줄일 수 있다. 특정한 목적, 분야에만 한정해 데이터를 훈련하고 학습하기 때문인데, 이를 통해 수조 개에 달하는 파라미터를 수억~수백억 수준으로 줄일 수 있다. 이는 사용되는 데이터, 학습 시간을 1/100 이하로 줄일 수 있다는 뜻이다. 학습에 몇 년이 걸리는 LLM과 비교해 SLM은 며칠 만에 학습을 마칠 수 있다.

현재 출시된 SLM 중 대표적인 모델들. Meta의 Llama 3는 분류 기준에 따라 SLM으로도, LLM으로도 분류된다. (사진 출처 : datasciencedojo.com)

할루시네이션을 최소화

LLM의 큰 문제로 많은 사람이 할루시네이션(Hallucination)을 꼽는다. LLM은 인터넷상의 모든 사이트를 학습 대상으로 활용한다. 방대한 인터넷 정보를 학습하여 단어와 문맥의 연결을 이해하고, 마치 사람이 말하는 것처럼 자연스러운 언어로 사용자가 원하는 답변을 생성하도록 작동하기 때문이다.

LLM은 이렇게 학습한 정보를 기반으로 응답을 제공하지만, 사실이 아닌 답변을 생성하거나 관련 없는 정보를 조합하여 답변을 생성하는 경우가 종종 발생한다. 통계적으로 편향된 데이터나 모집단을 정확하게 반영하지 않는 데이터로 훈련됐을 경우 이런 현상이 생기기 쉬운데, 최근에는 특정 이해집단의 편견이 학습 데이터로 사용되는 경우가 많아지면서 정확도와 편향 오류를 일컫는 ‘할루시네이션’ 현상이 생기기도 한다.

하지만 SLM은 특정 범위나 목적을 위해 사용할 목적으로 만들기에, 이에 맞는 데이터만 선별해 훈련, 학습시키면 된다. 학습할 데이터가 줄어들면 올바른 응답을 위해 파인튜닝하는 과정도 쉬워진다. 이는 할루시네이션을 줄일 수 있다는 장점으로 이어진다.

SLM의 단점

지금까지 SLM이 주목받는 이유를 살펴보았다. 물론 SLM이라고 만능은 아니다. SLM 역시 여러 단점을 내포하고 있다.

우선, SLM은 특정 분야에 특화한 언어 모델이라 LLM과 비교해 범용성이 떨어진다. 해당 분야의 다른 기업이 파인튜닝을 통해 사용할 수는 있어도, 전혀 다른 분야의 기업이 사용하는 건 거의 불가능하다.

훈련하고 학습시키기 위한 데이터를 구하기가 어렵다는 점도 큰 단점이다. 앞서 법률, 금융 분야에서 살펴보았듯이, 특정 분야에서 사용되는 SLM은 전문 용어, 복잡한 문장 구조, 관용 표현 등을 포함하고 있으므로 관련 데이터를 훈련하고 학습시키기 위해서는 전문 지식이 필요하다.

또한, 이들 데이터는 자체로 중요한 지식재산권이 되므로 외부에 잘 공개되지 않는다. 따라서 이들 데이터의 수집이 어려워지고, 이렇게 학습된 SLM은 제 성능을 발휘하기가 어려워진다.