인공 지능을 더욱 효과적으로, 파운데이션 모델

인공 지능을 더욱 효과적으로, 파운데이션 모델

지난 기사에서 AI의 대표적인 학습 방법인 머신 러닝과 딥 러닝에 대해 살펴보았다. 사용자의 요구에 따라 새로운 콘텐츠를 자동으로 만들어주는 ‘생성형 AI’는 인간의 지능을 모방하거나 대체하는 기술 또는 시스템을 의미하는 ‘인공 지능’의 부분 집합이라 할 수 있는데, 생성형 AI가 놀라운 성능을 발휘하기 위해선 머신 러닝, 딥 러닝 등의 다양한 학습 방법을 통해 대량의 데이터를 받아들이고 이를 통해 학습하는 과정을 거쳐야 한다.

그렇다면 이렇게 학습된 인공 지능은 어떻게 이미지 인식, 음성 인식, 자연어 대화 등 다양한 응용 프로그램으로 재탄생하게 되는 걸까? 여기서 등장하는 것이 파운데이션 모델(Foundation Model, 기반 모델)이라 불리는 개념이다. 이번 기사에서는 이 파운데이션 모델(이하 FM)에 대해 다루어보고자 한다.


세 줄 요약

  • FM은 막대한 데이터를 이용해 다양한 사용자 요구 조건을 만족시킬 수 있도록 훈련된 머신 러닝 또는 딥 러닝 모델의 일종이다.
  • 자연어 처리, 컴퓨터 비전, 오디오 & 음성 처리 분야 등에서 FM은 활발히 사용되고 있다.
  • 조직이 FM을 도입하면 초기 학습에 필요한 하드웨어 비용을 비롯해 최적화를 위한 시간, 인력 활용, 비용 절감 등 다양한 메리트를 누릴 수 있다.

파운데이션 모델의 개념

FM의 이해를 돕기 위해 한 가지 예를 들어보겠다.

밀가루, 우유, 버터, 치즈, 효모, 다양한 첨가물(밤, 건포도, 바닐라, 시나몬 등)의 특성을 완벽히 학습한 끝에 이를 배합해 다양한 빵과 과자를 만들 뿐만 아니라 원하는 빵, 과자의 특징을 입력하면 새로운 요리까지 만들어주는 AI가 있다고 가정하자. 그렇다면 이 AI를 탑재해 실제 결과물, 즉 빵과 과자를 만들어주는 기계도 있을 것이다. 이 기계가 바로 FM이라 할 수 있다.

잘 이해가 안 되는가? 그럼 하나의 예시를 더 보자. 빵과 과자를 모두 만들 수 있는 기계의 가격이 1억 원이다. 그런데 내가 새로 오픈할 가게는 가게의 입지 조건상 과자는 잘 팔리지 않는 상권이라 빵만 주력해서 팔고 싶은데, 필요 없는(과자를 만드는) 기능까지 갖춘 기계를 1억 원을 다 주고 사고 싶지는 않다.

만약 이런 사람이 많아진다면 1억 원까지 기계를 만드는 제조사는 빵만, 또는 과자만 만드는 기계를 만드는 방법을 고려할 수 있을 것이다. 빵, 과자를 모두 만드는 AI를 탑재할 필요는 없으니, 빵만 만드는 기계에는 빵 관련된 데이터만 학습한 AI를 탑재해 비용을 줄일 테고, 과자 만드는 공정에 필요한 기구를 줄임으로써 기계 가격도 낮출 수 있을 것이다.

이처럼 특정한 목적(응용 프로그램)에 맞게 빵 전용 기계, 과자 전용 기계를 만드는 과정이 바로 FM을 만드는 과정이라 할 수 있다. 인공 지능 분야에서 FM은 막대한 데이터를 이용해 자연어 처리, 텍스트와 이미지 생성, 음성 처리 등 다양한 사용자 케이스를 만족시킬 수 있도록 훈련된 머신 러닝 또는 딥 러닝 모델의 일종을 의미하는데, 앞서 설명한 예시를 떠올리면 더 이해가 쉬울 것이다.

파운데이션 모델의 역할. (출처 : https://serokell.io)

최근까지 인공 지능 시스템은 특수한 도구로 여겨져 왔으며, 머신 러닝 모델의 훈련은 특정 응용 프로그램이나 단 하나의 사용자 케이스를 위한 것으로 제한됐다. 그러나 전문가들이 다음과 같은 두 가지 경향을 인식하면서부터 ‘파운데이션 모델’이라는 용어가 사용되기 시작한다.

  • 다양한 작업에서 결과를 달성하기 위해 소수의 딥 러닝 아키텍처를 사용한다.
  • AI 모델이 훈련을 통해 초기에 의도하지 않았던 새로운 개념을 생성하기도 한다.

FM은 일반적인 맥락에서 패턴, 구조 및 표현을 이해하고 기능하도록 프로그래밍된다. 소통 방법과 패턴의 식별 방법처럼 기본적인 이해를 통해 지식의 기준선이 구축되며, 이를 더 수정하거나 조정함으로써 거의 모든 산업 분야의 특정 영역 작업을 수행할 수 있다.

파운데이션 모델의 메커니즘

FM을 작동시키는 두 가지 주요 특징은 전이 학습과 스케일이다.

전이 학습은 한 상황에서 얻은 정보를 다른 상황에 적용하고 내부의 ‘지식’을 기반으로 모델을 구축하는 능력을 뜻하고, 스케일은 주로 하드웨어, 특히 그래픽 프로세싱 유닛(GPU)을 말한다. 이를 통해 모델은 여러 계산을 동시에 실행할 수 있다. GPU는 데이터를 신속하게 처리하고 복잡한 통계 계산을 수행하는 능력을 제공하여 FM을 포함한 딥 러닝 모델의 훈련과 배포에 필수적이다.

딥 러닝과 FM

많은 FM, 특히 자연어 처리(NLP), 컴퓨터 비전, 오디오 처리에 사용되는 모델은 사전 훈련된 딥 러닝 기술을 사용한다. 딥 러닝은 (모든 것은 아니지만) 많은 기반 모델을 지원하는 기술로, 이 분야의 많은 발전을 주도해 왔다. 딥러닝은 딥 뉴럴 러닝 또는 딥 뉴럴 네트워크로도 불리며 관찰을 통해 컴퓨터에 학습시키는 방식으로, 인간이 지식을 습득하는 방법과 유사하다.

트랜스포머와 FM

모든 FM이 트랜스포터를 사용하는 건 아니지만, 트랜스포터 아키텍처는 딥 러닝에서 ChatGPT, DALL-E2, BERT 등 텍스트를 포함한 FM을 구축하는데 특히 효과적인 모델이다. 문맥상의 관계와 의존성을 고려하여 데이터 요소 간의 상호 작용을 모델링하는 데 탁월한 성능을 발휘하기 때문이다. 트랜스포머는 인공 뉴럴 네트워크(ANN)의 일종으로 자연어 처리 (NLP) 작업에 주로 사용되지만, 보통 컴퓨터 비전 모델이나 음성 처리 모델을 단독으로 사용하는 머신 러닝 모델에는 사용되지 않는다.

생성형 AI가 탄생하기까지의 과정을 빌딩 블록으로 나타낸 이미지. 아래에서 두 번째가 FM 영역이다. (사진 출처 : https://shriftman.medium.com)

실제 사용례

FM의 학습이 끝나면 막대한 데이터 샘플을 통해 얻은 지식을 문제 해결에 이용할 수 있다. 일반적으로 FM은 다음과 같은 작업이 가능하다.

자연어 처리(NLP)

NLP로 학습한 FM은 문맥, 문법 및 언어 구조를 이해하고 학습에 사용된 데이터로부터 정보를 생성하고 추출할 수 있다. 예를 들어 텍스트를 감정(긍정적, 부정적, 중립적)과 관련시키도록 훈련하면 고객 피드백, 온라인 리뷰, 소셜 미디어 게시물처럼 문서 메시지 분석이 필요한 기업이 유용하게 활용할 수 있다. NLP 분야는 워낙 범위가 넓어서 대규모 언어 모델(LLM)의 개발과 적용이 전제된다.

컴퓨터 비전

기본적인 형태와 특징을 인식할 수 있는 모델은 패턴을 식별할 수 있다. 즉, 컴퓨터 비전 모델을 더 세밀하게 조정하면 콘텐츠 모델링, 얼굴 인식, 이미지 분류를 자동화할 수 있는 것. 이러한 모델은 훈련한 패턴을 기반으로 새로운 이미지를 만들 수도 있다.

오디오 & 이미지 처리

음성 요소를 인식할 수 있는 모델은 인간의 음성에서 의미를 추론할 수 있어, 보다 효율적이고 포괄적인 커뮤니케이션이 가능해진다. 가상 비서, 다국어 지원, 음성 명령, 음성의 텍스트 변환 등의 기능을 통해 접근성과 생산성을 높일 수 있다.
여기서 더 세밀하게 조정하면 금융기관을 위한 부정행위 탐지, 의료기관을 위한 유전자 배열 결정, 고객 서비스를 위한 채팅봇 등 각 업계가 필요로 하는 고유 업무에 대응할 수 있는 특수한 머신 러닝 시스템을 설계할 수 있다.

FM의 사용례. (사진 출처 : https://viso.ai)

파운데이션 모델 구축의 장점

FM은 조직(기관, 회사 등) 대부분이 자체적으로 달성하기 어려운 AI 분야에서의 접근성과 고급 활용이 가능해지도록 도울 수 있다. FM을 도입하고 이를 기반으로 구축하면 조직은 다음과 같은 부분에서 경쟁력을 높일 수 있다.

  • 고품질 데이터에 대한 제한된 접근 : FM은 거의 모든 조직이 쉽게 접근할 수 없는 데이터를 기반으로 구축된다.
  • 모델 성능과 정밀도 : FM은 매우 정밀한 베이스라인을 제공한다. 조직이 자체적으로 베이스라인을 구축하는 경우 몇 개월 또는 몇 년이 걸릴 수 있다.
  • 성과 달성 시간 : 머신 러닝 모델을 학습시키기 위해서는 오랜 시간과 많은 자원이 필요하다. 기반 모델은 미리 학습된 베이스라인을 제공하므로 조직은 이를 파인 튜닝하여 원하는 특정 결과를 빠르게 달성할 수 있다.
  • 제한된 인력 : FM을 활용하면 조직은 데이터 과학 연구에 크게 투자하지 않아도 인공 지능, 머신 러닝을 활용할 수 있다.
  • 비용 관리 : FM을 이용하면 초기 학습에 필요한 고가의 하드웨어 구매 비용을 줄일 수 있다. 최종 모델 제공 및 파인 튜닝에는 비용이 들지만, 이는 FM을 자체적으로 학습시키는 데 필요한 비용과 비교하면 일부에 지나지 않는다.
FM을 사용, 구축 또는 활성화하고 있다고 공개적으로 밝힌 기업들. (사진 출처 : https://gradientflow.com) 물론 그 수는 계속 늘어나고 있다.