똑똑한 AI의 비결, 머신 러닝은 무엇인가?
생성형 AI가 대중에 급속도로 보급되면서 사람들은 그 놀라운 성능에 찬사를 보내고 있다. 어떻게 하면 더 잘 활용할 수 있을지를 공부하는 사람도 많고, 인터넷을 통해 관련 팁을 제시해주는 회사, 단체, 사람들도 많다. 그런데 혹시 생각해본 적 있는가? 생성형 AI는 어떤 과정을 통해 그렇게 똑똑해졌는지 말이다.
지금은 좀 뜸해졌지만, 과거에 학력고사나 수능 시험에서 만점(또는 최고점)을 받은 학생은 언론사의 집중적인 취재를 견뎌야 했다. 어떻게 공부했는지, 생활 습관은 어땠는지, 공부 이외에 취미 생활은 뭐였는지 등 정말 다양한 질문과 대답이 TV, 신문, 특집 프로그램 등을 통해 보도됐는데, 역시 가장 관심을 끈 건 어떻게 공부했는지다. 그 방법만 따라 하면 내 자식도 좋은 점수를 받을 수 있을 것이란 기대 때문이었으리라. 그러나 대답은 항상 모범적이었다. 충분히 자고 쉬면서, ‘교과서 위주’로 공부했다는 내용이었다.
여기서 ‘교과서 위주’라고 언급한 부분에 주목하자. 바로 이 부분이 생성형 AI가 똑똑해진 방법이다. 교과서에 있는 내용을 데이터로 활용할 수 있기에 사람들이 원하는 내용을 도출해낼 수 있다는 뜻이다.
물론 ‘교과서 위주’라고 해서 방법이 하나만 있는 건 아니다. 말 그대로 교과서 내용을 처음부터 끝까지 반복해가며 모조리 외웠을 수도 있고, 각 주제나 문단의 핵심 내용만 정리해서 외웠을 수도 있다. ‘교과서 위주’라는 내용을 어떤 방법을 통해 데이터로 활용할 수 있게 했느냐가 AI의 학습 방법이며, 대표적인 학습 방법으로 머신 러닝과 딥 러닝(Deep Learning, 심층 학습)이 있다.
세 줄 요약
- 머신 러닝은 인공 지능의 가장 큰 줄기를 이루는 부분으로 데이터를 분석하고 그 안에서 패턴을 찾아내어 예측하는 인공지능의 한 형태(알고리즘)다.
- 지도 학습은 정답인 ‘레이블’을 제시하고 ‘레이블’(정답)에 근거해 패턴을 추출함으로써 새롭게 제시되는 데이터를 판단하는 방식이다.
- 비지도 학습은 레이블 없이 오직 주어진 데이터의 확률 분포 특성을 파악해 학습하는 방식으로 감춰진 패턴이나 구조를 발견하는 데 주로 이용된다.
머신 러닝, 기계 학습(Machine Learning)
지각 능력, 학습 능력, 추론 능력 등 인간의 지적 능력을 컴퓨터를 통해 실현하는 기술 ‘인공지능’(Artificial Intelligence)은 하늘에서 뚝 떨어진 기술이 아니다. 수많은 데이터를 특정한 방법으로 분류함으로써 그와 비슷한 데이터가 다시 제시됐을 때 기존에 축적했던 분류 패턴에 따라 결과물을 제시하는, 어찌 보면 단순한 기술에 불과하다. 다만, 근거로 삼는 데이터가 워낙 많기에 인간의 지적 능력처럼 올바른 결과물을 제시한다고 우리가 생각하는 것이다.
머신 러닝은 인공 지능의 가장 큰 줄기를 이루는 부분으로 간단히 말하면, 데이터를 분석하고 그 안에서 패턴을 찾아내어 예측하는 인공지능의 한 형태(알고리즘)다. 이 기술은 데이터를 기반으로 학습하고 이 과정에서 인간의 개입이 중요한 역할을 한다. 데이터를 학습시키기 위해서는 인간이 데이터를 처리하고 이 데이터에서 유의미한 특징(feature)을 추출해야 한다. 그리고 이 특징을 추출하는 과정은 모델의 정확도에 큰 영향을 끼친다. ‘인간의 개입’은 나중에 설명할 딥 러닝과 구별되는 중요한 부분 중 하나이기도 하다.
예를 들어서 사진에서 고양이와 개를 구별하는 머신 러닝 모델을 만든다고 하자. 인간 연구자는 개와 고양이 사진에서 중요한 특징들, 예를 들어 귀의 크기와 쫑긋거리는 각도, 코의 위치와 콧구멍의 크기, 코의 질감, 수염의 개수와 굵기, 위치 등을 식별하고(인간이 개입하는 부분이다), 이렇게 식별한 특징은 인공 지능 모델이 학습할 데이터의 ‘레이블’(lable)로 사용된다. 이후 이 레이블을 바탕으로 인공 지능은 수천, 수만 장의 사진을 분석해 개와 고양이를 구분하는 방법을 ‘학습’하게 되는 것이다. 머신 러닝은 학습 방법에 따라 ‘지도 학습’과 ‘비지도 학습’으로 나눌 수 있다.
지도 학습
지도 학습(Supervised Learning)은 단어 뜻에서 알 수 있듯이 문제와 정답이 제시되고, 이를 통해 지도받으며 학습하는 방식을 말한다. 대표적인 학습지 중 하나인 ‘구X 선생님’ 방식을 떠올리면 이해가 쉬울 것이다. 학습 데이터에 ‘레이블’이라는 분명한 정답이 포함된다는 점이 특징이다.
사진에서 고양이와 개를 구별하는 AI 모델을 훈련할 때 ‘지도 학습’에서는 각 사진에 ‘고양이’ 또는 ‘개’라는 레이블이 첨부된다. AI 모델은 이 데이터를 사용해 각 사진의 어떤 특징이 고양이, 개와 부합하는지 학습한다. 정답인 ‘레이블’을 제시하고, 이를 기준으로 학습하는 것이다.
지도 학습은 ‘레이블’(정답)에 근거해 학습 데이터로부터 명확한 패턴을 추출함으로써 새롭게 제시되는 데이터를 판단하도록 한다. 따라서 비지도 학습과 비교해 성능이 대체로 더 뛰어난 편이다.
손글씨를 보고 문자를 구분하는 경우, 사진을 보고 고양이 포함됐는지를 구분하는 경우처럼 레이블이 별개로 주어지는 ‘분류’(Classification)와 며칠 동안의 온도 변화를 바탕으로 내일 온도를 예측하는 경우나 집의 건축 시기, 크기, 인접 시설을 바탕으로 매매가를 예측하는 경우처럼 레이블이 연속되는 순자로 주어지는 회귀(Regression)로 세분화할 수 있다.
비지도 학습
비지도 학습(Unsupervised Learning)이 지도 학습과 다른 점은 정답, 즉 레이블을 제공하지 않는다는 점이다. 레이블 없이 오직 주어진 데이터의 확률 분포 특성을 파악해 학습한다. 따라서 지도 학습과 정확도 부분에서 차이가 날 수밖에 없어 구체적인 예측값을 원하기보다 데이터 내에 감춰진 패턴이나 구조를 발견하는데 주로 이용된다.
비지도 학습에 주로 사용하는 방법으로 군집 분류(Clustering)와 차원 축소(Dimensionality Reduction)가 있다.
캔디크러쉬사가의 게임 화면을 보면 다양한 종류의 캔디가 무작위로 분포되어 있는데, 게이머는 다양한 캔디에서 유사성을 인식하고 같은 것끼리 연결하도록 이동시켜 캔디를 지워나가게 된다. 이 과정, 즉 유사성을 인식하고 비슷한 것끼리 그룹화하는 과정이 군집 분류라고 할 수 있다. 물론, 캔디 중에 모양, 색깔이 비슷해서 처음에는 올바른 값을 도출하지 못할 수도 있다. 그러나 과정이 반복되면, 즉 데이터가 쌓이면 오류가 생기는 원인을 제거함으로써 결과값은 정확해진다.
차원 축소는 여러 조건이 포함된 복잡한 데이터를 주성분만 남기고 최대한 축소해 효율성을 높이고 불필요한 정보를 제거해 단순화하는 기술이다. 시각화, 데이터 분석에 유용하게 사용된다.