컷칩과 풀칩, 재밌는 그래픽카드 이야기

컷칩과 풀칩, 재밌는 그래픽카드 이야기

게임을 비롯해 동영상 작업, 요즘에는 AI 프로그램 구동에 큰 역할을 하는 GPU는 중요한 부품인 만큼 특징과 적용된 기술을 자세히, 그리고 깊게 파고들기 위해선 상당한 공부가 필요하다. 분명 알아두면 좋지만 지불하는 대가(시간과 두통)가 만만치 않다고 할까?

그래서 이번 기사에서는 너무 머리 아프진 않아도 알면 신기하고 재밌는, 그래픽카드와 관련된 흥미로운 기사를 준비해 보았다. 컷칩과 풀칩 이야기다.


네 줄 요약

  • 반도체인 GPU를 만들 때는 수율이 적용되고, 불량품이라 해도 적당한 손질 후 재사용된다.
  • 재사용되는 이유는 반도체 생산에 워낙 많은 돈이 들어가므로 비용을 줄이기 위해서다.
  • 풀칩은 설계상 계획했던 성능을 내는 제품, 컷칩은 불량품의 성능에 제한을 걸어 하향 표준화시킴으로써 하위 모델로 만든 제품을 말한다.
  • 그래픽카드 모델명에 맞게 GPU를 생산하는 게 아니라, 여러 종의 GPU 생산 후 성능을 분류해 그래픽카드 라인업을 구축한다.

그래픽카드의 성능을 결정하는 건 GPU

그래픽카드의 성능을 가늠할 때 우리는 보통 그래픽카드의 모델명을 참고한다. 예를 들어 NVIDIA의 RTX 40 시리즈 그래픽카드의 경우, ‘4080은 4090보다는 성능이 낮고 4070보다는 높다’, ‘4070 Ti는 4080보다는 낮지만 4070보다는 높다’라고 인식한다. 더 자세한 성능을 알고 싶다면 CUDA 코어가 몇 개나 사용됐는지, 메모리와 용량과 대역폭은 어느 정도인지, 이로 인한 벤치마크 결과는 어떤지 등을 찾아볼 것이다.
이런 그래픽카드의 성능을 결정하는 가장 중요한 요소는 GPU다. 어떤 GPU가 사용됐는지에 따라 그래픽카드의 성능은 천차만별로 달라진다.

이전 기사에서 GPU와 그래픽카드의 차이를 설명한 적이 있다. GPU는 그래픽 관련 연산을 담당하는 싱글 칩이고, 그래픽카드는 컴퓨터 메인 보드의 특정 위치에 장착하는 애드인 보드(Add-in Board)로 GPU의 성능을 온전히 활용하기 위한 장치들을 하나의 애드인 보드에 모은, 일종의 ‘모듈’로 설명했다.

RTX 4060에 사용되는 GPU. 아래쪽에 ‘AD107-400’이라는 GPU 이름이 적혀 있다. (사진 출처 : https://www.techpowerup.com)
그리고 이게 ‘AD107-400’ GPU를 사용한 그래픽카드, 「RTX 4060」이다.

GPU는 자동차의 동력을 발생시키는 ‘엔진’에 비유할 수 있고, 그래픽카드는 엔진에 각종 부품을 더함으로써 사람이 타고 이동할 수 있게 만든 ‘자동차’라고 설명을 덧붙이기도 했다. 엔진에 따라 자동차의 기본인 주행 관련 성능이 달라지니 이 비유는 크게 무리가 없을 것이다.

반도체 생산 과정의 특수성, 웨이퍼와 수율

그렇다면 다양한 RTX 40 시리즈 그래픽카드는 어떤 과정을 통해 만들어질까? GPU 제조사가 그래픽카드의 라인업을 성능과 가격에 따라 세세하게 설정하고 여기에 맞는 GPU를 생산하겠지…라고 생각하기 쉬울 텐데, 사실은 그렇지 않다. 반도체는 공장에서 생산되는 일반 제품과는 달리 생산 환경, 과정이 특수하고 이로 인해 수율(또는 양품률, yield)이라는 개념이 생겨나기 때문이다. 이를 이해하기 위해서는 반도체의 생산 과정을 살펴볼 필요가 있다.

반도체는 실리콘(Si), 갈륨 아세나이드(GaAs) 등을 성장시켜 만든 단결정 기둥을 적당한 두께로 얇게 썬 CD 모양의 원판, 즉 웨이퍼를 이용해서 만든다. 이 웨이퍼에 회로를 설계하고 회로를 새기면 반도체가 완성되는데, 이 과정이 반도체 8대 공정의 첫 번째이자 가장 기초인 ‘웨이퍼 제조 공정’이다. 지름이 큰 웨이퍼를 사용하면 더 많은 반도체를 만들 수 있는데, 정밀 반도체에는 지름 300mm 웨이퍼가 많이 사용된다.

그림의 ‘잉곳’이 본문에서 설명한, 실리콘, 갈륨 아세나이드 등을 성장시켜 만든 단결정 기둥이다. (사진 출처 : 삼성전자)

반도체 제품을 직접 생산하지 않고 설계만 전문적으로 하는 NVIDIA나 AMD 등의 ‘팹리스’는 생산을 전문으로 하는 TSMC나 삼성전자 등의 파운드리에 반도체 생산을 의뢰할 때 칩셋(여기서는 GPU) 단위로 계약하지 않고 웨이퍼 단위로 계약한다. 예를 들어 1개의 웨이퍼로 10개의 칩을 만들 수 있다면, 1만 개의 칩이 필요할 경우 1,000개의 웨이퍼를 주문하는 식이다.

가공 전 CD 뒷면처럼 표면이 매끈한 상태를 베어 웨이퍼라고 부르며, 가공이 끝나면 이런 모습이 된다. 반도체 주문은 이렇게 웨이퍼 단위로 이루어진다. (사진 출처 : 삼성전자)

그런데 반도체에 요구되는 성능이 높아지고, 이로 인해 공정이 정밀해지면서 정작 웨이퍼에서 칩을 만들었을 때 설계도에서 필요로 했던 성능을 내지 못하는 경우가 생긴다. 이때 계획했던 성능을 만족시킨 칩은 양품, 계획했던 성능을 내지 못하는 칩은 불량품이라 부르며 최종 공정을 거친 후 전체 생산된 칩 중에서 양품이 차지하는 비율을 ‘수율’이라 부른다.

미세 공정일수록 수율은 낮아진다. 현재 반도체 제작의 최첨단 공정인 3나노(㎚) 공정을 기준으로 업계 1위인 TSMC의 3나노 공정 수율은 약 80%, 삼성전자는 약 60% 정도로 알려져 있다. TSMC가 2023년 3나노 웨이퍼(300mm 기준)의 가격을 약 2만 달러로 책정했으니 웨이퍼 1장당 TSMC는 4천 달러, 삼성전자는 8천 달러를 바닥에 버리는 셈이다(물론 이 비용은 생산비에 포함되어 팹리스에 청구된다).

이 수율은 반도체의 생산성, 수익성, 생산업체의 기술력과 직결되는 문제라서 아주 중요하다. 만약 수율이 높다면 허투루 낭비되는 돈이 적어질 테고, 그만큼 팹리스는 저렴한 가격에 제조를 의뢰할 수 있다. 납품 기간 내에 제품을 안정적으로 공급할 수 있다는 의미도 되니 팹리스는 안심하고 주문할 수 있을 것이고, 그만큼 다른 팹리스의 주문도 몰릴 것이다. 팹리스와 파운드리 양쪽 모두에게 중요한 요소다.

반도체 수요가 많아지면서 제때 공급할 수 있는 능력도 중요해졌다. 그래서 수율은 중요하다. (사진 출처 : 삼성전자)

수율로 인해 탄생한 컷칩, 풀칩

그렇다면 양품으로 판정받지 못한 제품들은 어떻게 처리될까? 우리가 일반적으로 이해하는, 품질이 나쁜 상품이라는 ‘불량품’의 뜻처럼 폐기되는 운명을 맞을까? 아니다, 반도체는 경우가 좀 다르다.

앞서 잠깐 언급했듯이 불량품은 계획했던 성능을 내지 못하는 제품을 말한다. 여기서 계획했던 성능이란 반도체에 따라 다른데, 이해하기 쉽게 CPU를 예로 들면 ‘특정 속도에서 특정 성능이 특정 온도 내에서 나오는가?’로 요약할 수 있다. 제조한 CPU가 3.2GHz의 속도로 벤치마크 점수 1만 점을 기록할 때 40℃ 이내의 발열을 기록하는 것이 설계상 목표치였는데, 속도를 더 올려서 3.3GHz가 되어야 1만 점을 기록했거나, 3.2GHz에서 1만 점을 기록했어도 발열이 42℃였다면 불량으로 판정되어 수율에 반영된다. 이런 ‘불량품’을 그냥 일괄적으로 폐기하면 너무 아깝지 않을까?

안 그래도 파운드리가 반도체를 만들기 위해서는 어마어마한 자금이 들어간다. 웨이퍼에 회로를 그리는 노광장비는 안 그래도 가격이 천문학적인데 미세 공정으로 들어갈수록 가격은 더 비싸진다. 반도체 미세 공정에 필수인 EUV 노광장비는 1대에 2천억 원 수준으로 알려져 있으며, 차세대 공정인 2㎚에 대응하는 장비는 대당 5천억 원 정도로 알려져 있다. 그나마 만들 수 있는 제조사가 하나밖에 없어 주문 폭주로 인해 돈이 있어도 제시간에 구하기도 어렵다. 여기에 먼지 한 톨조차 허용치 않는 청정실 등 그야말로 천문학적 자금이 필요하다.

세계 최대, 최고의 노광장비 제조업체인 네덜란드의 ASML의 노광장비. 공정에 따라 다른 장비가 사용되며 가격은 수천억 원을 상회한다.

①반도체 제조 공정에는 천문학적 자금이 들어간다. + ②수율을 채우지 못한 ‘불량품’을 폐기하기엔 너무 아깝다. 이 둘을 해결하기 위해 등장한 게 ‘풀칩’과 ‘컷칩’ 개념이다.

‘풀칩’은 팹리스 회사가 설계상 계획했던 성능을 온전히 발휘하는 ‘양품’을 의미하며, ‘컷칩’은 공정상 발생하는 성능 차이로 인해 ‘불량품’으로 판정받은 제품을 일정 부분 손질해 하위 모델로 출시하는 제품을 말한다.

앞서 설명한 CPU를 다시 예로 들어보자. 3.2GHz에서 벤치마크 9,500점을 기록했다면 이는 불량품이다. 그런데 이 제품의 속도를 벤치마크 9,000점을 기록할 수 있는 3.0GHz로 제한을 걸어놓고 한 등급 낮은 제품으로 출시하는 것이다. 만약 이보다 더 성능 편차가 심하다면 더 제한을 걸어 두 등급 낮은 제품으로 출시하면 된다. 참고로 이렇게 제한이 걸린 제품을 사용자가 직접 제한을 풀어 더 높은 성능을 내도록 만드는 과정이 오버클록(overclock)이다.

그래픽카드 모델명이 복잡한 이유

RTX 40 시리즈의 성능표. (사진 출처 videocardz.com)

풀칩과 컷칩의 관계를 이해하기 쉬운 표가 있다. 위의 표를 보자. 이 표는 videocardz.com이라는 웹진에서 작년 11월 RTX 40 시리즈 라인업에 SUPER 제품군이 추가된다는 소식을 전하면서 첨부한 표인데, RTX 40 시리즈에 어떤 GPU가 사용됐는지가 적혀 있다. 보통은 풀칩이 사용된 고성능 제품이 먼저 출시되고 컷칩이 적용된 하위 제품들이 출시된다고 생각하기 쉽지만, 꼭 그렇지만도 않다.

표를 보면, 2022년 11월 먼저 등장했던 RTX 4080에 사용된 GPU는 풀칩이 아닌 AD103의 컷칩(AD103-300)이었고, 2024년 1월에 등장한 4080 SUPER에 AD103의 풀칩(AD103-400)이 사용된 것으로 추정된다. 마찬가지로 AD104의 풀칩으로 추정되는(AD104-400) GPU는 RTX 4070 Ti에 채용됐고, 컷칩인 AD104-350과 AD104-250이 RTX 4070 SUPER와 RTX 4070에 사용됐다.

「AD104」 GPU 중 가장 사양이 낮은 컷칩이 채용된 「RTX 4070」. ××60, ××70, ××80에 풀칩이 배정되는 게 아니라, 생산된 칩 성능을 분류한 후 입맛대로 그래픽카드 모델명을 정한다는 걸 알 수 있다.

이 표를 보면 풀칩과 컷칩이 어떻게 사용되는지를 쉽게 이해할 수 있다. 또한, 라인업을 정하고 여기에 맞게 GPU를 생산하는 것이 아니라, 성능 차이를 둔 GPU를 몇 종류 만든 후 수율에 따른 성능 차이를 여러 카테고리로 분류해 차등을 둔 라인업을 만든다는 사실도 알 수 있다. 만약 성능 차이가 더 다양하게 나타난다면 Ti, SUPER뿐만 아니라 MAX, LIGHT 같은 더 다양한 파생 모델이 등장할 가능성도 있다.