AI 인프라의 핵심 —
GPU와 반도체
왜 GPU인가, NVIDIA는 왜 독점인가, HBM은 무엇인가 — AI 반도체 생태계 완전 해부
- 1편. AI 인프라란 무엇인가? ✓
- 2편. AI 인프라의 핵심 — GPU와 반도체 ← 현재 글
- 3편. 데이터센터 — AI의 물리적 심장
- 4편. 전력 인프라 — AI 시대의 숨은 병목
- 5편. 네트워킹 인프라 — GPU를 연결하는 기술
- 6편. 클라우드 vs 온프레미스
- 7편. AI 인프라 공급망 전체 지도
- 8편. 한국의 AI 인프라 포지션
- 9편. AI 인프라 투자 — 사이클과 리스크
- 🎯 10편. [종합] AI 인프라 수혜 종목 완전 분석
- GPU는 수천 개의 코어로 AI 연산을 병렬 처리 — CPU와 구조적으로 다르다
- NVIDIA는 H100 하나당 가격 약 3만 달러, 데이터센터 GPU 시장 점유율 약 80~90%
- HBM(고대역폭메모리)은 GPU 바로 옆에 붙는 초고속 메모리 — SK하이닉스·삼성이 핵심 공급사
- NVIDIA CUDA 생태계가 진정한 해자(moat) — 칩이 아니라 소프트웨어 락인이 핵심
- AMD·인텔·커스텀 칩(TPU·Trainium)의 추격이 본격화되고 있다
🖥️ CPU vs GPU — 무엇이 다른가
AI를 공부하다 보면 "GPU가 AI에 필수"라는 말을 반복해서 듣는다. 왜 CPU로는 안 되는가? 구조적 차이를 이해하면 반도체 투자 관점이 완전히 달라진다.
CPU는 복잡한 작업을 빠르게, 순차적으로 처리하도록 설계됐다. 코어 수가 수십 개에 불과하지만, 각 코어의 처리 속도(클럭)가 매우 빠르다. 반면 GPU는 단순한 연산을 동시에 수천 개 처리하도록 설계됐다. AI 학습의 핵심인 행렬 곱셈(Matrix Multiplication)이 바로 이런 대규모 병렬 연산이다.
🟢 NVIDIA — 왜 독점인가
NVIDIA의 시가총액이 2024년 한때 3조 달러를 돌파하며 세계 1위 기업에 오른 이유는 단순히 좋은 GPU를 만들어서가 아니다. 진짜 이유는 CUDA 소프트웨어 생태계에 있다.
CUDA란 무엇인가
CUDA(Compute Unified Device Architecture)는 2006년 NVIDIA가 출시한 GPU 병렬 컴퓨팅 플랫폼이다. AI 연구자와 개발자들이 GPU 위에서 코드를 짤 수 있게 해주는 프레임워크다. PyTorch, TensorFlow 같은 AI 프레임워크가 모두 CUDA 위에서 돌아간다.
CUDA가 무서운 이유는 20년 가까이 쌓인 코드 자산과 개발자 생태계 때문이다. 전 세계 AI 개발자들이 CUDA로 훈련받았고, 수백만 줄의 코드가 CUDA에 최적화돼 있다. AMD나 인텔 GPU로 갈아타려면 이 코드를 전부 다시 써야 한다. 이것이 NVIDIA의 진짜 해자다.
NVIDIA 주요 데이터센터 GPU 스펙 비교
| 제품명 | 출시 | HBM 용량 | 메모리 대역폭 | AI 성능(FP8) | 단가(추정) |
|---|---|---|---|---|---|
| A100 | 2020 | 80GB HBM2e | 2 TB/s | — | ~$1만 |
| H100 | 2022 | 80GB HBM3 | 3.35 TB/s | 3,958 TFLOPS | ~$3만 |
| H200 | 2024 | 141GB HBM3e | 4.8 TB/s | 3,958 TFLOPS | ~$4만 |
| B200 (Blackwell) | 2025 | 192GB HBM3e | 8 TB/s | ~18,000 TFLOPS | ~$7만+ |
🇰🇷 HBM — 한국 반도체의 핵심 포지션
GPU가 강력해질수록, 그 GPU에 데이터를 빠르게 공급하는 메모리의 중요성도 커진다. 여기서 등장하는 것이 HBM(High Bandwidth Memory, 고대역폭 메모리)이다.
HBM이란 무엇인가
일반 DRAM은 GPU와 별도의 기판에 위치해 데이터를 주고받는 속도에 한계가 있다. HBM은 메모리 다이(Die)를 여러 층으로 적층(3D 스태킹)하고, GPU 옆에 바로 붙여 초고속으로 데이터를 전송한다. 대역폭이 일반 GDDR6 대비 3~5배 이상 빠르다.
스택
Die
(NVIDIA)
스택
HBM은 GPU 다이 양옆에 직접 탑재돼 초고속 데이터 전송 (실제는 여러 개 탑재)
| 세대 | 대역폭 | 탑재 GPU | 주요 공급사 |
|---|---|---|---|
| HBM2e | ~460 GB/s (스택당) | A100 | SK하이닉스, 삼성 |
| HBM3 | ~665 GB/s (스택당) | H100 | SK하이닉스 (주도) |
| HBM3e | ~1.2 TB/s (스택당) | H200, B200 | SK하이닉스, 삼성, Micron |
| HBM4 (예정) | ~2 TB/s+ (스택당) | 차세대 GPU | SK하이닉스 선행 개발 중 |
HBM 시장에서 SK하이닉스의 점유율은 약 50% 이상으로 추정되며, H100·H200에서는 NVIDIA의 독점 공급사에 가까운 위치를 차지했다. HBM3 개발에서 SK하이닉스가 삼성을 앞서면서 주가 divergence(차별화)가 발생한 것은 투자자들이 기억해야 할 중요한 사례다.
⚔️ AI 가속기 경쟁 구도
NVIDIA의 독점적 지위는 강하지만, 도전자들이 빠르게 치고 올라오고 있다. 2025년 기준 AI 데이터센터 GPU·가속기 시장의 경쟁 구도를 정리한다.
데이터센터 AI 가속기 시장 점유율 (2024 추정)
주요 도전자 분석
| 기업 | 제품 | 강점 | 약점 | 투자 시사점 |
|---|---|---|---|---|
| AMD | MI300X / MI350 | HBM 탑재량 NVIDIA 대비 우위, 가격 경쟁력 | 소프트웨어 생태계 열위 (ROCm vs CUDA) | 중장기 점유율 회복 가능성, 단기 모멘텀 약함 |
| TPU v5 / Trillium | 자사 모델에 최적화, 전력 효율 | 외부 판매 없음, Google 내부 전용 | Google의 CapEx 절감 효과 → NVIDIA 수요 일부 대체 | |
| Amazon | Trainium2 / Inferentia | 추론 비용 최적화, AWS 통합 | 범용성 낮음 | AWS 마진 개선에 기여, 외부 영향 제한적 |
| Intel | Gaudi 3 | 가격 경쟁력 | 소프트웨어 미성숙, 브랜드 신뢰도 낮음 | 단기 수혜 제한적, 재건 중 |
🔬 AI 반도체 공급망 — TSMC가 없으면 아무것도 없다
NVIDIA가 설계한 H100을 누가 만드는가? TSMC다. AMD의 MI300X도, Apple의 M칩도, Google의 TPU도 모두 TSMC가 제조한다. 전 세계 최첨단 반도체의 90% 이상이 TSMC 한 곳에서 생산된다.
NVIDIA는 팹리스(Fabless) 기업이다. 설계만 하고 생산은 TSMC에 위탁한다. H100·B200은 TSMC의 4nm·3nm 공정으로 만들어진다. 이 공정 기술을 보유한 곳은 지구상에 TSMC와 삼성 파운드리뿐이며, 최신 AI 칩에서는 TSMC가 압도적이다.
HPC(고성능컴퓨팅) 부문: TSMC 매출의 약 50%+ 차지
CoWoS 패키징: HBM과 GPU를 하나의 패키지로 결합하는 기술 — 공급 병목의 핵심
2.5D/3D 패키징 수요: NVIDIA Blackwell 세대부터 더욱 고도화
특히 CoWoS(Chip on Wafer on Substrate) 패키징 기술이 최근 AI 인프라 공급망의 핵심 병목으로 부상했다. H100·B200 같은 AI 칩은 GPU 다이와 HBM을 하나의 패키지로 통합하는데, 이 과정이 CoWoS 공정이다. 2023~2024년 NVIDIA 공급 부족의 원인 중 하나가 TSMC의 CoWoS 캐파(Capacity) 부족이었다.
- NVIDIA의 해자는 칩이 아닌 CUDA 생태계다. 경쟁사가 좋은 칩을 내놓아도 단기에 NVIDIA를 대체하기 어려운 이유가 여기 있다.
- SK하이닉스는 HBM 세대 전환 속도가 핵심 모멘텀이다. HBM4 양산 시점과 NVIDIA 차세대 GPU 출시 타이밍을 추적하라.
- TSMC CoWoS 캐파 확장이 AI GPU 공급 병목 해소의 열쇠다. TSMC 실적 컨퍼런스콜에서 CoWoS 가동률과 증설 계획을 반드시 확인하라.
- AMD는 중장기 관점에서 소프트웨어 격차 좁히기를 지켜봐야 한다. ROCm 생태계 발전 속도와 대형 클라우드 고객 채택률이 지표다.
- 커스텀 칩(TPU·Trainium) 확산은 NVIDIA에 부분적 위협이지만 시장 파이 자체가 커지고 있다. 단기에 과도한 우려는 금물.
NVIDIA 투자를 처음 고민할 때 "GPU 하나에 3만 달러면 비싼 거 아냐?"라고 생각했다. 그런데 공부하고 나서 관점이 바뀌었다. NVIDIA가 파는 건 GPU가 아니라 CUDA 생태계라는 걸 이해하고 나서야 밸류에이션이 다르게 보이기 시작했다.
진짜 흥미로운 건 SK하이닉스다. HBM은 NVIDIA 없이는 수요가 없지만, 동시에 NVIDIA도 HBM 없이는 최신 GPU를 만들 수 없다. 이 상호의존성이 SK하이닉스에 강력한 협상력을 주고 있다. H100·H200 초기 공급 부족 시기에 SK하이닉스가 NVIDIA와의 가격 협상에서 상당히 좋은 조건을 이끌어낸 것으로 알려졌다.
단, 기억해야 할 리스크가 하나 있다. 반도체는 사이클 산업이다. AI 수요가 아무리 구조적이라도, HBM 공급이 수요를 초과하는 순간 ASP(평균판매가격)는 무너진다. 세대 전환 속도와 공급 증설 계획을 항상 함께 보는 습관이 필요하다.
'주식' 카테고리의 다른 글
| 전력 인프라 —AI 시대의 숨은 병목 (0) | 2026.05.03 |
|---|---|
| 데이터센터 —AI의 물리적 심장 (0) | 2026.05.03 |
| AI 인프라란 무엇인가?— 개념 입문편 (0) | 2026.05.03 |
| AI 인프라 학습용 블로그 시리즈 목차 (0) | 2026.05.03 |
| 양자컴퓨터 투자, 지금 들어가도 될까? (2026 최신 분석) (0) | 2026.04.18 |