네트워킹 인프라 —
GPU를 연결하는 기술
InfiniBand vs 이더넷, 광트랜시버 세대 전쟁, 아리스타·Marvell까지 — AI 성능을 좌우하는 보이지 않는 혈관
- 1편. AI 인프라란 무엇인가? ✓
- 2편. AI 인프라의 핵심 — GPU와 반도체 ✓
- 3편. 데이터센터 — AI의 물리적 심장 ✓
- 4편. 전력 인프라 — AI 시대의 숨은 병목 ✓
- 5편. 네트워킹 인프라 — GPU를 연결하는 기술 ← 현재 글
- 6편. 클라우드 vs 온프레미스
- 7편. AI 인프라 공급망 전체 지도
- 8편. 한국의 AI 인프라 포지션
- 9편. AI 인프라 투자 — 사이클과 리스크
- 🎯 10편. [종합] AI 인프라 수혜 종목 완전 분석
- AI 학습은 수천 개 GPU가 동시에 통신해야 한다 — 네트워크가 느리면 GPU가 아무리 빨라도 소용없다
- 현재 AI 클러스터의 표준은 NVIDIA InfiniBand — 그러나 이더넷이 빠르게 추격 중
- 광트랜시버는 100G→400G→800G→1.6T 세대 전환 사이클이 투자 촉매
- 수혜 기업: Arista Networks(스위치), Marvell(칩), Coherent·II-VI·광우(광트랜시버), 이수페타시스(PCB)
- NVIDIA의 네트워킹 장악력이 GPU 못지않게 강하다 — Mellanox 인수 전략의 과실
🔗 왜 네트워킹이 AI 성능을 좌우하는가
AI 모델 학습을 단순하게 상상하면 GPU 한 대가 혼자 연산하는 것처럼 보이지만, 실제 대형 언어 모델 학습은 전혀 다르다. GPT-4 급 모델 학습에는 수천~수만 개의 GPU가 동시에 투입되며, 이 GPU들은 매 스텝마다 서로의 연산 결과를 주고받아야 한다.
이것이 AI 네트워킹의 핵심이다. GPU 간 데이터 전송이 느리면 빠른 GPU들이 서로를 기다리며 유휴 상태가 된다. 즉, 네트워크 대역폭과 지연속도(Latency)가 AI 클러스터 전체의 병목이 될 수 있다. 10,000개의 GPU를 연결할 때 네트워크가 1% 느려지면 전체 시스템 효율이 수 % 이상 저하된다는 연구 결과도 있다.
🏗️ AI 클러스터 네트워크 토폴로지
수천 개의 GPU를 효율적으로 연결하는 데는 체계적인 네트워크 설계가 필요하다. 현재 대형 AI 클러스터에 사용되는 표준 구조인 팻트리(Fat-Tree) 토폴로지를 이해하면 어느 계층에 어떤 장비가 들어가는지 보인다.
실제 클러스터는 수백~수천 랙으로 구성. 각 계층 스위치마다 광트랜시버 탑재.
이 구조에서 스위치 장비와 각 연결부에 탑재되는 광트랜시버가 핵심 부품이다. 10,000개 GPU 클러스터에는 수만 개의 광트랜시버가 필요하다. 세대가 올라갈수록(400G→800G→1.6T) 교체 수요가 폭발한다.
⚔️ InfiniBand vs 이더넷 — 패권 전쟁
AI 클러스터 네트워킹에서 가장 뜨거운 경쟁은 InfiniBand(IB)와 이더넷(Ethernet) 사이의 구도다. 이 싸움은 단순한 기술 경쟁이 아니라, NVIDIA의 생태계 독점 대 오픈 표준의 대결이기도 하다.
NVIDIA의 Mellanox 인수 — 왜 천재적 수였나
2020년 NVIDIA는 인텔과의 경쟁 끝에 InfiniBand 개발사 Mellanox를 69억 달러에 인수했다. 당시 시장은 "비싼 가격"이라 평가했지만, 지금 돌아보면 이 인수가 NVIDIA의 AI 인프라 수직통합의 핵심이었다. GPU + 네트워킹 + 소프트웨어(CUDA)를 하나의 생태계로 묶은 것이다.
H100 DGX 시스템을 구매하면 NVIDIA GPU + NVIDIA InfiniBand 스위치 + NVIDIA 네트워킹 소프트웨어가 패키지로 따라온다. 고객 입장에서는 최적화된 올인원 솔루션이지만, 동시에 NVIDIA 생태계에 더 깊이 락인된다.
💡 광트랜시버 — AI 네트워킹의 핵심 부품
네트워크 스위치와 서버를 연결하는 광케이블에는 반드시 광트랜시버(Optical Transceiver)가 필요하다. 광트랜시버는 전기 신호를 광신호로 변환해 초고속·장거리 데이터 전송을 가능하게 하는 부품이다.
AI 클러스터의 네트워크 속도가 빨라질수록 더 고성능의 광트랜시버가 필요하다. 지금 시장은 400G에서 800G로 전환하는 중이며, 1.6T(테라비트) 세대가 눈앞에 와 있다.
CPO(Co-Packaged Optics) — 차세대 광트랜시버 패러다임
현재 광트랜시버는 스위치 칩 외부의 플러그인 모듈(QSFP 등) 형태다. 하지만 800G, 1.6T 이상의 속도에서는 외부 모듈 방식의 전력 소비와 신호 손실이 한계에 부딪힌다.
CPO(Co-Packaged Optics)는 광학 소자를 스위치 ASIC 칩과 동일 패키지에 통합하는 기술이다. 전력 소비를 크게 줄이고 대역폭을 높일 수 있다. Broadcom·Marvell·Intel이 CPO 기술 개발을 주도하고 있으며, 상용화되면 광트랜시버 업계 지형이 크게 바뀔 수 있다.
🗺️ AI 네트워킹 생태계 전체 지도
📈 수혜 기업 — 계층별 투자 지도
① 네트워크 스위치 / ASIC
| 기업 | 제품·기술 | 강점 | 투자 포인트 |
|---|---|---|---|
| Arista Networks (ANET) | 클라우드 이더넷 스위치 | 빅테크 DC 스위치 점유율 1위. 소프트웨어 역량 강점 | 400G→800G 교체 사이클 수혜. AI DC 수주 급증. |
| Broadcom (AVGO) | Tomahawk/Jericho ASIC, 맞춤 AI 칩 | 스위치 ASIC 시장 독점적 지위. Google TPU 설계 파트너 | 커스텀 AI 칩(XPU) 수주 급증. 네트워킹+반도체 이중 수혜. |
| Cisco (CSCO) | Nexus DC 스위치, 네트워킹 종합 | 엔터프라이즈 네트워크 절대 강자 | AI DC 전환 수혜 기대. 단, 성장 모멘텀은 Arista 대비 약함. |
| Marvell (MRVL) | 네트워킹 칩·PAM4 DSP·커스텀 AI 칩 | 광트랜시버용 DSP 칩 점유율 높음. AWS 커스텀 칩 수주 | 광트랜시버 세대 전환마다 DSP 칩 교체 수요 직접 수혜. |
② 광트랜시버 / 광통신
③ NVIDIA 네트워킹 부문
NVIDIA의 네트워킹 부문(구 Mellanox) 매출은 2024년 데이터센터 매출의 약 10~15%를 차지하며 빠르게 성장 중이다. InfiniBand NDR(400G)에서 XDR(800G)로의 전환이 진행 중이며, NVIDIA Quantum-X800 스위치 플랫폼이 핵심 제품이다. NVIDIA에 투자할 때 GPU뿐 아니라 네트워킹 사업의 성장도 함께 보는 시각이 필요하다.
⚠️ 네트워킹 섹터 투자 리스크
② CPO 전환의 기존 트랜시버 시장 잠식 — CPO 상용화 시 기존 플러그인 트랜시버 전문 기업들의 TAM(전체 가용 시장)이 축소될 수 있다.
③ 세대 전환 불확실성 — 800G→1.6T 전환 시점과 속도에 따라 광트랜시버 업체들의 실적 변동성이 크다. 재고 조정 위험 항상 존재.
④ 고평가 부담 — Arista Networks의 PER은 2024년 기준 40~50배 수준. AI DC 성장이 기대치를 하회하면 밸류에이션 압축 리스크.
- 네트워킹은 GPU 다음으로 AI DC CapEx에서 가장 큰 비중을 차지한다. 전체 AI DC 건설비의 20~30%가 네트워킹 인프라에 투입된다는 추정도 있다.
- Arista Networks는 AI DC 이더넷 스위치의 최대 수혜주다. 빅테크 4사 모두 Arista 주요 고객이다. 400G→800G 교체 사이클 진행 중 분기 수주를 모니터링하라.
- Broadcom은 네트워킹 ASIC과 커스텀 AI 칩(XPU)의 이중 수혜다. Google·Meta의 자체 AI 칩 설계를 Broadcom이 지원하면서 NVIDIA 대안 구도에서도 핵심 수혜.
- Marvell은 광트랜시버 DSP 칩과 커스텀 AI 칩 사이에서 빠르게 성장 중이다. AWS Trainium 설계 참여가 중장기 성장 동력.
- 한국에서는 이수페타시스가 AI 네트워킹 인프라의 직접 수혜 구조를 갖고 있다. MLB 기술 경쟁력과 수주 모멘텀 지속 여부를 정기적으로 확인하라.
네트워킹은 AI 인프라에서 가장 '숨어있는' 분야다. GPU와 데이터센터 이야기는 언론에 자주 등장하지만, 광트랜시버나 스위치 ASIC을 다루는 기사는 드물다. 그런데 투자 수익률로 보면 이 분야가 결코 밀리지 않는다. Arista Networks는 2020년 이후 주가가 5배 이상 올랐고, 이수페타시스도 AI 테마 부각 이후 급등했다.
NVIDIA의 Mellanox 인수는 볼수록 놀랍다. GPU-네트워킹-소프트웨어를 수직통합하는 전략이 완성된 것이다. AI 클러스터를 구축하는 고객 입장에서는 NVIDIA 패키지를 쓰면 최적화된 성능이 보장되니 벗어나기 어렵다. 이 락인 구조가 InfiniBand 매출을 떠받치고 있다.
한편으로는 Ultra Ethernet의 진전을 눈여겨볼 필요가 있다. Google·Meta·Microsoft·AMD가 함께 만드는 표준이니 무게감이 다르다. NVIDIA 독점에 피로감을 느끼는 빅테크들이 이더넷 쪽으로 얼마나, 얼마나 빨리 이동하느냐가 중장기 네트워킹 투자 판도를 가를 핵심 변수다.
'주식' 카테고리의 다른 글
| AI 인프라 공급망전체 지도 (0) | 2026.05.03 |
|---|---|
| 클라우드 vs 온프레미스 —AI 인프라 소비 구조 (0) | 2026.05.03 |
| 전력 인프라 —AI 시대의 숨은 병목 (0) | 2026.05.03 |
| 데이터센터 —AI의 물리적 심장 (0) | 2026.05.03 |
| AI 인프라의 핵심 —GPU와 반도체 (0) | 2026.05.03 |