LLM 학습/추론용 GPU·TPU 하드웨어 정리 (2026-04 기준)
문서 목적
LLM 연구/엔지니어링에서 실제로 자주 마주치는 데이터센터 GPU·TPU·AI 가속기의 스펙을 단일 문서에 정리한다.
주요 축은 ① VRAM 용량 · ② 메모리 대역폭 · ③ 저정밀(BF16/FP8/FP4) TFLOPS · ④ TDP · ⑤ 출시 시점 / 가격.
수치 주의사항
- TFLOPS는 대부분 dense(sparsity 미적용) 기준. NVIDIA 마케팅 수치는 2:4 sparsity 기준(2배)이 많아 구분 필요.
- SXM / PCIe / NVL / HGX 폼팩터에 따라 TDP·대역폭·클럭이 다름. 본 문서는 별도 표기가 없으면 SXM 기준.
- 가격은 리테일 공시가(launch MSRP)가 존재하는 경우만 기재. 데이터센터 GPU는 실거래가가 공급망에 따라 크게 변동(H100은 2023 피크 시 25K 내외).
- Peak TFLOPS는 이론치이며, 실제 MFU(Model FLOPS Utilization)는 보통 40~55%.
0. 빠른 비교 표 — NVIDIA 데이터센터 GPU 세대 요약
| 세대 | 대표 칩 | 출시 | VRAM | 메모리 BW | BF16 TFLOPS | FP8 TFLOPS | TDP | 출시가($) |
|---|---|---|---|---|---|---|---|---|
| Volta | V100 SXM2 | 2017.06 | 32GB HBM2 | 900 GB/s | 125 (FP16) | — | 300W | 약 10K |
| Ampere | A100 80GB SXM | 2020.11 | 80GB HBM2e | 2.04 TB/s | 312 | — | 400W | 약 15K |
| Hopper | H100 SXM5 | 2022.09 | 80GB HBM3 | 3.35 TB/s | 989 | 1,979 | 700W | 약 30K |
| Hopper+ | H200 SXM | 2024.Q2 | 141GB HBM3e | 4.8 TB/s | 989 | 1,979 | 700W | 약 32K |
| Blackwell | B200 SXM | 2025.Q1 | 192GB HBM3e | 8.0 TB/s | 2,250 | 4,500 | 1000W | 약 35–40K |
| Blackwell Ultra | B300 (GB300) | 2025.Q4 | 288GB HBM3e | 8.0 TB/s | 약 2,500 | 5,000 (FP4: 15,000) | 1400W | 미공개 |
Sparsity 2× 적용 시 FP8: H100=3.96 PF / B200=9 PF / B300=10 PF.
FP4(Blackwell 신규)는 B200 기준 dense 9 PF / sparse 18 PF.
1. NVIDIA Data Center GPU
1.1 V100 (Volta, 2017.06)
- 공정: TSMC 12nm FFN, 21.1B 트랜지스터, 815 mm²
- VRAM: 16GB / 32GB HBM2, 대역폭 900 GB/s
- 연산량:
- FP32: 15.7 TFLOPS / FP64: 7.8 TFLOPS
- FP16 Tensor: 125 TFLOPS (dense)
- FP8/INT8 전용 가속 없음
- 인터커넥트: NVLink 2.0, 300 GB/s
- TDP: 300W (SXM2) / 250W (PCIe)
- 출시가: ~$8,000–10,000
- LLM 관점: GPT-3 이전 세대 표준. 현재 LLM 학습엔 FP8 미지원·대역폭 부족으로 사실상 부적합. 소규모 fine-tune/inference에만 사용.
1.2 A100 (Ampere, 2020.05)
- 공정: TSMC 7nm, 54.2B 트랜지스터, 826 mm²
- VRAM:
- A100 40GB HBM2 — 1,555 GB/s (2020.05)
- A100 80GB HBM2e — 2,039 GB/s (2020.11)
- 연산량 (dense):
- FP32: 19.5 TFLOPS / TF32 Tensor: 156 TFLOPS
- BF16/FP16 Tensor: 312 TFLOPS (sparse 624)
- INT8: 624 TOPS (sparse 1,248)
- FP8 미지원 (Hopper 이후 도입)
- 인터커넥트: NVLink 3.0, 600 GB/s
- TDP: 400W (SXM4) / 250–300W (PCIe)
- 출시가: $10,000–15,000 (PCIe 40GB 기준)
- 수출 제한 대체품: A800 — NVLink 대역폭만 400 GB/s로 하향(중국향). 연산 성능은 A100과 동일.
- LLM 관점: GPT-3 / LLaMA-1 / LLaMA-2 학습의 표준. FP8 부재 때문에 H100 대비 학습 throughput 3–4배 열세이지만 여전히 저비용 fine-tune·inference 주력.
1.3 H100 (Hopper, 2022.09)
- 공정: TSMC 4N (4nm 커스텀), 80B 트랜지스터, 814 mm²
- VRAM:
- H100 SXM5 — 80GB HBM3, 3.35 TB/s
- H100 PCIe — 80GB HBM2e, 2.0 TB/s
- H100 NVL — 94GB HBM3, 3.9 TB/s (2-slot PCIe, LLM inference 특화, 2023.03)
- 연산량 (dense, SXM5):
- FP32: 67 TFLOPS / FP64 Tensor: 67 TFLOPS
- TF32 Tensor: 495 TFLOPS
- BF16/FP16 Tensor: 989 TFLOPS (sparse 1,979)
- FP8 Tensor: 1,979 TFLOPS (sparse 3,958) — Transformer Engine 최초 도입
- INT8: 1,979 TOPS
- 인터커넥트: NVLink 4.0, 900 GB/s / PCIe Gen5 128 GB/s
- TDP: 700W (SXM5) / 350W (PCIe) / 400W (NVL per GPU)
- 출시가: 25K 내외
- 수출 제한 대체품:
- H800 — NVLink 400 GB/s로 하향, FP64 성능 축소 (중국향, 2023)
- H20 — 대폭 약화. 96GB HBM3, BF16 148 TFLOPS / FP8 296 TFLOPS, 대역폭 4.0 TB/s (메모리만 준수, 연산은 7배↓)
- LLM 관점: 현재 LLM 학습의 de-facto 표준. FP8 Transformer Engine으로 A100 대비 BF16 3배·FP8 6배 throughput. GPT-4 / Claude 3 / LLaMA-3 학습 주력.
1.4 H200 (Hopper refresh, 2024.Q2)
- H100과 동일한 GH100 다이, HBM만 HBM3 → HBM3e로 교체.
- VRAM: 141GB HBM3e, 4.8 TB/s (H100 대비 용량 1.76× · 대역폭 1.43×)
- 연산량: H100과 동일 (BF16 989 / FP8 1,979 TFLOPS dense)
- TDP: 700W
- 출시가: ~$30,000–35,000
- LLM 관점: Inference 왕. 용량·대역폭이 중요한 LLM inference(특히 장문 컨텍스트 / 70B급 단일 노드)에서 H100 대비 실효 throughput 1.5–1.9× 상승. 학습 성능은 H100과 동일.
1.5 Blackwell B100 / B200 (2024.GTC 발표, 2025.Q1 양산)
- 공정: TSMC 4NP, 208B 트랜지스터 (2-die MCM, 각 104B, NV-HBI 10 TB/s로 연결)
- 폼팩터: B100 (700W, 기존 H100 슬롯 호환) / B200 (1000W, 신규 HGX)
- VRAM: 192GB HBM3e (8-stack), 8.0 TB/s 대역폭
- 연산량 (B200 dense):
- BF16/FP16 Tensor: 2,250 TFLOPS (sparse 4,500) — H100의 2.3×
- FP8 Tensor: 4,500 TFLOPS (sparse 9,000) — H100의 2.3×
- FP4 Tensor: 9,000 TFLOPS (sparse 18,000) — Blackwell 신규 포맷
- FP64 Tensor: 40 TFLOPS (H100 대비 40% 감소 — HPC보다 AI에 최적화)
- 인터커넥트: NVLink 5.0 — 1.8 TB/s per GPU (H100의 2×)
- TDP: 700W (B100) / 1000W (B200) / 1200W (B200 공랭 불가)
- 출시가: B200 ~$35,000–40,000
- LLM 관점: FP4 추론 + NVLink 72-GPU 도메인(NVL72)으로 GPT-4급 이상 모델의 단일 rack inference 가능. FP4로 모델 무게 절반 → 효과적 VRAM 384GB 효과.
1.6 GB200 Superchip & NVL72 Rack
- GB200: 1× Grace CPU (72-core Arm Neoverse V2) + 2× B200 GPU, NVLink-C2C 900 GB/s 연결
- 공유 메모리: LPDDR5X 480GB + HBM3e 384GB (2×192GB) = 총 864GB per Superchip
- NVL72: 36× GB200 → 72 GPU + 36 CPU가 단일 NVLink 도메인. Rack 전체 13.5TB HBM3e, 576 TB/s aggregate BW
- 랙당 소비전력: 120kW (수랭 필수)
- 랙당 가격: ~$3M
- LLM 관점: 1조 파라미터급 모델을 단일 rack 내 shared memory로 학습/추론. Tensor Parallel 72-way까지 penalty 없이 가능.
1.7 Blackwell Ultra B300 / GB300 (2025.Q4–2026.Q1)
- VRAM: 288GB HBM3e (12-stack), 8.0 TB/s
- 연산량: B200 대비 dense 연산 ~10% 증가 추정, FP4 15 PFLOPS dense / 30 PFLOPS sparse (NVIDIA 발표 기준)
- TDP: 1400W
- LLM 관점: 장문 컨텍스트(1M+ tokens) 추론 · 초거대 MoE에 집중. 2026년 주력 학습 플랫폼.
1.8 Rubin (2026.Q4 예고)
- HBM4, NVLink 6, 차세대 패키징. 세부 스펙 미공개(2026.04 기준).
2. NVIDIA Workstation / Prosumer (파인튜닝·로컬 추론용)
| 모델 | 출시 | VRAM | 메모리 BW | FP16 Tensor | TDP | 가격($) |
|---|---|---|---|---|---|---|
| RTX 4090 | 2022.10 | 24GB GDDR6X | 1,008 GB/s | 165 TFLOPS | 450W | 1,599 |
| RTX 5090 (Blackwell) | 2025.01 | 32GB GDDR7 | 1,792 GB/s | ~419 TFLOPS (FP8 838) | 575W | 1,999 |
| RTX 6000 Ada | 2022.12 | 48GB GDDR6 | 960 GB/s | 364 TFLOPS (sparse) | 300W | 6,800 |
| RTX PRO 6000 Blackwell | 2025.Q2 | 96GB GDDR7 | 1,792 GB/s | ~504 TFLOPS FP16 | 600W | ~8,500 |
| L40S | 2023.10 | 48GB GDDR6 | 864 GB/s | 362 TFLOPS | 350W | ~8,000 |
- 연구 관점:
- 70B 모델 Q4 추론: RTX 6000 Ada(48GB) 1장 또는 RTX 4090(24GB) 2장
- 70B LoRA fine-tune: RTX PRO 6000(96GB) 1장으로 가능
- RTX 계열은 NVLink 없음 → multi-GPU는 PCIe로만 연결, TP 통신 병목 큼
3. AMD Instinct (CDNA)
3.1 MI250X (CDNA2, 2021.11)
- VRAM: 128GB HBM2e (64GB × 2 GCD), 3.2 TB/s
- BF16/FP16: 383 TFLOPS (dense, 2-die 합산)
- FP8: 미지원
- TDP: 560W
- 출시가: ~$12,000
- 주요 배포처: Frontier 슈퍼컴퓨터
3.2 MI300X (CDNA3, 2023.12)
- VRAM: 192GB HBM3, 5.3 TB/s — 당시 업계 최대 용량
- 연산량 (dense):
- BF16/FP16 Matrix: 1,307 TFLOPS
- FP8 Matrix: 2,614 TFLOPS (sparse 5,229)
- INT8: 2,614 TOPS
- 인터커넥트: Infinity Fabric 896 GB/s
- TDP: 750W
- 출시가: ~$15,000–20,000
- LLM 관점: 단일 GPU VRAM이 H100(80GB)의 2.4배 → 175B급 모델도 8-GPU 노드에서 여유. 소프트웨어 스택(ROCm)은 2024년 이후 vLLM·PyTorch 지원이 성숙. Azure·Oracle이 대규모 채택.
3.3 MI325X (CDNA3 refresh, 2024.Q4)
- VRAM: 256GB HBM3e, 6.0 TB/s
- 연산량은 MI300X와 동일
- TDP: 1000W
- 출시가: ~$20,000–25,000
3.4 MI350X / MI355X (CDNA4, 2025.Q2)
- VRAM: 288GB HBM3e, 8.0 TB/s
- FP6/FP4 신규 지원, FP4 18.5 PFLOPS (claim)
- TDP: 1000W (공랭) / 1400W (수랭)
- B200 대비 VRAM 1.5×, 연산은 ±5% 수준 경쟁
4. Google TPU (Cloud 전용)
| 세대 | 출시 | HBM/chip | 대역폭 | BF16 TFLOPS | INT8/FP8 | Pod 규모 |
|---|---|---|---|---|---|---|
| TPU v3 | 2018 | 32GB HBM | 900 GB/s | 123 | 미지원 | 1,024 |
| TPU v4 | 2021 | 32GB HBM | 1.2 TB/s | 275 | — | 4,096 (3D torus) |
| TPU v5e | 2023.09 | 16GB HBM | 820 GB/s | 197 | INT8: 393 TOPS | 256 |
| TPU v5p | 2023.12 | 95GB HBM | 2.76 TB/s | 459 | INT8: 918 TOPS | 8,960 |
| TPU v6e “Trillium” | 2024.12 | 32GB HBM | 1.64 TB/s | 918 | INT8: 1,836 | 256 |
| TPU v7 “Ironwood” | 2025.Q4 | 192GB HBM3e | 7.4 TB/s | — | FP8 4,614 TFLOPS | 9,216 |
- v5p: Gemini 1.0/1.5 학습 주력. H100 대비 per-chip BF16 throughput은 1/2이지만 pod-level scaling이 강점.
- v6e Trillium: v5e 대비 4.7× 학습 성능. 추론 특화.
- v7 Ironwood: Google 최초의 inference 전용 TPU. H200/B200 대응. FP8 집중, HBM 192GB로 LLM 추론 최적화. Gemini 2.x 추론 백본.
- 접근 방법: GCP에서만 사용 가능 (On-prem 불가). JAX/PyTorch-XLA 기반.
5. 기타 AI 가속기
5.1 AWS Trainium / Inferentia
- Trainium1 (2022): 32GB HBM, BF16 210 TFLOPS
- Trainium2 (2024.12): 96GB HBM, 2.9 TB/s, BF16 667 TFLOPS / FP8 1,299 TFLOPS, EFA 800 Gbps, $Trn2 UltraServer = 64-chip fabric
- Inferentia2 (2023): 32GB HBM, 추론 특화, BF16 190 TFLOPS
- Trainium3 (2025 말): 3nm, FP4 지원 예고
5.2 Cerebras WSE-3 (2024.03)
- 단일 wafer 전체를 하나의 칩으로 — 46,225 mm² (H100의 57배)
- 900,000 AI-최적화 코어, 44GB on-chip SRAM, 21 PB/s on-chip BW
- FP16: 125 PFLOPS (dense)
- 외부 메모리(MemoryX)로 최대 1.2 PB 파라미터 지원
- 가격: CS-3 시스템 당 수백만 달러
- LLM 관점: Long-context inference 속도에서 압도적(초당 수천 토큰). 학습 에코시스템은 아직 제한적.
5.3 Groq LPU (2023)
- 추론 전용. 230MB on-chip SRAM/chip, HBM 없음
- 단일 칩 FP16 188 TFLOPS, 대규모 클러스터로 scale
- LLaMA-70B 추론 500+ tok/s 데모로 유명
- 학습 불가
5.4 SambaNova SN40L (2024)
- 3-tier memory: 64GB HBM3 + 1.5TB DDR5 + 520MB SRAM
- Composition of Experts 아키텍처에 최적화
5.5 Intel Gaudi 3 (2024.Q3)
- VRAM: 128GB HBM2e, 3.7 TB/s
- BF16/FP8: 1,835 TFLOPS (FP8)
- TDP 900W, 가격 $15K대로 공격적 포지셔닝
- LLM 관점: H100 대비 가격-성능 경쟁력 주장하지만 소프트웨어 스택(SynapseAI) 성숙도 낮음.
6. VRAM별 수용 가능 모델 감각 (추론 기준)
| VRAM | FP16 (2 byte/param) | FP8 (1 byte) | Q4 (0.5 byte) |
|---|---|---|---|
| 24GB (RTX 4090) | 10B | 20B | 40B |
| 48GB (L40S, 6000 Ada) | 22B | 45B | 80B |
| 80GB (A100/H100) | 35B | 70B | 140B |
| 141GB (H200) | 65B | 130B | 260B |
| 192GB (B200/MI300X) | 90B | 180B | 360B |
| 288GB (B300/MI350X) | 140B | 280B | 560B |
KV cache · activation · optimizer state · 여유 overhead(보통 20–30%) 감안하면 위 수치의 70%가 실사용 한계.
학습 시엔 FP16 param × 2(grad) + FP32 optimizer(param × 8, AdamW 기준) = param × 16 byte/param → 70B 학습은 최소 ~1.4TB aggregate VRAM 필요 (DP/TP/PP 분산).
7. 실무 선택 가이드
| 목적 | 추천 (2026) | 차선책 |
|---|---|---|
| < 13B 모델 fine-tune / 로컬 개발 | RTX 5090 32GB × 1–2 | RTX 4090 × 2 |
| 70B LoRA / QLoRA | RTX PRO 6000 Blackwell 96GB × 1 | A100 80GB × 1 |
| 70B full fine-tune | H100 × 8 (단일 노드) | MI300X × 8 |
| 405B+ 학습 | GB200 NVL72 rack | H100 256-GPU 클러스터 |
| 장문 컨텍스트 추론(128K+) | H200 / B200 / MI325X | TPU v7 Ironwood |
| 초저지연 추론 (API 서비스) | Groq LPU / Cerebras WSE-3 / B200 FP4 | H200 |
| 가격 효율 (저예산) | RTX 4090 × N, A100 중고 | MI250X 중고 |
관련 문서
- frontier-model — 각 하드웨어에서 학습/추론되는 LLM 모델 정리