LLM 학습/추론용 GPU·TPU 하드웨어 정리 (2026-04 기준)

문서 목적

LLM 연구/엔지니어링에서 실제로 자주 마주치는 데이터센터 GPU·TPU·AI 가속기의 스펙을 단일 문서에 정리한다.
주요 축은 ① VRAM 용량 · ② 메모리 대역폭 · ③ 저정밀(BF16/FP8/FP4) TFLOPS · ④ TDP · ⑤ 출시 시점 / 가격.

수치 주의사항

  • TFLOPS는 대부분 dense(sparsity 미적용) 기준. NVIDIA 마케팅 수치는 2:4 sparsity 기준(2배)이 많아 구분 필요.
  • SXM / PCIe / NVL / HGX 폼팩터에 따라 TDP·대역폭·클럭이 다름. 본 문서는 별도 표기가 없으면 SXM 기준.
  • 가격은 리테일 공시가(launch MSRP)가 존재하는 경우만 기재. 데이터센터 GPU는 실거래가가 공급망에 따라 크게 변동(H100은 2023 피크 시 25K 내외).
  • Peak TFLOPS는 이론치이며, 실제 MFU(Model FLOPS Utilization)는 보통 40~55%.

0. 빠른 비교 표 — NVIDIA 데이터센터 GPU 세대 요약

세대대표 칩출시VRAM메모리 BWBF16 TFLOPSFP8 TFLOPSTDP출시가($)
VoltaV100 SXM22017.0632GB HBM2900 GB/s125 (FP16)300W약 10K
AmpereA100 80GB SXM2020.1180GB HBM2e2.04 TB/s312400W약 15K
HopperH100 SXM52022.0980GB HBM33.35 TB/s9891,979700W약 30K
Hopper+H200 SXM2024.Q2141GB HBM3e4.8 TB/s9891,979700W약 32K
BlackwellB200 SXM2025.Q1192GB HBM3e8.0 TB/s2,2504,5001000W약 35–40K
Blackwell UltraB300 (GB300)2025.Q4288GB HBM3e8.0 TB/s약 2,5005,000 (FP4: 15,000)1400W미공개

Sparsity 2× 적용 시 FP8: H100=3.96 PF / B200=9 PF / B300=10 PF.
FP4(Blackwell 신규)는 B200 기준 dense 9 PF / sparse 18 PF.


1. NVIDIA Data Center GPU

1.1 V100 (Volta, 2017.06)

  • 공정: TSMC 12nm FFN, 21.1B 트랜지스터, 815 mm²
  • VRAM: 16GB / 32GB HBM2, 대역폭 900 GB/s
  • 연산량:
    • FP32: 15.7 TFLOPS / FP64: 7.8 TFLOPS
    • FP16 Tensor: 125 TFLOPS (dense)
    • FP8/INT8 전용 가속 없음
  • 인터커넥트: NVLink 2.0, 300 GB/s
  • TDP: 300W (SXM2) / 250W (PCIe)
  • 출시가: ~$8,000–10,000
  • LLM 관점: GPT-3 이전 세대 표준. 현재 LLM 학습엔 FP8 미지원·대역폭 부족으로 사실상 부적합. 소규모 fine-tune/inference에만 사용.

1.2 A100 (Ampere, 2020.05)

  • 공정: TSMC 7nm, 54.2B 트랜지스터, 826 mm²
  • VRAM:
    • A100 40GB HBM2 — 1,555 GB/s (2020.05)
    • A100 80GB HBM2e — 2,039 GB/s (2020.11)
  • 연산량 (dense):
    • FP32: 19.5 TFLOPS / TF32 Tensor: 156 TFLOPS
    • BF16/FP16 Tensor: 312 TFLOPS (sparse 624)
    • INT8: 624 TOPS (sparse 1,248)
    • FP8 미지원 (Hopper 이후 도입)
  • 인터커넥트: NVLink 3.0, 600 GB/s
  • TDP: 400W (SXM4) / 250–300W (PCIe)
  • 출시가: $10,000–15,000 (PCIe 40GB 기준)
  • 수출 제한 대체품: A800 — NVLink 대역폭만 400 GB/s로 하향(중국향). 연산 성능은 A100과 동일.
  • LLM 관점: GPT-3 / LLaMA-1 / LLaMA-2 학습의 표준. FP8 부재 때문에 H100 대비 학습 throughput 3–4배 열세이지만 여전히 저비용 fine-tune·inference 주력.

1.3 H100 (Hopper, 2022.09)

  • 공정: TSMC 4N (4nm 커스텀), 80B 트랜지스터, 814 mm²
  • VRAM:
    • H100 SXM5 — 80GB HBM3, 3.35 TB/s
    • H100 PCIe — 80GB HBM2e, 2.0 TB/s
    • H100 NVL — 94GB HBM3, 3.9 TB/s (2-slot PCIe, LLM inference 특화, 2023.03)
  • 연산량 (dense, SXM5):
    • FP32: 67 TFLOPS / FP64 Tensor: 67 TFLOPS
    • TF32 Tensor: 495 TFLOPS
    • BF16/FP16 Tensor: 989 TFLOPS (sparse 1,979)
    • FP8 Tensor: 1,979 TFLOPS (sparse 3,958) — Transformer Engine 최초 도입
    • INT8: 1,979 TOPS
  • 인터커넥트: NVLink 4.0, 900 GB/s / PCIe Gen5 128 GB/s
  • TDP: 700W (SXM5) / 350W (PCIe) / 400W (NVL per GPU)
  • 출시가: 25K 내외
  • 수출 제한 대체품:
    • H800 — NVLink 400 GB/s로 하향, FP64 성능 축소 (중국향, 2023)
    • H20 — 대폭 약화. 96GB HBM3, BF16 148 TFLOPS / FP8 296 TFLOPS, 대역폭 4.0 TB/s (메모리만 준수, 연산은 7배↓)
  • LLM 관점: 현재 LLM 학습의 de-facto 표준. FP8 Transformer Engine으로 A100 대비 BF16 3배·FP8 6배 throughput. GPT-4 / Claude 3 / LLaMA-3 학습 주력.

1.4 H200 (Hopper refresh, 2024.Q2)

  • H100과 동일한 GH100 다이, HBM만 HBM3 → HBM3e로 교체.
  • VRAM: 141GB HBM3e, 4.8 TB/s (H100 대비 용량 1.76× · 대역폭 1.43×)
  • 연산량: H100과 동일 (BF16 989 / FP8 1,979 TFLOPS dense)
  • TDP: 700W
  • 출시가: ~$30,000–35,000
  • LLM 관점: Inference 왕. 용량·대역폭이 중요한 LLM inference(특히 장문 컨텍스트 / 70B급 단일 노드)에서 H100 대비 실효 throughput 1.5–1.9× 상승. 학습 성능은 H100과 동일.

1.5 Blackwell B100 / B200 (2024.GTC 발표, 2025.Q1 양산)

  • 공정: TSMC 4NP, 208B 트랜지스터 (2-die MCM, 각 104B, NV-HBI 10 TB/s로 연결)
  • 폼팩터: B100 (700W, 기존 H100 슬롯 호환) / B200 (1000W, 신규 HGX)
  • VRAM: 192GB HBM3e (8-stack), 8.0 TB/s 대역폭
  • 연산량 (B200 dense):
    • BF16/FP16 Tensor: 2,250 TFLOPS (sparse 4,500) — H100의 2.3×
    • FP8 Tensor: 4,500 TFLOPS (sparse 9,000) — H100의 2.3×
    • FP4 Tensor: 9,000 TFLOPS (sparse 18,000) — Blackwell 신규 포맷
    • FP64 Tensor: 40 TFLOPS (H100 대비 40% 감소 — HPC보다 AI에 최적화)
  • 인터커넥트: NVLink 5.0 — 1.8 TB/s per GPU (H100의 2×)
  • TDP: 700W (B100) / 1000W (B200) / 1200W (B200 공랭 불가)
  • 출시가: B200 ~$35,000–40,000
  • LLM 관점: FP4 추론 + NVLink 72-GPU 도메인(NVL72)으로 GPT-4급 이상 모델의 단일 rack inference 가능. FP4로 모델 무게 절반 → 효과적 VRAM 384GB 효과.

1.6 GB200 Superchip & NVL72 Rack

  • GB200: 1× Grace CPU (72-core Arm Neoverse V2) + 2× B200 GPU, NVLink-C2C 900 GB/s 연결
  • 공유 메모리: LPDDR5X 480GB + HBM3e 384GB (2×192GB) = 총 864GB per Superchip
  • NVL72: 36× GB200 → 72 GPU + 36 CPU가 단일 NVLink 도메인. Rack 전체 13.5TB HBM3e, 576 TB/s aggregate BW
  • 랙당 소비전력: 120kW (수랭 필수)
  • 랙당 가격: ~$3M
  • LLM 관점: 1조 파라미터급 모델을 단일 rack 내 shared memory로 학습/추론. Tensor Parallel 72-way까지 penalty 없이 가능.

1.7 Blackwell Ultra B300 / GB300 (2025.Q4–2026.Q1)

  • VRAM: 288GB HBM3e (12-stack), 8.0 TB/s
  • 연산량: B200 대비 dense 연산 ~10% 증가 추정, FP4 15 PFLOPS dense / 30 PFLOPS sparse (NVIDIA 발표 기준)
  • TDP: 1400W
  • LLM 관점: 장문 컨텍스트(1M+ tokens) 추론 · 초거대 MoE에 집중. 2026년 주력 학습 플랫폼.

1.8 Rubin (2026.Q4 예고)

  • HBM4, NVLink 6, 차세대 패키징. 세부 스펙 미공개(2026.04 기준).

2. NVIDIA Workstation / Prosumer (파인튜닝·로컬 추론용)

모델출시VRAM메모리 BWFP16 TensorTDP가격($)
RTX 40902022.1024GB GDDR6X1,008 GB/s165 TFLOPS450W1,599
RTX 5090 (Blackwell)2025.0132GB GDDR71,792 GB/s~419 TFLOPS (FP8 838)575W1,999
RTX 6000 Ada2022.1248GB GDDR6960 GB/s364 TFLOPS (sparse)300W6,800
RTX PRO 6000 Blackwell2025.Q296GB GDDR71,792 GB/s~504 TFLOPS FP16600W~8,500
L40S2023.1048GB GDDR6864 GB/s362 TFLOPS350W~8,000
  • 연구 관점:
    • 70B 모델 Q4 추론: RTX 6000 Ada(48GB) 1장 또는 RTX 4090(24GB) 2장
    • 70B LoRA fine-tune: RTX PRO 6000(96GB) 1장으로 가능
    • RTX 계열은 NVLink 없음 → multi-GPU는 PCIe로만 연결, TP 통신 병목 큼

3. AMD Instinct (CDNA)

3.1 MI250X (CDNA2, 2021.11)

  • VRAM: 128GB HBM2e (64GB × 2 GCD), 3.2 TB/s
  • BF16/FP16: 383 TFLOPS (dense, 2-die 합산)
  • FP8: 미지원
  • TDP: 560W
  • 출시가: ~$12,000
  • 주요 배포처: Frontier 슈퍼컴퓨터

3.2 MI300X (CDNA3, 2023.12)

  • VRAM: 192GB HBM3, 5.3 TB/s — 당시 업계 최대 용량
  • 연산량 (dense):
    • BF16/FP16 Matrix: 1,307 TFLOPS
    • FP8 Matrix: 2,614 TFLOPS (sparse 5,229)
    • INT8: 2,614 TOPS
  • 인터커넥트: Infinity Fabric 896 GB/s
  • TDP: 750W
  • 출시가: ~$15,000–20,000
  • LLM 관점: 단일 GPU VRAM이 H100(80GB)의 2.4배 → 175B급 모델도 8-GPU 노드에서 여유. 소프트웨어 스택(ROCm)은 2024년 이후 vLLM·PyTorch 지원이 성숙. Azure·Oracle이 대규모 채택.

3.3 MI325X (CDNA3 refresh, 2024.Q4)

  • VRAM: 256GB HBM3e, 6.0 TB/s
  • 연산량은 MI300X와 동일
  • TDP: 1000W
  • 출시가: ~$20,000–25,000

3.4 MI350X / MI355X (CDNA4, 2025.Q2)

  • VRAM: 288GB HBM3e, 8.0 TB/s
  • FP6/FP4 신규 지원, FP4 18.5 PFLOPS (claim)
  • TDP: 1000W (공랭) / 1400W (수랭)
  • B200 대비 VRAM 1.5×, 연산은 ±5% 수준 경쟁

4. Google TPU (Cloud 전용)

세대출시HBM/chip대역폭BF16 TFLOPSINT8/FP8Pod 규모
TPU v3201832GB HBM900 GB/s123미지원1,024
TPU v4202132GB HBM1.2 TB/s2754,096 (3D torus)
TPU v5e2023.0916GB HBM820 GB/s197INT8: 393 TOPS256
TPU v5p2023.1295GB HBM2.76 TB/s459INT8: 918 TOPS8,960
TPU v6e “Trillium”2024.1232GB HBM1.64 TB/s918INT8: 1,836256
TPU v7 “Ironwood”2025.Q4192GB HBM3e7.4 TB/sFP8 4,614 TFLOPS9,216
  • v5p: Gemini 1.0/1.5 학습 주력. H100 대비 per-chip BF16 throughput은 1/2이지만 pod-level scaling이 강점.
  • v6e Trillium: v5e 대비 4.7× 학습 성능. 추론 특화.
  • v7 Ironwood: Google 최초의 inference 전용 TPU. H200/B200 대응. FP8 집중, HBM 192GB로 LLM 추론 최적화. Gemini 2.x 추론 백본.
  • 접근 방법: GCP에서만 사용 가능 (On-prem 불가). JAX/PyTorch-XLA 기반.

5. 기타 AI 가속기

5.1 AWS Trainium / Inferentia

  • Trainium1 (2022): 32GB HBM, BF16 210 TFLOPS
  • Trainium2 (2024.12): 96GB HBM, 2.9 TB/s, BF16 667 TFLOPS / FP8 1,299 TFLOPS, EFA 800 Gbps, $Trn2 UltraServer = 64-chip fabric
  • Inferentia2 (2023): 32GB HBM, 추론 특화, BF16 190 TFLOPS
  • Trainium3 (2025 말): 3nm, FP4 지원 예고

5.2 Cerebras WSE-3 (2024.03)

  • 단일 wafer 전체를 하나의 칩으로 — 46,225 mm² (H100의 57배)
  • 900,000 AI-최적화 코어, 44GB on-chip SRAM, 21 PB/s on-chip BW
  • FP16: 125 PFLOPS (dense)
  • 외부 메모리(MemoryX)로 최대 1.2 PB 파라미터 지원
  • 가격: CS-3 시스템 당 수백만 달러
  • LLM 관점: Long-context inference 속도에서 압도적(초당 수천 토큰). 학습 에코시스템은 아직 제한적.

5.3 Groq LPU (2023)

  • 추론 전용. 230MB on-chip SRAM/chip, HBM 없음
  • 단일 칩 FP16 188 TFLOPS, 대규모 클러스터로 scale
  • LLaMA-70B 추론 500+ tok/s 데모로 유명
  • 학습 불가

5.4 SambaNova SN40L (2024)

  • 3-tier memory: 64GB HBM3 + 1.5TB DDR5 + 520MB SRAM
  • Composition of Experts 아키텍처에 최적화

5.5 Intel Gaudi 3 (2024.Q3)

  • VRAM: 128GB HBM2e, 3.7 TB/s
  • BF16/FP8: 1,835 TFLOPS (FP8)
  • TDP 900W, 가격 $15K대로 공격적 포지셔닝
  • LLM 관점: H100 대비 가격-성능 경쟁력 주장하지만 소프트웨어 스택(SynapseAI) 성숙도 낮음.

6. VRAM별 수용 가능 모델 감각 (추론 기준)

VRAMFP16 (2 byte/param)FP8 (1 byte)Q4 (0.5 byte)
24GB (RTX 4090)10B20B40B
48GB (L40S, 6000 Ada)22B45B80B
80GB (A100/H100)35B70B140B
141GB (H200)65B130B260B
192GB (B200/MI300X)90B180B360B
288GB (B300/MI350X)140B280B560B

KV cache · activation · optimizer state · 여유 overhead(보통 20–30%) 감안하면 위 수치의 70%가 실사용 한계.
학습 시엔 FP16 param × 2(grad) + FP32 optimizer(param × 8, AdamW 기준) = param × 16 byte/param → 70B 학습은 최소 ~1.4TB aggregate VRAM 필요 (DP/TP/PP 분산).


7. 실무 선택 가이드

목적추천 (2026)차선책
< 13B 모델 fine-tune / 로컬 개발RTX 5090 32GB × 1–2RTX 4090 × 2
70B LoRA / QLoRARTX PRO 6000 Blackwell 96GB × 1A100 80GB × 1
70B full fine-tuneH100 × 8 (단일 노드)MI300X × 8
405B+ 학습GB200 NVL72 rackH100 256-GPU 클러스터
장문 컨텍스트 추론(128K+)H200 / B200 / MI325XTPU v7 Ironwood
초저지연 추론 (API 서비스)Groq LPU / Cerebras WSE-3 / B200 FP4H200
가격 효율 (저예산)RTX 4090 × N, A100 중고MI250X 중고

관련 문서

  • frontier-model — 각 하드웨어에서 학습/추론되는 LLM 모델 정리