LLM 학습/추론용 GPU·TPU 하드웨어 정리 (2026-04 기준)

문서 목적

LLM 연구/엔지니어링에서 실제로 자주 마주치는 데이터센터 GPU·TPU·AI 가속기의 스펙을 단일 문서에 정리한다.
주요 축은 ① VRAM 용량 · ② 메모리 대역폭 · ③ 저정밀(BF16/FP8/FP4) TFLOPS · ④ TDP · ⑤ 출시 시점 / 가격.

수치 주의사항

TFLOPS는 대부분 dense(sparsity 미적용) 기준. NVIDIA 마케팅 수치는 2:4 sparsity 기준(2배)이 많아 구분 필요.

SXM / PCIe / NVL / HGX 폼팩터에 따라 TDP·대역폭·클럭이 다름. 본 문서는 별도 표기가 없으면 SXM 기준.

가격은 리테일 공시가(launch MSRP)가 존재하는 경우만 기재. 데이터센터 GPU는 실거래가가 공급망에 따라 크게 변동(H100은 2023 피크 시 $40 K +, 2026 년현재$ 25K 내외).

Peak TFLOPS는 이론치이며, 실제 MFU(Model FLOPS Utilization)는 보통 40~55%.

0. 빠른 비교 표 — NVIDIA 데이터센터 GPU 세대 요약

세대	대표 칩	출시	VRAM	메모리 BW	BF16 TFLOPS	FP8 TFLOPS	TDP	출시가($)
Volta	V100 SXM2	2017.06	32GB HBM2	900 GB/s	125 (FP16)	—	300W	약 10K
Ampere	A100 80GB SXM	2020.11	80GB HBM2e	2.04 TB/s	312	—	400W	약 15K
Hopper	H100 SXM5	2022.09	80GB HBM3	3.35 TB/s	989	1,979	700W	약 30K
Hopper+	H200 SXM	2024.Q2	141GB HBM3e	4.8 TB/s	989	1,979	700W	약 32K
Blackwell	B200 SXM	2025.Q1	192GB HBM3e	8.0 TB/s	2,250	4,500	1000W	약 35–40K
Blackwell Ultra	B300 (GB300)	2025.Q4	288GB HBM3e	8.0 TB/s	약 2,500	5,000 (FP4: 15,000)	1400W	미공개

Sparsity 2× 적용 시 FP8: H100=3.96 PF / B200=9 PF / B300=10 PF.
FP4(Blackwell 신규)는 B200 기준 dense 9 PF / sparse 18 PF.

1. NVIDIA Data Center GPU

1.1 V100 (Volta, 2017.06)

공정: TSMC 12nm FFN, 21.1B 트랜지스터, 815 mm²
VRAM: 16GB / 32GB HBM2, 대역폭 900 GB/s
연산량:
- FP32: 15.7 TFLOPS / FP64: 7.8 TFLOPS
- FP16 Tensor: 125 TFLOPS (dense)
- FP8/INT8 전용 가속 없음
인터커넥트: NVLink 2.0, 300 GB/s
TDP: 300W (SXM2) / 250W (PCIe)
출시가: ~$8,000–10,000
LLM 관점: GPT-3 이전 세대 표준. 현재 LLM 학습엔 FP8 미지원·대역폭 부족으로 사실상 부적합. 소규모 fine-tune/inference에만 사용.

1.2 A100 (Ampere, 2020.05)

공정: TSMC 7nm, 54.2B 트랜지스터, 826 mm²
VRAM:
- A100 40GB HBM2 — 1,555 GB/s (2020.05)
- A100 80GB HBM2e — 2,039 GB/s (2020.11)
연산량 (dense):
- FP32: 19.5 TFLOPS / TF32 Tensor: 156 TFLOPS
- BF16/FP16 Tensor: 312 TFLOPS (sparse 624)
- INT8: 624 TOPS (sparse 1,248)
- FP8 미지원 (Hopper 이후 도입)
인터커넥트: NVLink 3.0, 600 GB/s
TDP: 400W (SXM4) / 250–300W (PCIe)
출시가: $10,000–15,000 (PCIe 40GB 기준)
수출 제한 대체품: A800 — NVLink 대역폭만 400 GB/s로 하향(중국향). 연산 성능은 A100과 동일.
LLM 관점: GPT-3 / LLaMA-1 / LLaMA-2 학습의 표준. FP8 부재 때문에 H100 대비 학습 throughput 3–4배 열세이지만 여전히 저비용 fine-tune·inference 주력.

1.3 H100 (Hopper, 2022.09)

공정: TSMC 4N (4nm 커스텀), 80B 트랜지스터, 814 mm²
VRAM:
- H100 SXM5 — 80GB HBM3, 3.35 TB/s
- H100 PCIe — 80GB HBM2e, 2.0 TB/s
- H100 NVL — 94GB HBM3, 3.9 TB/s (2-slot PCIe, LLM inference 특화, 2023.03)
연산량 (dense, SXM5):
- FP32: 67 TFLOPS / FP64 Tensor: 67 TFLOPS
- TF32 Tensor: 495 TFLOPS
- BF16/FP16 Tensor: 989 TFLOPS (sparse 1,979)
- FP8 Tensor: 1,979 TFLOPS (sparse 3,958) — Transformer Engine 최초 도입
- INT8: 1,979 TOPS
인터커넥트: NVLink 4.0, 900 GB/s / PCIe Gen5 128 GB/s
TDP: 700W (SXM5) / 350W (PCIe) / 400W (NVL per GPU)
출시가: $25, 000-40, 000 (2022-2023 피크) \to 2026 년$ 25K 내외
수출 제한 대체품:
- H800 — NVLink 400 GB/s로 하향, FP64 성능 축소 (중국향, 2023)
- H20 — 대폭 약화. 96GB HBM3, BF16 148 TFLOPS / FP8 296 TFLOPS, 대역폭 4.0 TB/s (메모리만 준수, 연산은 7배↓)
LLM 관점: 현재 LLM 학습의 de-facto 표준. FP8 Transformer Engine으로 A100 대비 BF16 3배·FP8 6배 throughput. GPT-4 / Claude 3 / LLaMA-3 학습 주력.

1.4 H200 (Hopper refresh, 2024.Q2)

H100과 동일한 GH100 다이, HBM만 HBM3 → HBM3e로 교체.
VRAM: 141GB HBM3e, 4.8 TB/s (H100 대비 용량 1.76× · 대역폭 1.43×)
연산량: H100과 동일 (BF16 989 / FP8 1,979 TFLOPS dense)
TDP: 700W
출시가: ~$30,000–35,000
LLM 관점: Inference 왕. 용량·대역폭이 중요한 LLM inference(특히 장문 컨텍스트 / 70B급 단일 노드)에서 H100 대비 실효 throughput 1.5–1.9× 상승. 학습 성능은 H100과 동일.

1.5 Blackwell B100 / B200 (2024.GTC 발표, 2025.Q1 양산)

공정: TSMC 4NP, 208B 트랜지스터 (2-die MCM, 각 104B, NV-HBI 10 TB/s로 연결)
폼팩터: B100 (700W, 기존 H100 슬롯 호환) / B200 (1000W, 신규 HGX)
VRAM: 192GB HBM3e (8-stack), 8.0 TB/s 대역폭
연산량 (B200 dense):
- BF16/FP16 Tensor: 2,250 TFLOPS (sparse 4,500) — H100의 2.3×
- FP8 Tensor: 4,500 TFLOPS (sparse 9,000) — H100의 2.3×
- FP4 Tensor: 9,000 TFLOPS (sparse 18,000) — Blackwell 신규 포맷
- FP64 Tensor: 40 TFLOPS (H100 대비 40% 감소 — HPC보다 AI에 최적화)
인터커넥트: NVLink 5.0 — 1.8 TB/s per GPU (H100의 2×)
TDP: 700W (B100) / 1000W (B200) / 1200W (B200 공랭 불가)
출시가: B200 ~$35,000–40,000
LLM 관점: FP4 추론 + NVLink 72-GPU 도메인(NVL72)으로 GPT-4급 이상 모델의 단일 rack inference 가능. FP4로 모델 무게 절반 → 효과적 VRAM 384GB 효과.

1.6 GB200 Superchip & NVL72 Rack

GB200: 1× Grace CPU (72-core Arm Neoverse V2) + 2× B200 GPU, NVLink-C2C 900 GB/s 연결
공유 메모리: LPDDR5X 480GB + HBM3e 384GB (2×192GB) = 총 864GB per Superchip
NVL72: 36× GB200 → 72 GPU + 36 CPU가 단일 NVLink 도메인. Rack 전체 13.5TB HBM3e, 576 TB/s aggregate BW
랙당 소비전력: 120kW (수랭 필수)
랙당 가격: ~$3M
LLM 관점: 1조 파라미터급 모델을 단일 rack 내 shared memory로 학습/추론. Tensor Parallel 72-way까지 penalty 없이 가능.

1.7 Blackwell Ultra B300 / GB300 (2025.Q4–2026.Q1)

VRAM: 288GB HBM3e (12-stack), 8.0 TB/s
연산량: B200 대비 dense 연산 ~10% 증가 추정, FP4 15 PFLOPS dense / 30 PFLOPS sparse (NVIDIA 발표 기준)
TDP: 1400W
LLM 관점: 장문 컨텍스트(1M+ tokens) 추론 · 초거대 MoE에 집중. 2026년 주력 학습 플랫폼.

1.8 Rubin (2026.Q4 예고)

HBM4, NVLink 6, 차세대 패키징. 세부 스펙 미공개(2026.04 기준).

2. NVIDIA Workstation / Prosumer (파인튜닝·로컬 추론용)

모델	출시	VRAM	메모리 BW	FP16 Tensor	TDP	가격($)
RTX 4090	2022.10	24GB GDDR6X	1,008 GB/s	165 TFLOPS	450W	1,599
RTX 5090 (Blackwell)	2025.01	32GB GDDR7	1,792 GB/s	~419 TFLOPS (FP8 838)	575W	1,999
RTX 6000 Ada	2022.12	48GB GDDR6	960 GB/s	364 TFLOPS (sparse)	300W	6,800
RTX PRO 6000 Blackwell	2025.Q2	96GB GDDR7	1,792 GB/s	~504 TFLOPS FP16	600W	~8,500
L40S	2023.10	48GB GDDR6	864 GB/s	362 TFLOPS	350W	~8,000

연구 관점:
- 70B 모델 Q4 추론: RTX 6000 Ada(48GB) 1장 또는 RTX 4090(24GB) 2장
- 70B LoRA fine-tune: RTX PRO 6000(96GB) 1장으로 가능
- RTX 계열은 NVLink 없음 → multi-GPU는 PCIe로만 연결, TP 통신 병목 큼

3. AMD Instinct (CDNA)

3.1 MI250X (CDNA2, 2021.11)

VRAM: 128GB HBM2e (64GB × 2 GCD), 3.2 TB/s
BF16/FP16: 383 TFLOPS (dense, 2-die 합산)
FP8: 미지원
TDP: 560W
출시가: ~$12,000
주요 배포처: Frontier 슈퍼컴퓨터

3.2 MI300X (CDNA3, 2023.12)

VRAM: 192GB HBM3, 5.3 TB/s — 당시 업계 최대 용량
연산량 (dense):
- BF16/FP16 Matrix: 1,307 TFLOPS
- FP8 Matrix: 2,614 TFLOPS (sparse 5,229)
- INT8: 2,614 TOPS
인터커넥트: Infinity Fabric 896 GB/s
TDP: 750W
출시가: ~$15,000–20,000
LLM 관점: 단일 GPU VRAM이 H100(80GB)의 2.4배 → 175B급 모델도 8-GPU 노드에서 여유. 소프트웨어 스택(ROCm)은 2024년 이후 vLLM·PyTorch 지원이 성숙. Azure·Oracle이 대규모 채택.

3.3 MI325X (CDNA3 refresh, 2024.Q4)

VRAM: 256GB HBM3e, 6.0 TB/s
연산량은 MI300X와 동일
TDP: 1000W
출시가: ~$20,000–25,000

3.4 MI350X / MI355X (CDNA4, 2025.Q2)

VRAM: 288GB HBM3e, 8.0 TB/s
FP6/FP4 신규 지원, FP4 18.5 PFLOPS (claim)
TDP: 1000W (공랭) / 1400W (수랭)
B200 대비 VRAM 1.5×, 연산은 ±5% 수준 경쟁

4. Google TPU (Cloud 전용)

세대	출시	HBM/chip	대역폭	BF16 TFLOPS	INT8/FP8	Pod 규모
TPU v3	2018	32GB HBM	900 GB/s	123	미지원	1,024
TPU v4	2021	32GB HBM	1.2 TB/s	275	—	4,096 (3D torus)
TPU v5e	2023.09	16GB HBM	820 GB/s	197	INT8: 393 TOPS	256
TPU v5p	2023.12	95GB HBM	2.76 TB/s	459	INT8: 918 TOPS	8,960
TPU v6e “Trillium”	2024.12	32GB HBM	1.64 TB/s	918	INT8: 1,836	256
TPU v7 “Ironwood”	2025.Q4	192GB HBM3e	7.4 TB/s	—	FP8 4,614 TFLOPS	9,216

v5p: Gemini 1.0/1.5 학습 주력. H100 대비 per-chip BF16 throughput은 1/2이지만 pod-level scaling이 강점.
v6e Trillium: v5e 대비 4.7× 학습 성능. 추론 특화.
v7 Ironwood: Google 최초의 inference 전용 TPU. H200/B200 대응. FP8 집중, HBM 192GB로 LLM 추론 최적화. Gemini 2.x 추론 백본.
접근 방법: GCP에서만 사용 가능 (On-prem 불가). JAX/PyTorch-XLA 기반.

5. 기타 AI 가속기

5.1 AWS Trainium / Inferentia

Trainium1 (2022): 32GB HBM, BF16 210 TFLOPS
Trainium2 (2024.12): 96GB HBM, 2.9 TB/s, BF16 667 TFLOPS / FP8 1,299 TFLOPS, EFA 800 Gbps, $Trn2 UltraServer = 64-chip fabric
Inferentia2 (2023): 32GB HBM, 추론 특화, BF16 190 TFLOPS
Trainium3 (2025 말): 3nm, FP4 지원 예고

5.2 Cerebras WSE-3 (2024.03)

단일 wafer 전체를 하나의 칩으로 — 46,225 mm² (H100의 57배)
900,000 AI-최적화 코어, 44GB on-chip SRAM, 21 PB/s on-chip BW
FP16: 125 PFLOPS (dense)
외부 메모리(MemoryX)로 최대 1.2 PB 파라미터 지원
가격: CS-3 시스템 당 수백만 달러
LLM 관점: Long-context inference 속도에서 압도적(초당 수천 토큰). 학습 에코시스템은 아직 제한적.

5.3 Groq LPU (2023)

추론 전용. 230MB on-chip SRAM/chip, HBM 없음
단일 칩 FP16 188 TFLOPS, 대규모 클러스터로 scale
LLaMA-70B 추론 500+ tok/s 데모로 유명
학습 불가

5.4 SambaNova SN40L (2024)

3-tier memory: 64GB HBM3 + 1.5TB DDR5 + 520MB SRAM
Composition of Experts 아키텍처에 최적화

5.5 Intel Gaudi 3 (2024.Q3)

VRAM: 128GB HBM2e, 3.7 TB/s
BF16/FP8: 1,835 TFLOPS (FP8)
TDP 900W, 가격 $15K대로 공격적 포지셔닝
LLM 관점: H100 대비 가격-성능 경쟁력 주장하지만 소프트웨어 스택(SynapseAI) 성숙도 낮음.

6. VRAM별 수용 가능 모델 감각 (추론 기준)

VRAM	FP16 (2 byte/param)	FP8 (1 byte)	Q4 (0.5 byte)
24GB (RTX 4090)	10B	20B	40B
48GB (L40S, 6000 Ada)	22B	45B	80B
80GB (A100/H100)	35B	70B	140B
141GB (H200)	65B	130B	260B
192GB (B200/MI300X)	90B	180B	360B
288GB (B300/MI350X)	140B	280B	560B

KV cache · activation · optimizer state · 여유 overhead(보통 20–30%) 감안하면 위 수치의 70%가 실사용 한계.
학습 시엔 FP16 param × 2(grad) + FP32 optimizer(param × 8, AdamW 기준) = param × 16 byte/param → 70B 학습은 최소 ~1.4TB aggregate VRAM 필요 (DP/TP/PP 분산).

7. 실무 선택 가이드

목적	추천 (2026)	차선책
< 13B 모델 fine-tune / 로컬 개발	RTX 5090 32GB × 1–2	RTX 4090 × 2
70B LoRA / QLoRA	RTX PRO 6000 Blackwell 96GB × 1	A100 80GB × 1
70B full fine-tune	H100 × 8 (단일 노드)	MI300X × 8
405B+ 학습	GB200 NVL72 rack	H100 256-GPU 클러스터
장문 컨텍스트 추론(128K+)	H200 / B200 / MI325X	TPU v7 Ironwood
초저지연 추론 (API 서비스)	Groq LPU / Cerebras WSE-3 / B200 FP4	H200
가격 효율 (저예산)	RTX 4090 × N, A100 중고	MI250X 중고

Juhyeon's Blog

탐색기

LLM 학습/추론용 GPU·TPU 하드웨어 정리

LLM 학습/추론용 GPU·TPU 하드웨어 정리 (2026-04 기준)

0. 빠른 비교 표 — NVIDIA 데이터센터 GPU 세대 요약

1. NVIDIA Data Center GPU

1.1 V100 (Volta, 2017.06)

1.2 A100 (Ampere, 2020.05)

1.3 H100 (Hopper, 2022.09)

1.4 H200 (Hopper refresh, 2024.Q2)

1.5 Blackwell B100 / B200 (2024.GTC 발표, 2025.Q1 양산)

1.6 GB200 Superchip & NVL72 Rack

1.7 Blackwell Ultra B300 / GB300 (2025.Q4–2026.Q1)

1.8 Rubin (2026.Q4 예고)

2. NVIDIA Workstation / Prosumer (파인튜닝·로컬 추론용)

3. AMD Instinct (CDNA)

3.1 MI250X (CDNA2, 2021.11)

3.2 MI300X (CDNA3, 2023.12)

3.3 MI325X (CDNA3 refresh, 2024.Q4)

3.4 MI350X / MI355X (CDNA4, 2025.Q2)

4. Google TPU (Cloud 전용)

5. 기타 AI 가속기

5.1 AWS Trainium / Inferentia

5.2 Cerebras WSE-3 (2024.03)

5.3 Groq LPU (2023)

5.4 SambaNova SN40L (2024)

5.5 Intel Gaudi 3 (2024.Q3)

6. VRAM별 수용 가능 모델 감각 (추론 기준)

7. 실무 선택 가이드

관련 문서

그래프 뷰

목차

Properties

백링크