LLaMA Models

Digest: Meta의 LLaMA 시리즈는 오픈소스 LLM 생태계의 기반이 된 모델 패밀리이다. LLaMA 1(2023.02)은 공개 데이터만으로 GPT-3를 능가했고, LLaMA 2(2023.07)는 상업적 사용 허가+RLHF Chat 모델을 도입했으며, LLaMA 3(2024.07)은 405B Dense 모델로 15.6T 토큰 학습하여 GPT-4 수준 성능을 오픈 모델로 처음 달성했다.

LLaMA 1 (2023.02)

Digest: LLaMA는 Meta AI가 발표한 7B65B 규모의 오픈소스 언어 모델 시리즈로, 공개적으로 사용 가능한 데이터만으로 GPT-3(175B), Chinchilla(70B), PaLM(540B)에 필적하는 성능을 달성한 것이 핵심 기여이다. Chinchilla의 스케일링 법칙(“더 많은 데이터로 더 작은 모델을 훈련”)을 따라 LLaMA-13B는 GPT-3를 대부분의 벤치마크에서 능가하고, LLaMA-65B는 Chinchilla-70B 및 PaLM-540B와 경쟁한다. 아키텍처적으로 Pre-RMSNorm, SwiGLU FFN, RoPE를 채택한 변형 Transformer이며, 1.01.4T 토큰으로 학습되었다. 이 모델은 이후 오픈소스 LLM 생태계(Alpaca, Vicuna, Koala 등)의 기반이 되었다.

아키텍처 상세

모델 스펙

모델	Params	Layers	Heads	d_model	FFN Dim	Context	학습 토큰
LLaMA-7B	6.7B	32	32	4096	11008	2048	1.0T
LLaMA-13B	13.0B	40	40	5120	13824	2048	1.0T
LLaMA-33B	32.5B	60	52	6656	17920	2048	1.4T
LLaMA-65B	65.2B	80	64	8192	22016	2048	1.4T

아키텍처 핵심 구성요소

구성요소	설명
Pre-RMSNorm	GPT-3의 Post-LayerNorm 대신, 각 sub-layer 입력에 RMSNorm 적용 (GPT-3와의 차이)
SwiGLU	$SwiGLU (x) = Swish (x W_{1}) \otimes x W_{3}$ — ReLU 대비 성능 향상 (PaLM 방식 채택)
RoPE	회전 위치 임베딩 — 절대 위치 임베딩 대체, 상대 위치 정보 인코딩
MHA (Multi-Head Attention)	표준 multi-head attention (GQA는 LLaMA 2에서 도입)
Efficient Attention	xformers 라이브러리의 메모리 효율적 attention 구현
BPE Tokenizer	SentencePiece BPE, 어휘 크기 32,000

graph TD
    A["입력 토큰"] --> B["SentencePiece BPE<br/>vocab 32,000"]
    B --> C["Token Embedding"]
    C --> D["Transformer Block × N"]

    subgraph TB["Transformer Block"]
        D1["RMSNorm (Pre-Norm)"] --> D2["Multi-Head Attention + RoPE"]
        D2 --> D3["Residual Add"]
        D3 --> D4["RMSNorm (Pre-Norm)"]
        D4 --> D5["SwiGLU FFN<br/>(2/3 × 4d → d)"]
        D5 --> D6["Residual Add"]
    end

    D --> E["RMSNorm"] --> F["LM Head (Linear)"]

사전 학습 (Pre-training)

데이터

데이터셋	비율	토큰 수	에포크	설명
CommonCrawl (CCNet)	67.0%	~670B	1.0	CCNet 파이프라인으로 필터링, 언어 ID + n-gram LM 필터
C4	15.0%	~150B	1.0	다양성을 위해 CCNet과 별도 포함
Github	4.5%	~45B	0.64	코드, 라이선스/헤더 기반 필터링
Wikipedia	4.5%	~45B	2.45	20개 언어 (2022년 6-8월)
Books (Gutenberg + Books3)	4.5%	~45B	2.23	공개 도서 데이터
ArXiv	2.5%	~25B	1.06	수학/과학 논문
StackExchange	2.0%	~20B	1.03	고품질 Q&A
합계	100%	~1.0T	—	전체 1.4T (33B/65B 모델)

학습 하이퍼파라미터

항목	값
Optimizer	AdamW (β₁=0.9, β₂=0.95)
Learning Rate	Peak 3×10⁻⁴ (cosine schedule)
Warmup	2000 steps
Weight Decay	0.1
Gradient Clipping	1.0
Batch Size	~4M tokens (7B/13B), 점진 증가
Hardware	A100 80GB × 2048 (65B 모델)
학습 시간	~21일 (65B, 1.4T 토큰)
Efficient 구현	xformers attention, gradient checkpointing

Chinchilla 스케일링 법칙 적용

LLaMA의 핵심 통찰: Chinchilla 논문에서 제안한 “compute-optimal” 학습 비율보다 훨씬 더 많은 토큰으로 작은 모델을 학습하면, 추론 시 더 효율적인 모델을 얻을 수 있다.

Chinchilla-optimal for 7B: ~150B tokens → LLaMA-7B: 1T tokens (6.7× 초과)
추론 예산이 고정된 환경에서 작은 모델 + 긴 학습이 유리

벤치마크 비교

주요 벤치마크 (0-shot / few-shot)

벤치마크	LLaMA-7B	LLaMA-13B	LLaMA-33B	LLaMA-65B	GPT-3 (175B)	Chinchilla (70B)	PaLM (540B)
MMLU (5-shot)	35.1	46.9	57.8	63.4	43.9	67.6	69.3
HellaSwag (0-shot)	76.1	79.2	82.8	84.2	78.9	80.8	83.4
ARC-e	72.8	77.1	—	81.2	68.8	—	—
BoolQ	75.1	78.1	—	85.3	60.5	—	—
WinoGrande	70.1	73.0	76.0	77.0	70.2	73.7	77.0
TriviaQA (5-shot)	53.0	62.4	71.8	77.5	—	72.3	81.4
NaturalQuestions (5-shot)	16.4	20.7	29.0	30.2	—	16.6	29.3
HumanEval (0-shot)	10.5	15.8	21.7	23.7	—	—	26.2
MATH (4-shot)	2.9	5.0	7.9	10.6	—	—	8.8
GSM8K (8-shot)	11.0	17.8	35.6	50.9	—	43.3	56.5

핵심 비교 포인트

LLaMA-13B > GPT-3 (175B): 대부분의 벤치마크에서 ~13배 작은 모델이 우세
LLaMA-65B ≈ Chinchilla-70B: 유사 크기에서 대등 (MMLU 제외)
LLaMA-65B vs PaLM-540B: 1/8 크기로 대등한 성능

동시대 비교 매트릭스

특성	LLaMA (2023.02)	GPT-3 (2020.05)	Chinchilla (2022.04)	PaLM (2022.04)
최대 파라미터	65B	175B	70B	540B
학습 데이터	공개 데이터 1.4T	300B (필터링)	1.4T	780B
오픈소스	✅ (가중치 공개)	❌ (API만)	❌	❌
Position Encoding	RoPE	Learned Absolute	—	RoPE
Normalization	Pre-RMSNorm	Post-LayerNorm	Pre-LayerNorm	Pre-LayerNorm
FFN	SwiGLU	GELU	—	SwiGLU
Tokenizer	BPE 32K	BPE 50K	SentencePiece	SentencePiece 256K
기여	오픈소스 생태계	퓨샷 패러다임	스케일링 법칙	모델 규모 확장

한계 및 후속 영향

Context Length: 2048 토큰으로 제한적 (이후 LLaMA 2에서 4096으로 확장)
GQA 미적용: 추론 효율성에서 개선 여지 (LLaMA 2에서 34B/70B에 GQA 도입)
MMLU 약세: 65B에서도 Chinchilla/PaLM 대비 낮은 MMLU — 코드/수학 데이터 비중 한계
후속 영향: Alpaca, Vicuna, Koala, WizardLM, Code Llama 등 파생 모델 생태계 촉발

LLaMA 2 (2023.07)

Digest: LLaMA 2는 Meta가 발표한 7B~70B 규모의 오픈소스 LLM으로, LLaMA 1 대비 학습 데이터 40% 증가(2T 토큰), 컨텍스트 2배 확장(4096), 70B 모델에 GQA 도입이 주요 개선이다. 특히 LLaMA 2-Chat은 SFT + Iterative RLHF(Rejection Sampling + PPO)로 학습된 대화 특화 모델로, 안전성과 유용성 평가에서 ChatGPT에 근접한 성능을 보였다. Ghost Attention(GAtt) 기법으로 다중 턴 대화에서 시스템 프롬프트 일관성을 유지하고, 안전성을 위한 Safety RLHF를 별도로 수행했다. 상업적 사용이 허가된 최초의 경쟁력 있는 오픈 LLM이다.

아키텍처 상세

모델 스펙

모델	Params	Layers	Heads	KV Heads	d_model	FFN Dim	Context	학습 토큰
LLaMA 2-7B	6.7B	32	32	32 (MHA)	4096	11008	4096	2.0T
LLaMA 2-13B	13.0B	40	40	40 (MHA)	5120	13824	4096	2.0T
LLaMA 2-34B	32.5B	48	64	8 (GQA)	8192	22016	4096	2.0T
LLaMA 2-70B	68.9B	80	64	8 (GQA)	8192	28672	4096	2.0T

아키텍처 핵심 구성요소

구성요소	설명
GQA (Grouped Query Attention)	34B/70B 모델에 적용 — KV 헤드 8개로 추론 속도 향상
MHA	7B/13B는 표준 MHA 유지
Pre-RMSNorm	LLaMA 1과 동일
SwiGLU	LLaMA 1과 동일
RoPE	LLaMA 1과 동일
BPE Tokenizer	SentencePiece BPE, 32,000 vocab (LLaMA 1과 동일)

LLaMA 1 대비 변경점

항목	LLaMA 1	LLaMA 2
Context Length	2048	4096
학습 토큰	1.0~1.4T	2.0T
GQA	❌	✅ (34B, 70B)
Chat 모델	❌	✅ (RLHF)
상업적 라이선스	제한적	✅

graph TD
    A["입력 토큰"] --> B["SentencePiece BPE<br/>vocab 32,000"]
    B --> C["Token Embedding"]
    C --> D["Transformer Block × N"]

    subgraph TB["Transformer Block"]
        D1["RMSNorm (Pre-Norm)"] --> D2{"7B/13B or 34B/70B?"}
        D2 -->|7B/13B| D3["MHA + RoPE"]
        D2 -->|34B/70B| D4["GQA (KV=8) + RoPE"]
        D3 --> D5["RMSNorm"]
        D4 --> D5
        D5 --> D6["SwiGLU FFN"]
    end

    D --> E["RMSNorm"] --> F["LM Head"]

사전 학습 (Pre-training)

학습 데이터

항목	값
총 토큰	2.0T
데이터 소스	공개 데이터만 (LLaMA 1과 유사하나 40% 확장)
언어	영어 중심 (다국어 포함)
Up-sampling	사실성 높은 소스(Wikipedia 등) up-sampling
PII 제거	개인정보 식별 및 제거 적용

학습 하이퍼파라미터

항목	값
Optimizer	AdamW (β₁=0.9, β₂=0.95, ε=10⁻⁵)
Learning Rate	Peak 3×10⁻⁴ (cosine schedule, 최종 LR의 10%)
Warmup	2000 steps
Weight Decay	0.1
Gradient Clipping	1.0
Batch Size	4M tokens (7B) → 점진 증가
Hardware	A100 80GB, Meta RSC 클러스터
학습 시간	~184,320 GPU-hours (70B)

후훈련 파이프라인 (LLaMA 2-Chat)

SFT → RLHF 전체 파이프라인

graph TD
    A["LLaMA 2<br/>(사전학습)"] --> B["SFT<br/>(~27,540 고품질 샘플)"]
    B --> C["Rejection Sampling"]
    C --> D["PPO"]
    D --> E["반복 (Iterative RLHF)"]
    E --> C

    F["인간 선호 데이터<br/>(~1.4M 비교)"] --> G["Reward Model<br/>(Safety + Helpfulness)"]
    G --> C
    G --> D

    style E fill:#f9f,stroke:#333

SFT

항목	값
데이터	~27,540개 고품질 어노테이션 (양 < 질 전략)
핵심 발견	수만 개의 고품질 SFT 데이터로 충분 (수백만 불필요)
Epochs	2
Cosine LR	2×10⁻⁵
Weight Decay	0.1

Reward Model

항목	값
기반	LLaMA 2-Chat 체크포인트 (pre-trained → RM head 추가)
데이터	~1.4M 인간 비교 (helpfulness + safety 분리)
두 개의 RM	Helpfulness RM + Safety RM (별도 학습)
Margin Loss	비교 쌍의 확신도(margin)를 loss에 반영

RLHF (Iterative)

항목	값
방법	Rejection Sampling + PPO 교대 적용
Rejection Sampling	K개 응답 생성 → RM으로 최고 선택 → SFT 추가 학습
PPO	Rejection Sampling 후 PPO로 추가 최적화
반복	5 라운드 iterative RLHF

Ghost Attention (GAtt)

항목	설명
목적	다중 턴 대화에서 시스템 프롬프트 일관성 유지
방법	시스템 메시지를 모든 턴에 반복 삽입하여 학습 → 추론 시에는 첫 턴만
효과	20+ 턴 후에도 시스템 지시 준수율 유지

벤치마크 비교

사전학습 모델

벤치마크	LLaMA 2-7B	LLaMA 2-13B	LLaMA 2-70B	LLaMA 1-65B	Falcon-40B	MPT-30B
MMLU (5-shot)	45.3	54.8	68.9	63.4	55.4	46.9
TriviaQA (1-shot)	68.9	77.2	85.0	82.3	—	—
NaturalQuestions	25.7	32.8	39.0	33.9	—	—
GSM8K (8-shot)	14.6	28.7	56.8	50.9	19.6	—
HumanEval (0-shot)	12.8	18.3	29.9	23.7	—	—
MATH (few-shot)	2.5	5.0	13.5	10.6	—	—

Chat 모델 (인간 평가)

비교	LLaMA 2-Chat 70B Win Rate
vs ChatGPT (GPT-3.5)	36% win / 31.5% tie (대등~우세)
vs Vicuna-33B	승리
vs Falcon-40B-Instruct	승리

LLaMA 2-Chat-70B는 ChatGPT와 대등하며, 다른 오픈소스 Chat 모델을 압도

안전성 평가

지표	LLaMA 2-Chat-70B	ChatGPT	Falcon-Instruct	Vicuna
Safety 위반율 (adversarial)	4%	4%	25%	18%
Helpfulness + Safety 균형	양호	양호	낮음	중간

동시대 비교 매트릭스

특성	LLaMA 2 (2023.07)	LLaMA 1 (2023.02)	Falcon (2023.06)	MPT (2023.05)	ChatGPT (2022.11)
최대 파라미터	70B	65B	40B	30B	미공개
학습 토큰	2.0T	1.0~1.4T	1.5T (RefinedWeb)	1.0T	미공개
Context	4096	2048	2048	8192	4096/16K
GQA	✅ (34B/70B)	❌	✅	❌	미공개
Chat 모델	✅ (RLHF)	❌	✅ (기본 SFT)	✅ (기본 SFT)	✅ (RLHF)
상업적 사용	✅	제한적	✅ (Apache 2.0)	✅	API만
핵심 기여	오픈 RLHF Chat	오픈소스 기반	웹 데이터 품질	긴 Context	RLHF 대화

LLaMA 3 (2024.07)

Digest: Meta의 LLaMA 3는 8B, 70B, 405B 세 가지 크기의 Dense Transformer 모델로, 기존 LLaMA 2 대비 아키텍처 변경은 최소화하면서 데이터 품질·다양성 확대와 학습 규모 증가로 성능 향상을 달성했다. 플래그십 405B 모델은 126층, 16,384 차원, 128 attention heads로 구성되며 15.6T 토큰으로 학습되었다 — 이는 3.8×10²⁵ FLOPs 예산에서 스케일링 법칙으로 최적화된 설계이다(Figure 2-4). 핵심 아키텍처 선택으로 GQA(8 KV heads), SwiGLU, RoPE(θ=500,000), 128K vocab 토크나이저를 채택하고, 문서 간 attention mask를 추가했다. 학습은 3단계(초기 사전학습 → 장문맥 → 어닐링)로 진행되며, 405B는 AdamW optimizer로 peak LR 8×10⁻⁵, warmup 8,000 steps, cosine schedule을 사용한다(Table 3). 후훈련은 Reward Model → SFT(rejection sampling) → DPO(β=0.1) 파이프라인을 6라운드 반복하며, DPO에서 formatting token masking과 NLL regularization(0.2)을 적용한다. GPT-4 수준 성능을 오픈 모델로 처음 달성했으나, MoE 미채택으로 추론 비용이 높고, 멀티모달 확장은 연구 단계에 머무른다. baseline 선정 시 Dense 아키텍처의 안정적 학습 레시피와 명확한 스케일링 법칙이 핵심 참고 자료이다.

아키텍처 상세 (Table 3)

모델 스펙

항목	8B	70B	405B
Layers	32	80	126
Model Dimension	4,096	8,192	16,384
FFN Dimension	14,336	28,672	53,248
Attention Heads	32	64	128
KV Heads (GQA)	8	8	8
Peak Learning Rate	3×10⁻⁴	1.5×10⁻⁴	8×10⁻⁵
Activation Function	SwiGLU	SwiGLU	SwiGLU
Vocabulary Size	128,000	128,000	128,000
Positional Embeddings	RoPE (θ=500,000)	RoPE (θ=500,000)	RoPE (θ=500,000)

아키텍처 핵심 구성요소

구성요소	설명
Dense Transformer	Standard architecture — MoE 미사용, 안정적 학습 우선
GQA (8 KV heads)	모든 크기에서 KV=8 고정, 추론 속도 향상 + KV 캐시 절감
SwiGLU	FFN 활성 함수
RoPE (θ=500K)	Xiong et al.(2023) 기반, 32K+ context 지원
Document Attention Mask	동일 시퀀스 내 다른 문서 간 self-attention 차단 — 장문맥 continued pretraining에서 중요
128K Vocab	tiktoken 100K + 28K 비영어 토큰 추가, 영어 압축률 3.17→3.94 chars/token

graph TD
    A["입력 토큰"] --> B["128K Vocab Tokenizer<br/>(tiktoken + 28K multilingual)"]
    B --> C["Token Embedding"]
    C --> D["Transformer Block × N<br/>(32/80/126 layers)"]

    subgraph TB["Transformer Block"]
        D1["Pre-RMSNorm"] --> D2["GQA (8 KV heads)<br/>+ RoPE θ=500K<br/>+ Document Mask"]
        D2 --> D3["Pre-RMSNorm"]
        D3 --> D4["SwiGLU FFN"]
    end

    D --> E["RMSNorm"] --> F["LM Head"]

사전 학습 (Pre-training)

데이터

항목	스펙
총 토큰 수	~15.6T (15.6조)
데이터 소스	웹 크롤링 (필터링 파이프라인), 코드, 수학, 다국어
데이터 품질 관리	URL/문서/행 수준 중복 제거 + heuristic 필터 + 모델 기반 분류기 + 코드/수학 추출
데이터 믹스 최적화	스케일링 법칙 기반 + annealing 실험 (8B 50% 모델에서 40B 토큰 annealing)
데이터 품질 분류기	Llama 2로 학습, 웹 페이지 품질 점수화 (Wikipedia 참조 = 양성)
Annealing 기법	최종 40M 토큰에서 LR→0 linear annealing + 고품질 데이터 업샘플링 + Polyak averaging

3단계 학습 레시피 (405B)

단계	토큰 수	Seq Length	Batch Size	설명
Initial Pre-training	~15T	4,096→8,192	4M→8M→16M	AdamW, warmup 8K steps, cosine LR
Long Context	~800B	점진적 확장 → 128K	—	6단계로 8K→128K 점진 확장
Annealing	40M	128K	—	LR→0 linear, 고품질 데이터 업샘플, Polyak avg

하이퍼파라미터 상세 (405B)

항목	값
Optimizer	AdamW
Peak Learning Rate	8 × 10⁻⁵
LR Schedule	Cosine decay → 8 × 10⁻⁷ over 1,200,000 steps
Warmup	8,000 steps (linear)
Weight Decay	0.1 × LR (at each step)
Initial Batch Size	4M tokens, seq len 4,096
Batch Size 증가	252M tokens 후 8M (seq 8,192) → 2.87T 후 16M
Compute Budget	3.8 × 10²⁵ FLOPs
Long Context	6단계 점진 확장 (8K → 128K), ~800B 토큰

스케일링 법칙 (Scaling Laws)

항목	설명
방법론	IsoFLOPs curves (6×10¹⁸ ~ 10²² FLOPs), 40M~16B 파라미터 모델
최적 토큰 수 공식	N*(C) = AC^α, (α, A) = (0.53, 0.29)
3.8×10²⁵ FLOPs → 최적	402B params, 16.55T tokens → 최종 결정: 405B
핵심 관찰	연산 예산 증가 시 IsoFLOPs 곡선이 평탄해짐 → 모델 크기 미세 조정에 robust
벤치마크 예측	(1) NLL vs FLOPs 선형 상관 (2) NLL vs accuracy 시그모이드 상관 → 4 OOM 외삽 정확

후훈련 (Post-training) — 6라운드 반복

graph LR
    A["Pre-trained Model"] --> B["Reward Model<br/>(preference data)"]
    B --> C["SFT<br/>(rejection sampling<br/>+ synthetic data)"]
    C --> D["DPO<br/>(β=0.1, latest batches)"]
    D --> E["Model Averaging"]
    E -->|"6 rounds"| B

Reward Model

항목	설명
학습 데이터	모든 누적 preference 데이터 (유사 응답 필터링 후)
응답 수	2~3개/프롬프트 (edited > chosen > rejected)
손실 함수	Llama 2와 동일하되 margin term 제거 (데이터 스케일 후 효과 감소)
학습 효율	프롬프트 + 복수 응답을 단일 행으로 연결 (랜덤 셔플)

SFT (Supervised Fine-Tuning)

항목	값
데이터	Rejection sampling 응답 + 합성 데이터 (코드, 수학, 다국어, 도구 사용 등)
손실	Standard cross-entropy (target tokens만, prompt tokens 마스킹)
Learning Rate	10⁻⁵
Steps	8,500 ~ 9,000

DPO (Direct Preference Optimization)

항목	값
Learning Rate	10⁻⁵
β	0.1
데이터	최신 배치 preference 데이터 (significantly/better 레이블만)
Formatting Token Masking	특수 헤더/종료 토큰을 loss에서 제외 → tail repetition 방지
NLL Regularization	chosen 시퀀스에 NLL loss 추가 (계수 0.2) → log probability 하락 방지
PPO 대비	DPO가 대규모 모델에서 더 적은 연산, IFEval 등에서 더 나은 성능

Model Averaging

각 RM/SFT/DPO 단계에서 다양한 데이터 버전/하이퍼파라미터로 학습한 모델들의 가중치 평균

Preference Data 통계 (Table 6)

카테고리	비율	Avg Turns	Avg Tokens/Example
General English	82.0%	4.1	1,000
Coding	6.9%	3.2	1,621
Multilingual	5.2%	1.8	1,299
Reasoning & Tools	5.9%	1.6	708

인프라 & 학습 효율

항목	스펙
GPU	16,384 × H100 80GB
네트워크	서버 내 NVLink, 서버 간 RoCE (400Gbps)
병렬화	4D Parallelism (TP=8 × PP × CP × DP)
TP	Tensor Parallelism = 8 (서버 내 NVLink)
PP	Pipeline Parallelism (인터리브드 스케줄) — 버블 최소화
CP	Context Parallelism — 장문맥 시 시퀀스 분할
DP	FSDP (Fully Sharded Data Parallel) — optimizer state + gradient 샤딩
수치 정밀도	BF16 (forward/backward), FP32 (옵티마이저 상태)
GPU 활용률	~400 TFLOPS/GPU (BF16 peak의 38-43%)
학습 안정성	전체 학습 동안 loss spike 거의 없음, divergence 개입 불필요

벤치마크 결과 — Baseline 선정 참고

Pre-trained 모델 (Table 2 발췌 — 주요 벤치마크)

Benchmark	LLaMA 3.1 8B	LLaMA 3.1 70B	LLaMA 3.1 405B	GPT-4 (0125)	GPT-4o
MMLU (5-shot)	73.0	86.0	88.6	86.5	88.7
GSM8K (CoT, 8-shot)	84.5	95.1	96.8	94.2	96.1
HumanEval (0-shot)	72.6	80.5	89.0	86.6	90.2
MATH (CoT, 4-shot)	51.9	68.0	73.8	64.5	76.6
ARC-Challenge	83.4	94.8	96.9	96.4	96.7
GPQA (0-shot, CoT)	32.8	46.7	50.7	41.4	53.6

Post-trained 모델 (Table 2 발췌)

Benchmark	LLaMA 3.1 8B-Inst	LLaMA 3.1 70B-Inst	LLaMA 3.1 405B-Inst	GPT-4o
MMLU (0-shot)	73.0	86.0	88.6	88.7
IFEval	80.4	87.5	88.6	84.3
HumanEval	72.6	80.5	89.0	90.2
MATH (0-shot, CoT)	51.9	68.0	73.8	76.6

축	LLaMA 3 (2024)	Qwen3 (2025)	DeepSeek-V3 (2024)	Gemma 3 (2025)
최대 모델	405B Dense	235B (22B active) MoE	671B (37B active) MoE	27B Dense
사전 학습 토큰	15T+	36T	14.8T	비공개
Vocab	128K (tiktoken+28K)	151,669 (BBPE)	129,280	262,144
Attention	GQA (8 KV)	GQA + QK-Norm	MLA	GQA
FFN	SwiGLU	SwiGLU	SwiGLU (MoE)	GeGLU
Position	RoPE (θ=500K)	RoPE (θ=1M)	RoPE + YaRN	RoPE
후훈련	SFT + DPO (6 rounds)	4-stage (RL+SFT+RL) + Distillation	SFT + RL	SFT + RLHF
스케일링 법칙	상세 공개 (IsoFLOPs + 벤치마크 예측)	“스케일링 법칙 개발” (상세 비공개)	Chinchilla 기반	비공개
인프라	16K H100, 4D Parallelism	비공개	2048 H800	비공개
라이선스	Llama License (제한적)	Apache 2.0	MIT	Apache 2.0

핵심 용어 정리

용어	정의
Dense Transformer	모든 파라미터가 매 토큰에 활성화되는 표준 Transformer (MoE 대비)
GQA	Grouped Query Attention — KV 헤드를 공유하여 메모리/속도 최적화
SwiGLU	Swish-Gated Linear Unit — FFN 활성 함수
RoPE (θ=500K)	Rotary Position Embedding, base frequency 500K으로 장문맥 지원
FSDP	Fully Sharded Data Parallel — 모델/옵티마이저 상태를 GPU 간 분산
4D Parallelism	TP + PP + CP + DP 네 가지 병렬화 기법의 동시 적용
DPO	Direct Preference Optimization — RLHF 대안, 보상 모델 없이 직접 선호도 최적화
Rejection Sampling	모델이 여러 응답 생성 → RM으로 최고 품질 선별 → SFT 데이터로 사용
IsoFLOPs Curve	동일 연산 예산에서 모델 크기별 손실을 그린 곡선, 최적 모델 크기 결정에 사용
Annealing	학습 후반 LR을 0으로 감소시키며 고품질 데이터로 미세 조정
Polyak Averaging	학습 중 체크포인트 가중치 평균으로 최종 모델 생성
NLL Regularization	DPO에서 chosen 응답의 log probability 하락을 방지하는 보조 손실

LLaMA Models

LLaMA Models

LLaMA 1 (2023.02)

아키텍처 상세

모델 스펙

아키텍처 핵심 구성요소

사전 학습 (Pre-training)

데이터

학습 하이퍼파라미터

Chinchilla 스케일링 법칙 적용

벤치마크 비교

주요 벤치마크 (0-shot / few-shot)

핵심 비교 포인트

동시대 비교 매트릭스

한계 및 후속 영향

LLaMA 2 (2023.07)

아키텍처 상세

모델 스펙

아키텍처 핵심 구성요소

LLaMA 1 대비 변경점

사전 학습 (Pre-training)

학습 데이터

학습 하이퍼파라미터

후훈련 파이프라인 (LLaMA 2-Chat)

SFT → RLHF 전체 파이프라인

SFT

Reward Model

RLHF (Iterative)

Ghost Attention (GAtt)

벤치마크 비교

사전학습 모델

Chat 모델 (인간 평가)

안전성 평가

동시대 비교 매트릭스

LLaMA 3 (2024.07)

아키텍처 상세 (Table 3)

모델 스펙

아키텍처 핵심 구성요소

사전 학습 (Pre-training)

데이터

3단계 학습 레시피 (405B)

하이퍼파라미터 상세 (405B)

스케일링 법칙 (Scaling Laws)

후훈련 (Post-training) — 6라운드 반복

Reward Model

SFT (Supervised Fine-Tuning)

DPO (Direct Preference Optimization)

Model Averaging

Preference Data 통계 (Table 6)

인프라 & 학습 효율

벤치마크 결과 — Baseline 선정 참고

Pre-trained 모델 (Table 2 발췌 — 주요 벤치마크)

Post-trained 모델 (Table 2 발췌)

관련 연구 비교 매트릭스

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크