Digest: Meta의 LLaMA 시리즈는 오픈소스 LLM 생태계의 기반이 된 모델 패밀리이다. LLaMA 1(2023.02)은 공개 데이터만으로 GPT-3를 능가했고, LLaMA 2(2023.07)는 상업적 사용 허가+RLHF Chat 모델을 도입했으며, LLaMA 3(2024.07)은 405B Dense 모델로 15.6T 토큰 학습하여 GPT-4 수준 성능을 오픈 모델로 처음 달성했다.
LLaMA 1 (2023.02)
Digest: LLaMA는 Meta AI가 발표한 7B65B 규모의 오픈소스 언어 모델 시리즈로, 공개적으로 사용 가능한 데이터만으로 GPT-3(175B), Chinchilla(70B), PaLM(540B)에 필적하는 성능을 달성한 것이 핵심 기여이다. Chinchilla의 스케일링 법칙(“더 많은 데이터로 더 작은 모델을 훈련”)을 따라 LLaMA-13B는 GPT-3를 대부분의 벤치마크에서 능가하고, LLaMA-65B는 Chinchilla-70B 및 PaLM-540B와 경쟁한다. 아키텍처적으로 Pre-RMSNorm, SwiGLU FFN, RoPE를 채택한 변형 Transformer이며, 1.01.4T 토큰으로 학습되었다. 이 모델은 이후 오픈소스 LLM 생태계(Alpaca, Vicuna, Koala 등)의 기반이 되었다.
아키텍처 상세
모델 스펙
모델
Params
Layers
Heads
d_model
FFN Dim
Context
학습 토큰
LLaMA-7B
6.7B
32
32
4096
11008
2048
1.0T
LLaMA-13B
13.0B
40
40
5120
13824
2048
1.0T
LLaMA-33B
32.5B
60
52
6656
17920
2048
1.4T
LLaMA-65B
65.2B
80
64
8192
22016
2048
1.4T
아키텍처 핵심 구성요소
구성요소
설명
Pre-RMSNorm
GPT-3의 Post-LayerNorm 대신, 각 sub-layer 입력에 RMSNorm 적용 (GPT-3와의 차이)
SwiGLU
SwiGLU(x)=Swish(xW1)⊗xW3 — ReLU 대비 성능 향상 (PaLM 방식 채택)
MMLU 약세: 65B에서도 Chinchilla/PaLM 대비 낮은 MMLU — 코드/수학 데이터 비중 한계
후속 영향: Alpaca, Vicuna, Koala, WizardLM, Code Llama 등 파생 모델 생태계 촉발
LLaMA 2 (2023.07)
Digest: LLaMA 2는 Meta가 발표한 7B~70B 규모의 오픈소스 LLM으로, LLaMA 1 대비 학습 데이터 40% 증가(2T 토큰), 컨텍스트 2배 확장(4096), 70B 모델에 GQA 도입이 주요 개선이다. 특히 LLaMA 2-Chat은 SFT + Iterative RLHF(Rejection Sampling + PPO)로 학습된 대화 특화 모델로, 안전성과 유용성 평가에서 ChatGPT에 근접한 성능을 보였다. Ghost Attention(GAtt) 기법으로 다중 턴 대화에서 시스템 프롬프트 일관성을 유지하고, 안전성을 위한 Safety RLHF를 별도로 수행했다. 상업적 사용이 허가된 최초의 경쟁력 있는 오픈 LLM이다.
graph TD
A["LLaMA 2<br/>(사전학습)"] --> B["SFT<br/>(~27,540 고품질 샘플)"]
B --> C["Rejection Sampling"]
C --> D["PPO"]
D --> E["반복 (Iterative RLHF)"]
E --> C
F["인간 선호 데이터<br/>(~1.4M 비교)"] --> G["Reward Model<br/>(Safety + Helpfulness)"]
G --> C
G --> D
style E fill:#f9f,stroke:#333
SFT
항목
값
데이터
~27,540개 고품질 어노테이션 (양 < 질 전략)
핵심 발견
수만 개의 고품질 SFT 데이터로 충분 (수백만 불필요)
Epochs
2
Cosine LR
2×10⁻⁵
Weight Decay
0.1
Reward Model
항목
값
기반
LLaMA 2-Chat 체크포인트 (pre-trained → RM head 추가)
데이터
~1.4M 인간 비교 (helpfulness + safety 분리)
두 개의 RM
Helpfulness RM + Safety RM (별도 학습)
Margin Loss
비교 쌍의 확신도(margin)를 loss에 반영
RLHF (Iterative)
항목
값
방법
Rejection Sampling + PPO 교대 적용
Rejection Sampling
K개 응답 생성 → RM으로 최고 선택 → SFT 추가 학습
PPO
Rejection Sampling 후 PPO로 추가 최적화
반복
5 라운드 iterative RLHF
Ghost Attention (GAtt)
항목
설명
목적
다중 턴 대화에서 시스템 프롬프트 일관성 유지
방법
시스템 메시지를 모든 턴에 반복 삽입하여 학습 → 추론 시에는 첫 턴만
효과
20+ 턴 후에도 시스템 지시 준수율 유지
벤치마크 비교
사전학습 모델
벤치마크
LLaMA 2-7B
LLaMA 2-13B
LLaMA 2-70B
LLaMA 1-65B
Falcon-40B
MPT-30B
MMLU (5-shot)
45.3
54.8
68.9
63.4
55.4
46.9
TriviaQA (1-shot)
68.9
77.2
85.0
82.3
—
—
NaturalQuestions
25.7
32.8
39.0
33.9
—
—
GSM8K (8-shot)
14.6
28.7
56.8
50.9
19.6
—
HumanEval (0-shot)
12.8
18.3
29.9
23.7
—
—
MATH (few-shot)
2.5
5.0
13.5
10.6
—
—
Chat 모델 (인간 평가)
비교
LLaMA 2-Chat 70B Win Rate
vs ChatGPT (GPT-3.5)
36% win / 31.5% tie (대등~우세)
vs Vicuna-33B
승리
vs Falcon-40B-Instruct
승리
LLaMA 2-Chat-70B는 ChatGPT와 대등하며, 다른 오픈소스 Chat 모델을 압도
안전성 평가
지표
LLaMA 2-Chat-70B
ChatGPT
Falcon-Instruct
Vicuna
Safety 위반율 (adversarial)
4%
4%
25%
18%
Helpfulness + Safety 균형
양호
양호
낮음
중간
동시대 비교 매트릭스
특성
LLaMA 2 (2023.07)
LLaMA 1 (2023.02)
Falcon (2023.06)
MPT (2023.05)
ChatGPT (2022.11)
최대 파라미터
70B
65B
40B
30B
미공개
학습 토큰
2.0T
1.0~1.4T
1.5T (RefinedWeb)
1.0T
미공개
Context
4096
2048
2048
8192
4096/16K
GQA
✅ (34B/70B)
❌
✅
❌
미공개
Chat 모델
✅ (RLHF)
❌
✅ (기본 SFT)
✅ (기본 SFT)
✅ (RLHF)
상업적 사용
✅
제한적
✅ (Apache 2.0)
✅
API만
핵심 기여
오픈 RLHF Chat
오픈소스 기반
웹 데이터 품질
긴 Context
RLHF 대화
LLaMA 3 (2024.07)
Digest: Meta의 LLaMA 3는 8B, 70B, 405B 세 가지 크기의 Dense Transformer 모델로, 기존 LLaMA 2 대비 아키텍처 변경은 최소화하면서 데이터 품질·다양성 확대와 학습 규모 증가로 성능 향상을 달성했다. 플래그십 405B 모델은 126층, 16,384 차원, 128 attention heads로 구성되며 15.6T 토큰으로 학습되었다 — 이는 3.8×10²⁵ FLOPs 예산에서 스케일링 법칙으로 최적화된 설계이다(Figure 2-4). 핵심 아키텍처 선택으로 GQA(8 KV heads), SwiGLU, RoPE(θ=500,000), 128K vocab 토크나이저를 채택하고, 문서 간 attention mask를 추가했다. 학습은 3단계(초기 사전학습 → 장문맥 → 어닐링)로 진행되며, 405B는 AdamW optimizer로 peak LR 8×10⁻⁵, warmup 8,000 steps, cosine schedule을 사용한다(Table 3). 후훈련은 Reward Model → SFT(rejection sampling) → DPO(β=0.1) 파이프라인을 6라운드 반복하며, DPO에서 formatting token masking과 NLL regularization(0.2)을 적용한다. GPT-4 수준 성능을 오픈 모델로 처음 달성했으나, MoE 미채택으로 추론 비용이 높고, 멀티모달 확장은 연구 단계에 머무른다. baseline 선정 시 Dense 아키텍처의 안정적 학습 레시피와 명확한 스케일링 법칙이 핵심 참고 자료이다.
아키텍처 상세 (Table 3)
모델 스펙
항목
8B
70B
405B
Layers
32
80
126
Model Dimension
4,096
8,192
16,384
FFN Dimension
14,336
28,672
53,248
Attention Heads
32
64
128
KV Heads (GQA)
8
8
8
Peak Learning Rate
3×10⁻⁴
1.5×10⁻⁴
8×10⁻⁵
Activation Function
SwiGLU
SwiGLU
SwiGLU
Vocabulary Size
128,000
128,000
128,000
Positional Embeddings
RoPE (θ=500,000)
RoPE (θ=500,000)
RoPE (θ=500,000)
아키텍처 핵심 구성요소
구성요소
설명
Dense Transformer
Standard architecture — MoE 미사용, 안정적 학습 우선
GQA (8 KV heads)
모든 크기에서 KV=8 고정, 추론 속도 향상 + KV 캐시 절감
SwiGLU
FFN 활성 함수
RoPE (θ=500K)
Xiong et al.(2023) 기반, 32K+ context 지원
Document Attention Mask
동일 시퀀스 내 다른 문서 간 self-attention 차단 — 장문맥 continued pretraining에서 중요
URL/문서/행 수준 중복 제거 + heuristic 필터 + 모델 기반 분류기 + 코드/수학 추출
데이터 믹스 최적화
스케일링 법칙 기반 + annealing 실험 (8B 50% 모델에서 40B 토큰 annealing)
데이터 품질 분류기
Llama 2로 학습, 웹 페이지 품질 점수화 (Wikipedia 참조 = 양성)
Annealing 기법
최종 40M 토큰에서 LR→0 linear annealing + 고품질 데이터 업샘플링 + Polyak averaging
3단계 학습 레시피 (405B)
단계
토큰 수
Seq Length
Batch Size
설명
Initial Pre-training
~15T
4,096→8,192
4M→8M→16M
AdamW, warmup 8K steps, cosine LR
Long Context
~800B
점진적 확장 → 128K
—
6단계로 8K→128K 점진 확장
Annealing
40M
128K
—
LR→0 linear, 고품질 데이터 업샘플, Polyak avg
하이퍼파라미터 상세 (405B)
항목
값
Optimizer
AdamW
Peak Learning Rate
8 × 10⁻⁵
LR Schedule
Cosine decay → 8 × 10⁻⁷ over 1,200,000 steps
Warmup
8,000 steps (linear)
Weight Decay
0.1 × LR (at each step)
Initial Batch Size
4M tokens, seq len 4,096
Batch Size 증가
252M tokens 후 8M (seq 8,192) → 2.87T 후 16M
Compute Budget
3.8 × 10²⁵ FLOPs
Long Context
6단계 점진 확장 (8K → 128K), ~800B 토큰
스케일링 법칙 (Scaling Laws)
항목
설명
방법론
IsoFLOPs curves (6×10¹⁸ ~ 10²² FLOPs), 40M~16B 파라미터 모델
최적 토큰 수 공식
N*(C) = AC^α, (α, A) = (0.53, 0.29)
3.8×10²⁵ FLOPs → 최적
402B params, 16.55T tokens → 최종 결정: 405B
핵심 관찰
연산 예산 증가 시 IsoFLOPs 곡선이 평탄해짐 → 모델 크기 미세 조정에 robust
벤치마크 예측
(1) NLL vs FLOPs 선형 상관 (2) NLL vs accuracy 시그모이드 상관 → 4 OOM 외삽 정확
후훈련 (Post-training) — 6라운드 반복
graph LR
A["Pre-trained Model"] --> B["Reward Model<br/>(preference data)"]
B --> C["SFT<br/>(rejection sampling<br/>+ synthetic data)"]
C --> D["DPO<br/>(β=0.1, latest batches)"]
D --> E["Model Averaging"]
E -->|"6 rounds"| B
Reward Model
항목
설명
학습 데이터
모든 누적 preference 데이터 (유사 응답 필터링 후)
응답 수
2~3개/프롬프트 (edited > chosen > rejected)
손실 함수
Llama 2와 동일하되 margin term 제거 (데이터 스케일 후 효과 감소)
학습 효율
프롬프트 + 복수 응답을 단일 행으로 연결 (랜덤 셔플)
SFT (Supervised Fine-Tuning)
항목
값
데이터
Rejection sampling 응답 + 합성 데이터 (코드, 수학, 다국어, 도구 사용 등)
손실
Standard cross-entropy (target tokens만, prompt tokens 마스킹)
Learning Rate
10⁻⁵
Steps
8,500 ~ 9,000
DPO (Direct Preference Optimization)
항목
값
Learning Rate
10⁻⁵
β
0.1
데이터
최신 배치 preference 데이터 (significantly/better 레이블만)
Formatting Token Masking
특수 헤더/종료 토큰을 loss에서 제외 → tail repetition 방지
NLL Regularization
chosen 시퀀스에 NLL loss 추가 (계수 0.2) → log probability 하락 방지
PPO 대비
DPO가 대규모 모델에서 더 적은 연산, IFEval 등에서 더 나은 성능
Model Averaging
각 RM/SFT/DPO 단계에서 다양한 데이터 버전/하이퍼파라미터로 학습한 모델들의 가중치 평균
Preference Data 통계 (Table 6)
카테고리
비율
Avg Turns
Avg Tokens/Example
General English
82.0%
4.1
1,000
Coding
6.9%
3.2
1,621
Multilingual
5.2%
1.8
1,299
Reasoning & Tools
5.9%
1.6
708
인프라 & 학습 효율
항목
스펙
GPU
16,384 × H100 80GB
네트워크
서버 내 NVLink, 서버 간 RoCE (400Gbps)
병렬화
4D Parallelism (TP=8 × PP × CP × DP)
TP
Tensor Parallelism = 8 (서버 내 NVLink)
PP
Pipeline Parallelism (인터리브드 스케줄) — 버블 최소화
CP
Context Parallelism — 장문맥 시 시퀀스 분할
DP
FSDP (Fully Sharded Data Parallel) — optimizer state + gradient 샤딩
수치 정밀도
BF16 (forward/backward), FP32 (옵티마이저 상태)
GPU 활용률
~400 TFLOPS/GPU (BF16 peak의 38-43%)
학습 안정성
전체 학습 동안 loss spike 거의 없음, divergence 개입 불필요
벤치마크 결과 — Baseline 선정 참고
Pre-trained 모델 (Table 2 발췌 — 주요 벤치마크)
Benchmark
LLaMA 3.1 8B
LLaMA 3.1 70B
LLaMA 3.1 405B
GPT-4 (0125)
GPT-4o
MMLU (5-shot)
73.0
86.0
88.6
86.5
88.7
GSM8K (CoT, 8-shot)
84.5
95.1
96.8
94.2
96.1
HumanEval (0-shot)
72.6
80.5
89.0
86.6
90.2
MATH (CoT, 4-shot)
51.9
68.0
73.8
64.5
76.6
ARC-Challenge
83.4
94.8
96.9
96.4
96.7
GPQA (0-shot, CoT)
32.8
46.7
50.7
41.4
53.6
Post-trained 모델 (Table 2 발췌)
Benchmark
LLaMA 3.1 8B-Inst
LLaMA 3.1 70B-Inst
LLaMA 3.1 405B-Inst
GPT-4o
MMLU (0-shot)
73.0
86.0
88.6
88.7
IFEval
80.4
87.5
88.6
84.3
HumanEval
72.6
80.5
89.0
90.2
MATH (0-shot, CoT)
51.9
68.0
73.8
76.6
관련 연구 비교 매트릭스
축
LLaMA 3 (2024)
Qwen3 (2025)
DeepSeek-V3 (2024)
Gemma 3 (2025)
최대 모델
405B Dense
235B (22B active) MoE
671B (37B active) MoE
27B Dense
사전 학습 토큰
15T+
36T
14.8T
비공개
Vocab
128K (tiktoken+28K)
151,669 (BBPE)
129,280
262,144
Attention
GQA (8 KV)
GQA + QK-Norm
MLA
GQA
FFN
SwiGLU
SwiGLU
SwiGLU (MoE)
GeGLU
Position
RoPE (θ=500K)
RoPE (θ=1M)
RoPE + YaRN
RoPE
후훈련
SFT + DPO (6 rounds)
4-stage (RL+SFT+RL) + Distillation
SFT + RL
SFT + RLHF
스케일링 법칙
상세 공개 (IsoFLOPs + 벤치마크 예측)
“스케일링 법칙 개발” (상세 비공개)
Chinchilla 기반
비공개
인프라
16K H100, 4D Parallelism
비공개
2048 H800
비공개
라이선스
Llama License (제한적)
Apache 2.0
MIT
Apache 2.0
핵심 용어 정리
용어
정의
Dense Transformer
모든 파라미터가 매 토큰에 활성화되는 표준 Transformer (MoE 대비)
GQA
Grouped Query Attention — KV 헤드를 공유하여 메모리/속도 최적화
SwiGLU
Swish-Gated Linear Unit — FFN 활성 함수
RoPE (θ=500K)
Rotary Position Embedding, base frequency 500K으로 장문맥 지원
FSDP
Fully Sharded Data Parallel — 모델/옵티마이저 상태를 GPU 간 분산
4D Parallelism
TP + PP + CP + DP 네 가지 병렬화 기법의 동시 적용
DPO
Direct Preference Optimization — RLHF 대안, 보상 모델 없이 직접 선호도 최적화