LLaMA Models

Digest: Meta의 LLaMA 시리즈는 오픈소스 LLM 생태계의 기반이 된 모델 패밀리이다. LLaMA 1(2023.02)은 공개 데이터만으로 GPT-3를 능가했고, LLaMA 2(2023.07)는 상업적 사용 허가+RLHF Chat 모델을 도입했으며, LLaMA 3(2024.07)은 405B Dense 모델로 15.6T 토큰 학습하여 GPT-4 수준 성능을 오픈 모델로 처음 달성했다.


LLaMA 1 (2023.02)

Digest: LLaMA는 Meta AI가 발표한 7B65B 규모의 오픈소스 언어 모델 시리즈로, 공개적으로 사용 가능한 데이터만으로 GPT-3(175B), Chinchilla(70B), PaLM(540B)에 필적하는 성능을 달성한 것이 핵심 기여이다. Chinchilla의 스케일링 법칙(“더 많은 데이터로 더 작은 모델을 훈련”)을 따라 LLaMA-13B는 GPT-3를 대부분의 벤치마크에서 능가하고, LLaMA-65B는 Chinchilla-70B 및 PaLM-540B와 경쟁한다. 아키텍처적으로 Pre-RMSNorm, SwiGLU FFN, RoPE를 채택한 변형 Transformer이며, 1.01.4T 토큰으로 학습되었다. 이 모델은 이후 오픈소스 LLM 생태계(Alpaca, Vicuna, Koala 등)의 기반이 되었다.


아키텍처 상세

모델 스펙

모델ParamsLayersHeadsd_modelFFN DimContext학습 토큰
LLaMA-7B6.7B323240961100820481.0T
LLaMA-13B13.0B404051201382420481.0T
LLaMA-33B32.5B605266561792020481.4T
LLaMA-65B65.2B806481922201620481.4T

아키텍처 핵심 구성요소

구성요소설명
Pre-RMSNormGPT-3의 Post-LayerNorm 대신, 각 sub-layer 입력에 RMSNorm 적용 (GPT-3와의 차이)
SwiGLU — ReLU 대비 성능 향상 (PaLM 방식 채택)
RoPE회전 위치 임베딩 — 절대 위치 임베딩 대체, 상대 위치 정보 인코딩
MHA (Multi-Head Attention)표준 multi-head attention (GQA는 LLaMA 2에서 도입)
Efficient Attentionxformers 라이브러리의 메모리 효율적 attention 구현
BPE TokenizerSentencePiece BPE, 어휘 크기 32,000
graph TD
    A["입력 토큰"] --> B["SentencePiece BPE<br/>vocab 32,000"]
    B --> C["Token Embedding"]
    C --> D["Transformer Block × N"]

    subgraph TB["Transformer Block"]
        D1["RMSNorm (Pre-Norm)"] --> D2["Multi-Head Attention + RoPE"]
        D2 --> D3["Residual Add"]
        D3 --> D4["RMSNorm (Pre-Norm)"]
        D4 --> D5["SwiGLU FFN<br/>(2/3 × 4d → d)"]
        D5 --> D6["Residual Add"]
    end

    D --> E["RMSNorm"] --> F["LM Head (Linear)"]

사전 학습 (Pre-training)

데이터

데이터셋비율토큰 수에포크설명
CommonCrawl (CCNet)67.0%~670B1.0CCNet 파이프라인으로 필터링, 언어 ID + n-gram LM 필터
C415.0%~150B1.0다양성을 위해 CCNet과 별도 포함
Github4.5%~45B0.64코드, 라이선스/헤더 기반 필터링
Wikipedia4.5%~45B2.4520개 언어 (2022년 6-8월)
Books (Gutenberg + Books3)4.5%~45B2.23공개 도서 데이터
ArXiv2.5%~25B1.06수학/과학 논문
StackExchange2.0%~20B1.03고품질 Q&A
합계100%~1.0T전체 1.4T (33B/65B 모델)

학습 하이퍼파라미터

항목
OptimizerAdamW (β₁=0.9, β₂=0.95)
Learning RatePeak 3×10⁻⁴ (cosine schedule)
Warmup2000 steps
Weight Decay0.1
Gradient Clipping1.0
Batch Size~4M tokens (7B/13B), 점진 증가
HardwareA100 80GB × 2048 (65B 모델)
학습 시간~21일 (65B, 1.4T 토큰)
Efficient 구현xformers attention, gradient checkpointing

Chinchilla 스케일링 법칙 적용

LLaMA의 핵심 통찰: Chinchilla 논문에서 제안한 “compute-optimal” 학습 비율보다 훨씬 더 많은 토큰으로 작은 모델을 학습하면, 추론 시 더 효율적인 모델을 얻을 수 있다.

  • Chinchilla-optimal for 7B: ~150B tokens → LLaMA-7B: 1T tokens (6.7× 초과)
  • 추론 예산이 고정된 환경에서 작은 모델 + 긴 학습이 유리

벤치마크 비교

주요 벤치마크 (0-shot / few-shot)

벤치마크LLaMA-7BLLaMA-13BLLaMA-33BLLaMA-65BGPT-3 (175B)Chinchilla (70B)PaLM (540B)
MMLU (5-shot)35.146.957.863.443.967.669.3
HellaSwag (0-shot)76.179.282.884.278.980.883.4
ARC-e72.877.181.268.8
BoolQ75.178.185.360.5
WinoGrande70.173.076.077.070.273.777.0
TriviaQA (5-shot)53.062.471.877.572.381.4
NaturalQuestions (5-shot)16.420.729.030.216.629.3
HumanEval (0-shot)10.515.821.723.726.2
MATH (4-shot)2.95.07.910.68.8
GSM8K (8-shot)11.017.835.650.943.356.5

핵심 비교 포인트

  • LLaMA-13B > GPT-3 (175B): 대부분의 벤치마크에서 ~13배 작은 모델이 우세
  • LLaMA-65B ≈ Chinchilla-70B: 유사 크기에서 대등 (MMLU 제외)
  • LLaMA-65B vs PaLM-540B: 1/8 크기로 대등한 성능

동시대 비교 매트릭스

특성LLaMA (2023.02)GPT-3 (2020.05)Chinchilla (2022.04)PaLM (2022.04)
최대 파라미터65B175B70B540B
학습 데이터공개 데이터 1.4T300B (필터링)1.4T780B
오픈소스✅ (가중치 공개)❌ (API만)
Position EncodingRoPELearned AbsoluteRoPE
NormalizationPre-RMSNormPost-LayerNormPre-LayerNormPre-LayerNorm
FFNSwiGLUGELUSwiGLU
TokenizerBPE 32KBPE 50KSentencePieceSentencePiece 256K
기여오픈소스 생태계퓨샷 패러다임스케일링 법칙모델 규모 확장

한계 및 후속 영향

  • Context Length: 2048 토큰으로 제한적 (이후 LLaMA 2에서 4096으로 확장)
  • GQA 미적용: 추론 효율성에서 개선 여지 (LLaMA 2에서 34B/70B에 GQA 도입)
  • MMLU 약세: 65B에서도 Chinchilla/PaLM 대비 낮은 MMLU — 코드/수학 데이터 비중 한계
  • 후속 영향: Alpaca, Vicuna, Koala, WizardLM, Code Llama 등 파생 모델 생태계 촉발

LLaMA 2 (2023.07)

Digest: LLaMA 2는 Meta가 발표한 7B~70B 규모의 오픈소스 LLM으로, LLaMA 1 대비 학습 데이터 40% 증가(2T 토큰), 컨텍스트 2배 확장(4096), 70B 모델에 GQA 도입이 주요 개선이다. 특히 LLaMA 2-Chat은 SFT + Iterative RLHF(Rejection Sampling + PPO)로 학습된 대화 특화 모델로, 안전성과 유용성 평가에서 ChatGPT에 근접한 성능을 보였다. Ghost Attention(GAtt) 기법으로 다중 턴 대화에서 시스템 프롬프트 일관성을 유지하고, 안전성을 위한 Safety RLHF를 별도로 수행했다. 상업적 사용이 허가된 최초의 경쟁력 있는 오픈 LLM이다.


아키텍처 상세

모델 스펙

모델ParamsLayersHeadsKV Headsd_modelFFN DimContext학습 토큰
LLaMA 2-7B6.7B323232 (MHA)40961100840962.0T
LLaMA 2-13B13.0B404040 (MHA)51201382440962.0T
LLaMA 2-34B32.5B48648 (GQA)81922201640962.0T
LLaMA 2-70B68.9B80648 (GQA)81922867240962.0T

아키텍처 핵심 구성요소

구성요소설명
GQA (Grouped Query Attention)34B/70B 모델에 적용 — KV 헤드 8개로 추론 속도 향상
MHA7B/13B는 표준 MHA 유지
Pre-RMSNormLLaMA 1과 동일
SwiGLULLaMA 1과 동일
RoPELLaMA 1과 동일
BPE TokenizerSentencePiece BPE, 32,000 vocab (LLaMA 1과 동일)

LLaMA 1 대비 변경점

항목LLaMA 1LLaMA 2
Context Length20484096
학습 토큰1.0~1.4T2.0T
GQA✅ (34B, 70B)
Chat 모델✅ (RLHF)
상업적 라이선스제한적
graph TD
    A["입력 토큰"] --> B["SentencePiece BPE<br/>vocab 32,000"]
    B --> C["Token Embedding"]
    C --> D["Transformer Block × N"]

    subgraph TB["Transformer Block"]
        D1["RMSNorm (Pre-Norm)"] --> D2{"7B/13B or 34B/70B?"}
        D2 -->|7B/13B| D3["MHA + RoPE"]
        D2 -->|34B/70B| D4["GQA (KV=8) + RoPE"]
        D3 --> D5["RMSNorm"]
        D4 --> D5
        D5 --> D6["SwiGLU FFN"]
    end

    D --> E["RMSNorm"] --> F["LM Head"]

사전 학습 (Pre-training)

학습 데이터

항목
총 토큰2.0T
데이터 소스공개 데이터만 (LLaMA 1과 유사하나 40% 확장)
언어영어 중심 (다국어 포함)
Up-sampling사실성 높은 소스(Wikipedia 등) up-sampling
PII 제거개인정보 식별 및 제거 적용

학습 하이퍼파라미터

항목
OptimizerAdamW (β₁=0.9, β₂=0.95, ε=10⁻⁵)
Learning RatePeak 3×10⁻⁴ (cosine schedule, 최종 LR의 10%)
Warmup2000 steps
Weight Decay0.1
Gradient Clipping1.0
Batch Size4M tokens (7B) → 점진 증가
HardwareA100 80GB, Meta RSC 클러스터
학습 시간~184,320 GPU-hours (70B)

후훈련 파이프라인 (LLaMA 2-Chat)

SFT → RLHF 전체 파이프라인

graph TD
    A["LLaMA 2<br/>(사전학습)"] --> B["SFT<br/>(~27,540 고품질 샘플)"]
    B --> C["Rejection Sampling"]
    C --> D["PPO"]
    D --> E["반복 (Iterative RLHF)"]
    E --> C

    F["인간 선호 데이터<br/>(~1.4M 비교)"] --> G["Reward Model<br/>(Safety + Helpfulness)"]
    G --> C
    G --> D

    style E fill:#f9f,stroke:#333

SFT

항목
데이터~27,540개 고품질 어노테이션 (양 < 질 전략)
핵심 발견수만 개의 고품질 SFT 데이터로 충분 (수백만 불필요)
Epochs2
Cosine LR2×10⁻⁵
Weight Decay0.1

Reward Model

항목
기반LLaMA 2-Chat 체크포인트 (pre-trained → RM head 추가)
데이터~1.4M 인간 비교 (helpfulness + safety 분리)
두 개의 RMHelpfulness RM + Safety RM (별도 학습)
Margin Loss비교 쌍의 확신도(margin)를 loss에 반영

RLHF (Iterative)

항목
방법Rejection Sampling + PPO 교대 적용
Rejection SamplingK개 응답 생성 → RM으로 최고 선택 → SFT 추가 학습
PPORejection Sampling 후 PPO로 추가 최적화
반복5 라운드 iterative RLHF

Ghost Attention (GAtt)

항목설명
목적다중 턴 대화에서 시스템 프롬프트 일관성 유지
방법시스템 메시지를 모든 턴에 반복 삽입하여 학습 → 추론 시에는 첫 턴만
효과20+ 턴 후에도 시스템 지시 준수율 유지

벤치마크 비교

사전학습 모델

벤치마크LLaMA 2-7BLLaMA 2-13BLLaMA 2-70BLLaMA 1-65BFalcon-40BMPT-30B
MMLU (5-shot)45.354.868.963.455.446.9
TriviaQA (1-shot)68.977.285.082.3
NaturalQuestions25.732.839.033.9
GSM8K (8-shot)14.628.756.850.919.6
HumanEval (0-shot)12.818.329.923.7
MATH (few-shot)2.55.013.510.6

Chat 모델 (인간 평가)

비교LLaMA 2-Chat 70B Win Rate
vs ChatGPT (GPT-3.5)36% win / 31.5% tie (대등~우세)
vs Vicuna-33B승리
vs Falcon-40B-Instruct승리

LLaMA 2-Chat-70B는 ChatGPT와 대등하며, 다른 오픈소스 Chat 모델을 압도


안전성 평가

지표LLaMA 2-Chat-70BChatGPTFalcon-InstructVicuna
Safety 위반율 (adversarial)4%4%25%18%
Helpfulness + Safety 균형양호양호낮음중간

동시대 비교 매트릭스

특성LLaMA 2 (2023.07)LLaMA 1 (2023.02)Falcon (2023.06)MPT (2023.05)ChatGPT (2022.11)
최대 파라미터70B65B40B30B미공개
학습 토큰2.0T1.0~1.4T1.5T (RefinedWeb)1.0T미공개
Context40962048204881924096/16K
GQA✅ (34B/70B)미공개
Chat 모델✅ (RLHF)✅ (기본 SFT)✅ (기본 SFT)✅ (RLHF)
상업적 사용제한적✅ (Apache 2.0)API만
핵심 기여오픈 RLHF Chat오픈소스 기반웹 데이터 품질긴 ContextRLHF 대화

LLaMA 3 (2024.07)

Digest: Meta의 LLaMA 3는 8B, 70B, 405B 세 가지 크기의 Dense Transformer 모델로, 기존 LLaMA 2 대비 아키텍처 변경은 최소화하면서 데이터 품질·다양성 확대와 학습 규모 증가로 성능 향상을 달성했다. 플래그십 405B 모델은 126층, 16,384 차원, 128 attention heads로 구성되며 15.6T 토큰으로 학습되었다 — 이는 3.8×10²⁵ FLOPs 예산에서 스케일링 법칙으로 최적화된 설계이다(Figure 2-4). 핵심 아키텍처 선택으로 GQA(8 KV heads), SwiGLU, RoPE(θ=500,000), 128K vocab 토크나이저를 채택하고, 문서 간 attention mask를 추가했다. 학습은 3단계(초기 사전학습 → 장문맥 → 어닐링)로 진행되며, 405B는 AdamW optimizer로 peak LR 8×10⁻⁵, warmup 8,000 steps, cosine schedule을 사용한다(Table 3). 후훈련은 Reward Model → SFT(rejection sampling) → DPO(β=0.1) 파이프라인을 6라운드 반복하며, DPO에서 formatting token masking과 NLL regularization(0.2)을 적용한다. GPT-4 수준 성능을 오픈 모델로 처음 달성했으나, MoE 미채택으로 추론 비용이 높고, 멀티모달 확장은 연구 단계에 머무른다. baseline 선정 시 Dense 아키텍처의 안정적 학습 레시피와 명확한 스케일링 법칙이 핵심 참고 자료이다.


아키텍처 상세 (Table 3)

모델 스펙

항목8B70B405B
Layers3280126
Model Dimension4,0968,19216,384
FFN Dimension14,33628,67253,248
Attention Heads3264128
KV Heads (GQA)888
Peak Learning Rate3×10⁻⁴1.5×10⁻⁴8×10⁻⁵
Activation FunctionSwiGLUSwiGLUSwiGLU
Vocabulary Size128,000128,000128,000
Positional EmbeddingsRoPE (θ=500,000)RoPE (θ=500,000)RoPE (θ=500,000)

아키텍처 핵심 구성요소

구성요소설명
Dense TransformerStandard architecture — MoE 미사용, 안정적 학습 우선
GQA (8 KV heads)모든 크기에서 KV=8 고정, 추론 속도 향상 + KV 캐시 절감
SwiGLUFFN 활성 함수
RoPE (θ=500K)Xiong et al.(2023) 기반, 32K+ context 지원
Document Attention Mask동일 시퀀스 내 다른 문서 간 self-attention 차단 — 장문맥 continued pretraining에서 중요
128K Vocabtiktoken 100K + 28K 비영어 토큰 추가, 영어 압축률 3.17→3.94 chars/token
graph TD
    A["입력 토큰"] --> B["128K Vocab Tokenizer<br/>(tiktoken + 28K multilingual)"]
    B --> C["Token Embedding"]
    C --> D["Transformer Block × N<br/>(32/80/126 layers)"]

    subgraph TB["Transformer Block"]
        D1["Pre-RMSNorm"] --> D2["GQA (8 KV heads)<br/>+ RoPE θ=500K<br/>+ Document Mask"]
        D2 --> D3["Pre-RMSNorm"]
        D3 --> D4["SwiGLU FFN"]
    end

    D --> E["RMSNorm"] --> F["LM Head"]

사전 학습 (Pre-training)

데이터

항목스펙
총 토큰 수~15.6T (15.6조)
데이터 소스웹 크롤링 (필터링 파이프라인), 코드, 수학, 다국어
데이터 품질 관리URL/문서/행 수준 중복 제거 + heuristic 필터 + 모델 기반 분류기 + 코드/수학 추출
데이터 믹스 최적화스케일링 법칙 기반 + annealing 실험 (8B 50% 모델에서 40B 토큰 annealing)
데이터 품질 분류기Llama 2로 학습, 웹 페이지 품질 점수화 (Wikipedia 참조 = 양성)
Annealing 기법최종 40M 토큰에서 LR→0 linear annealing + 고품질 데이터 업샘플링 + Polyak averaging

3단계 학습 레시피 (405B)

단계토큰 수Seq LengthBatch Size설명
Initial Pre-training~15T4,096→8,1924M→8M→16MAdamW, warmup 8K steps, cosine LR
Long Context~800B점진적 확장 → 128K6단계로 8K→128K 점진 확장
Annealing40M128KLR→0 linear, 고품질 데이터 업샘플, Polyak avg

하이퍼파라미터 상세 (405B)

항목
OptimizerAdamW
Peak Learning Rate8 × 10⁻⁵
LR ScheduleCosine decay → 8 × 10⁻⁷ over 1,200,000 steps
Warmup8,000 steps (linear)
Weight Decay0.1 × LR (at each step)
Initial Batch Size4M tokens, seq len 4,096
Batch Size 증가252M tokens 후 8M (seq 8,192) → 2.87T 후 16M
Compute Budget3.8 × 10²⁵ FLOPs
Long Context6단계 점진 확장 (8K → 128K), ~800B 토큰

스케일링 법칙 (Scaling Laws)

항목설명
방법론IsoFLOPs curves (6×10¹⁸ ~ 10²² FLOPs), 40M~16B 파라미터 모델
최적 토큰 수 공식N*(C) = AC^α, (α, A) = (0.53, 0.29)
3.8×10²⁵ FLOPs → 최적402B params, 16.55T tokens → 최종 결정: 405B
핵심 관찰연산 예산 증가 시 IsoFLOPs 곡선이 평탄해짐 → 모델 크기 미세 조정에 robust
벤치마크 예측(1) NLL vs FLOPs 선형 상관 (2) NLL vs accuracy 시그모이드 상관 → 4 OOM 외삽 정확

후훈련 (Post-training) — 6라운드 반복

graph LR
    A["Pre-trained Model"] --> B["Reward Model<br/>(preference data)"]
    B --> C["SFT<br/>(rejection sampling<br/>+ synthetic data)"]
    C --> D["DPO<br/>(β=0.1, latest batches)"]
    D --> E["Model Averaging"]
    E -->|"6 rounds"| B

Reward Model

항목설명
학습 데이터모든 누적 preference 데이터 (유사 응답 필터링 후)
응답 수2~3개/프롬프트 (edited > chosen > rejected)
손실 함수Llama 2와 동일하되 margin term 제거 (데이터 스케일 후 효과 감소)
학습 효율프롬프트 + 복수 응답을 단일 행으로 연결 (랜덤 셔플)

SFT (Supervised Fine-Tuning)

항목
데이터Rejection sampling 응답 + 합성 데이터 (코드, 수학, 다국어, 도구 사용 등)
손실Standard cross-entropy (target tokens만, prompt tokens 마스킹)
Learning Rate10⁻⁵
Steps8,500 ~ 9,000

DPO (Direct Preference Optimization)

항목
Learning Rate10⁻⁵
β0.1
데이터최신 배치 preference 데이터 (significantly/better 레이블만)
Formatting Token Masking특수 헤더/종료 토큰을 loss에서 제외 → tail repetition 방지
NLL Regularizationchosen 시퀀스에 NLL loss 추가 (계수 0.2) → log probability 하락 방지
PPO 대비DPO가 대규모 모델에서 더 적은 연산, IFEval 등에서 더 나은 성능

Model Averaging

  • 각 RM/SFT/DPO 단계에서 다양한 데이터 버전/하이퍼파라미터로 학습한 모델들의 가중치 평균

Preference Data 통계 (Table 6)

카테고리비율Avg TurnsAvg Tokens/Example
General English82.0%4.11,000
Coding6.9%3.21,621
Multilingual5.2%1.81,299
Reasoning & Tools5.9%1.6708

인프라 & 학습 효율

항목스펙
GPU16,384 × H100 80GB
네트워크서버 내 NVLink, 서버 간 RoCE (400Gbps)
병렬화4D Parallelism (TP=8 × PP × CP × DP)
TPTensor Parallelism = 8 (서버 내 NVLink)
PPPipeline Parallelism (인터리브드 스케줄) — 버블 최소화
CPContext Parallelism — 장문맥 시 시퀀스 분할
DPFSDP (Fully Sharded Data Parallel) — optimizer state + gradient 샤딩
수치 정밀도BF16 (forward/backward), FP32 (옵티마이저 상태)
GPU 활용률~400 TFLOPS/GPU (BF16 peak의 38-43%)
학습 안정성전체 학습 동안 loss spike 거의 없음, divergence 개입 불필요

벤치마크 결과 — Baseline 선정 참고

Pre-trained 모델 (Table 2 발췌 — 주요 벤치마크)

BenchmarkLLaMA 3.1 8BLLaMA 3.1 70BLLaMA 3.1 405BGPT-4 (0125)GPT-4o
MMLU (5-shot)73.086.088.686.588.7
GSM8K (CoT, 8-shot)84.595.196.894.296.1
HumanEval (0-shot)72.680.589.086.690.2
MATH (CoT, 4-shot)51.968.073.864.576.6
ARC-Challenge83.494.896.996.496.7
GPQA (0-shot, CoT)32.846.750.741.453.6

Post-trained 모델 (Table 2 발췌)

BenchmarkLLaMA 3.1 8B-InstLLaMA 3.1 70B-InstLLaMA 3.1 405B-InstGPT-4o
MMLU (0-shot)73.086.088.688.7
IFEval80.487.588.684.3
HumanEval72.680.589.090.2
MATH (0-shot, CoT)51.968.073.876.6

관련 연구 비교 매트릭스

LLaMA 3 (2024)Qwen3 (2025)DeepSeek-V3 (2024)Gemma 3 (2025)
최대 모델405B Dense235B (22B active) MoE671B (37B active) MoE27B Dense
사전 학습 토큰15T+36T14.8T비공개
Vocab128K (tiktoken+28K)151,669 (BBPE)129,280262,144
AttentionGQA (8 KV)GQA + QK-NormMLAGQA
FFNSwiGLUSwiGLUSwiGLU (MoE)GeGLU
PositionRoPE (θ=500K)RoPE (θ=1M)RoPE + YaRNRoPE
후훈련SFT + DPO (6 rounds)4-stage (RL+SFT+RL) + DistillationSFT + RLSFT + RLHF
스케일링 법칙상세 공개 (IsoFLOPs + 벤치마크 예측)“스케일링 법칙 개발” (상세 비공개)Chinchilla 기반비공개
인프라16K H100, 4D Parallelism비공개2048 H800비공개
라이선스Llama License (제한적)Apache 2.0MITApache 2.0

핵심 용어 정리

용어정의
Dense Transformer모든 파라미터가 매 토큰에 활성화되는 표준 Transformer (MoE 대비)
GQAGrouped Query Attention — KV 헤드를 공유하여 메모리/속도 최적화
SwiGLUSwish-Gated Linear Unit — FFN 활성 함수
RoPE (θ=500K)Rotary Position Embedding, base frequency 500K으로 장문맥 지원
FSDPFully Sharded Data Parallel — 모델/옵티마이저 상태를 GPU 간 분산
4D ParallelismTP + PP + CP + DP 네 가지 병렬화 기법의 동시 적용
DPODirect Preference Optimization — RLHF 대안, 보상 모델 없이 직접 선호도 최적화
Rejection Sampling모델이 여러 응답 생성 → RM으로 최고 품질 선별 → SFT 데이터로 사용
IsoFLOPs Curve동일 연산 예산에서 모델 크기별 손실을 그린 곡선, 최적 모델 크기 결정에 사용
Annealing학습 후반 LR을 0으로 감소시키며 고품질 데이터로 미세 조정
Polyak Averaging학습 중 체크포인트 가중치 평균으로 최종 모델 생성
NLL RegularizationDPO에서 chosen 응답의 log probability 하락을 방지하는 보조 손실

태그

paper #2024 llama3 architecture training baseline-selection hyperparameters scaling-laws Dense Meta