Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
Digest: Phi-3는 Microsoft Research의 소형 언어 모델(SLM) 시리즈로, **Phi-3-mini(3.8B)**가 Mixtral 8x7B(46.7B)에 필적하고 GPT-3.5에 근접하는 성능을 달성했다. 핵심은 합성 데이터(synthetic data)와 극도로 엄선된 웹 데이터로, “데이터 품질이 모델 크기를 보상한다”는 Phi 시리즈의 철학을 극대화했다. 3.3T 토큰으로 학습되었으며, 모바일 기기에서 실행 가능한 크기이다. Phi-3-medium(14B)과 Phi-3-small(7B)도 함께 발표되었다.
아키텍처 상세
모델 스펙
모델
Params
Layers
d_model
Heads
KV Heads
FFN Dim
Context
Vocab
Phi-3-mini
3.8B
32
3072
32
32 (MHA)
8192
4K/128K
32,064
Phi-3-small
7B
32
4096
32
8 (GQA)
14336
8K/128K
100,352
Phi-3-medium
14B
40
5120
40
10 (GQA)
17920
4K/128K
32,064
아키텍처 핵심 구성요소
구성요소
설명
Transformer Decoder
표준 decoder-only
MHA / GQA
mini: MHA, small/medium: GQA
SwiGLU (mini/medium)
FFN 활성 함수
gegelu (small)
Grouped GELU — Phi-3-small 전용
RoPE
회전 위치 임베딩
RMSNorm
Pre-normalization
Long Context
LongRoPE로 128K 확장
Tokenizer
tiktoken (mini/medium 32K, small 100K)
사전 학습
데이터 철학: “Textbooks Are All You Need” 진화
항목
값
총 토큰
3.3T (mini), 4.8T (small/medium)
데이터 구성
엄선된 웹 데이터 + 대규모 합성 데이터
합성 데이터
GPT-4 등 대형 모델로 생성한 교과서 수준 텍스트
웹 데이터 필터링
Phi-2 기반 품질 분류기로 최고 품질 웹 페이지만 선별
핵심 전략
데이터 양 < 데이터 품질, “교과서 수준” 데이터 생성
학습 하이퍼파라미터 (Phi-3-mini)
항목
값
Optimizer
AdamW
Learning Rate
Peak 3×10⁻⁴
Warmup
Linear warmup
Batch Size
4096 sequences
Sequence Length
4096 → 128K (LongRoPE 확장)
Hardware
1024 H100 GPUs
학습 시간
~10일
벤치마크 비교
Phi-3-mini (3.8B) 성능
벤치마크
Phi-3-mini (3.8B)
Mixtral 8x7B (46.7B)
GPT-3.5
LLaMA 3-8B
Gemma 7B
MMLU (5-shot)
69.0
70.6
70.0
66.5
64.3
HellaSwag (5-shot)
76.7
84.4
85.5
79.1
81.2
GSM8K (8-shot, CoT)
84.7
58.4
57.1
79.6
46.4
MATH (0-shot, CoT)
—
28.4
—
30.0
24.3
HumanEval (0-shot)
58.5
40.2
48.1
62.2
32.3
MBPP (3-shot)
70.0
60.7
—
62.2
44.4
MT-Bench
8.38
8.30
8.32
—
—
ARC-Challenge
—
60.6
—
—
53.2
핵심 비교
Phi-3-mini(3.8B) ≈ Mixtral 8x7B(46.7B): 12× 작은 모델로 대등
수학/코드 특히 강력: GSM8K 84.7, HumanEval 58.5로 훨씬 큰 모델 능가