Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Digest: Phi-3는 Microsoft Research의 소형 언어 모델(SLM) 시리즈로, **Phi-3-mini(3.8B)**가 Mixtral 8x7B(46.7B)에 필적하고 GPT-3.5에 근접하는 성능을 달성했다. 핵심은 합성 데이터(synthetic data)와 극도로 엄선된 웹 데이터로, “데이터 품질이 모델 크기를 보상한다”는 Phi 시리즈의 철학을 극대화했다. 3.3T 토큰으로 학습되었으며, 모바일 기기에서 실행 가능한 크기이다. Phi-3-medium(14B)과 Phi-3-small(7B)도 함께 발표되었다.


아키텍처 상세

모델 스펙

모델ParamsLayersd_modelHeadsKV HeadsFFN DimContextVocab
Phi-3-mini3.8B3230723232 (MHA)81924K/128K32,064
Phi-3-small7B324096328 (GQA)143368K/128K100,352
Phi-3-medium14B4051204010 (GQA)179204K/128K32,064

아키텍처 핵심 구성요소

구성요소설명
Transformer Decoder표준 decoder-only
MHA / GQAmini: MHA, small/medium: GQA
SwiGLU (mini/medium)FFN 활성 함수
gegelu (small)Grouped GELU — Phi-3-small 전용
RoPE회전 위치 임베딩
RMSNormPre-normalization
Long ContextLongRoPE로 128K 확장
Tokenizertiktoken (mini/medium 32K, small 100K)

사전 학습

데이터 철학: “Textbooks Are All You Need” 진화

항목
총 토큰3.3T (mini), 4.8T (small/medium)
데이터 구성엄선된 웹 데이터 + 대규모 합성 데이터
합성 데이터GPT-4 등 대형 모델로 생성한 교과서 수준 텍스트
웹 데이터 필터링Phi-2 기반 품질 분류기로 최고 품질 웹 페이지만 선별
핵심 전략데이터 양 < 데이터 품질, “교과서 수준” 데이터 생성

학습 하이퍼파라미터 (Phi-3-mini)

항목
OptimizerAdamW
Learning RatePeak 3×10⁻⁴
WarmupLinear warmup
Batch Size4096 sequences
Sequence Length4096 → 128K (LongRoPE 확장)
Hardware1024 H100 GPUs
학습 시간~10일

벤치마크 비교

Phi-3-mini (3.8B) 성능

벤치마크Phi-3-mini (3.8B)Mixtral 8x7B (46.7B)GPT-3.5LLaMA 3-8BGemma 7B
MMLU (5-shot)69.070.670.066.564.3
HellaSwag (5-shot)76.784.485.579.181.2
GSM8K (8-shot, CoT)84.758.457.179.646.4
MATH (0-shot, CoT)28.430.024.3
HumanEval (0-shot)58.540.248.162.232.3
MBPP (3-shot)70.060.762.244.4
MT-Bench8.388.308.32
ARC-Challenge60.653.2

핵심 비교

  • Phi-3-mini(3.8B) ≈ Mixtral 8x7B(46.7B): 12× 작은 모델로 대등
  • 수학/코드 특히 강력: GSM8K 84.7, HumanEval 58.5로 훨씬 큰 모델 능가

Phi-3 패밀리 비교

벤치마크Phi-3-mini (3.8B)Phi-3-small (7B)Phi-3-medium (14B)
MMLU69.075.378.0
GSM8K84.787.490.8
HumanEval58.565.862.2
MT-Bench8.388.658.90

Phi-3-vision (멀티모달)

항목
모델Phi-3-mini + CLIP ViT-L/14
파라미터4.2B
멀티모달 벤치마크MMMU 40.4, MathVista 44.5, TextVQA 70.9

동시대 비교 매트릭스

특성Phi-3-mini (2024.04)Gemma 7B (2024.02)LLaMA 3-8B (2024.04)Mistral 7B (2023.10)
파라미터3.8B8.5B8.0B7.3B
학습 토큰3.3T6T15T미공개
Context4K/128K8K8K/128K8K
MMLU69.064.366.560.1
GSM8K84.746.479.635.4
합성 데이터핵심 전략일부일부미공개
모바일 실행❌ (양자화 시 가능)
핵심 기여합성 데이터 품질Gemini 기술 이전스케일 효율SWA