Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Digest: Phi-3는 Microsoft Research의 소형 언어 모델(SLM) 시리즈로, **Phi-3-mini(3.8B)**가 Mixtral 8x7B(46.7B)에 필적하고 GPT-3.5에 근접하는 성능을 달성했다. 핵심은 합성 데이터(synthetic data)와 극도로 엄선된 웹 데이터로, “데이터 품질이 모델 크기를 보상한다”는 Phi 시리즈의 철학을 극대화했다. 3.3T 토큰으로 학습되었으며, 모바일 기기에서 실행 가능한 크기이다. Phi-3-medium(14B)과 Phi-3-small(7B)도 함께 발표되었다.

아키텍처 상세

모델 스펙

모델	Params	Layers	d_model	Heads	KV Heads	FFN Dim	Context	Vocab
Phi-3-mini	3.8B	32	3072	32	32 (MHA)	8192	4K/128K	32,064
Phi-3-small	7B	32	4096	32	8 (GQA)	14336	8K/128K	100,352
Phi-3-medium	14B	40	5120	40	10 (GQA)	17920	4K/128K	32,064

아키텍처 핵심 구성요소

구성요소	설명
Transformer Decoder	표준 decoder-only
MHA / GQA	mini: MHA, small/medium: GQA
SwiGLU (mini/medium)	FFN 활성 함수
gegelu (small)	Grouped GELU — Phi-3-small 전용
RoPE	회전 위치 임베딩
RMSNorm	Pre-normalization
Long Context	LongRoPE로 128K 확장
Tokenizer	tiktoken (mini/medium 32K, small 100K)

사전 학습

데이터 철학: “Textbooks Are All You Need” 진화

항목	값
총 토큰	3.3T (mini), 4.8T (small/medium)
데이터 구성	엄선된 웹 데이터 + 대규모 합성 데이터
합성 데이터	GPT-4 등 대형 모델로 생성한 교과서 수준 텍스트
웹 데이터 필터링	Phi-2 기반 품질 분류기로 최고 품질 웹 페이지만 선별
핵심 전략	데이터 양 < 데이터 품질, “교과서 수준” 데이터 생성

학습 하이퍼파라미터 (Phi-3-mini)

항목	값
Optimizer	AdamW
Learning Rate	Peak 3×10⁻⁴
Warmup	Linear warmup
Batch Size	4096 sequences
Sequence Length	4096 → 128K (LongRoPE 확장)
Hardware	1024 H100 GPUs
학습 시간	~10일

벤치마크 비교

Phi-3-mini (3.8B) 성능

벤치마크	Phi-3-mini (3.8B)	Mixtral 8x7B (46.7B)	GPT-3.5	LLaMA 3-8B	Gemma 7B
MMLU (5-shot)	69.0	70.6	70.0	66.5	64.3
HellaSwag (5-shot)	76.7	84.4	85.5	79.1	81.2
GSM8K (8-shot, CoT)	84.7	58.4	57.1	79.6	46.4
MATH (0-shot, CoT)	—	28.4	—	30.0	24.3
HumanEval (0-shot)	58.5	40.2	48.1	62.2	32.3
MBPP (3-shot)	70.0	60.7	—	62.2	44.4
MT-Bench	8.38	8.30	8.32	—	—
ARC-Challenge	—	60.6	—	—	53.2

핵심 비교

Phi-3-mini(3.8B) ≈ Mixtral 8x7B(46.7B): 12× 작은 모델로 대등
수학/코드 특히 강력: GSM8K 84.7, HumanEval 58.5로 훨씬 큰 모델 능가

Phi-3 패밀리 비교

벤치마크	Phi-3-mini (3.8B)	Phi-3-small (7B)	Phi-3-medium (14B)
MMLU	69.0	75.3	78.0
GSM8K	84.7	87.4	90.8
HumanEval	58.5	65.8	62.2
MT-Bench	8.38	8.65	8.90

Phi-3-vision (멀티모달)

항목	값
모델	Phi-3-mini + CLIP ViT-L/14
파라미터	4.2B
멀티모달 벤치마크	MMMU 40.4, MathVista 44.5, TextVQA 70.9

동시대 비교 매트릭스

특성	Phi-3-mini (2024.04)	Gemma 7B (2024.02)	LLaMA 3-8B (2024.04)	Mistral 7B (2023.10)
파라미터	3.8B	8.5B	8.0B	7.3B
학습 토큰	3.3T	6T	15T	미공개
Context	4K/128K	8K	8K/128K	8K
MMLU	69.0	64.3	66.5	60.1
GSM8K	84.7	46.4	79.6	35.4
합성 데이터	핵심 전략	일부	일부	미공개
모바일 실행	✅	❌	❌	❌ (양자화 시 가능)
핵심 기여	합성 데이터 품질	Gemini 기술 이전	스케일 효율	SWA

Juhyeon's Blog

탐색기

Phi-3 Technical Report

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

아키텍처 상세

모델 스펙

아키텍처 핵심 구성요소

사전 학습

데이터 철학: “Textbooks Are All You Need” 진화

학습 하이퍼파라미터 (Phi-3-mini)

벤치마크 비교

Phi-3-mini (3.8B) 성능

핵심 비교

Phi-3 패밀리 비교

Phi-3-vision (멀티모달)

동시대 비교 매트릭스

그래프 뷰

목차

Properties

백링크