Digest: Alibaba의 Qwen 시리즈는 코드·수학 특화와 다국어 지원을 핵심으로 하는 오픈소스 LLM 패밀리이다. Qwen2.5(2024.09)는 18T 토큰으로 학습하여 72B Dense 모델로 LLaMA 3.1-405B에 필적했고, Qwen3(2025)은 36T 토큰×119개 언어로 학습하며 thinking/non-thinking 모드 통합과 Strong-to-Weak Distillation으로 Dense 8B가 이전 세대 14B를 능가하는 효율성을 달성했다.
Qwen2.5 (2024.09)
Digest: Qwen2.5는 Alibaba의 Qwen 시리즈 2.5세대로, 0.5B~72B Dense 모델 6개와 MoE 모델(Qwen2.5-Turbo)을 포함한다. 18T 토큰(Qwen2의 7T에서 2.6배 증가)으로 학습되었으며, 코드·수학·지시 따르기·긴 텍스트 생성·구조화 데이터 이해에서 대폭 개선되었다. 아키텍처는 GQA + SwiGLU + RoPE + RMSNorm(Qwen2와 동일)이며, 128K 컨텍스트를 지원한다. Qwen2.5-72B-Instruct는 LLaMA 3.1-405B-Instruct에 필적하는 성능을 보이며, GPT-4o-mini를 대부분 벤치마크에서 능가한다.
graph LR
A["Qwen2.5 Base"] --> B["SFT<br/>(코드/수학/지시)"]
B --> C["DPO<br/>(Offline)"]
C --> D["GRPO<br/>(Online RL)"]
D --> E["Qwen2.5-Instruct"]
단계
설명
SFT
500K+ 고품질 대화 데이터
DPO
오프라인 선호 학습
GRPO
온라인 강화학습 (수학/코드 보상 모델)
Qwen2.5 개선 영역
코드: HumanEval 85.5 (72B-Instruct)
수학: MATH 83.1 (72B-Instruct)
지시 따르기: IFEval 크게 개선
긴 텍스트 생성: 8K+ 토큰 생성 품질 향상
구조화 데이터: JSON/표 생성 능력 향상
벤치마크 비교
Base 모델
벤치마크
Qwen2.5-7B
Qwen2.5-14B
Qwen2.5-72B
LLaMA 3.1-8B
LLaMA 3.1-70B
Mistral 7B
MMLU
74.2
79.9
85.3
65.2
79.3
60.1
MMLU-Pro
44.1
52.8
64.0
35.3
53.4
—
MATH
55.2
65.9
83.1
21.7
68.0
13.1
GSM8K
82.6
87.0
93.2
54.8
84.5
35.4
HumanEval
75.6
83.5
86.6
72.6
80.5
30.5
GPQA
31.6
42.0
49.0
27.7
39.3
—
Instruct 모델
벤치마크
Qwen2.5-72B-Inst
LLaMA 3.1-405B-Inst
GPT-4o-mini
Claude 3.5 Sonnet
MMLU
85.3
88.6
82.0
88.3
MATH
83.1
73.8
70.2
78.3
HumanEval
85.4
61.0
87.2
93.7
IFEval
87.1
86.4
—
—
LiveCodeBench
28.7
29.8
—
38.9
GPQA
49.0
51.1
—
65.0
동시대 비교 매트릭스
특성
Qwen2.5-72B (2024.09)
LLaMA 3.1-70B (2024.07)
Mistral-Large (2024.07)
Gemma 2-27B (2024.06)
파라미터
72.7B
70.6B
123B
27.2B
학습 토큰
18T
15T
미공개
13T
Context
128K
128K
128K
8K
Vocab
151K (BBPE)
128K
32K
256K
GQA
✅ (KV=8)
✅ (KV=8)
✅
✅
MMLU
85.3
79.3
81.2
75.2
MATH
83.1
68.0
—
53.2
오픈소스
✅ (Apache)
✅ (Meta)
❌
✅
핵심 기여
코드/수학 특화
대규모 오픈
상업 모델
소형 효율
한계
합성 데이터 의존: 18T 중 상당 부분이 합성 데이터 → 다양성 한계 가능
QKV Bias: Qwen3에서 제거됨 → 이전 설계 선택의 한계
Safety: Qwen2.5-Instruct의 안전성 평가 상세 부족
Qwen3 (2025)
Digest: Qwen3는 0.6B에서 235B까지 8개 모델(Dense 6 + MoE 2)을 포함하는 오픈 소스 LLM 시리즈로, thinking 모드(복잡한 추론)와 non-thinking 모드(빠른 응답)를 단일 모델에 통합한 것이 핵심 혁신이다. 플래그십 모델 Qwen3-235B-A22B는 총 235B 파라미터 중 토큰당 22B만 활성화하는 MoE(Mixture-of-Experts) 구조로, 36조 토큰 × 119개 언어로 사전 학습되었다. 아키텍처는 GQA(Grouped Query Attention), SwiGLU, RoPE, RMSNorm을 기반으로 하며, Qwen2에서 사용된 QKV-bias를 제거하고 QK-Norm을 도입하여 학습 안정성을 개선했다. MoE 모델은 128개 전문가 중 8개를 활성화하며 공유 전문가를 제거하고 글로벌 배치 로드 밸런싱 손실을 적용한다. 후훈련은 4단계(Long-CoT Cold Start → Reasoning RL(GRPO) → Thinking Mode Fusion → General RL)로 진행되며, 소형 모델은 Strong-to-Weak Distillation으로 학습 비용을 1/10로 절감한다.
아키텍처 상세
Dense 모델 스펙 (Table 1)
모델
Layers
Q Heads / KV Heads
Tie Embedding
Context Length
Qwen3-0.6B
28
16 / 8
Yes
32K
Qwen3-1.7B
28
16 / 8
Yes
32K
Qwen3-4B
36
32 / 8
Yes
128K
Qwen3-8B
36
32 / 8
No
128K
Qwen3-14B
40
40 / 8
No
128K
Qwen3-32B
64
64 / 8
No
128K
MoE 모델 스펙 (Table 2)
모델
Layers
Q Heads / KV Heads
Total Experts / Activated
Context Length
Qwen3-30B-A3B
48
32 / 4
128 / 8
128K
Qwen3-235B-A22B
94
64 / 4
128 / 8
128K
아키텍처 핵심 구성요소
구성요소
설명
GQA (Grouped Query Attention)
KV 헤드 수를 줄여 추론 속도 향상 (모든 모델 KV=4 또는 8)
SwiGLU
FFN 활성 함수, GELU 대비 학습 안정성과 성능 개선
RoPE
회전 위치 임베딩, base freq 10,000 → 1,000,000 (long context)
RMSNorm + Pre-normalization
LayerNorm 대비 연산 효율적, 학습 안정성
QK-Norm
Qwen3 신규 — attention score 안정화 (QKV-bias 대체)
BBPE Tokenizer
Byte-level BPE, 어휘 크기 151,669
MoE: No Shared Experts
Qwen2.5-MoE와 달리 공유 전문가 제거
Global-batch Load Balancing Loss
전문가 특화(specialization) 촉진
graph TD
A["입력 토큰"] --> B["BBPE Tokenizer<br/>vocab 151,669"]
B --> C["Token Embedding<br/>(Tie Emb: 0.6B-4B)"]
C --> D["Transformer Block × N"]
subgraph TB["Transformer Block"]
D1["RMSNorm (Pre-Norm)"] --> D2["GQA + QK-Norm + RoPE"]
D2 --> D3["RMSNorm"]
D3 --> D4{"Dense or MoE?"}
D4 -->|Dense| D5["SwiGLU FFN"]
D4 -->|MoE| D6["Router → Top-8/128 Experts<br/>+ Global Load Balance Loss"]
end
D --> E["RMSNorm"] --> F["LM Head"]