Qwen Models

Digest: Alibaba의 Qwen 시리즈는 코드·수학 특화와 다국어 지원을 핵심으로 하는 오픈소스 LLM 패밀리이다. Qwen2.5(2024.09)는 18T 토큰으로 학습하여 72B Dense 모델로 LLaMA 3.1-405B에 필적했고, Qwen3(2025)은 36T 토큰×119개 언어로 학습하며 thinking/non-thinking 모드 통합과 Strong-to-Weak Distillation으로 Dense 8B가 이전 세대 14B를 능가하는 효율성을 달성했다.

Qwen2.5 (2024.09)

Digest: Qwen2.5는 Alibaba의 Qwen 시리즈 2.5세대로, 0.5B~72B Dense 모델 6개와 MoE 모델(Qwen2.5-Turbo)을 포함한다. 18T 토큰(Qwen2의 7T에서 2.6배 증가)으로 학습되었으며, 코드·수학·지시 따르기·긴 텍스트 생성·구조화 데이터 이해에서 대폭 개선되었다. 아키텍처는 GQA + SwiGLU + RoPE + RMSNorm(Qwen2와 동일)이며, 128K 컨텍스트를 지원한다. Qwen2.5-72B-Instruct는 LLaMA 3.1-405B-Instruct에 필적하는 성능을 보이며, GPT-4o-mini를 대부분 벤치마크에서 능가한다.

아키텍처 상세

모델 스펙

모델	Params	Layers	d_model	Q Heads	KV Heads	FFN Dim	Context	Tie Emb
Qwen2.5-0.5B	0.49B	24	896	14	2	4864	128K	Yes
Qwen2.5-1.5B	1.54B	28	1536	12	2	8960	128K	Yes
Qwen2.5-3B	3.09B	36	2048	16	2	11008	128K	Yes
Qwen2.5-7B	7.61B	28	3584	28	4	18944	128K	No
Qwen2.5-14B	14.7B	48	5120	40	8	13824	128K	No
Qwen2.5-32B	32.5B	64	5120	40	8	27648	128K	No
Qwen2.5-72B	72.7B	80	8192	64	8	29568	128K	No

아키텍처 핵심 구성요소

구성요소	설명
GQA	모든 모델에 적용 (KV 헤드 2~8)
SwiGLU	FFN 활성 함수
RoPE	회전 위치 임베딩, base freq 확장으로 128K 지원
RMSNorm	Pre-normalization
QKV Bias	Q, K, V에 bias 적용 (Qwen 시리즈 특성)
BBPE Tokenizer	Byte-level BPE, 151,643 vocab

graph TD
    A["입력 토큰"] --> B["BBPE Tokenizer<br/>vocab 151,643"]
    B --> C["Token Embedding"]
    C --> D["Transformer Block × N"]

    subgraph TB["Transformer Block"]
        D1["RMSNorm"] --> D2["GQA + QKV-Bias + RoPE"]
        D2 --> D3["RMSNorm"]
        D3 --> D4["SwiGLU FFN"]
    end

    D --> E["RMSNorm"] --> F["LM Head"]

사전 학습

학습 데이터

항목	Qwen2	Qwen2.5
총 토큰	7T	18T (2.6×)
언어	29+	29+
코드	기본	대폭 확장
수학	기본	합성 데이터 포함
합성 데이터	제한적	Qwen2로 생성한 합성 데이터 대규모 활용

사전학습 단계

단계	Context	설명
Stage 1	4K	대부분의 토큰 학습
Stage 2	32K	긴 문서 데이터 up-sampling
Stage 3	128K	YARN/Dual Chunk Attention으로 확장

학습 하이퍼파라미터

항목	값
Optimizer	AdamW
Learning Rate	모델 크기별 조정
Batch Size	단계적 증가
Hardware	GPU 클러스터
기타	Qwen2에서 추가 11T 토큰 연속 학습

후훈련

파이프라인

graph LR
    A["Qwen2.5 Base"] --> B["SFT<br/>(코드/수학/지시)"]
    B --> C["DPO<br/>(Offline)"]
    C --> D["GRPO<br/>(Online RL)"]
    D --> E["Qwen2.5-Instruct"]

단계	설명
SFT	500K+ 고품질 대화 데이터
DPO	오프라인 선호 학습
GRPO	온라인 강화학습 (수학/코드 보상 모델)

Qwen2.5 개선 영역

코드: HumanEval 85.5 (72B-Instruct)
수학: MATH 83.1 (72B-Instruct)
지시 따르기: IFEval 크게 개선
긴 텍스트 생성: 8K+ 토큰 생성 품질 향상
구조화 데이터: JSON/표 생성 능력 향상

벤치마크 비교

Base 모델

벤치마크	Qwen2.5-7B	Qwen2.5-14B	Qwen2.5-72B	LLaMA 3.1-8B	LLaMA 3.1-70B	Mistral 7B
MMLU	74.2	79.9	85.3	65.2	79.3	60.1
MMLU-Pro	44.1	52.8	64.0	35.3	53.4	—
MATH	55.2	65.9	83.1	21.7	68.0	13.1
GSM8K	82.6	87.0	93.2	54.8	84.5	35.4
HumanEval	75.6	83.5	86.6	72.6	80.5	30.5
GPQA	31.6	42.0	49.0	27.7	39.3	—

Instruct 모델

벤치마크	Qwen2.5-72B-Inst	LLaMA 3.1-405B-Inst	GPT-4o-mini	Claude 3.5 Sonnet
MMLU	85.3	88.6	82.0	88.3
MATH	83.1	73.8	70.2	78.3
HumanEval	85.4	61.0	87.2	93.7
IFEval	87.1	86.4	—	—
LiveCodeBench	28.7	29.8	—	38.9
GPQA	49.0	51.1	—	65.0

동시대 비교 매트릭스

특성	Qwen2.5-72B (2024.09)	LLaMA 3.1-70B (2024.07)	Mistral-Large (2024.07)	Gemma 2-27B (2024.06)
파라미터	72.7B	70.6B	123B	27.2B
학습 토큰	18T	15T	미공개	13T
Context	128K	128K	128K	8K
Vocab	151K (BBPE)	128K	32K	256K
GQA	✅ (KV=8)	✅ (KV=8)	✅	✅
MMLU	85.3	79.3	81.2	75.2
MATH	83.1	68.0	—	53.2
오픈소스	✅ (Apache)	✅ (Meta)	❌	✅
핵심 기여	코드/수학 특화	대규모 오픈	상업 모델	소형 효율

한계

합성 데이터 의존: 18T 중 상당 부분이 합성 데이터 → 다양성 한계 가능
QKV Bias: Qwen3에서 제거됨 → 이전 설계 선택의 한계
Safety: Qwen2.5-Instruct의 안전성 평가 상세 부족

Qwen3 (2025)

Digest: Qwen3는 0.6B에서 235B까지 8개 모델(Dense 6 + MoE 2)을 포함하는 오픈 소스 LLM 시리즈로, thinking 모드(복잡한 추론)와 non-thinking 모드(빠른 응답)를 단일 모델에 통합한 것이 핵심 혁신이다. 플래그십 모델 Qwen3-235B-A22B는 총 235B 파라미터 중 토큰당 22B만 활성화하는 MoE(Mixture-of-Experts) 구조로, 36조 토큰 × 119개 언어로 사전 학습되었다. 아키텍처는 GQA(Grouped Query Attention), SwiGLU, RoPE, RMSNorm을 기반으로 하며, Qwen2에서 사용된 QKV-bias를 제거하고 QK-Norm을 도입하여 학습 안정성을 개선했다. MoE 모델은 128개 전문가 중 8개를 활성화하며 공유 전문가를 제거하고 글로벌 배치 로드 밸런싱 손실을 적용한다. 후훈련은 4단계(Long-CoT Cold Start → Reasoning RL(GRPO) → Thinking Mode Fusion → General RL)로 진행되며, 소형 모델은 Strong-to-Weak Distillation으로 학습 비용을 1/10로 절감한다.

아키텍처 상세

Dense 모델 스펙 (Table 1)

모델	Layers	Q Heads / KV Heads	Tie Embedding	Context Length
Qwen3-0.6B	28	16 / 8	Yes	32K
Qwen3-1.7B	28	16 / 8	Yes	32K
Qwen3-4B	36	32 / 8	Yes	128K
Qwen3-8B	36	32 / 8	No	128K
Qwen3-14B	40	40 / 8	No	128K
Qwen3-32B	64	64 / 8	No	128K

MoE 모델 스펙 (Table 2)

모델	Layers	Q Heads / KV Heads	Total Experts / Activated	Context Length
Qwen3-30B-A3B	48	32 / 4	128 / 8	128K
Qwen3-235B-A22B	94	64 / 4	128 / 8	128K

아키텍처 핵심 구성요소

구성요소	설명
GQA (Grouped Query Attention)	KV 헤드 수를 줄여 추론 속도 향상 (모든 모델 KV=4 또는 8)
SwiGLU	FFN 활성 함수, GELU 대비 학습 안정성과 성능 개선
RoPE	회전 위치 임베딩, base freq 10,000 → 1,000,000 (long context)
RMSNorm + Pre-normalization	LayerNorm 대비 연산 효율적, 학습 안정성
QK-Norm	Qwen3 신규 — attention score 안정화 (QKV-bias 대체)
BBPE Tokenizer	Byte-level BPE, 어휘 크기 151,669
MoE: No Shared Experts	Qwen2.5-MoE와 달리 공유 전문가 제거
Global-batch Load Balancing Loss	전문가 특화(specialization) 촉진

graph TD
    A["입력 토큰"] --> B["BBPE Tokenizer<br/>vocab 151,669"]
    B --> C["Token Embedding<br/>(Tie Emb: 0.6B-4B)"]
    C --> D["Transformer Block × N"]

    subgraph TB["Transformer Block"]
        D1["RMSNorm (Pre-Norm)"] --> D2["GQA + QK-Norm + RoPE"]
        D2 --> D3["RMSNorm"]
        D3 --> D4{"Dense or MoE?"}
        D4 -->|Dense| D5["SwiGLU FFN"]
        D4 -->|MoE| D6["Router → Top-8/128 Experts<br/>+ Global Load Balance Loss"]
    end

    D --> E["RMSNorm"] --> F["LM Head"]

사전 학습 (Pre-training)

데이터

항목	스펙
총 토큰 수	~36조 (36T)
언어 수	119개 언어 및 방언 (Qwen2.5: 29개)
데이터 소스	웹 크롤링, 코드, STEM, 책, 다국어 텍스트, 합성 데이터
합성 데이터 생성	Qwen2.5-Math(수학), Qwen2.5-Coder(코드), Qwen2.5-VL(PDF OCR)
데이터 레이블링	30T+ 토큰에 교육적 가치, 분야, 도메인, 안전성 다차원 어노테이션
데이터 믹스 최적화	instance-level 최적화 (도메인 레벨이 아닌 개별 샘플 단위)

3단계 사전 학습

단계	토큰 수	Seq Length	목적
S1: General	~30T	4,096	언어 능력 + 일반 세계 지식 (119개 언어)
S2: Reasoning	~5T	4,096	STEM, 코딩, 추론, 합성 데이터 비중 증가 + LR decay 가속
S3: Long Context	수천억	32,768	컨텍스트 확장 (75% 16K-32K, 25% 4K-16K)

하이퍼파라미터

항목	값
RoPE base freq	S1-S2: 10,000 → S3: 1,000,000 (ABF technique)
추론 시 컨텍스트 확장	YARN + DCA (Dual Chunk Attention) → 4× 확장 (128K)
스케일링 법칙	각 모델·단계별 최적 LR, batch size 예측 (상세 비공개)
옵티마이저	명시되지 않음 (Qwen2.5 기준 AdamW 추정)

후훈련 (Post-training) — 4단계

graph LR
    A["Base Model"] --> B["Stage 1<br/>Long-CoT Cold Start<br/>(SFT)"]
    B --> C["Stage 2<br/>Reasoning RL<br/>(GRPO, 3995 queries)"]
    C --> D["Stage 3<br/>Thinking Mode Fusion<br/>(SFT + Chat Template)"]
    D --> E["Stage 4<br/>General RL<br/>(20+ tasks, 3 reward types)"]

    A2["Lightweight Models<br/>0.6B-14B, 30B-A3B"] --> F["Strong-to-Weak<br/>Distillation"]
    E -.->|teacher| F

Stage 1: Long-CoT Cold Start

수학, 코드, 논리 추론, STEM 문제 + 검증된 정답/테스트 케이스
QwQ-32B로 N개 후보 응답 생성 → 엄격한 필터링 (오답, 반복, 추측, 스타일 불일치 등 6가지 기준)
목표: 기초 추론 패턴 학습 (성능 최적화보다 잠재력 보존)
학습 샘플 수와 스텝 수 최소화

Stage 2: Reasoning RL

항목	값
알고리즘	GRPO (Group Relative Policy Optimization)
쿼리-검증기 쌍	3,995개 (Cold Start에서 미사용, 학습 가능, 최대한 어렵게, 다양한 도메인)
핵심 전략	대형 batch size + 높은 rollouts/query + off-policy 학습
엔트로피 제어	탐색-활용 균형을 위해 엔트로피를 꾸준히 증가 또는 안정적으로 유지
결과	Qwen3-235B-A22B AIME’24: 70.1 → 85.1 (170 RL steps, 하이퍼파라미터 수동 개입 없음)

Stage 3: Thinking Mode Fusion

목표: thinking + non-thinking 모드를 단일 모델에 통합
Chat Template: /think (기본) 및 /no_think 플래그로 모드 전환
Thinking 데이터: Stage 2 모델에서 rejection sampling
Non-thinking 데이터: 코딩, 수학, instruction-following, 다국어, 창작, QA, 롤플레이
Thinking Budget: 명시적 학습 없이 자연 발현 — 사용자 정의 임계치에서 thinking 중단 후 응답 생성

Stage 4: General RL

항목	설명
대상 능력	Instruction Following, Format Following, Preference Alignment, Agent, RAG 등 20+ tasks
보상 유형 3가지	(1) Rule-based (2) Model-based + 참조 답변 (3) Model-based 보상 모델 (참조 없음)

Strong-to-Weak Distillation (소형 모델)

단계	방법	설명
Off-policy	교사 모델 출력으로 응답 증류	/think + /no_think 모드 모두 포함
On-policy	학생 모델 응답 → 교사 logit 정렬	KL divergence 최소화 (교사: Qwen3-32B 또는 235B-A22B)

효율성: 4단계 학습 대비 GPU 시간 1/10, Pass@1·Pass@64 모두 향상

추론 하이퍼파라미터

모드	Temperature	Top-p	Top-k	Presence Penalty	Max Output
Thinking	0.6	0.95	20	1.5 (writing only)	32,768 (AIME: 38,912)
Non-thinking	0.7	0.8	20	1.5	32,768

벤치마크 결과

Pre-trained Base 모델 비교 (Table 3)

모델	Arch	Total / Active Params	MMLU	MMLU-Pro	MATH	EvalPlus	MultiPL-E
Qwen2.5-72B-Base	Dense	72B / 72B	86.1	58.1	62.1	65.9	58.7
DeepSeek-V3-Base	MoE	671B / 37B	87.2	59.8	62.6	63.8	62.3
Llama-4-Maverick-Base	MoE	402B / 17B	85.2	63.9	63.3	68.4	57.3
Qwen3-235B-A22B-Base	MoE	235B / 22B	87.8	68.2	71.8	77.6	65.9

Dense 모델 크기별 동등 성능 (핵심!)

Qwen3 모델	≈ Qwen2.5 동등 모델	의미
Qwen3-1.7B	Qwen2.5-3B	1.7B로 3B 수준
Qwen3-4B	Qwen2.5-7B	4B로 7B 수준
Qwen3-8B	Qwen2.5-14B	8B로 14B 수준
Qwen3-14B	Qwen2.5-32B	14B로 32B 수준
Qwen3-32B	Qwen2.5-72B	32B로 72B 수준

Post-trained Thinking 모드 비교 (Table 11)

모델	AIME’24	AIME’25	LiveCodeBench v5	BFCL v3	CodeForces
OpenAI-o1	74.3	79.2	63.9	67.8	1,891
DeepSeek-R1	79.8	70.0	65.9	56.9	1,948
Gemini 2.5 Pro	92.0	86.7	70.4	62.9	2,001
Qwen3-235B-A22B	85.7	81.5	70.7	70.8	2,056

MoE 효율성 핵심 지표

비교	결과
MoE 1/5 활성 파라미터 = Dense 동등 성능	Qwen3 MoE가 Dense의 1/5 활성화로 동등
Qwen2.5 MoE 대비	1/2 활성 파라미터 + 더 적은 총 파라미터로 능가
Qwen2.5 Dense 대비	1/10 활성 파라미터로 동등 성능
DeepSeek-V3 대비	1/3 총 파라미터, 2/3 활성 파라미터로 14/15 벤치마크 우세

축	Qwen3 (2025)	LLaMA 3.1 (2024)	DeepSeek-V3 (2024)	Gemma 3 (2025)
최대 모델	235B (22B active) MoE	405B Dense	671B (37B active) MoE	27B Dense
사전 학습 토큰	36T	15T+	14.8T	비공개
언어 수	119	~100	비공개	140+
Vocab 크기	151,669	128,000	129,280	262,144
Attention	GQA + QK-Norm	GQA	MLA (Multi-head Latent)	GQA
FFN	SwiGLU	SwiGLU	SwiGLU (DeepSeekMoE)	GeGLU
Position	RoPE (1M base)	RoPE (500K base)	RoPE (10K + YaRN)	RoPE
MoE 전문가	128/8 (no shared)	N/A (Dense)	256/8 + 1 shared	N/A
후훈련	4-stage (RL+SFT+RL)	6-round (SFT+DPO)	SFT + RL	SFT + RLHF
Reasoning 모드	Thinking/Non-thinking 통합	없음	없음	없음
코드 공개	Apache 2.0	Llama License	MIT	Apache 2.0

핵심 용어 정리

용어	정의
MoE (Mixture-of-Experts)	FFN을 여러 전문가로 분할, 라우터가 토큰당 일부만 활성화하여 연산 효율 극대화
GQA (Grouped Query Attention)	Q 헤드를 여러 그룹으로 나누어 KV 헤드를 공유, 추론 속도 향상
QK-Norm	Q, K 벡터에 정규화 적용하여 attention score 폭발 방지 (Qwen3 신규)
SwiGLU	Swish × Gate Linear Unit, FFN에서 GELU/ReLU 대체
RoPE	Rotary Position Embedding, 상대적 위치 정보를 회전 행렬로 인코딩
BBPE	Byte-level Byte-Pair Encoding, 모든 바이트를 처리 가능한 토크나이저
GRPO	Group Relative Policy Optimization, 그룹 내 상대적 보상으로 정책 업데이트하는 RL 알고리즘
ABF	Adjusted Base Frequency, RoPE의 base frequency를 증가시켜 긴 시퀀스 지원
YARN	Yet Another RoPE Extension, 컨텍스트 길이 확장을 위한 RoPE 수정 기법
DCA	Dual Chunk Attention, 긴 시퀀스를 청크로 분할하여 효율적으로 처리
Strong-to-Weak Distillation	대형 모델의 지식을 소형 모델로 전이 (off-policy + on-policy 2단계)

Qwen Models

Qwen Models

Qwen2.5 (2024.09)

아키텍처 상세

모델 스펙

아키텍처 핵심 구성요소

사전 학습

학습 데이터

사전학습 단계

학습 하이퍼파라미터

후훈련

파이프라인

Qwen2.5 개선 영역

벤치마크 비교

Base 모델

Instruct 모델

동시대 비교 매트릭스

한계

Qwen3 (2025)

아키텍처 상세

Dense 모델 스펙 (Table 1)

MoE 모델 스펙 (Table 2)

아키텍처 핵심 구성요소

사전 학습 (Pre-training)

데이터

3단계 사전 학습

하이퍼파라미터

후훈련 (Post-training) — 4단계

Stage 1: Long-CoT Cold Start

Stage 2: Reasoning RL

Stage 3: Thinking Mode Fusion

Stage 4: General RL

Strong-to-Weak Distillation (소형 모델)

추론 하이퍼파라미터

벤치마크 결과

Pre-trained Base 모델 비교 (Table 3)

Dense 모델 크기별 동등 성능 (핵심!)

Post-trained Thinking 모드 비교 (Table 11)

MoE 효율성 핵심 지표

관련 연구 비교 매트릭스

핵심 용어 정리

그래프 뷰

목차

Properties

백링크