Qwen Models

Digest: Alibaba의 Qwen 시리즈는 코드·수학 특화와 다국어 지원을 핵심으로 하는 오픈소스 LLM 패밀리이다. Qwen2.5(2024.09)는 18T 토큰으로 학습하여 72B Dense 모델로 LLaMA 3.1-405B에 필적했고, Qwen3(2025)은 36T 토큰×119개 언어로 학습하며 thinking/non-thinking 모드 통합Strong-to-Weak Distillation으로 Dense 8B가 이전 세대 14B를 능가하는 효율성을 달성했다.


Qwen2.5 (2024.09)

Digest: Qwen2.5는 Alibaba의 Qwen 시리즈 2.5세대로, 0.5B~72B Dense 모델 6개와 MoE 모델(Qwen2.5-Turbo)을 포함한다. 18T 토큰(Qwen2의 7T에서 2.6배 증가)으로 학습되었으며, 코드·수학·지시 따르기·긴 텍스트 생성·구조화 데이터 이해에서 대폭 개선되었다. 아키텍처는 GQA + SwiGLU + RoPE + RMSNorm(Qwen2와 동일)이며, 128K 컨텍스트를 지원한다. Qwen2.5-72B-Instruct는 LLaMA 3.1-405B-Instruct에 필적하는 성능을 보이며, GPT-4o-mini를 대부분 벤치마크에서 능가한다.


아키텍처 상세

모델 스펙

모델ParamsLayersd_modelQ HeadsKV HeadsFFN DimContextTie Emb
Qwen2.5-0.5B0.49B248961424864128KYes
Qwen2.5-1.5B1.54B2815361228960128KYes
Qwen2.5-3B3.09B36204816211008128KYes
Qwen2.5-7B7.61B28358428418944128KNo
Qwen2.5-14B14.7B48512040813824128KNo
Qwen2.5-32B32.5B64512040827648128KNo
Qwen2.5-72B72.7B80819264829568128KNo

아키텍처 핵심 구성요소

구성요소설명
GQA모든 모델에 적용 (KV 헤드 2~8)
SwiGLUFFN 활성 함수
RoPE회전 위치 임베딩, base freq 확장으로 128K 지원
RMSNormPre-normalization
QKV BiasQ, K, V에 bias 적용 (Qwen 시리즈 특성)
BBPE TokenizerByte-level BPE, 151,643 vocab
graph TD
    A["입력 토큰"] --> B["BBPE Tokenizer<br/>vocab 151,643"]
    B --> C["Token Embedding"]
    C --> D["Transformer Block × N"]

    subgraph TB["Transformer Block"]
        D1["RMSNorm"] --> D2["GQA + QKV-Bias + RoPE"]
        D2 --> D3["RMSNorm"]
        D3 --> D4["SwiGLU FFN"]
    end

    D --> E["RMSNorm"] --> F["LM Head"]

사전 학습

학습 데이터

항목Qwen2Qwen2.5
총 토큰7T18T (2.6×)
언어29+29+
코드기본대폭 확장
수학기본합성 데이터 포함
합성 데이터제한적Qwen2로 생성한 합성 데이터 대규모 활용

사전학습 단계

단계Context설명
Stage 14K대부분의 토큰 학습
Stage 232K긴 문서 데이터 up-sampling
Stage 3128KYARN/Dual Chunk Attention으로 확장

학습 하이퍼파라미터

항목
OptimizerAdamW
Learning Rate모델 크기별 조정
Batch Size단계적 증가
HardwareGPU 클러스터
기타Qwen2에서 추가 11T 토큰 연속 학습

후훈련

파이프라인

graph LR
    A["Qwen2.5 Base"] --> B["SFT<br/>(코드/수학/지시)"]
    B --> C["DPO<br/>(Offline)"]
    C --> D["GRPO<br/>(Online RL)"]
    D --> E["Qwen2.5-Instruct"]
단계설명
SFT500K+ 고품질 대화 데이터
DPO오프라인 선호 학습
GRPO온라인 강화학습 (수학/코드 보상 모델)

Qwen2.5 개선 영역

  1. 코드: HumanEval 85.5 (72B-Instruct)
  2. 수학: MATH 83.1 (72B-Instruct)
  3. 지시 따르기: IFEval 크게 개선
  4. 긴 텍스트 생성: 8K+ 토큰 생성 품질 향상
  5. 구조화 데이터: JSON/표 생성 능력 향상

벤치마크 비교

Base 모델

벤치마크Qwen2.5-7BQwen2.5-14BQwen2.5-72BLLaMA 3.1-8BLLaMA 3.1-70BMistral 7B
MMLU74.279.985.365.279.360.1
MMLU-Pro44.152.864.035.353.4
MATH55.265.983.121.768.013.1
GSM8K82.687.093.254.884.535.4
HumanEval75.683.586.672.680.530.5
GPQA31.642.049.027.739.3

Instruct 모델

벤치마크Qwen2.5-72B-InstLLaMA 3.1-405B-InstGPT-4o-miniClaude 3.5 Sonnet
MMLU85.388.682.088.3
MATH83.173.870.278.3
HumanEval85.461.087.293.7
IFEval87.186.4
LiveCodeBench28.729.838.9
GPQA49.051.165.0

동시대 비교 매트릭스

특성Qwen2.5-72B (2024.09)LLaMA 3.1-70B (2024.07)Mistral-Large (2024.07)Gemma 2-27B (2024.06)
파라미터72.7B70.6B123B27.2B
학습 토큰18T15T미공개13T
Context128K128K128K8K
Vocab151K (BBPE)128K32K256K
GQA✅ (KV=8)✅ (KV=8)
MMLU85.379.381.275.2
MATH83.168.053.2
오픈소스✅ (Apache)✅ (Meta)
핵심 기여코드/수학 특화대규모 오픈상업 모델소형 효율

한계

  • 합성 데이터 의존: 18T 중 상당 부분이 합성 데이터 → 다양성 한계 가능
  • QKV Bias: Qwen3에서 제거됨 → 이전 설계 선택의 한계
  • Safety: Qwen2.5-Instruct의 안전성 평가 상세 부족

Qwen3 (2025)

Digest: Qwen3는 0.6B에서 235B까지 8개 모델(Dense 6 + MoE 2)을 포함하는 오픈 소스 LLM 시리즈로, thinking 모드(복잡한 추론)와 non-thinking 모드(빠른 응답)를 단일 모델에 통합한 것이 핵심 혁신이다. 플래그십 모델 Qwen3-235B-A22B는 총 235B 파라미터 중 토큰당 22B만 활성화하는 MoE(Mixture-of-Experts) 구조로, 36조 토큰 × 119개 언어로 사전 학습되었다. 아키텍처는 GQA(Grouped Query Attention), SwiGLU, RoPE, RMSNorm을 기반으로 하며, Qwen2에서 사용된 QKV-bias를 제거하고 QK-Norm을 도입하여 학습 안정성을 개선했다. MoE 모델은 128개 전문가 중 8개를 활성화하며 공유 전문가를 제거하고 글로벌 배치 로드 밸런싱 손실을 적용한다. 후훈련은 4단계(Long-CoT Cold Start → Reasoning RL(GRPO) → Thinking Mode Fusion → General RL)로 진행되며, 소형 모델은 Strong-to-Weak Distillation으로 학습 비용을 1/10로 절감한다.


아키텍처 상세

Dense 모델 스펙 (Table 1)

모델LayersQ Heads / KV HeadsTie EmbeddingContext Length
Qwen3-0.6B2816 / 8Yes32K
Qwen3-1.7B2816 / 8Yes32K
Qwen3-4B3632 / 8Yes128K
Qwen3-8B3632 / 8No128K
Qwen3-14B4040 / 8No128K
Qwen3-32B6464 / 8No128K

MoE 모델 스펙 (Table 2)

모델LayersQ Heads / KV HeadsTotal Experts / ActivatedContext Length
Qwen3-30B-A3B4832 / 4128 / 8128K
Qwen3-235B-A22B9464 / 4128 / 8128K

아키텍처 핵심 구성요소

구성요소설명
GQA (Grouped Query Attention)KV 헤드 수를 줄여 추론 속도 향상 (모든 모델 KV=4 또는 8)
SwiGLUFFN 활성 함수, GELU 대비 학습 안정성과 성능 개선
RoPE회전 위치 임베딩, base freq 10,000 → 1,000,000 (long context)
RMSNorm + Pre-normalizationLayerNorm 대비 연산 효율적, 학습 안정성
QK-NormQwen3 신규 — attention score 안정화 (QKV-bias 대체)
BBPE TokenizerByte-level BPE, 어휘 크기 151,669
MoE: No Shared ExpertsQwen2.5-MoE와 달리 공유 전문가 제거
Global-batch Load Balancing Loss전문가 특화(specialization) 촉진
graph TD
    A["입력 토큰"] --> B["BBPE Tokenizer<br/>vocab 151,669"]
    B --> C["Token Embedding<br/>(Tie Emb: 0.6B-4B)"]
    C --> D["Transformer Block × N"]

    subgraph TB["Transformer Block"]
        D1["RMSNorm (Pre-Norm)"] --> D2["GQA + QK-Norm + RoPE"]
        D2 --> D3["RMSNorm"]
        D3 --> D4{"Dense or MoE?"}
        D4 -->|Dense| D5["SwiGLU FFN"]
        D4 -->|MoE| D6["Router → Top-8/128 Experts<br/>+ Global Load Balance Loss"]
    end

    D --> E["RMSNorm"] --> F["LM Head"]

사전 학습 (Pre-training)

데이터

항목스펙
총 토큰 수~36조 (36T)
언어 수119개 언어 및 방언 (Qwen2.5: 29개)
데이터 소스웹 크롤링, 코드, STEM, 책, 다국어 텍스트, 합성 데이터
합성 데이터 생성Qwen2.5-Math(수학), Qwen2.5-Coder(코드), Qwen2.5-VL(PDF OCR)
데이터 레이블링30T+ 토큰에 교육적 가치, 분야, 도메인, 안전성 다차원 어노테이션
데이터 믹스 최적화instance-level 최적화 (도메인 레벨이 아닌 개별 샘플 단위)

3단계 사전 학습

단계토큰 수Seq Length목적
S1: General~30T4,096언어 능력 + 일반 세계 지식 (119개 언어)
S2: Reasoning~5T4,096STEM, 코딩, 추론, 합성 데이터 비중 증가 + LR decay 가속
S3: Long Context수천억32,768컨텍스트 확장 (75% 16K-32K, 25% 4K-16K)

하이퍼파라미터

항목
RoPE base freqS1-S2: 10,000 → S3: 1,000,000 (ABF technique)
추론 시 컨텍스트 확장YARN + DCA (Dual Chunk Attention) → 4× 확장 (128K)
스케일링 법칙각 모델·단계별 최적 LR, batch size 예측 (상세 비공개)
옵티마이저명시되지 않음 (Qwen2.5 기준 AdamW 추정)

후훈련 (Post-training) — 4단계

graph LR
    A["Base Model"] --> B["Stage 1<br/>Long-CoT Cold Start<br/>(SFT)"]
    B --> C["Stage 2<br/>Reasoning RL<br/>(GRPO, 3995 queries)"]
    C --> D["Stage 3<br/>Thinking Mode Fusion<br/>(SFT + Chat Template)"]
    D --> E["Stage 4<br/>General RL<br/>(20+ tasks, 3 reward types)"]

    A2["Lightweight Models<br/>0.6B-14B, 30B-A3B"] --> F["Strong-to-Weak<br/>Distillation"]
    E -.->|teacher| F

Stage 1: Long-CoT Cold Start

  • 수학, 코드, 논리 추론, STEM 문제 + 검증된 정답/테스트 케이스
  • QwQ-32B로 N개 후보 응답 생성 → 엄격한 필터링 (오답, 반복, 추측, 스타일 불일치 등 6가지 기준)
  • 목표: 기초 추론 패턴 학습 (성능 최적화보다 잠재력 보존)
  • 학습 샘플 수와 스텝 수 최소화

Stage 2: Reasoning RL

항목
알고리즘GRPO (Group Relative Policy Optimization)
쿼리-검증기 쌍3,995개 (Cold Start에서 미사용, 학습 가능, 최대한 어렵게, 다양한 도메인)
핵심 전략대형 batch size + 높은 rollouts/query + off-policy 학습
엔트로피 제어탐색-활용 균형을 위해 엔트로피를 꾸준히 증가 또는 안정적으로 유지
결과Qwen3-235B-A22B AIME’24: 70.1 → 85.1 (170 RL steps, 하이퍼파라미터 수동 개입 없음)

Stage 3: Thinking Mode Fusion

  • 목표: thinking + non-thinking 모드를 단일 모델에 통합
  • Chat Template: /think (기본) 및 /no_think 플래그로 모드 전환
  • Thinking 데이터: Stage 2 모델에서 rejection sampling
  • Non-thinking 데이터: 코딩, 수학, instruction-following, 다국어, 창작, QA, 롤플레이
  • Thinking Budget: 명시적 학습 없이 자연 발현 — 사용자 정의 임계치에서 thinking 중단 후 응답 생성

Stage 4: General RL

항목설명
대상 능력Instruction Following, Format Following, Preference Alignment, Agent, RAG 등 20+ tasks
보상 유형 3가지(1) Rule-based (2) Model-based + 참조 답변 (3) Model-based 보상 모델 (참조 없음)

Strong-to-Weak Distillation (소형 모델)

단계방법설명
Off-policy교사 모델 출력으로 응답 증류/think + /no_think 모드 모두 포함
On-policy학생 모델 응답 → 교사 logit 정렬KL divergence 최소화 (교사: Qwen3-32B 또는 235B-A22B)

효율성: 4단계 학습 대비 GPU 시간 1/10, Pass@1·Pass@64 모두 향상


추론 하이퍼파라미터

모드TemperatureTop-pTop-kPresence PenaltyMax Output
Thinking0.60.95201.5 (writing only)32,768 (AIME: 38,912)
Non-thinking0.70.8201.532,768

벤치마크 결과

Pre-trained Base 모델 비교 (Table 3)

모델ArchTotal / Active ParamsMMLUMMLU-ProMATHEvalPlusMultiPL-E
Qwen2.5-72B-BaseDense72B / 72B86.158.162.165.958.7
DeepSeek-V3-BaseMoE671B / 37B87.259.862.663.862.3
Llama-4-Maverick-BaseMoE402B / 17B85.263.963.368.457.3
Qwen3-235B-A22B-BaseMoE235B / 22B87.868.271.877.665.9

Dense 모델 크기별 동등 성능 (핵심!)

Qwen3 모델≈ Qwen2.5 동등 모델의미
Qwen3-1.7BQwen2.5-3B1.7B로 3B 수준
Qwen3-4BQwen2.5-7B4B로 7B 수준
Qwen3-8BQwen2.5-14B8B로 14B 수준
Qwen3-14BQwen2.5-32B14B로 32B 수준
Qwen3-32BQwen2.5-72B32B로 72B 수준

Post-trained Thinking 모드 비교 (Table 11)

모델AIME’24AIME’25LiveCodeBench v5BFCL v3CodeForces
OpenAI-o174.379.263.967.81,891
DeepSeek-R179.870.065.956.91,948
Gemini 2.5 Pro92.086.770.462.92,001
Qwen3-235B-A22B85.781.570.770.82,056

MoE 효율성 핵심 지표

비교결과
MoE 1/5 활성 파라미터 = Dense 동등 성능Qwen3 MoE가 Dense의 1/5 활성화로 동등
Qwen2.5 MoE 대비1/2 활성 파라미터 + 더 적은 총 파라미터로 능가
Qwen2.5 Dense 대비1/10 활성 파라미터로 동등 성능
DeepSeek-V3 대비1/3 총 파라미터, 2/3 활성 파라미터로 14/15 벤치마크 우세

관련 연구 비교 매트릭스

Qwen3 (2025)LLaMA 3.1 (2024)DeepSeek-V3 (2024)Gemma 3 (2025)
최대 모델235B (22B active) MoE405B Dense671B (37B active) MoE27B Dense
사전 학습 토큰36T15T+14.8T비공개
언어 수119~100비공개140+
Vocab 크기151,669128,000129,280262,144
AttentionGQA + QK-NormGQAMLA (Multi-head Latent)GQA
FFNSwiGLUSwiGLUSwiGLU (DeepSeekMoE)GeGLU
PositionRoPE (1M base)RoPE (500K base)RoPE (10K + YaRN)RoPE
MoE 전문가128/8 (no shared)N/A (Dense)256/8 + 1 sharedN/A
후훈련4-stage (RL+SFT+RL)6-round (SFT+DPO)SFT + RLSFT + RLHF
Reasoning 모드Thinking/Non-thinking 통합없음없음없음
코드 공개Apache 2.0Llama LicenseMITApache 2.0

핵심 용어 정리

용어정의
MoE (Mixture-of-Experts)FFN을 여러 전문가로 분할, 라우터가 토큰당 일부만 활성화하여 연산 효율 극대화
GQA (Grouped Query Attention)Q 헤드를 여러 그룹으로 나누어 KV 헤드를 공유, 추론 속도 향상
QK-NormQ, K 벡터에 정규화 적용하여 attention score 폭발 방지 (Qwen3 신규)
SwiGLUSwish × Gate Linear Unit, FFN에서 GELU/ReLU 대체
RoPERotary Position Embedding, 상대적 위치 정보를 회전 행렬로 인코딩
BBPEByte-level Byte-Pair Encoding, 모든 바이트를 처리 가능한 토크나이저
GRPOGroup Relative Policy Optimization, 그룹 내 상대적 보상으로 정책 업데이트하는 RL 알고리즘
ABFAdjusted Base Frequency, RoPE의 base frequency를 증가시켜 긴 시퀀스 지원
YARNYet Another RoPE Extension, 컨텍스트 길이 확장을 위한 RoPE 수정 기법
DCADual Chunk Attention, 긴 시퀀스를 청크로 분할하여 효율적으로 처리
Strong-to-Weak Distillation대형 모델의 지식을 소형 모델로 전이 (off-policy + on-policy 2단계)