DeepSeekMath: 오픈 언어모델의 수학적 추론 한계를 돌파하다 — GRPO 알고리즘 중심으로

Digest: DeepSeekMath 7B는 Common Crawl에서 수학 관련 토큰 120B를 수집한 고품질 사전학습 코퍼스와 새 정책 최적화 알고리즘 GRPO(Group Relative Policy Optimization) 를 결합하여, 외부 툴/투표 없이 MATH 벤치마크 51.7% (Self-Consistency 64회 시 60.9%) 를 달성하며 Gemini-Ultra/GPT-4에 근접하는 오픈 SOTA 성능을 보였다. 핵심 기여인 GRPO는 PPO에서 critic(value) 네트워크를 제거하고, 한 프롬프트당 G개의 응답을 샘플링한 후 그룹 내 보상의 정규화 값( $\tilde{r}_{i} = (r_{i} - mean) / std$ )을 advantage로 사용함으로써, 동일 메모리에서 actor만 학습 가능하게 하여 학습 비용을 크게 낮추고 RL 단계에서 MATH를 46.8%→51.7%, GSM8K를 82.9%→88.2%로 끌어올렸다.

섹션별 요약

Introduction

대형 언어모델은 수학적 추론에서 빠르게 발전했지만, GPT-4·Gemini-Ultra 같은 폐쇄 모델과 오픈 모델 사이의 격차는 여전히 크다. 저자들은 (1) 웹에서 체계적으로 수집한 대규모 수학 코퍼스, (2) code pre-training의 효과 분석, (3) RL 알고리즘의 효율화라는 세 축으로 격차를 좁힌다. DeepSeek-Coder-Base-v1.5 7B에서 출발해 수학 코퍼스로 계속 학습하고, SFT 후 GRPO로 정렬한다.

Methods

Math Pre-training Corpus: OpenWebMath을 seed로 fastText 분류기를 반복 훈련하여 CC에서 120B 수학 토큰을 수집(총 500B 토큰 학습, 56% math).
SFT: 776K chain-of-thought, program-of-thought, tool-integrated reasoning 샘플로 지도학습.
GRPO: PPO 목적함수에서 advantage $A_{t}$ 를 그룹 상대 보상으로 대체. 각 질문 $q$ 에 대해 ${o_{1}, ..., o_{G}}$ 를 old policy로 샘플, 각 $o_{i}$ 의 보상 $r_{i}$ 를 그룹 평균/표준편차로 정규화하여 토큰 수준에 부여. KL 페널티는 reward가 아닌 loss에 직접 추가(unbiased K3 estimator).
Outcome vs Process Supervision: outcome은 최종 답에만 보상, process는 각 추론 step별 PRM 보상으로 촘촘한 advantage 제공.
Iterative RL: reward model을 주기적으로 최신 policy 샘플로 재학습.

Question

Math로 학습 시키는 거니까, reward model이 업데이트되어야 할 이유가 있나? rule-based로 그냥 하면 안되나? 정답 유무, 응답 길이 이런걸로 만들지 않나?

A. 맞다 — 이 논문은 실제로 Neural network 기반 Reward Model을 학습해서 사용했다. “업데이트”라는 표현은 정확히 NN RM을 재학습한다는 의미다.

왜 rule-based로만 하지 않았나?

Outcome RM (§4.1.2): 최종 답이 맞는지만 보는 건 rule로 가능하지만, 저자들은 DeepSeekMath-Base 7B 위에 pointwise loss로 학습한 RM을 별도로 사용했다. 이유는 (a) CoT의 형식·일관성까지 보상에 반영하고 싶었고, (b) 중간 과정이 엉망인데 우연히 정답만 맞는 경우를 걸러내기 위함이다.

Process RM (PRM, §5.2.2): 추론 step별로 점수를 줘야 하는데, 이건 rule로 불가능하다. Math-Shepherd 방식으로 step-wise annotation을 만들어 neural PRM을 학습했고, 이게 GRPO의 촘촘한 token-level advantage를 가능하게 했다.

왜 “iterative” 업데이트가 필요한가? (§5.2.3, 핵심 통찰)

Policy가 학습되면서 출력 분포가 shift하면, 고정된 RM은 새로운 policy 샘플에 대해 OOD 상태가 된다 → miscalibration → reward hacking.

따라서 주기적으로 최신 policy 샘플을 뽑아 RM을 재학습(= on-policy refresh). 논문은 “reward model training은 데이터 품질보다 policy distribution과의 on-policyness가 더 중요하다”고 명시한다(Insight 2).

참고: 이후 DeepSeek-R1-Zero에서는 반대로 rule-based reward(정답 매칭 + 포맷 체크)만으로 emergent reasoning을 달성했다. 즉 단순 수학 도메인에서는 네 직관(rule이면 충분)이 옳았고, DeepSeekMath의 neural RM은 부분적으로 과잉 설계였음이 후속 연구로 드러난 셈이다.

Results (experiment table)

Benchmark	Base (7B)	SFT	RL (GRPO)	비교
GSM8K (0-shot CoT)	64.2	82.9	88.2	GPT-4 92.0, Gemini-Ultra 94.4
MATH (0-shot CoT)	36.2	46.8	51.7	GPT-4 52.9, Gemini-Ultra 53.2
MATH + SC@64	—	—	60.9	오픈 모델 SOTA
CMATH	71.7	84.6	88.8	중국어 수학
MMLU	—	54.9	54.9	일반 성능 미저하

Discussion

Code pre-training이 수학 추론에 긍정적 전이(코드가 없던 모델 대비 MATH 개선).
arXiv 데이터는 단독으로는 수학 성능에 유의미한 도움을 주지 못함 — 반직관적 발견.
GRPO는 PPO, RFT, DPO, Online RFT를 통합하는 관점을 제공: 모두 gradient에 data source·reward function·advantage function 형태로 표현 가능하다.

Insights

Value network 없이도 group baseline이 분산 감소의 역할을 대신할 수 있다.
Reward model training은 데이터 품질보다 policy distribution과의 on-policyness가 더 중요하다.

이 주장의 증거 강도는 제한적 iterative RL vs fixed RM 한 쌍의 비교뿐이다. Data quality를 체계적으로 변화시켜 on-policyness와 대조한 ablation이 없고, iterative 방식은 "새 데이터 추가 + 분포 매칭" 두 효과가 섞여 있어 교란 변수가 존재한다. 또한 후속 DeepSeek-R1-Zero는 rule-based reward만으로 성공해 neural RM 자체의 필요성에 의문을 제기했다 — Insight 2의 조건부 전제("neural RM을 쓴다면")를 우회한 것이지 결론을 반박한 건 아니지만, 실용적 관련성은 크게 약화되었다. 이 논문만으로는 지지되는 추측 수준으로 봐야 한다.

논문 내부 근거는

RL의 효과 대부분은 Maj@K와 Pass@K의 격차를 좁히는 ranking 개선에서 온다(새 지식 주입이 아니라 이미 모델이 아는 답의 확률 집중).

Pass@K vs Maj@K — 무엇이 다른가?

Pass@K (HumanEval, Chen et al. 2021 제안): K개 샘플 중 최소 하나라도 정답이면 성공. 모델의 상한 능력(coverage).

정의: $Pass@ K = E_{problems} [1 - (K n - c) / (K n)]$

$n$ : 문제당 샘플링한 총 개수 ( $n \geq K$ ), $c$ : 그중 정답 개수

순진하게 “K개 중 하나라도 맞음”의 비율로 추정하면 분산이 크므로, $n ≫ K$ 개 뽑아 unbiased estimator로 계산 (수식은 “K개를 뽑았을 때 하나도 안 맞을 확률”의 여사건).

Maj@K (Self-Consistency, Wang et al. 2022 제안): K개 샘플에서 답의 빈도수 최빈값이 정답이면 성공. 모델의 분포 집중도(confidence).

정의: $Maj@ K = E_{problems} [1 [ar g max_{a} \sum_{i = 1}^{K} 1 [a_{i} = a] = a^{*}]]$

$a_{i}$ : $i$ 번째 샘플이 추출한 답, $a^{*}$ : 정답

즉 K번 풀어서 가장 많이 나온 답이 정답과 일치하는지. $K = 1$ 이면 greedy 정확도와 동일.

RL 전후 관찰: Pass@K는 거의 변하지 않는데 Maj@K(특히 Maj@1 = greedy 정확도)는 크게 오른다.

해석: RL은 모델에게 새로운 문제를 풀 능력을 주입하지 않는다. SFT 단계에서 이미 “어딘가엔 정답이 있는” 분포가 형성되어 있고, RL은 그 분포를 정답 궤적 쪽으로 재집중(sharpening) 시킬 뿐이다.

함의:

SFT 데이터의 다양성이 RL 상한을 결정한다 — Pass@K가 낮은 문제는 RL로도 못 푼다.

RL의 본질은 exploration이 아니라 exploitation — 이미 아는 답에 확률을 몰아주는 것.

이는 후속 연구(R1의 “reasoning emergence”가 정말 새 능력인가?)에서 재점화되는 쟁점이 된다.

화살 비유 — GRPO의 학습 신호 관점에서 재해석

핵심 전제: GRPO의 advantage는 $\tilde{A}_{i} = (r_{i} - mean (r)) / std (r)$ . 즉 그룹 내 보상 분산 $std (r)$ 이 학습 신호의 원천이다. 모든 응답이 같은 보상을 받으면 $std = 0$ → 모든 advantage = 0 → gradient 사망. 따라서 잘 학습되려면 “정답을 맞춘 응답도 있고, 틀린 응답도 있는” 혼합 상태가 필요하다.

한 query에서 뽑은 G개 응답 = 과녁에 쏜 G발의 화살:

정확도(accuracy) = 화살의 분포 영역이 정답(bullseye)을 포함하는가 (coverage, Pass@K와 대응)

정밀도(precision) = 화살이 한 곳에 뭉쳐 있는가 (낮은 응답 다양성, Maj@1과 대응)

4가지 학습 체제:

케이스 정확도 정밀도 그룹 보상 std(r) Pass@K Maj@1 GRPO 학습
① 정답에 뭉쳐 적중 높음 높음 모두 1 0 1 1 ❌ 포화 — 신호 소멸
② 흩어졌고 일부 적중 높음 낮음 혼합 최대 높음 낮음~중간 ✅ 이상 영역 — 최강 신호
③ 엉뚱한 곳에 뭉침 낮음 높음 모두 0 0 0 0 ❌ mode collapse — 탈출 불가
④ 흩어졌는데 전부 빗나감 낮음 낮음 모두 0 0 0 0 ❌ 능력 부족 — 신호 없음

네가 짚은 핵심 — “GRPO는 분산을 먹고 산다”:
GRPO가 학습되는 유일한 조건은 Pass@K > 0 AND Maj@1 < 1, 즉 케이스 ②다.

Pass@K > 0 → 정답 맞춘 응답 존재 → positive example 확보 (무엇을 강화할지 있음)

Maj@1 < 1 → 정답이 아직 소수 → negative example 확보 (무엇을 누를지 있음)

이 두 조건이 동시에 충족되어야 그룹 내 보상이 0과 1로 갈려 $std (r) > 0$ 이 되고, advantage가 의미 있는 gradient를 만든다.

두 끝점이 대칭적으로 학습을 죽이는 이유:

케이스 ① (Maj@1 = 1, 너무 쉬움): 모든 화살이 정답. 보상 평균 = 1, 편차 = 0. “더 강화할 게 없는” 포화. Pass@K·Maj@K 점수는 최고지만 gradient = 0.

케이스 ③, ④ (Pass@K = 0, 너무 어려움): 모든 화살이 빗나감. 보상 평균 = 0, 편차 = 0. “무엇이 덜 틀렸는지” 구별 불가.

③과 ④의 미묘한 차이:
둘 다 Pass@K = 0이지만 — ③은 화살이 뭉쳤으므로 policy가 한 잘못된 답에 확신(entropy 낮음, 탐험 절실). ④는 흩어졌으므로 아직 탐험 중(우연히 맞출 여지). 실제로 ④는 ②로 전환 가능성이 있지만, ③은 KL 페널티·temperature 상향 없이는 빠져나오기 어렵다.

학습 궤적 = ② 안에 오래 머물다가 → ①로 자연 종료:
이상적 GRPO 학습은 ② 영역에서 오래 학습하며 점진적으로 ①로 수렴하는 궤적이다. ②에서 화살이 점점 정답 쪽으로 모이며 Maj@1이 상승하고, ①에 도달하면 해당 query 학습이 자연 종료된다. 즉 ①은 “끝난 상태”지 “학습 중인 상태”가 아니다 — 배포 시점의 이상은 ①, 학습 시점의 이상은 ②로 구분해야 한다.

실천적 함의 — 왜 curriculum과 diversity가 중요한가:

난이도 필터링: 모델이 100% 맞추거나 0% 맞추는 문제는 GRPO batch에서 쓸모가 없다(gradient 0). 논문이 iterative RL(§5.2.3)로 RM을 갱신하는 이유 중 하나 — policy가 강해지며 ①로 포화되는 문제가 늘면, 새 문제를 ②로 공급해야 한다.

Temperature·샘플링 다양성: 너무 낮으면 G개 응답이 전부 같아져 ①·③으로 빠진다. 분산을 살리려면 의도적 확률적 샘플링이 필요.

Group size G의 역할: G가 작을수록 우연히 “전부 정답”(①) 또는 “전부 오답”(④)이 될 확률이 커진다. G를 키우면 케이스 ②가 관측될 확률이 올라가 학습 안정성이 증가 — GAE의 $λ$ 처럼 bias-variance knob.

“dead prompt” 탐지: 배치에서 $std (r) = 0$ 인 query를 모니터링하면 어느 문제가 학습에 기여 못하는지 보인다. 실전 구현에서 이런 prompt는 skip하거나 가중치를 낮춘다.

케이스	정확도	정밀도	그룹 보상	std(r)	Pass@K	Maj@1	GRPO 학습
① 정답에 뭉쳐 적중	높음	높음	모두 1	0	1	1	❌ 포화 — 신호 소멸
② 흩어졌고 일부 적중	높음	낮음	혼합	최대	높음	낮음~중간	✅ 이상 영역 — 최강 신호
③ 엉뚱한 곳에 뭉침	낮음	높음	모두 0	0	0	0	❌ mode collapse — 탈출 불가
④ 흩어졌는데 전부 빗나감	낮음	낮음	모두 0	0	0	0	❌ 능력 부족 — 신호 없음

Discussion Points

Process supervision의 이득이 outcome 대비 크지만 PRM 비용이 큼 — 언제 가치 있는가?
GRPO의 group size G와 KL 계수 $β$ 의 trade-off는?
수학 외 도메인(코드·일반 추론)에서 동일한 그룹 베이스라인이 유효한가? → 이후 DeepSeek-R1에서 검증됨.

메타데이터

항목	값
제목	DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
저자	Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, Y.K. Li, Y. Wu, Daya Guo
소속	DeepSeek-AI, Tsinghua University, Peking University
발표	arXiv:2402.03300, 2024-02
모델 규모	7B parameters
데이터	DeepSeekMath Corpus 120B math tokens

왜 이 연구를 하는가?

오픈 수학 LLM은 폐쇄 모델 대비 큰 격차가 있고, RLHF의 표준인 PPO는 critic 네트워크가 actor와 거의 동일 크기라 메모리/연산 부담이 커서 7B급에서도 RL 확장이 어렵다. 또한 수학은 (1) 최종 답의 정오가 명확해 rule-based reward가 가능하고, (2) 긴 CoT로 인해 토큰별 value 추정이 매우 noisy하다는 특성을 가진다. 이 두 특성은 “critic을 버리고 샘플 그룹의 상대 점수로 baseline을 만들자”는 GRPO 아이디어에 정확히 부합한다.

방법 (Method)

flowchart TD
    Q[질문 q] --> P[π_old: 응답 G개 샘플링 o_1..o_G]
    P --> R[Reward r_i 계산 - rule 또는 RM]
    R --> N["그룹 정규화: A_i = (r_i - mean) / std"]
    N --> L["PPO-clip surrogate + β·KL(π || π_ref) loss에 직접"]
    L --> U[π_θ 업데이트]
    U -->|매 M step| P
    U --> RM[Reward Model 재학습 - iterative]
    RM --> R

토큰 $t$ 의 advantage $\hat{A}_{i, t}$ : outcome supervision이면 모든 토큰에 $\tilde{r}_{i}$ 동일 부여, process supervision이면 해당 step 이후 누적.
KL 항: $D_{K L} [π_{θ} ∥ π_{re f}] = \frac{π _{re f}}{π _{θ}} - lo g \frac{π _{re f}}{π _{θ}} - 1$ (항상 ≥ 0, 분산이 낮은 추정량).

K3 KL estimator 유도 (Schulman, 2020)

문제 설정: $KL [p ∥ q] = E_{x \sim p} [lo g \frac{p ( x )}{q ( x )}]$ 를 샘플 하나로 추정하고 싶다. 여기서 $p = π_{θ}$ , $q = π_{re f}$ .

후보 추정량들 (ratio $r = q (x) / p (x)$ 정의):

K1: $- lo g r = lo g (p / q)$ — unbiased이지만 부호가 양/음을 오가서 분산이 크다.

K2: $\frac{1}{2} (lo g r)^{2}$ — 항상 ≥ 0이고 분산 작지만 biased ( $E [K 2] \neq = KL$ ).

K3: $r - lo g r - 1 = \frac{π _{re f}}{π _{θ}} - lo g \frac{π _{re f}}{π _{θ}} - 1$ — unbiased AND 항상 ≥ 0.

① Unbiasedness 증명: $x \sim p = π_{θ}$ 하에서
$E_{x \sim π_{θ}} [\frac{π _{re f} ( x )}{π _{θ} ( x )}] = \sum_{x} π_{θ} (x) \cdot \frac{π _{re f} ( x )}{π _{θ} ( x )} = \sum_{x} π_{re f} (x) = 1$
$E_{x \sim π_{θ}} [lo g \frac{π _{re f} ( x )}{π _{θ} ( x )}] = - KL [π_{θ} ∥ π_{re f}]$
따라서
$E [K 3] = 1 - (- KL) - 1 = KL [π_{θ} ∥ π_{re f}] ✓$

② Non-negativity 증명: $f (r) = r - lo g r - 1$ 의 미분 $f^{'} (r) = 1 - 1/ r = 0 \Rightarrow r = 1$ , $f (1) = 0$ , $f^{''} (r) = 1/ r^{2} > 0$ 이므로 $r = 1$ 이 전역 최솟값. 즉 $f (r) \geq 0$ 이고 $r = 1$ 일 때만 0. → 샘플마다 항상 비음이라 분산이 줄어든다.

③ 왜 분산이 낮은가?: K1( $lo g p / q$ )은 $p \approx q$ 근처에서도 양/음으로 진동하지만, K3는 $f (r) = r - lo g r - 1 \approx \frac{1}{2} (r - 1)^{2}$ (Taylor 2차)로 항상 ≥ 0이다. 즉 K3 = K1 + (control variate $r - 1$ ) 로 볼 수 있고, $E [r - 1] = 0$ 이므로 unbiasedness를 깨지 않으면서 분산만 감소시킨다.

④ 왜 loss에 직접 넣나?: Reward에 KL을 섞으면 advantage 정규화 $(r_{i} - μ) / σ$ 에 KL 분산이 끼어들어 그룹 베이스라인 효과가 흐려진다. Loss에 분리해 넣으면 policy gradient와 KL gradient가 독립적으로 더해져 그룹 정규화의 분산 감소 효과를 온전히 유지한다.

그럼 왜 정의식 그대로 계산하지 않고 estimator를 쓰나?

결론: 계산·메모리 최적화가 맞다. 다만 “계산량을 아끼려는 트릭” 이상의 구조적 이유가 있다.

① 정의식 그대로 쓰려면?
Token-level 참값: $KL_{t} = \sum_{v \in V} π_{θ} (v ∣ s_{t}) lo g \frac{π _{θ} ( v ∣ s _{t} )}{π _{re f} ( v ∣ s _{t} )}$

매 토큰 위치마다 전체 vocabulary $V$ 에 대해 합산 필요 ( $∣ V ∣ \approx 100 K - 150 K$ ).

두 모델의 full softmax 분포를 모두 메모리에 올려야 함: 비용 $= B \times T \times ∣ V ∣$ floats.

7B 모델 기준: batch 64, seq 1024, $∣ V ∣ = 100 K$ → 한 스텝당 6.5B floats ≈ 26GB (fp32). 그것도 두 모델 분 → OOM.

② Sequence-level은 더 나쁘다
$KL [π_{θ} (o ∣ q) ∥ π_{re f} (o ∣ q)] = \sum_{o} π_{θ} (o ∣ q) lo g (\cdot)$ 는 가능한 모든 응답 시퀀스 $o$ 에 대한 합 — 지수적으로 많아 계산 불가능(intractable).

③ K3가 영리한 이유 — 이미 계산한 값을 재활용
PPO-clip의 importance ratio $\frac{π _{θ} ( a _{t} ∣ s _{t} )}{π _{θ_{o l d}} ( a _{t} ∣ s _{t} )}$ 를 위해 샘플된 토큰 $a_{t}$ 의 log-prob은 이미 forward pass에서 계산된다. K3는 $lo g \frac{π _{re f} ( a _{t} ∣ s _{t} )}{π _{θ} ( a _{t} ∣ s _{t} )}$ 하나만 추가로 필요 — 토큰당 scalar 하나. 비용 $= B \times T$ (vocabulary 차원 제거).

④ 정리: 왜 근사를 쓰는가?

방식 편향 분산 메모리 실행 가능?
정의식 (token-level, full vocab) 0 0 $O (BT ∥ V ∥)$ 간신히
정의식 (sequence-level) 0 0 지수 ❌
K1 ( $- lo g r$ ) 0 큼 $O (BT)$ ✅
K3 ( $r - lo g r - 1$ ) 0 작음 $O (BT)$ ✅

즉 K3는 *“근사”*가 아니라 unbiased Monte Carlo estimator — 무한히 샘플하면 참값에 수렴한다. 참값을 포기한 게 아니라, 참값을 샘플링으로 얻는 방식을 선택한 것이다. 이미 PPO의 샘플링 프레임워크 안에 있으니 자연스러운 선택이고, 덤으로 vocabulary 차원을 없애 메모리를 $∣ V ∣$ 배 절약한다.

방식	분산	메모리	실행 가능?
정의식 (token-level, full vocab)	0	$O (BT ∥ V ∥)$	간신히
정의식 (sequence-level)	0	지수	❌
K1 ( $- lo g r$ )	큼	$O (BT)$	✅
K3 ( $r - lo g r - 1$ )	작음	$O (BT)$	✅

PPO와 달리 value function·GAE 불필요 → actor + reference + reward 3개 모델만 필요.

GAE (Generalized Advantage Estimation, Schulman et al. 2015)

PPO가 advantage $\hat{A}_{t}$ 를 추정할 때 쓰는 표준 기법.

왜 필요한가? Policy gradient에서 $A (s_{t}, a_{t}) = Q (s_{t}, a_{t}) - V (s_{t})$ 를 계산하려면 미래 보상을 어떻게 집계할지 정해야 한다. 두 극단:

Monte Carlo ( $\hat{A}_{t} = \sum_{l = 0}^{\infty} γ^{l} r_{t + l} - V (s_{t})$ ): 편향 작지만 분산 큼

1-step TD ( $\hat{A}_{t} = r_{t} + γV (s_{t + 1}) - V (s_{t})$ ): 분산 작지만 편향 큼 (value 추정 오차 누적)

GAE의 해법: TD residual $δ_{t} = r_{t} + γV (s_{t + 1}) - V (s_{t})$ 를 $λ$ -가중 지수 감쇠로 합친다.
$\hat{A}_{t}^{G A E (γ, λ)} = \sum_{l = 0}^{\infty} (γλ)^{l} δ_{t + l}$

$λ = 0$ → 1-step TD (low variance, high bias)

$λ = 1$ → Monte Carlo (high variance, low bias)

$λ \in (0, 1)$ → bias-variance trade-off knob

GRPO가 왜 GAE를 안 쓰나? GAE는 토큰별 $V (s_{t})$ 추정값에 의존하는데, LLM의 긴 CoT에서 토큰 수준 value는 매우 noisy하고 critic 학습도 불안정하다. GRPO는 이 문제 전체를 우회 — $V (s_{t})$ 추정 자체를 포기하고, 대신 같은 프롬프트의 G개 샘플 평균을 baseline으로 써서 분산을 줄인다. 즉 GAE의 bias-variance knob $λ$ 대신 group size $G$ 가 그 역할을 한다.

연결: Insight 1(“그룹 베이스라인 = learned value function의 nonparametric 대체”)이 바로 이 얘기. GAE는 parametric critic이 필요한 variance reduction 기법이고, 그룹 베이스라인은 nonparametric 대안이다.

발견 (Findings)

실험	결과	해석
RL 전후 MATH	46.8 → 51.7	GRPO가 실제 추론 정확도 개선
Maj@1 vs Pass@K	RL 후 Maj@1 급상승, Pass@K 거의 불변	RL은 랭킹 재조정이 주효과
Process vs Outcome	process가 MATH에서 추가 개선	긴 CoT에서 중간 보상이 유리
Iterative RL	고정 RM 대비 지속 개선	policy shift 대응 필요
통합 분석	RFT/DPO/PPO를 gradient 관점에서 통일	GRPO = 그룹 baseline의 PPO

이론적 의의

GRPO는 REINFORCE with group baseline의 현대적 재해석으로, critic 제거 + trust region(clip+KL) + 그룹 상대성을 조합한 최초의 LLM-RL 알고리즘이다. 이는 이후 DeepSeek-R1-Zero의 “rule-based reward만으로 emergent reasoning”을 가능케 한 핵심 인프라가 되었으며, RLHF가 RLVR(Verifiable Rewards)로 확장되는 패러다임 전환의 기술적 토대를 제공했다.

재현성 및 신뢰도 평가

축	평가	근거
코드 공개	B	모델 weight 공개, GRPO 구현은 커뮤니티(veRL, TRL 등)에서 재현
데이터 공개	C	파이프라인 상세하나 최종 120B corpus 미공개
하이퍼파라미터	A	G, β, lr 등 명시
통계적 엄밀성	A	다수 벤치마크 평균, 통제 실험 포함
전반 평가	A (evidence), B (reproducibility)	주장 대부분 후속 연구에서 재현됨

원자적 인사이트 (Zettelkasten)

그룹 베이스라인 = learned value function의 nonparametric 대체: 동일 프롬프트에서 샘플링한 G개 응답의 평균 보상은 해당 상태에서의 $V (s)$ 의 Monte Carlo 추정이며, critic을 학습하는 대신 런타임 샘플링 비용과 맞바꾼다. G가 클수록 분산이 작지만 rollout 비용이 선형 증가하므로 G는 PPO의 GAE-λ와 유사한 bias-variance knob으로 볼 수 있다.
KL을 reward가 아닌 loss에 넣는 것은 단순 변형이 아니다: reward에 KL을 더하면 advantage 추정에 KL 분산이 섞여 들어가 baseline 정규화를 흐트러뜨린다. Loss에 직접 추가하면 KL gradient가 advantage 추정과 분리되어 그룹 정규화의 분산 감소 효과를 온전히 유지할 수 있다. ❓
RL의 실제 기여는 “새 능력 획득”보다 “Pass@K→Maj@1 변환”이다: RL 전후 Pass@K는 거의 변하지 않지만 Maj@1은 크게 오른다는 관찰은, RL이 모델 분포를 이미 존재하는 정답 궤적에 집중시키는 역할을 한다는 실증 근거다. 이는 SFT 데이터의 다양성이 RL 상한을 결정한다는 후속 주장과 직접 연결된다.

핵심 용어 정리

용어	정의
GRPO	Group Relative Policy Optimization. PPO에서 critic 제거, 그룹 상대 보상을 advantage로 사용
Group Baseline	동일 프롬프트 G개 샘플의 평균 reward, $V (s)$ 의 MC 추정
PPO-clip	정책비 $r_{t}$ 를 $[1 - ϵ, 1 + ϵ]$ 에서 자르는 surrogate 목적함수
GAE	Generalized Advantage Estimation. TD residual을 $λ$ -가중 지수합으로 합쳐 advantage 추정의 bias-variance를 조절. GRPO는 이를 group baseline으로 대체
KL Penalty	reference 정책과의 거리를 loss에 직접 추가 (unbiased K3 estimator)
Outcome Supervision	최종 답의 정오에만 보상 부여
Process Supervision	추론 step마다 reward model로 보상(PRM)
Iterative RL	policy 업데이트에 맞춰 reward model을 주기적으로 재학습
RFT	Rejection Sampling Fine-Tuning, 고보상 샘플만 SFT
Self-Consistency (SC@K)	K개 샘플의 다수결 답

Juhyeon's Blog

탐색기

Group Relative Policy Optimization(GRPO)