DeepSeekMath: 오픈 언어모델의 수학적 추론 한계를 돌파하다 — GRPO 알고리즘 중심으로
Digest: DeepSeekMath 7B는 Common Crawl에서 수학 관련 토큰 120B를 수집한 고품질 사전학습 코퍼스와 새 정책 최적화 알고리즘 GRPO(Group Relative Policy Optimization) 를 결합하여, 외부 툴/투표 없이 MATH 벤치마크 51.7% (Self-Consistency 64회 시 60.9%) 를 달성하며 Gemini-Ultra/GPT-4에 근접하는 오픈 SOTA 성능을 보였다. 핵심 기여인 GRPO는 PPO에서 critic(value) 네트워크를 제거하고, 한 프롬프트당 G개의 응답을 샘플링한 후 그룹 내 보상의 정규화 값()을 advantage로 사용함으로써, 동일 메모리에서 actor만 학습 가능하게 하여 학습 비용을 크게 낮추고 RL 단계에서 MATH를 46.8%→51.7%, GSM8K를 82.9%→88.2%로 끌어올렸다.
섹션별 요약
Introduction
대형 언어모델은 수학적 추론에서 빠르게 발전했지만, GPT-4·Gemini-Ultra 같은 폐쇄 모델과 오픈 모델 사이의 격차는 여전히 크다. 저자들은 (1) 웹에서 체계적으로 수집한 대규모 수학 코퍼스, (2) code pre-training의 효과 분석, (3) RL 알고리즘의 효율화라는 세 축으로 격차를 좁힌다. DeepSeek-Coder-Base-v1.5 7B에서 출발해 수학 코퍼스로 계속 학습하고, SFT 후 GRPO로 정렬한다.
Methods
- Math Pre-training Corpus: OpenWebMath을 seed로 fastText 분류기를 반복 훈련하여 CC에서 120B 수학 토큰을 수집(총 500B 토큰 학습, 56% math).
- SFT: 776K chain-of-thought, program-of-thought, tool-integrated reasoning 샘플로 지도학습.
- GRPO: PPO 목적함수에서 advantage 를 그룹 상대 보상으로 대체. 각 질문 에 대해 를 old policy로 샘플, 각 의 보상 를 그룹 평균/표준편차로 정규화하여 토큰 수준에 부여. KL 페널티는 reward가 아닌 loss에 직접 추가(unbiased K3 estimator).
- Outcome vs Process Supervision: outcome은 최종 답에만 보상, process는 각 추론 step별 PRM 보상으로 촘촘한 advantage 제공.
- Iterative RL: reward model을 주기적으로 최신 policy 샘플로 재학습.
Question
Math로 학습 시키는 거니까, reward model이 업데이트되어야 할 이유가 있나? rule-based로 그냥 하면 안되나? 정답 유무, 응답 길이 이런걸로 만들지 않나?
A. 맞다 — 이 논문은 실제로 Neural network 기반 Reward Model을 학습해서 사용했다. “업데이트”라는 표현은 정확히 NN RM을 재학습한다는 의미다.
왜 rule-based로만 하지 않았나?
- Outcome RM (§4.1.2): 최종 답이 맞는지만 보는 건 rule로 가능하지만, 저자들은 DeepSeekMath-Base 7B 위에 pointwise loss로 학습한 RM을 별도로 사용했다. 이유는 (a) CoT의 형식·일관성까지 보상에 반영하고 싶었고, (b) 중간 과정이 엉망인데 우연히 정답만 맞는 경우를 걸러내기 위함이다.
- Process RM (PRM, §5.2.2): 추론 step별로 점수를 줘야 하는데, 이건 rule로 불가능하다. Math-Shepherd 방식으로 step-wise annotation을 만들어 neural PRM을 학습했고, 이게 GRPO의 촘촘한 token-level advantage를 가능하게 했다.
왜 “iterative” 업데이트가 필요한가? (§5.2.3, 핵심 통찰)
- Policy가 학습되면서 출력 분포가 shift하면, 고정된 RM은 새로운 policy 샘플에 대해 OOD 상태가 된다 → miscalibration → reward hacking.
- 따라서 주기적으로 최신 policy 샘플을 뽑아 RM을 재학습(= on-policy refresh). 논문은 “reward model training은 데이터 품질보다 policy distribution과의 on-policyness가 더 중요하다”고 명시한다(Insight 2).
참고: 이후 DeepSeek-R1-Zero에서는 반대로 rule-based reward(정답 매칭 + 포맷 체크)만으로 emergent reasoning을 달성했다. 즉 단순 수학 도메인에서는 네 직관(rule이면 충분)이 옳았고, DeepSeekMath의 neural RM은 부분적으로 과잉 설계였음이 후속 연구로 드러난 셈이다.
Results (experiment table)
| Benchmark | Base (7B) | SFT | RL (GRPO) | 비교 |
|---|---|---|---|---|
| GSM8K (0-shot CoT) | 64.2 | 82.9 | 88.2 | GPT-4 92.0, Gemini-Ultra 94.4 |
| MATH (0-shot CoT) | 36.2 | 46.8 | 51.7 | GPT-4 52.9, Gemini-Ultra 53.2 |
| MATH + SC@64 | — | — | 60.9 | 오픈 모델 SOTA |
| CMATH | 71.7 | 84.6 | 88.8 | 중국어 수학 |
| MMLU | — | 54.9 | 54.9 | 일반 성능 미저하 |
Discussion
- Code pre-training이 수학 추론에 긍정적 전이(코드가 없던 모델 대비 MATH 개선).
- arXiv 데이터는 단독으로는 수학 성능에 유의미한 도움을 주지 못함 — 반직관적 발견.
- GRPO는 PPO, RFT, DPO, Online RFT를 통합하는 관점을 제공: 모두 gradient에 data source·reward function·advantage function 형태로 표현 가능하다.
Insights
-
Value network 없이도 group baseline이 분산 감소의 역할을 대신할 수 있다.
-
Reward model training은 데이터 품질보다 policy distribution과의 on-policyness가 더 중요하다.
이 주장의 증거 강도는 제한적 iterative RL vs fixed RM 한 쌍의 비교뿐이다. Data quality를 체계적으로 변화시켜 on-policyness와 대조한 ablation이 없고, iterative 방식은 "새 데이터 추가 + 분포 매칭" 두 효과가 섞여 있어 교란 변수가 존재한다. 또한 후속 DeepSeek-R1-Zero는 rule-based reward만으로 성공해 neural RM 자체의 필요성에 의문을 제기했다 — Insight 2의 조건부 전제("neural RM을 쓴다면")를 우회한 것이지 결론을 반박한 건 아니지만, 실용적 관련성은 크게 약화되었다. 이 논문만으로는 지지되는 추측 수준으로 봐야 한다.
논문 내부 근거는
-
RL의 효과 대부분은 Maj@K와 Pass@K의 격차를 좁히는 ranking 개선에서 온다(새 지식 주입이 아니라 이미 모델이 아는 답의 확률 집중).
Pass@K vs Maj@K — 무엇이 다른가?
- Pass@K (HumanEval, Chen et al. 2021 제안): K개 샘플 중 최소 하나라도 정답이면 성공. 모델의 상한 능력(coverage).
- 정의:
- : 문제당 샘플링한 총 개수 (), : 그중 정답 개수
- 순진하게 “K개 중 하나라도 맞음”의 비율로 추정하면 분산이 크므로, 개 뽑아 unbiased estimator로 계산 (수식은 “K개를 뽑았을 때 하나도 안 맞을 확률”의 여사건).
- 정의:
- Maj@K (Self-Consistency, Wang et al. 2022 제안): K개 샘플에서 답의 빈도수 최빈값이 정답이면 성공. 모델의 분포 집중도(confidence).
- 정의:
- : 번째 샘플이 추출한 답, : 정답
- 즉 K번 풀어서 가장 많이 나온 답이 정답과 일치하는지. 이면 greedy 정확도와 동일.
- 정의:
RL 전후 관찰: Pass@K는 거의 변하지 않는데 Maj@K(특히 Maj@1 = greedy 정확도)는 크게 오른다.
해석: RL은 모델에게 새로운 문제를 풀 능력을 주입하지 않는다. SFT 단계에서 이미 “어딘가엔 정답이 있는” 분포가 형성되어 있고, RL은 그 분포를 정답 궤적 쪽으로 재집중(sharpening) 시킬 뿐이다.
함의:
- SFT 데이터의 다양성이 RL 상한을 결정한다 — Pass@K가 낮은 문제는 RL로도 못 푼다.
- RL의 본질은 exploration이 아니라 exploitation — 이미 아는 답에 확률을 몰아주는 것.
- 이는 후속 연구(R1의 “reasoning emergence”가 정말 새 능력인가?)에서 재점화되는 쟁점이 된다.
화살 비유 — GRPO의 학습 신호 관점에서 재해석
핵심 전제: GRPO의 advantage는 . 즉 그룹 내 보상 분산 이 학습 신호의 원천이다. 모든 응답이 같은 보상을 받으면 → 모든 advantage = 0 → gradient 사망. 따라서 잘 학습되려면 “정답을 맞춘 응답도 있고, 틀린 응답도 있는” 혼합 상태가 필요하다.
한 query에서 뽑은 G개 응답 = 과녁에 쏜 G발의 화살:
- 정확도(accuracy) = 화살의 분포 영역이 정답(bullseye)을 포함하는가 (coverage, Pass@K와 대응)
- 정밀도(precision) = 화살이 한 곳에 뭉쳐 있는가 (낮은 응답 다양성, Maj@1과 대응)
4가지 학습 체제:
케이스 정확도 정밀도 그룹 보상 std(r) Pass@K Maj@1 GRPO 학습 ① 정답에 뭉쳐 적중 높음 높음 모두 1 0 1 1 ❌ 포화 — 신호 소멸 ② 흩어졌고 일부 적중 높음 낮음 혼합 최대 높음 낮음~중간 ✅ 이상 영역 — 최강 신호 ③ 엉뚱한 곳에 뭉침 낮음 높음 모두 0 0 0 0 ❌ mode collapse — 탈출 불가 ④ 흩어졌는데 전부 빗나감 낮음 낮음 모두 0 0 0 0 ❌ 능력 부족 — 신호 없음 네가 짚은 핵심 — “GRPO는 분산을 먹고 산다”:
GRPO가 학습되는 유일한 조건은 Pass@K > 0 AND Maj@1 < 1, 즉 케이스 ②다.- Pass@K > 0 → 정답 맞춘 응답 존재 → positive example 확보 (무엇을 강화할지 있음)
- Maj@1 < 1 → 정답이 아직 소수 → negative example 확보 (무엇을 누를지 있음)
- 이 두 조건이 동시에 충족되어야 그룹 내 보상이 0과 1로 갈려 이 되고, advantage가 의미 있는 gradient를 만든다.
두 끝점이 대칭적으로 학습을 죽이는 이유:
- 케이스 ① (Maj@1 = 1, 너무 쉬움): 모든 화살이 정답. 보상 평균 = 1, 편차 = 0. “더 강화할 게 없는” 포화. Pass@K·Maj@K 점수는 최고지만 gradient = 0.
- 케이스 ③, ④ (Pass@K = 0, 너무 어려움): 모든 화살이 빗나감. 보상 평균 = 0, 편차 = 0. “무엇이 덜 틀렸는지” 구별 불가.
③과 ④의 미묘한 차이:
둘 다 Pass@K = 0이지만 — ③은 화살이 뭉쳤으므로 policy가 한 잘못된 답에 확신(entropy 낮음, 탐험 절실). ④는 흩어졌으므로 아직 탐험 중(우연히 맞출 여지). 실제로 ④는 ②로 전환 가능성이 있지만, ③은 KL 페널티·temperature 상향 없이는 빠져나오기 어렵다.학습 궤적 = ② 안에 오래 머물다가 → ①로 자연 종료:
이상적 GRPO 학습은 ② 영역에서 오래 학습하며 점진적으로 ①로 수렴하는 궤적이다. ②에서 화살이 점점 정답 쪽으로 모이며 Maj@1이 상승하고, ①에 도달하면 해당 query 학습이 자연 종료된다. 즉 ①은 “끝난 상태”지 “학습 중인 상태”가 아니다 — 배포 시점의 이상은 ①, 학습 시점의 이상은 ②로 구분해야 한다.실천적 함의 — 왜 curriculum과 diversity가 중요한가:
- 난이도 필터링: 모델이 100% 맞추거나 0% 맞추는 문제는 GRPO batch에서 쓸모가 없다(gradient 0). 논문이 iterative RL(§5.2.3)로 RM을 갱신하는 이유 중 하나 — policy가 강해지며 ①로 포화되는 문제가 늘면, 새 문제를 ②로 공급해야 한다.
- Temperature·샘플링 다양성: 너무 낮으면 G개 응답이 전부 같아져 ①·③으로 빠진다. 분산을 살리려면 의도적 확률적 샘플링이 필요.
- Group size G의 역할: G가 작을수록 우연히 “전부 정답”(①) 또는 “전부 오답”(④)이 될 확률이 커진다. G를 키우면 케이스 ②가 관측될 확률이 올라가 학습 안정성이 증가 — GAE의 처럼 bias-variance knob.
- “dead prompt” 탐지: 배치에서 인 query를 모니터링하면 어느 문제가 학습에 기여 못하는지 보인다. 실전 구현에서 이런 prompt는 skip하거나 가중치를 낮춘다.
- Pass@K (HumanEval, Chen et al. 2021 제안): K개 샘플 중 최소 하나라도 정답이면 성공. 모델의 상한 능력(coverage).
Discussion Points
- Process supervision의 이득이 outcome 대비 크지만 PRM 비용이 큼 — 언제 가치 있는가?
- GRPO의 group size G와 KL 계수 의 trade-off는?
- 수학 외 도메인(코드·일반 추론)에서 동일한 그룹 베이스라인이 유효한가? → 이후 DeepSeek-R1에서 검증됨.
메타데이터
| 항목 | 값 |
|---|---|
| 제목 | DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models |
| 저자 | Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, Y.K. Li, Y. Wu, Daya Guo |
| 소속 | DeepSeek-AI, Tsinghua University, Peking University |
| 발표 | arXiv:2402.03300, 2024-02 |
| 모델 규모 | 7B parameters |
| 데이터 | DeepSeekMath Corpus 120B math tokens |
왜 이 연구를 하는가?
오픈 수학 LLM은 폐쇄 모델 대비 큰 격차가 있고, RLHF의 표준인 PPO는 critic 네트워크가 actor와 거의 동일 크기라 메모리/연산 부담이 커서 7B급에서도 RL 확장이 어렵다. 또한 수학은 (1) 최종 답의 정오가 명확해 rule-based reward가 가능하고, (2) 긴 CoT로 인해 토큰별 value 추정이 매우 noisy하다는 특성을 가진다. 이 두 특성은 “critic을 버리고 샘플 그룹의 상대 점수로 baseline을 만들자”는 GRPO 아이디어에 정확히 부합한다.
방법 (Method)
flowchart TD Q[질문 q] --> P[π_old: 응답 G개 샘플링 o_1..o_G] P --> R[Reward r_i 계산 - rule 또는 RM] R --> N["그룹 정규화: A_i = (r_i - mean) / std"] N --> L["PPO-clip surrogate + β·KL(π || π_ref) loss에 직접"] L --> U[π_θ 업데이트] U -->|매 M step| P U --> RM[Reward Model 재학습 - iterative] RM --> R
- 토큰 의 advantage : outcome supervision이면 모든 토큰에 동일 부여, process supervision이면 해당 step 이후 누적.
- KL 항: (항상 ≥ 0, 분산이 낮은 추정량).
K3 KL estimator 유도 (Schulman, 2020)
문제 설정: 를 샘플 하나로 추정하고 싶다. 여기서 , .
후보 추정량들 (ratio 정의):
- K1: — unbiased이지만 부호가 양/음을 오가서 분산이 크다.
- K2: — 항상 ≥ 0이고 분산 작지만 biased ().
- K3: — unbiased AND 항상 ≥ 0.
① Unbiasedness 증명: 하에서
따라서
② Non-negativity 증명: 의 미분 , , 이므로 이 전역 최솟값. 즉 이고 일 때만 0. → 샘플마다 항상 비음이라 분산이 줄어든다.
③ 왜 분산이 낮은가?: K1()은 근처에서도 양/음으로 진동하지만, K3는 (Taylor 2차)로 항상 ≥ 0이다. 즉 K3 = K1 + (control variate ) 로 볼 수 있고, 이므로 unbiasedness를 깨지 않으면서 분산만 감소시킨다.
④ 왜 loss에 직접 넣나?: Reward에 KL을 섞으면 advantage 정규화 에 KL 분산이 끼어들어 그룹 베이스라인 효과가 흐려진다. Loss에 분리해 넣으면 policy gradient와 KL gradient가 독립적으로 더해져 그룹 정규화의 분산 감소 효과를 온전히 유지한다.
그럼 왜 정의식 그대로 계산하지 않고 estimator를 쓰나?
결론: 계산·메모리 최적화가 맞다. 다만 “계산량을 아끼려는 트릭” 이상의 구조적 이유가 있다.
① 정의식 그대로 쓰려면?
Token-level 참값:
- 매 토큰 위치마다 전체 vocabulary 에 대해 합산 필요 ().
- 두 모델의 full softmax 분포를 모두 메모리에 올려야 함: 비용 floats.
- 7B 모델 기준: batch 64, seq 1024, → 한 스텝당 6.5B floats ≈ 26GB (fp32). 그것도 두 모델 분 → OOM.
② Sequence-level은 더 나쁘다
는 가능한 모든 응답 시퀀스 에 대한 합 — 지수적으로 많아 계산 불가능(intractable).③ K3가 영리한 이유 — 이미 계산한 값을 재활용
PPO-clip의 importance ratio 를 위해 샘플된 토큰 의 log-prob은 이미 forward pass에서 계산된다. K3는 하나만 추가로 필요 — 토큰당 scalar 하나. 비용 (vocabulary 차원 제거).④ 정리: 왜 근사를 쓰는가?
방식 편향 분산 메모리 실행 가능? 정의식 (token-level, full vocab) 0 0 간신히 정의식 (sequence-level) 0 0 지수 ❌ K1 () 0 큼 ✅ K3 () 0 작음 ✅ 즉 K3는 *“근사”*가 아니라 unbiased Monte Carlo estimator — 무한히 샘플하면 참값에 수렴한다. 참값을 포기한 게 아니라, 참값을 샘플링으로 얻는 방식을 선택한 것이다. 이미 PPO의 샘플링 프레임워크 안에 있으니 자연스러운 선택이고, 덤으로 vocabulary 차원을 없애 메모리를 배 절약한다.
- PPO와 달리 value function·GAE 불필요 → actor + reference + reward 3개 모델만 필요.
GAE (Generalized Advantage Estimation, Schulman et al. 2015)
PPO가 advantage 를 추정할 때 쓰는 표준 기법.
왜 필요한가? Policy gradient에서 를 계산하려면 미래 보상을 어떻게 집계할지 정해야 한다. 두 극단:
- Monte Carlo (): 편향 작지만 분산 큼
- 1-step TD (): 분산 작지만 편향 큼 (value 추정 오차 누적)
GAE의 해법: TD residual 를 -가중 지수 감쇠로 합친다.
- → 1-step TD (low variance, high bias)
- → Monte Carlo (high variance, low bias)
- → bias-variance trade-off knob
GRPO가 왜 GAE를 안 쓰나? GAE는 토큰별 추정값에 의존하는데, LLM의 긴 CoT에서 토큰 수준 value는 매우 noisy하고 critic 학습도 불안정하다. GRPO는 이 문제 전체를 우회 — 추정 자체를 포기하고, 대신 같은 프롬프트의 G개 샘플 평균을 baseline으로 써서 분산을 줄인다. 즉 GAE의 bias-variance knob 대신 group size 가 그 역할을 한다.
연결: Insight 1(“그룹 베이스라인 = learned value function의 nonparametric 대체”)이 바로 이 얘기. GAE는 parametric critic이 필요한 variance reduction 기법이고, 그룹 베이스라인은 nonparametric 대안이다.
발견 (Findings)
| 실험 | 결과 | 해석 |
|---|---|---|
| RL 전후 MATH | 46.8 → 51.7 | GRPO가 실제 추론 정확도 개선 |
| Maj@1 vs Pass@K | RL 후 Maj@1 급상승, Pass@K 거의 불변 | RL은 랭킹 재조정이 주효과 |
| Process vs Outcome | process가 MATH에서 추가 개선 | 긴 CoT에서 중간 보상이 유리 |
| Iterative RL | 고정 RM 대비 지속 개선 | policy shift 대응 필요 |
| 통합 분석 | RFT/DPO/PPO를 gradient 관점에서 통일 | GRPO = 그룹 baseline의 PPO |
이론적 의의
GRPO는 REINFORCE with group baseline의 현대적 재해석으로, critic 제거 + trust region(clip+KL) + 그룹 상대성을 조합한 최초의 LLM-RL 알고리즘이다. 이는 이후 DeepSeek-R1-Zero의 “rule-based reward만으로 emergent reasoning”을 가능케 한 핵심 인프라가 되었으며, RLHF가 RLVR(Verifiable Rewards)로 확장되는 패러다임 전환의 기술적 토대를 제공했다.
재현성 및 신뢰도 평가
| 축 | 평가 | 근거 |
|---|---|---|
| 코드 공개 | B | 모델 weight 공개, GRPO 구현은 커뮤니티(veRL, TRL 등)에서 재현 |
| 데이터 공개 | C | 파이프라인 상세하나 최종 120B corpus 미공개 |
| 하이퍼파라미터 | A | G, β, lr 등 명시 |
| 통계적 엄밀성 | A | 다수 벤치마크 평균, 통제 실험 포함 |
| 전반 평가 | A (evidence), B (reproducibility) | 주장 대부분 후속 연구에서 재현됨 |
관련 연구
- Proximal Policy Optimization(PPO) — GRPO의 직접적 기반
- Direct Preference Optimization(DPO) — value-free 정렬의 다른 접근
- DeepSeek-R1 — GRPO를 대규모로 확장해 reasoning emergence
- RLHF - Instruct GPT — 전통적 RLHF 파이프라인
- Minerva, Llemma — 수학 특화 사전학습
- MATH-Shepherd — process reward model
원자적 인사이트 (Zettelkasten)
-
그룹 베이스라인 = learned value function의 nonparametric 대체: 동일 프롬프트에서 샘플링한 G개 응답의 평균 보상은 해당 상태에서의 의 Monte Carlo 추정이며, critic을 학습하는 대신 런타임 샘플링 비용과 맞바꾼다. G가 클수록 분산이 작지만 rollout 비용이 선형 증가하므로 G는 PPO의 GAE-λ와 유사한 bias-variance knob으로 볼 수 있다.
-
KL을 reward가 아닌 loss에 넣는 것은 단순 변형이 아니다: reward에 KL을 더하면 advantage 추정에 KL 분산이 섞여 들어가 baseline 정규화를 흐트러뜨린다. Loss에 직접 추가하면 KL gradient가 advantage 추정과 분리되어 그룹 정규화의 분산 감소 효과를 온전히 유지할 수 있다. ❓
-
RL의 실제 기여는 “새 능력 획득”보다 “Pass@K→Maj@1 변환”이다: RL 전후 Pass@K는 거의 변하지 않지만 Maj@1은 크게 오른다는 관찰은, RL이 모델 분포를 이미 존재하는 정답 궤적에 집중시키는 역할을 한다는 실증 근거다. 이는 SFT 데이터의 다양성이 RL 상한을 결정한다는 후속 주장과 직접 연결된다.
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| GRPO | Group Relative Policy Optimization. PPO에서 critic 제거, 그룹 상대 보상을 advantage로 사용 |
| Group Baseline | 동일 프롬프트 G개 샘플의 평균 reward, 의 MC 추정 |
| PPO-clip | 정책비 를 에서 자르는 surrogate 목적함수 |
| GAE | Generalized Advantage Estimation. TD residual을 -가중 지수합으로 합쳐 advantage 추정의 bias-variance를 조절. GRPO는 이를 group baseline으로 대체 |
| KL Penalty | reference 정책과의 거리를 loss에 직접 추가 (unbiased K3 estimator) |
| Outcome Supervision | 최종 답의 정오에만 보상 부여 |
| Process Supervision | 추론 step마다 reward model로 보상(PRM) |
| Iterative RL | policy 업데이트에 맞춰 reward model을 주기적으로 재학습 |
| RFT | Rejection Sampling Fine-Tuning, 고보상 샘플만 SFT |
| Self-Consistency (SC@K) | K개 샘플의 다수결 답 |
태그
paper RL GRPO DeepSeekMath PPO policy-optimization mathematical-reasoning RLHF RLVR LLM-training