Group Relative Policy Optimization(GRPO)

Summary

DeepSeek-R1의 핵심 알고리즘이자, DeepSeek-Math 학습에서 최초로 제안된 알고리즘.
PPO에서 가장 큰 문제점 중 하나는 actor(policy) model과 critic(value function)이 별개로 구성되어 있어서, 학습 대상이 많아서, PPO를 위한 많은 컴퓨팅 연산이 필요했음.

Back to the RL

DPO의 경우, 전통 RL 방식에서 Supervised-Learning으로 회귀한 부분이 있었음.
PPO → DPO의 경우, critic model 과 reward model을 삭제하며, memory pressure에서 이점을 가져갔음.
그러나, DPO-pipeline은 supervised라, exploration이 불가능하다는 단점.
⇒다시 RL

Key Idea

GRPO : PPO에서 critic net을 value function의 MC(Monte Carlo) estimation으로 대체하자.

기존의 PPO에서 critic의 역할은 A2C의 구조에서 Advantage를 계산하기 위해 baseline 역할을 해주는 건데, 이 baseline을 별도의 model이 아닌, 주어진 prompt에 대해 LLM이 생성할 수 있는 response들을 모아서 그 group의 mean을 baseline으로 하자는 idea.

Details

GRPO의 해결책: “그룹(Group) 내부의 상대 평가(Relative)”

GRPO는 이 문제를 **‘같은 질문에 대해 여러 개의 답변을 동시에 생성해서 걔네들끼리 비교하는 방식’**으로 Critic이라는 외부 심판의 예측값 $V (s_{t})$ 을 대체. 형제들의 ‘평균 점수’를 기준점으로 삼는 것.

작동 방식은 다음과 같다:

그룹 샘플링: 모델에게 어려운 수학 문제(Prompt)를 하나 줍니다. 그리고 현재 정책( $π_{old}$ )으로 ** $G$ 개의 서로 다른 답변 궤적(예: 4~8개)**을 주르륵 생성하게 합니다.

보상 채점: 생성된 $G$ 개의 답변 각각에 대해 점수( $r_{1}, r_{2}, \dots, r_{G}$ )를 매깁니다. (수학이나 코딩은 정답이 명확하므로, 별도의 무거운 Reward Model 없이 규칙 기반(Rule-based) 채점기를 써도 됩니다.)

상대적 Advantage 계산: 이 $G$ 개 점수들의 **평균( $μ$ )**과 **표준편차( $σ$ )**를 구합니다. 그리고 각 답변의 점수를 정규화(Z-score)하여 Advantage( $\hat{A}_{i}$ )를 만듭니다.

$\hat{A}_{i} = \frac{r _{i} - mean ({ r _{1} , \dots , r _{G} })}{std ({ r _{1} , \dots , r _{G} })}$

이 수식의 직관은 경이롭습니다.

문제가 너무 쉬워서 $G$ 개의 답변이 모두 100점을 받았다면? $\to$ $\hat{A}_{i} = 0$ . (다 잘한 건 칭찬 안 함)
문제가 너무 어려워서 다 틀리고 10점, 20점을 받았는데 딱 하나가 50점을 받았다면? $\to$ 평균보다 월등히 높으므로 50점짜리 답변의 $\hat{A}_{i}$ 는 강력한 양수(+)가 됩니다. (어려운 환경 속에서 빛난 놈을 강력하게 칭찬함)

**즉, 무거운 Critic 모델 없이도 프롬프트의 난이도에 따른 ‘억까(분산)‘를 완벽하게 통제해버린 것입니다!
**

GRPO의 최종 목적 함수 (PPO와의 결합)

이렇게 똑똑하게 구한 상대적 Advantage( $\hat{A}_{i}$ )를 들고, PPO에서 배웠던 클리핑(Clipping) 목적 함수에 그대로 집어넣습니다. (여기에 DPO에서 보았던 ‘참조 모델( $π_{re f}$ )과의 KL 페널티’를 각 스텝마다 추가하여 모델이 외계어를 하는 것을 막습니다.)

$J_{GRPO} (θ) = E [\frac{1}{G} \sum_{i = 1}^{G} (min (\frac{π _{θ} ( y _{i} ∣ x )}{π _{old} ( y _{i} ∣ x )} \hat{A}_{i}, clip (\dots) \hat{A}_{i}) - β D_{K L} (π_{θ} ∣∣ π_{re f}))]$

결국 GRPO는 “PPO의 안전한 가위질(Clipping) + Critic을 없앤 상대평가(Group Relative) + 참조 모델 제약(KL Penalty)“을 하나로 융합한 완전체입니다.

5. 요약: 왜 GRPO가 세상을 놀라게 했는가?

메모리 다이어트: Critic 모델을 아예 삭제해 버렸기 때문에, 메모리 사용량이 절반 가까이 줄어들어 한정된 GPU 자원으로도 거대한 모델의 강화학습이 가능해졌습니다.

추론(Reasoning)의 창발: DPO처럼 정답을 주입하는 것이 아니라, 그룹 내에서 치열하게 상대평가를 하며 스스로 탐색(Exploration)하게 놔두었더니, 모델이 스스로 “잠깐만(Wait)”, “다시 생각해 보자(Let me rethink)“라며 길고 논리적인 사고 체계(Long Chain-of-Thought)를 자발적으로 형성하기 시작했습니다.

LLM-RL

REINFORCE(날것의 몬테카를로) $\to$ Actor-Critic(기준점의 발견) $\to$ PPO(가위질을 통한 데이터 재사용) $\to$ DPO(보상 모델의 수식화) $\to$ GRPO(Critic 삭제 및 그룹 상대평가)

Juhyeon's Blog

탐색기

Group Relative Policy Optimization(GRPO)

GRPO의 해결책: “그룹(Group) 내부의 상대 평가(Relative)”

GRPO의 최종 목적 함수 (PPO와의 결합)

5. 요약: 왜 GRPO가 세상을 놀라게 했는가?

그래프 뷰

목차

Properties

백링크