본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: GRPO
3건의 항목
2026년 6월 04일
ACT_Agentic_Critical_Training_2026_Skill_LM
paper
Skill_LM
RL
agent
critical_reasoning
GRPO
imitation_learning
self_reflection
2026년 6월 04일
Group Relative Policy Optimization(GRPO)
paper
RL
GRPO
DeepSeekMath
PPO
policy-optimization
mathematical-reasoning
RLHF
RLVR
LLM-training
2026년 6월 04일
Method Change Evaluation: SFT → GRPO
experiment-design
method-evaluation
expert-review
GRPO
SFT