본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: RLVR
3건의 항목
2026년 6월 04일
Group Relative Policy Optimization(GRPO)
paper
RL
GRPO
DeepSeekMath
PPO
policy-optimization
mathematical-reasoning
RLHF
RLVR
LLM-training
2026년 6월 04일
Incomplete Tasks Induce Shutdown Resistance in Some Frontier LLMs
paper
ai-safety
corrigibility
shutdown-resistance
RLVR
instruction-hierarchy
self-preservation
Alignment
LLM
Instrumental-Convergence
2026년 6월 04일
R-Zero - Self-Evolving Reasoning LLM from Zero Data
paper
Self-Evolving
Reasoning
Self-Play
RLVR
Curriculum
ICLR2026
ZPD