본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: RL
7건의 항목
2026년 6월 04일
ACT_Agentic_Critical_Training_2026_Skill_LM
paper
Skill_LM
RL
agent
critical_reasoning
GRPO
imitation_learning
self_reflection
2026년 6월 04일
Group Relative Policy Optimization(GRPO)
paper
RL
GRPO
DeepSeekMath
PPO
policy-optimization
mathematical-reasoning
RLHF
RLVR
LLM-training
2026년 6월 04일
MEM1 - Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents
Paper
Agent
LLM
RL
Memory
LongHorizon
MEM1
PPO
Reasoning
Application
2026년 6월 04일
Odds-Ratio Preference Optimization(ORPO)
Paper
RL
Alignment
PreferenceOptimization
ORPO
RLHF-Alternative
ReferenceFree
EMNLP2024
Training
2026년 6월 04일
POMO- Policy Optimization with Multiple Optima for Reinforcement Learning
RL
combinatorial-optimization
POMO
REINFORCE
policy-gradient
TSP
CVRP
NeurIPS2020
neural-combinatorial-optimization
symmetry
2026년 6월 04일
Proximal Policy Optimization Algorithms
RL
PolicyGradient
PPO
ActorCritic
TRPO
OpenAI
Training
RLHF
2026년 6월 04일
Social-R1 - Towards Human-like Social Reasoning in LLMs
paper
ToM
SocialReasoning
RL
TrajectoryAlignment
SIP
LLM
ReasoningParasitism