본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: PPO
5건의 항목
2026년 6월 04일
Combinatorial Optimization
PPO
AC
TSP
POMO
2026년 6월 04일
Group Relative Policy Optimization(GRPO)
paper
RL
GRPO
DeepSeekMath
PPO
policy-optimization
mathematical-reasoning
RLHF
RLVR
LLM-training
2026년 6월 04일
MEM1 - Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents
Paper
Agent
LLM
RL
Memory
LongHorizon
MEM1
PPO
Reasoning
Application
2026년 6월 04일
Proximal Policy Optimization Algorithms
RL
PolicyGradient
PPO
ActorCritic
TRPO
OpenAI
Training
RLHF
2026년 6월 04일
Training language models to follow instructions with human feedback - InstructGPT
paper
RLHF
alignment
LLM
InstructGPT
PPO
reward-model
OpenAI
NeurIPS2022
human-feedback
fine-tuning