본문으로 건너뛰기
Juhyeon's Blog
Search
검색
다크 모드
라이트 모드
탐색기
태그: PolicyGradient
1건의 항목
2026년 6월 04일
Proximal Policy Optimization Algorithms
RL
PolicyGradient
PPO
ActorCritic
TRPO
OpenAI
Training
RLHF