본문으로 건너뛰기

Juhyeon's Blog

❯

Reinforcement Learning

폴더: Reinforcement-Learning

19건의 항목

2026년 6월 04일
A2C(Advantage Actor Critic)
2026년 6월 04일
Actor-Critic
2026년 6월 04일
Deep Q-Network(DQN)
2026년 6월 04일
Direct Preference Optimization(DPO)
2026년 6월 04일
Group Relative Policy Optimization(GRPO)
2026년 6월 04일
Inverse Reinforcement Learning(IRL)
2026년 6월 04일
Model-Free RL
2026년 6월 04일
Model-based RL
2026년 6월 04일
Monte Carlo
2026년 6월 04일
Policy Gradient
2026년 6월 04일
Proximal Policy Optimization(PPO)
2026년 6월 04일
REINFORCE
2026년 6월 04일
Reinforcement Learning
2026년 6월 04일
Return
2026년 6월 04일
Reward
2026년 6월 04일
SARSA
2026년 6월 04일
TD
2026년 6월 04일
Temporal Difference
2026년 6월 04일
Value

키보드 단축키

`/` 또는 `Ctrl`+`K`	검색
`?`	단축키 도움말
`Esc`	모달 닫기

Created with Quartz v4.5.2 © 2026

GitHub
Blog