본문으로 건너뛰기

Juhyeon's Blog

❯

Reinforcement Learning

❯

폴더: Reinforcement-Learning/Fundamentals

18건의 항목

2026년 4월 13일
A2C(Advantage Actor Critic)
2026년 4월 13일
Actor-Critic
2026년 4월 13일
Deep Q-Network(DQN)
2026년 4월 13일
Direct Preference Optimization(DPO)
2026년 4월 13일
Inverse Reinforcement Learning(IRL)
2026년 4월 13일
Model-Free RL
2026년 4월 13일
Model-based RL
2026년 4월 13일
Monte Carlo
2026년 4월 13일
Policy Gradient
2026년 4월 13일
Proximal Policy Optimization(PPO)
2026년 4월 13일
REINFORCE
2026년 4월 13일
Reinforcement Learning
2026년 4월 13일
Return
2026년 4월 13일
Reward
2026년 4월 13일
SARSA
2026년 4월 13일
TD
2026년 4월 13일
Temporal Difference
2026년 4월 13일
Value

키보드 단축키

`/` 또는 `Ctrl`+`K`	검색
`?`	단축키 도움말
`Esc`	모달 닫기

Created with Quartz v4.5.2 © 2026

GitHub
Blog