Summary
“policy를 직접 파라미터로 두고, 그 파라미터에 대한 기울기를 따라가면서 expected reward를 maximizing하는 RL 방법”이다.
Key Idea
정책 :
- state 에서 action 를 할 확률 분포를 파라미터 로 표현한 함수.
목적 함수 :
- 이 정책을 썼을 때 얻는 “기대 총 보상(expected return)”을 나타내는 함수.
목표:
- 가 최대가 되게 하는 를 찾는 것 → θ에 대해 gradient ascent.
즉,
처럼 θ를 업데이트하면서 더 높은 보상을 주는 정책 방향으로 조금씩 이동한다.
Info
Value function을 직접 학습하는 value-based approach가 아닌, policy를 direct하게 학습하는 방법이라 policy-based approach
Q-function vs Value function ?
함수 입력이 다름.
Value function :
Q-function :
Benefits
Continuous한 action space에서도 자연스럽게 동작한다.
이전에 유명했던 알고리즘들 중 Q-learning을 하는 대표적인 방법론 중 하나인 DQN에서 생각해보면,
DQN에서 Q-network는 output이 각 action에 대한 q-value임. 즉, NN의 last output dimension이 정해져 있으니 딱 그만큼의 action에 대해서만 q-value 연산이 가능한 것.
⇒ “DQN has discrete action space.”
Methods
Loss
대략적인 loss는 다음과 같이 생겼다. (REINFORCE-style)