Summary

“policy를 직접 파라미터로 두고, 그 파라미터에 대한 기울기를 따라가면서 expected reward를 maximizing하는 RL 방법”이다.

Key Idea

정책 :

  • state 에서 action 를 할 확률 분포를 파라미터 로 표현한 함수.

목적 함수 :

  • 이 정책을 썼을 때 얻는 “기대 총 보상(expected return)”을 나타내는 함수.

목표:

  • 가 최대가 되게 하는 를 찾는 것 → θ에 대해 gradient ascent.

즉,

처럼 θ를 업데이트하면서 더 높은 보상을 주는 정책 방향으로 조금씩 이동한다.

Info

Value function을 직접 학습하는 value-based approach가 아닌, policy를 direct하게 학습하는 방법이라 policy-based approach

Q-function vs Value function ?

함수 입력이 다름.
Value function :
Q-function :

Benefits

Continuous한 action space에서도 자연스럽게 동작한다.

이전에 유명했던 알고리즘들 중 Q-learning을 하는 대표적인 방법론 중 하나인 DQN에서 생각해보면,
DQN에서 Q-network는 output이 각 action에 대한 q-value임. 즉, NN의 last output dimension이 정해져 있으니 딱 그만큼의 action에 대해서만 q-value 연산이 가능한 것.
“DQN has discrete action space.”

Methods

Monte Carlo:

Actor-Critic:

  • PPO(Proximal Policy Optimization), TRPO()
  • Vanilla A2C, A3C

Loss

대략적인 loss는 다음과 같이 생겼다. (REINFORCE-style)