Policy Gradient

Summary

“policy를 직접 파라미터로 두고, 그 파라미터에 대한 기울기를 따라가면서 expected reward를 maximizing하는 RL 방법”이다.

Key Idea

정책 $π_{θ} (a ∣ s)$ :

state $s$ 에서 action $a$ 를 할 확률 분포를 파라미터 $θ$ 로 표현한 함수.

목적 함수 $J (θ)$ :

이 정책을 썼을 때 얻는 “기대 총 보상(expected return)”을 나타내는 함수.

목표:

$J (θ)$ 가 최대가 되게 하는 $θ^{*}$ 를 찾는 것 → θ에 대해 gradient ascent.

즉,
$θ \leftarrow θ + α \nabla_{θ} J (θ)$
처럼 θ를 업데이트하면서 더 높은 보상을 주는 정책 방향으로 조금씩 이동한다.

Info

Value function을 직접 학습하는 value-based approach가 아닌, policy를 direct하게 학습하는 방법이라 policy-based approach

Q-function vs Value function ?

함수 입력이 다름.
Value function : $V (s)$
Q-function : $Q (s, a)$

Benefits

Continuous한 action space에서도 자연스럽게 동작한다.

이전에 유명했던 알고리즘들 중 Q-learning을 하는 대표적인 방법론 중 하나인 DQN에서 생각해보면,
DQN에서 Q-network는 output이 각 action에 대한 q-value임. 즉, NN의 last output dimension이 정해져 있으니 딱 그만큼의 action에 대해서만 q-value 연산이 가능한 것.
⇒ “DQN has discrete action space.”

Methods

Monte Carlo:

REINFORCE

Actor-Critic:

PPO(Proximal Policy Optimization), TRPO()

Vanilla A2C, A3C

Loss

대략적인 loss는 다음과 같이 생겼다. (REINFORCE-style)
$\nabla_{θ} J (θ) \approx E [G_{t} \nabla_{θ} lo g π_{θ} (A_{t} ∣ S_{t})]$

Juhyeon's Blog

탐색기

Policy Gradient

그래프 뷰

Properties

백링크