Proximal Policy Optimization(PPO)

Summary

대표적인 Actor-Critic 계열?

value-based, policy-based의 장점을 모은.

Actor-Critic :

actor: policy를 학습하고

critic: value를 평가.

Actor-Critic 등장 배경:

value-based의 대표적 알고리즘인 DQN 같은 경우는 연속적인 action을 다루기 어렵고, REINFORCE 같은 pure-policy based 알고리즘들은 gradient estimator의 variance가 커서 모델 수렴이 어려웠음.

같은 상황, 같은 action을 하더라도 final output이 천지차이로 달라질 수 있어서, gradient의 variance가 크다.

Analogy : 축구 경기를 한 상황에 대해 policy-based(REINFORCE)를 할 경우, Monte Carlo를 하다가 즉, 경기를 끝까지 보고 이기고 졌다는 sign(gradient)에 의해서 모든 행동에 대해 업데이트를 함. 따라서 만약 모든 행동을 동일하게 하다가 공을 찬 행동만 딱 다르게 했을 경우, gradient가 완전히 달라질 수 있기 때문에 학습이 불안정함.

한 행동에 대한 gradient가 unstable.

MC(Monte Carlo) vs TD(Temporal Difference):

MC : 한 episode의 끝까지 보고 update

TD : step마다 update.

그러니 정리해보면, PPO는 n-step TD로 구현되어 있다.

n-step TD : Bellman equation에서 value에 대한 식을 풀어 쓸 때, crtic에 비 의존하는 step을 n개 사용하겠다.

즉, n-step은 실제 해보겠다.
거기에 clipping을 넣어서 policy가 급변하지 않게 해보겠다. → PPO

Reward vs Value:

Reward : 현재 state에서 action에 따라 얻는 즉각적 advantage

Value : 현재 state에서 시작해서 앞으로 받을 수 있을 것이라 기대되는 reward의 총합.

Q. 왜 reward 만으로 부족하냐?

RL의 maximize 대상은 short-term gain(reward)가 아닌, long-term(value)이기 때문.

Clipped Surrogate Objective

$L^{C L I P} (θ) = \hat{E}_{t} [min (r_{t} (θ) \hat{A_{t},} clip (r_{t} (θ), 1 - ϵ, 1 + ϵ) \hat{A_{t}})]$

$r_{t} (θ) = \frac{π _{θ} ( a _{t} ∣ s _{t} )}{π _{old} ( a _{t} ∣ s _{t} )}$ : 현재 정책과 이전 정책의 확률 비율입니다. (얼마나 변했는가?)

$\hat{A}_{t}$ (Advantage): 현재 행동이 평균적인 행동보다 얼마나 더 좋았는지를 나타내는 지표입니다.

critic model이 계산 담당.

$clip (\dots, 1 - ϵ, 1 + ϵ)$ : 핵심 장치입니다.

$r_{t} (θ)$ 가 1 근처(예: $0.8 \sim 1.20$ )를 벗어나지 못하도록 강제로 자릅니다.

Clip은 policy update 정도를 control해서 이름 붙은거고.

surrogate라고 하는 이유는 objective가 reward 혹은 value를 direct하게 maximize하게끔 정의된게 아니라, 확률 변동 ratio에 advantage를 곱하는 형식으로 정의되어서.

Juhyeon's Blog

탐색기

Proximal Policy Optimization(PPO)

그래프 뷰

Properties

백링크