Markov Decision Process(MDP)

MDP(Markov Decision Process)

“Markov Chain에 action과 reward를 추가한 것.”
⇒ Agent를 chain(observation)에 개입

Info

일반적으로 MDP는 5-tuple로 정의됨.
$(S, A, P, R, γ)$

$S$ (State): 에이전트가 존재할 수 있는 모든 상태의 집합

$A$ (Action): 에이전트가 특정 상태에서 취할 수 있는 모든 행동의 집합

$P$ (Transition Probability): 에이전트가 상태 $s$ 에서 행동 $a$ 를 했을 때, 다음 상태 $s^{'}$ 로 이동할 확률. 마르코프 체인과 마찬가지로 오직 현재 상태와 현재 행동에만 의존.
$P (s^{'} ∣ s, a) = P (S_{t + 1} = s^{'} ∣ S_{t} = s, A_{t} = a)$

$R$ (Reward Function): 에이전트가 상태 $s$ 에서 행동 $a$ 를 하여 $s^{'}$ 로 갔을 때 받는 즉각적인 보상의 기댓값. 에이전트가 어떤 행동이 좋은 행동인지 판단하는 기준이 됨.
$R (s, a, s^{'}) = E [R_{t + 1} ∣ S_{t} = s, A_{t} = a, S_{t + 1} = s^{'}]$

$γ$ (Discount Factor): $0$ 과 $1$ 사이의 값( $0 \leq γ \leq 1$ )으로, 미래에 받을 보상을 현재 가치로 환산할 때 사용. 1에 가까울수록 먼 미래의 보상을 중요하게 생각하고, 0에 가까울수록 당장 눈앞의 보상을 중요하게 생각

Goal of MDP

결론적으로 구하고 싶은 건, optimal policy.
주어진 환경에서 특정 state에 어떠한 action을 선택해야하는지에 대한 probability distribution.
= Goal of Reinforcement Learning

Juhyeon's Blog

탐색기

Markov Decision Process(MDP)

그래프 뷰

Properties

백링크