MDP(Markov Decision Process)
“Markov Chain에 action과 reward를 추가한 것.”
⇒ Agent를 chain(observation)에 개입
Info
일반적으로 MDP는 5-tuple로 정의됨.
- (State): 에이전트가 존재할 수 있는 모든 상태의 집합
- (Action): 에이전트가 특정 상태에서 취할 수 있는 모든 행동의 집합
- (Transition Probability): 에이전트가 상태 에서 행동 를 했을 때, 다음 상태 로 이동할 확률. 마르코프 체인과 마찬가지로 오직 현재 상태와 현재 행동에만 의존.
- (Reward Function): 에이전트가 상태 에서 행동 를 하여 로 갔을 때 받는 즉각적인 보상의 기댓값. 에이전트가 어떤 행동이 좋은 행동인지 판단하는 기준이 됨.
- (Discount Factor): 과 사이의 값()으로, 미래에 받을 보상을 현재 가치로 환산할 때 사용. 1에 가까울수록 먼 미래의 보상을 중요하게 생각하고, 0에 가까울수록 당장 눈앞의 보상을 중요하게 생각
Goal of MDP
결론적으로 구하고 싶은 건, optimal policy.
주어진 환경에서 특정 state에 어떠한 action을 선택해야하는지에 대한 probability distribution.
= Goal of Reinforcement Learning