Summary Vπ(s)=E[∑k=o∞γkrt+k+1∣St=s] 정책 π하에서 상태 s 시작 시 할인된 누적 보상의 기대값. 미래를 예측한 “가치 평가” Value는 return의 기대값