Actor-Critic

Summary

“ $G_{t}$ 는 절대 평가 값이다.”

$G_{t}$ 는 특정 state부터 episode가 끝날 때까지 실제 수집한 reward 누적량.
$V_{t}$ 는 이러한 $G_{t}$ 들의 average.

Advantage := $G_{t} - V_{t}$ 로 도입해서, trajectory 하나를 택했을 때, 딸려오는 $G_{t}$ 값을 전체 trajectory space에서 고려된 $V_{t}$ 를 baseline 삼아 비교해서, 평균보다 높은 곳으로 가게끔 유도하자!

→ trajectory space에서 고려 영역을 줄여가자.

1. 비교의 전제: “같은 출발선( $s_{t}$ )에서 바라본 미래”

$G_{t}$ 와 $V (s_{t})$ 를 빼기( $-$ )로 묶어서 비교할 수 있는 이유는 두 값이 정확히 동일한 시점 $t$ 의, 동일한 상태 $s_{t}$ 에서 출발하여 그 이후에 벌어질 일들을 평가하고 있기 때문입니다. 출발선이 같기 때문에 “예상(V) 대비 실제(G)가 어땠는가?”라는 공정한 비교(Advantage)가 성립합니다.

2. $V (s_{t})$ 와 $G_{t}$ 의 본질적인 차이: “평균의 세계” vs “특정 행동이 빚어낸 단 하나의 현실”

질문자님께서 “trajectory space에서 고려 영역을 줄이면서…”라고 표현하신 부분이 정말 예술적입니다. 이 개념을 강화학습의 공식 기호로 번역해 보겠습니다.

$V (s_{t})$ (상태 가치, 평균의 세계):
**현재 정책( $π$ )을 따랐을 때 앞으로 펼쳐질 수 있는 우주상의 모든 수많은 궤적(Trajectory)들을 다 고려했을 때의 평균적인 기대 보상입니다. (아직 이 상태에서 어떤 행동 $a$ 를 할지 결정하지 않은, 모든 가능성이 열려있는 상태의 가치입니다.)
$V (s_{t}) = E_{π} [G_{t} ∣ S_{t} = s_{t}]$

** $Q (s_{t}, a_{t})$ (행동 가치, 고려 영역을 줄인 세계):
**“향후 action 중에 하나로 trajectory space에서 고려 영역을 줄인” 기대 보상의 정체가 바로 이 Q-value입니다. 상태 $s_{t}$ 에서 특정 행동 $a_{t}$ 를 하겠다고 쐐기를 박은 순간, 다른 행동을 했을 때의 우주는 사라지고 $a_{t}$ 로 인해 파생되는 궤적들만 남습니다.
$Q (s_{t}, a_{t}) = E_{π} [G_{t} ∣ S_{t} = s_{t}, A_{t} = a_{t}]$

** $G_{t}$ (몬테카를로 샘플, 단 하나의 현실):
**이 $Q (s_{t}, a_{t})$ 라는 기댓값을 구하기 위해 수많은 갈래길을 계산하는 대신, 실제로 $a_{t}$ 를 저지른 후 게임이 끝날 때까지 굴러가서(샘플링) 얻어낸 단 하나의 실제 할인 보상합입니다. 즉, $G_{t}$ 는 $Q (s_{t}, a_{t})$ 를 몬테카를로 방식으로 추정한 **‘경험적 샘플(Empirical Sample)‘**입니다.

3. Advantage( $A_{t}$ )의 진정한 수학적 의미

따라서 우리가 앞서 $A_{t} = G_{t} - V (s_{t})$ 라고 썼던 수식은, 이론적인 Advantage 함수의 정의인 **" $A (s_{t}, a_{t}) = Q (s_{t}, a_{t}) - V (s_{t})$ "**를 코드로 돌리기 위해 $Q$ 대신 실제 샘플인 $G_{t}$ 를 끼워 넣은 형태입니다.
**“특정 행동 $a_{t}$ 로 인해 좁혀진 미래의 가치( $Q$ , 혹은 그 샘플 $G$ )가, 행동을 결정하기 전 상태 그 자체의 평균적인 가치( $V$ )보다 얼마나 더 높은가?”
**
이것이 방금 질문자님께서 스스로 도출해 내신 Advantage의 완벽한 수학적 철학입니다!

Background

Actor-Critic 등장 배경:

value-based의 대표적 알고리즘인 DQN 같은 경우는 연속적인 action을 다루기 어렵고, REINFORCE 같은 pure-policy based 알고리즘들은 gradient estimator의 variance가 커서 모델 수렴이 어려웠음.

같은 상황, 같은 action을 하더라도 final output이 천지차이로 달라질 수 있어서, gradient의 variance가 크다.

Analogy : 축구 경기를 한 상황에 대해 policy-based(REINFORCE)를 할 경우, Monte Carlo를 하다가 즉, 경기를 끝까지 보고 이기고 졌다는 sign(gradient)에 의해서 모든 행동에 대해 업데이트를 함. 따라서 만약 모든 행동을 동일하게 하다가 공을 찬 행동만 딱 다르게 했을 경우, gradient가 완전히 달라질 수 있기 때문에 학습이 불안정함.

한 행동에 대한 gradient가 unstable.

Advantage

기존 REINFORCE 알고리즘에서는 env나 기타 요인에 의한 작용의 결과로 episode내 $G_{t}$ 가 균일하다는 보장을 할 수 없었는데, Advantage의 경우, baseline과의 차로 정의를 하여, env의 영향이 있더라도 baseline도 같이 움직여서 균일한 advantage를 어느 정도 보장할 수 있다.

$A_{t} = G_{t} - V (S_{t})$

따라서 순수하게 action에 의한 효과를 볼 수 있다.

Learning Cycle

Agent에는 actor-net, critic-net이 있고, 둘이 같이 학습됨.

Critic-net Learning:
episode 종료 후, 실제 reward인 $G_{t}$ 를 ground_truth 삼아, $V (s_{t})$ 가 $G_{t}$ 에 가까워지도록 learning

Actor-net Learning:
Critic이 계산한 Advantage 기반으로 learning.
이전의 REINFORCE update 수식에서 $G_{t}$ 를 $A_{t}$ 로 replace.

$\nabla_{θ} J (θ) = E [\sum_{t = 0}^{T} \nabla_{θ} lo g π_{θ} (a_{t} ∣ s_{t}) \cdot γ^{k} \cdot A_{t}]$

Implementation

수식을 Gemini 같은 LLM에 물어보면, 종종 Sigma 안에 discount-factor 거듭제곱꼴을 빼서 알려주는데, 이는 실제 학습을 하다보면, episode가 길어지면, discount-factor항이 0에 너무 수렴해서 학습이 되지 않는 문제에 대한 실무적 대안임. 실제로 implementation에서는 빼버림. 즉,
$\nabla_{θ} J (θ) = E [\sum_{t = 0}^{T} \nabla_{θ} lo g π_{θ} (a_{t} ∣ s_{t}) \cdot A_{t}]$

Juhyeon's Blog

탐색기

Actor-Critic

“ $G_{t}$ 는 절대 평가 값이다.”

1. 비교의 전제: “같은 출발선( $s_{t}$ )에서 바라본 미래”

2. $V (s_{t})$ 와 $G_{t}$ 의 본질적인 차이: “평균의 세계” vs “특정 행동이 빚어낸 단 하나의 현실”

3. Advantage( $A_{t}$ )의 진정한 수학적 의미

그래프 뷰

목차

Properties

백링크

Actor-Critic

“Gt​는 절대 평가 값이다.”

1. 비교의 전제: “같은 출발선(st​)에서 바라본 미래”

2. V(st​)와 Gt​의 본질적인 차이: “평균의 세계” vs “특정 행동이 빚어낸 단 하나의 현실”

3. Advantage(At​)의 진정한 수학적 의미

그래프 뷰

목차

Properties

백링크

“ $G_{t}$ 는 절대 평가 값이다.”

1. 비교의 전제: “같은 출발선( $s_{t}$ )에서 바라본 미래”

2. $V (s_{t})$ 와 $G_{t}$ 의 본질적인 차이: “평균의 세계” vs “특정 행동이 빚어낸 단 하나의 현실”

3. Advantage( $A_{t}$ )의 진정한 수학적 의미