Summary
“는 절대 평가 값이다.”
는 특정 state부터 episode가 끝날 때까지 실제 수집한 reward 누적량.
는 이러한 들의 average.Advantage := 로 도입해서, trajectory 하나를 택했을 때, 딸려오는 값을 전체 trajectory space에서 고려된 를 baseline 삼아 비교해서, 평균보다 높은 곳으로 가게끔 유도하자!
→ trajectory space에서 고려 영역을 줄여가자.
1. 비교의 전제: “같은 출발선()에서 바라본 미래”
와 를 빼기()로 묶어서 비교할 수 있는 이유는 두 값이 정확히 동일한 시점 의, 동일한 상태 에서 출발하여 그 이후에 벌어질 일들을 평가하고 있기 때문입니다. 출발선이 같기 때문에 “예상(V) 대비 실제(G)가 어땠는가?”라는 공정한 비교(Advantage)가 성립합니다.
2. 와 의 본질적인 차이: “평균의 세계” vs “특정 행동이 빚어낸 단 하나의 현실”
질문자님께서 “trajectory space에서 고려 영역을 줄이면서…”라고 표현하신 부분이 정말 예술적입니다. 이 개념을 강화학습의 공식 기호로 번역해 보겠습니다.
(상태 가치, 평균의 세계):
**현재 정책()을 따랐을 때 앞으로 펼쳐질 수 있는 우주상의 모든 수많은 궤적(Trajectory)들을 다 고려했을 때의 평균적인 기대 보상입니다. (아직 이 상태에서 어떤 행동 를 할지 결정하지 않은, 모든 가능성이 열려있는 상태의 가치입니다.)
** (행동 가치, 고려 영역을 줄인 세계):
**“향후 action 중에 하나로 trajectory space에서 고려 영역을 줄인” 기대 보상의 정체가 바로 이 Q-value입니다. 상태 에서 특정 행동 를 하겠다고 쐐기를 박은 순간, 다른 행동을 했을 때의 우주는 사라지고 로 인해 파생되는 궤적들만 남습니다.
** (몬테카를로 샘플, 단 하나의 현실):
**이 라는 기댓값을 구하기 위해 수많은 갈래길을 계산하는 대신, 실제로 를 저지른 후 게임이 끝날 때까지 굴러가서(샘플링) 얻어낸 단 하나의 실제 할인 보상합입니다. 즉, 는 를 몬테카를로 방식으로 추정한 **‘경험적 샘플(Empirical Sample)‘**입니다.3. Advantage()의 진정한 수학적 의미
따라서 우리가 앞서 라고 썼던 수식은, 이론적인 Advantage 함수의 정의인 **""**를 코드로 돌리기 위해 대신 실제 샘플인 를 끼워 넣은 형태입니다.
**“특정 행동 로 인해 좁혀진 미래의 가치(, 혹은 그 샘플 )가, 행동을 결정하기 전 상태 그 자체의 평균적인 가치()보다 얼마나 더 높은가?”
**
이것이 방금 질문자님께서 스스로 도출해 내신 Advantage의 완벽한 수학적 철학입니다!
Background
Actor-Critic 등장 배경:
- value-based의 대표적 알고리즘인 DQN 같은 경우는 연속적인 action을 다루기 어렵고, REINFORCE 같은 pure-policy based 알고리즘들은 gradient estimator의 variance가 커서 모델 수렴이 어려웠음.
- 같은 상황, 같은 action을 하더라도 final output이 천지차이로 달라질 수 있어서, gradient의 variance가 크다.
- Analogy : 축구 경기를 한 상황에 대해 policy-based(REINFORCE)를 할 경우, Monte Carlo를 하다가 즉, 경기를 끝까지 보고 이기고 졌다는 sign(gradient)에 의해서 모든 행동에 대해 업데이트를 함. 따라서 만약 모든 행동을 동일하게 하다가 공을 찬 행동만 딱 다르게 했을 경우, gradient가 완전히 달라질 수 있기 때문에 학습이 불안정함.
- 한 행동에 대한 gradient가 unstable.
Advantage
기존 REINFORCE 알고리즘에서는 env나 기타 요인에 의한 작용의 결과로 episode내 가 균일하다는 보장을 할 수 없었는데, Advantage의 경우, baseline과의 차로 정의를 하여, env의 영향이 있더라도 baseline도 같이 움직여서 균일한 advantage를 어느 정도 보장할 수 있다.
따라서 순수하게 action에 의한 효과를 볼 수 있다.
Learning Cycle
Agent에는 actor-net, critic-net이 있고, 둘이 같이 학습됨.
Critic-net Learning:
episode 종료 후, 실제 reward인 를 ground_truth 삼아, 가 에 가까워지도록 learningActor-net Learning:
Critic이 계산한 Advantage 기반으로 learning.
이전의 REINFORCE update 수식에서 를 로 replace.
Implementation
수식을 Gemini 같은 LLM에 물어보면, 종종 Sigma 안에 discount-factor 거듭제곱꼴을 빼서 알려주는데, 이는 실제 학습을 하다보면, episode가 길어지면, discount-factor항이 0에 너무 수렴해서 학습이 되지 않는 문제에 대한 실무적 대안임. 실제로 implementation에서는 빼버림. 즉,