Summary

정석적인 Actor-Critic 알고리즘으로, Actor update에 관여하는 걸 advantage,

로 사용.

Loss:


total-loss 마지막 term은 entropy 기반이고, exploration을 위해 종종 추가한다고 한다.

Policy Entropy

의미:

  • 높음: 모든 행동을 비슷한 확률로 선택 (uniform 분포, 최대 탐색)
  • 낮음: 특정 행동만 확실히 선택 (deterministic, 활용 위주)

정의를 보면, policy term 자체로 entropy 정의한 것.

결론β H(π)는 **“너무 빨리 확신하지 말고 계속 탐험해!”**라고 외치는 안전장치야. 특히 복잡한 환경에서 local optimum에 갇히는 걸 막아주는 핵심 기법이지!