Summary
정석적인 Actor-Critic 알고리즘으로, Actor update에 관여하는 걸 advantage,
로 사용.Loss:
total-loss 마지막 term은 entropy 기반이고, exploration을 위해 종종 추가한다고 한다.
Policy Entropy
의미:
- 높음: 모든 행동을 비슷한 확률로 선택 (uniform 분포, 최대 탐색)
- 낮음: 특정 행동만 확실히 선택 (deterministic, 활용 위주)
정의를 보면, policy term 자체로 entropy 정의한 것.
결론:
β H(π)는 **“너무 빨리 확신하지 말고 계속 탐험해!”**라고 외치는 안전장치야. 특히 복잡한 환경에서 local optimum에 갇히는 걸 막아주는 핵심 기법이지!