related: Model-Free RL

Environmental Model

환경 작동 방식, 즉 행동을 취했을 때 다음 상태가 어떻게 변하고 보상이 얼마나 주어질지 예측하는 규칙.

Summary

Model-based method는 env model(env dynamics) 그 자체를 모델링.
world model, Dyna-Q(tabular model), MBPO(dynamics model)

optimization target:
agent가 env랑 상호작용하며 얻은 데이터를 바탕으로 state-transition probability()와 reward function()을 가장 정확하게 예측하도록 optimization.
agent-env interaction이 학습 데이터로 사용되니 on-line learning.
Dreamer 등이 유명.

Check

크게 두 가지로 구분되는데,
Learn the model : 환경을 모르지만, 상호작용하며 모델을 스스로 학습하는 방식
Given the model : 체스나 바둑처럼 환경의 완벽한 룰을 이미 알고 시작하는 방식.

  • given the model이랑 model-free랑 구분되는 점은 model-free의 경우, agent의 경험에만 의존해서 학습하지만, 이 경우는 env dynamics에 대한 정보도 learning에서 고려된다는 점.

Question

model-based rl에서 given the model의 경우 바둑같이 env dynamics가 완벽하게 모델링이 된다. 즉, 환경의 변화가 없는데, model-free rl이랑 차이가 있어? model-free에서 env-dynamics만을 위해 따로 모델링을 하는 건 아니지만, 경험에 어느정도 그것들이 녹아 있지 않나? 아니면 그것만으로는 모자라서 env-dynamics를 명시적으로 modeling해주어서 학습을 강화하자는 게 차별 포인트인거야?

Ans : Yes
핵심 키워드는 바로 **‘계획(Planning/Search)‘**과 **‘상태 공간의 크기’**입니다.

1. 직관적 반응(Model-free) vs 시뮬레이션 계획(Model-based)

인간의 사고방식을 설명하는 ‘시스템 1(직관)‘과 ‘시스템 2(논리적 추론)‘에 빗대어 보면 이해가 쉽습니다.

  • Model-free (직관적 반응): 수많은 경험을 통해 “이 바둑판 모양에서는 이 자리에 두는 게 승률이 높더라”라는 **직관(패턴 인식)**을 학습합니다. 현재 판을 보고 반사적으로 다음 수를 떠올리는 ‘시스템 1’입니다.
  • Model-based (시뮬레이션 계획): 완벽한 규칙(Model)을 바탕으로 “내가 여기 두면 상대가 저기 두겠지? 그럼 나는 또 여기를 두고…” 하며 머릿속으로 수십 수 앞을 내다보는 **명시적인 수 읽기(Search/Planning)**를 합니다. 논리적이고 심사숙고하는 ‘시스템 2’입니다.

2. 왜 경험에 녹여내는 것만으로는 부족할까? (명시적 모델의 강력함)

환경의 역학을 경험에 암묵적으로 녹여내는 Model-free 방식은 복잡한 문제에서 치명적인 한계를 보입니다.

  • 우주적인 경우의 수 (상태 공간의 폭발): 바둑의 경우의 수는 에 달합니다. Model-free가 모든 상황에 대한 정확한 직관(Value)을 완벽히 체득하려면 이 모든 경우를 거의 다 경험해 봐야 하는데, 이는 물리적으로 불가능합니다. 결국 신경망의 ‘일반화’ 능력에 의존하게 되는데, 완전히 처음 보는 낯선 국면이 나오면 Model-free 에이전트는 엉뚱한 수를 두기 쉽습니다.
  • 정확한 ‘수 읽기(Lookahead)‘의 부재: Model-free는 현재 상태에서 신경망을 한 번 통과시켜(Forward pass) 다음 행동을 결정합니다. 반면, Model-based는 완벽하게 알고 있는 규칙을 이용해 결과가 나올 때까지 **끝까지 시뮬레이션(Rollout)**을 해볼 수 있습니다. 앞서 말씀하신 MCTS가 바로 이 역할을 합니다. 명시적 모델이 있기 때문에, 불확실한 직관에만 의존하지 않고 실제로 가상의 돌을 놓아보며 확신을 얻을 수 있는 것입니다.

3. 직관적인 비유: 미로 찾기

  • Model-free: 안대를 끼고 미로를 수만 번 돌아다니며 “이 교차로에서는 오른쪽으로 도는 게 맞았어”라는 근육 기억을 만드는 것과 같습니다. 경험하지 못한 새로운 길에서는 헤매기 쉽고, 미로 벽 하나가 살짝 바뀌면 다시 수없이 부딪히며 처음부터 학습해야 합니다.
  • Model-based: 미로의 **지도(Model)**를 위에서 내려다보고 있는 상태입니다. 지도를 보며 “이 길로 가면 막히네, 저 길로 가야겠다”라고 출발 전에 눈으로 먼저 경로를 끝까지 따라가 보는 것(Planning)이 가능합니다.

요약하자면

Model-free의 경험에도 환경의 역학이 녹아 있는 것은 분명 맞습니다. 하지만 바둑처럼 극단적으로 복잡한 환경에서는 과거의 경험(직관)만으로 새롭고 다양한 상황에 완벽하게 대처하기 어렵습니다. 따라서 완벽하게 주어지는 환경 규칙(Model)을 활용해, 매 순간 미래를 명시적으로 시뮬레이션하고 검증하여(Planning/Search) 의사결정의 질을 압도적으로 끌어올리는 것이 Model-based를 사용하는 결정적인 이유입니다.
결국 알파고(AlphaGo)나 알파제로(AlphaZero) 같은 위대한 AI들은 이 두 가지를 결합했습니다. “신경망을 통한 직관(Model-free 요소)“으로 탐색 범위를 확 줄이고, “MCTS를 통한 수 읽기(Model-based 요소)“로 정교한 계획을 세우는 것이죠.