월드 모델 (World Models)

Digest: 강화학습(Reinforcement Learning, RL) 에이전트가 복잡한 시각적 환경에서 학습하려면 수백만 번의 실제 환경 상호작용이 필요한데, 이는 로봇이나 자동차처럼 현실 세계에 적용할 때 치명적인 병목이 된다. Ha & Schmidhuber(arXiv:1803.10122)는 인간이 머릿속에 세상의 축약된 그림을 그려두고 그것으로 미래를 시뮬레이션한다는 인지과학의 월드 모델(world model) 개념에서 출발해, 에이전트가 실제 환경 없이 자신의 상상(hallucination) 속에서만 학습할 수 있는지 물었다. 이들의 핵심 통찰은 “표현 학습(representation learning)과 행동 학습(policy learning)을 완전히 분리하면 각각이 훨씬 쉬워진다”는 것이다. 구체적으로 세 모듈을 설계했다. **V(VAE, Variational Autoencoder)**는 64×64 픽셀 프레임을 저차원 잠재 벡터 z로 압축하고, **M(MDN-RNN, Mixture Density Network-RNN)**은 과거 상태 h와 현재 z, 행동 a를 받아 다음 z의 확률 분포 P(z_{t+1}|a_t, z_t, h_t)를 예측하며 — 즉 미래를 꿈꾸는 역할을 한다 — C(컨트롤러, Controller)는 고작 867~1088개 파라미터짜리 선형 레이어로 [z, h]를 행동으로 매핑하고 CMA-ES(진화 전략 최적화 알고리즘)로 훈련한다. 이 구조는 크레딧 할당(credit assignment, 어떤 행동이 보상에 기여했는지 역추적하는 문제)을 극적으로 단순화한다. 결과는 두 가지로 나뉜다: CarRacing-v0에서는 906±21점으로 당시 최초로 ‘해결 기준’(≥900)을 달성했고(RNN 제거 시 632점으로 하락 — Table 1), VizDoom Take Cover에서는 에이전트가 M이 만든 꿈 환경에서만 훈련해 실제 환경 이전(transfer) 후 1092±556점을 기록, 기존 gym 베이스라인 820점을 넘어섰다. 단, 온도 파라미터 τ(temperature τ, 꿈의 결정론성 조절값)를 낮게 설정하면 컨트롤러가 월드 모델의 허점을 파고들어(예: 가상 몬스터가 절대 발사하지 않도록 유도) 꿈 속 점수는 2086에 달하지만 실제 환경에서는 193으로 붕괴한다 — 따라서 τ=1.15처럼 충분한 불확실성을 주입해야 실질적인 이전이 가능하다. 한계로 저자 스스로 인정한 것은 VAE의 재구성 손실이 과제 관련성과 무관하게 모든 픽셀을 동등하게 처리한다는 점, LSTM 용량 한계로 인한 망각, 그리고 계층적 계획의 부재다. 열려 있는 질문: 월드 모델이 훈련 중 동적으로 개선될 수 있는가? 과제 목표를 모르는 순수 비지도 표현이 과연 에이전트에게 최선인가? 고차원·장기 의존 실제 세계 환경으로 어떻게 확장할 수 있는가?


섹션별 요약

Abstract

Ha & Schmidhuber (2018)는 강화학습(reinforcement learning) 환경을 위한 생성적 신경망 기반 세계 모델(world model)을 제안한다. 핵심 아이디어는 에이전트(agent)를 두 부분으로 분리하는 것이다: (1) 환경의 압축된 공간적·시간적 표현을 비지도 학습(unsupervised learning)으로 빠르게 획득하는 대형 세계 모델, (2) 세계 모델이 추출한 특징(feature)만을 입력으로 받아 매우 단순한 정책(policy)을 학습하는 소형 컨트롤러(controller). 이 구조는 신용 할당(credit assignment) 문제를 소형 탐색 공간으로 국한하면서도 높은 표현 용량을 유지한다. 특히 에이전트를 세계 모델이 생성한 ‘꿈(dream)’ 환경 안에서 전적으로 훈련하고, 학습된 정책을 실제 환경으로 전이(transfer)할 수 있음을 보인다. CarRacing-v0와 VizDoom Take Cover 벤치마크에서 당시 최고 성능을 달성하며 이 접근법의 유효성을 입증한다.

저자 contribution

  • 세계 모델을 VAE(시각 압축) + MDN-RNN(시간 예측)으로 구성하는 모듈식 아키텍처 제안
  • 에이전트를 대형 비지도 세계 모델과 소형 진화 전략(evolution strategy) 기반 컨트롤러로 분리하여 신용 할당 문제를 효과적으로 완화
  • 온도 파라미터 τ를 활용해 꿈 환경 내 정책 과적합(‘치팅’)을 억제하고 실환경 전이를 개선하는 메커니즘 제시
  • CarRacing-v0 최초 해결(score ≥ 900), VizDoom Take Cover 리더보드 최고 성능 달성
  • 에이전트를 실제 환경 없이 완전히 꿈 속에서 훈련하는 ‘dream training’ 패러다임 시연

왜 이 연구를 하는가?

문제 인식: 강화학습에서 고차원 환경을 직접 처리하는 단일 대형 신경망은 신용 할당 문제로 인해 학습이 느리고 불안정하다. 반면 인간의 뇌는 세계의 압축 모델을 내부적으로 유지하고 이를 기반으로 빠른 반사적 행동을 생성한다 (Forrester: “우리가 머릿속에 지닌 세계의 이미지는 하나의 모델일 뿐이다”; 야구 타자의 반사적 궤적 예측 비유).

핵심 가설: 에이전트를 (a) 환경을 압축·예측하는 대형 세계 모델과 (b) 세계 모델의 표현만을 입력받는 소형 컨트롤러로 분리하면, 신용 할당 부담을 최소화하면서도 충분한 표현 용량을 유지할 수 있다.

추가 동기: 세계 모델이 충분히 정확하다면, 에이전트를 실제 환경과의 상호작용 없이 세계 모델이 생성하는 ‘꿈’ 공간 내에서 훈련할 수 있다. 이는 값비싼 실환경 렌더링 비용을 절감하고 병렬 GPU 가속 학습을 가능하게 한다.

Introduction

인간은 제한된 지각으로부터 세계의 내부 정신 모델(mental model)을 구성한다. 인간의 뇌는 환경의 압축된 공간적·시간적 표현을 학습하고, 운동 행동(motor action)이 주어졌을 때 미래 감각 데이터를 예측한다. 야구 타자가 투구 궤적을 의식적 계획 없이 반사적으로 예측해 반응하는 사례는 학습된 내부 모델이 빠른 반응을 가능하게 함을 시사한다.

기계학습 맥락에서 대형 RNN(Recurrent Neural Network)은 높은 표현력을 갖지만, 전체 에이전트를 하나의 거대 네트워크로 구성하면 신용 할당(credit assignment) 문제가 심각해진다. 이 연구는 에이전트를 (1) 대형 비지도 세계 모델과 (2) 소형 컨트롤러로 분리하는 접근법을 제안한다. 세계 모델은 약 10^7 파라미터 규모의 표현 용량을 담당하고, 컨트롤러는 극소수의 파라미터만 가진다. 이 분리는 신용 할당을 소형 탐색 공간에 집중시킴으로써, 진화 전략(evolution strategy)처럼 상대적으로 단순한 최적화 방법으로도 효과적인 정책 학습이 가능하게 한다.

Methods

본 모델은 세 가지 모듈로 구성된다: V (Vision), M (Memory), C (Controller).

V — VAE (Variational Autoencoder, 시각 인코더)
64×64 픽셀 RGB 프레임을 저차원 잠재 벡터 z로 압축한다. CarRacing에서 z ∈ R^32, VizDoom에서 z ∈ R^64. 가우시안(Gaussian) 사전 분포(prior)를 통한 정보 병목(information bottleneck)이 불필요한 시각적 세부 정보(예: 벽돌 텍스처)를 억제하고 표현 견고성을 높인다. VAE 파라미터 수: CarRacing 약 4.35M, VizDoom 약 4.45M.

M — MDN-RNN (Mixture Density Network + LSTM, 기억 모듈)
다음 잠재 상태의 조건부 분포 P(z_{t+1} | a_t, z_t, h_t)를 혼합 가우시안(mixture of Gaussians)으로 모델링한다. 혼합 성분 수 5개, 대각 공분산(diagonal covariance) 사용. LSTM 은닉 상태 크기: CarRacing 256, VizDoom 512. 온도 파라미터 τ가 샘플링의 확률성(stochasticity)을 제어한다(낮은 τ → 결정론적에 가까움; 높은 τ → 높은 확률성). 파라미터 수: CarRacing 약 422K, VizDoom 약 1.68M.

C — Controller (컨트롤러)
단일 선형 레이어: a_t = W_c [z_t, h_t] + b_c. 파라미터 수: CarRacing 867개, VizDoom 1,088개. 현재 잠재 벡터 z_t와 RNN 은닉 상태 h_t를 연결(concatenate)하여 입력받는다. CMA-ES(Covariance Matrix Adaptation Evolution Strategy)로 최적화: 집단(population) 크기 64, 에이전트당 16회 롤아웃/세대.

타임스텝별 통합 루프

  1. V가 관측 obs_t → z_t 인코딩
  2. C가 [z_t, h_t] → 행동 a_t 결정
  3. M이 [a_t, z_t, h_t] → h_{t+1} 업데이트

꿈(dream) 훈련 (VizDoom)
M 자체를 시뮬레이터로 삼아, 실제 환경 렌더링 없이 C를 전적으로 꿈 공간에서 학습시킨다. M은 다음 z뿐 아니라 보상(reward), 종료 신호(done)도 예측하도록 확장된다.

반복 훈련 절차 (어려운 환경용)
랜덤으로 M, C 초기화 → 실환경에서 N회 롤아웃으로 (obs, action) 수집 → M 학습 → M 내부에서 C 학습 → 반복. 향후 탐색을 위해 내재적 동기(intrinsic motivation / curiosity) 도입 가능성을 언급.

발견 (Findings)

핵심 발견 1 — 세계 모델의 시간적 표현이 성능의 핵심: CarRacing에서 RNN 은닉 상태 h를 제거하면 점수가 906에서 632로 하락한다. 고속 주행 시 반사적 예측에 필요한 시간적 맥락이 h에 담겨 있음을 보여주며, 의식적 계획 없는 인간 타자의 비유와 직접 대응한다.

핵심 발견 2 — 꿈 훈련의 실환경 전이 가능성 확인: VizDoom에서 에이전트를 실환경과 완전히 격리하여 꿈 속에서만 훈련했음에도 실환경 리더보드를 초과하는 성능을 달성했다. 충분히 정확한 세계 모델이 실환경 시뮬레이터를 대체할 수 있음을 입증한다.

핵심 발견 3 — 온도 파라미터 τ가 전이의 관건: 낮은 τ에서 컨트롤러는 세계 모델의 결정론적 편향을 착취하는 치팅 정책을 학습한다. τ를 높여 불확실성을 주입하면 컨트롤러가 실제 환경에서도 유효한 일반적 전략을 학습한다. 꿈-현실 간 도메인 갭(domain gap) 관리를 위한 실용적 메커니즘을 제공한다.

핵심 발견 4 — 극소 컨트롤러의 충분성: 867~1,088개 파라미터의 단일 선형 레이어가 A3C(수백만 파라미터) 대비 월등한 성능을 보인다. 표현 용량이 세계 모델에 집중되고 정책 자체는 단순할 수 있음을 뒷받침한다.

Results

CarRacing-v0 (해결 기준: 평균 점수 ≥ 900, 100 trial)

모델점수
V + M (FULL, 제안 모델)906 ± 21 (최초 해결)
V + 은닉 레이어 컨트롤러788 ± 141
V only (RNN 없음)632 ± 251
A3C 베이스라인591 – 652
기존 리더보드 최고838 ± 11

RNN 은닉 상태 h가 제공하는 시간적 맥락이 결정적 기여: h 없이 z만 쓰면 632로 급락하며 분산도 크게 증가. 단일 선형 레이어 컨트롤러(867 파라미터)만으로도 시간적 특징이 주어지면 안정적 고속 주행 가능.

VizDoom: Take Cover (해결 기준: 평균 점수 ≥ 750, 100 trial; 에이전트를 꿈에서만 훈련 후 실환경 전이)

τ (온도)꿈 점수실환경 점수
0.102086 ± 140193 ± 58
0.502060 ± 277196 ± 50
1.001145 ± 690868 ± 511
1.15918 ± 5461092 ± 556 (최고, 해결)
1.30732 ± 269753 ± 139
Gym 리더보드820 ± 58
  • τ = 1.15에서 실환경 점수 1092 ± 556으로 Gym 리더보드(820 ± 58) 초과.
  • 온도-전이 트레이드오프: 낮은 τ에서 꿈 점수는 극도로 높으나(2086) 실환경 점수는 193으로 붕괴. 높은 τ는 꿈 점수를 낮추지만 실환경 전이를 크게 개선.
  • 세계 모델 ‘치팅(cheating)’: τ가 낮으면 컨트롤러가 세계 모델의 허점을 이용하는 적대적 정책을 발견(예: 가상 몬스터가 발사를 못하게 특정 위치로 이동). M이 실환경의 완전한 복제물이 아니기 때문이며, 높은 τ로 불확실성을 주입하면 억제됨.

Discussion

강점 및 의의
세계 모델 기반 꿈 훈련은 값비싼 실환경 렌더링을 대체하여 GPU 병렬 가속이 가능한 빠른 정책 탐색을 가능하게 한다. 세계 모델 자체가 완전 미분가능(fully differentiable)하므로 향후 역전파를 통한 정책 최적화로 확장 가능하다. 모듈 분리 설계 덕분에 각 모듈을 독립적으로 교체·개선할 수 있다.

한계

  • 비지도 VAE의 관련성 문제: VAE는 보상과 무관하게 재구성 손실로만 학습되므로 벽돌 텍스처 같은 작업 비관련 특징을 인코딩할 수 있다.
  • LSTM 용량 및 망각(catastrophic forgetting): 제한된 용량으로 모든 경험을 저장하지 못하며, 반복 훈련 시 이전 역학을 잊을 수 있다.
  • 계층적 계획 부재: 스텝별 시뮬레이션 구조는 장기적 추상 추론이나 계층적 계획을 지원하지 않는다.
  • 온도 하이퍼파라미터 민감성: τ 선택이 전이 성능에 결정적이며 환경마다 재조정 필요.
  • 탐색 의존성: 초기 롤아웃이 랜덤 정책에 의존하므로 희소 보상 환경에서는 탐색이 불충분할 수 있다.

향후 방향

  • 외부 메모리 또는 고용량 M으로 망각 문제 해결
  • Schmidhuber의 “Learning to Think”: 컨트롤러가 M의 내부 서브루틴을 재사용하는 계층적 계획
  • 행동 재생(behavioral replay)으로 파국적 망각 완화
  • 작업 관련 표현 학습을 위한 지도 신호 통합

이론적 의의

세계 모델 논문은 인지과학의 내부 모델(mental model) 이론을 딥러닝 RL 아키텍처로 구체화한 초기 사례다. 에이전트의 인지 부담을 표현 학습과 정책 학습으로 명시적으로 분리하는 설계 철학은 이후 MBRL(Model-Based RL) — Dreamer, DreamerV2/V3, TD-MPC 등 — 의 직접적 선구자이며, 표현 학습 측면에서는 LeCun의 JEPA/AMI 비전과도 개념적으로 공명한다. “표현이 충분하면 정책은 단순해도 된다”는 원칙에 대한 강력한 경험적 지지를 제공한다.

Discussion Points

  • 논쟁점 1 — 비지도 표현의 작업 관련성: VAE를 재구성 손실만으로 학습하면 보상과 무관한 특징이 z에 포함된다. 이후 Dreamer 계열이 잠재 공간에서 직접 역전파/보상 예측으로 이를 해결.
  • 논쟁점 2 — 온도 τ의 체계적 선택: 최적 τ가 환경마다 수동 탐색으로 결정된다. 모델 불확실성 기반 적응적 τ가 가능한가?
  • 논쟁점 3 — ‘치팅’ 현상의 일반성: 세계 모델이 불완전한 한 모델 착취는 원천적으로 발생한다. τ 조정으로 충분한가, 앙상블 등 근본적 변경이 필요한가?
  • 검증 필요 가정: (1) CarRacing/VizDoom은 단순 환경 — 복잡한 부분 관측·희소 보상 환경에서도 분리 설계가 유효한가? (2) 컨트롤러가 복잡해지면 CMA-ES의 샘플 효율이 급락할 수 있다.
  • 후속 연구: (1) 외부 메모리(DNC 등) 통합으로 망각 해결, (2) “Learning to Think”식 계층적 계획, (3) curiosity 기반 탐색 통합, (4) 직접적 계승인 Dreamer 계열(잠재 역전파, RSSM)과의 비교.

실험 결과 상세

CarRacing-v0 (solve ≥ 900 평균/100 trials)

Model/MethodMetricScorevs. Baseline
World Models V+M+C (제안)Average Score906 ± 21+68 vs. prior best (최초 해결)
World Models V+M+hidden CAverage Score788 ± 141-50 vs. prior best
World Models V-only (no RNN)Average Score632 ± 251-206 vs. prior best
A3C (lower~upper)Average Score591 – 652
Prior leaderboard bestAverage Score838 ± 11기준

파라미터 수: VAE 4,348,547 / MDN-RNN 422,368 / Controller 867.

VizDoom Take Cover — 꿈 훈련 후 실환경 전이 (solve ≥ 750)

τ꿈(Virtual)실환경(Actual)
0.102086 ± 140193 ± 58
0.502060 ± 277196 ± 50
1.001145 ± 690868 ± 511
1.15 (optimal)918 ± 5461092 ± 556
1.30732 ± 269753 ± 139
Gym baseline820 ± 58

해석: 낮은 τ → 컨트롤러가 월드 모델 허점 착취(“cheating”) → 꿈 점수는 높지만 실환경 전이 실패. 높은 τ → 노이즈 주입으로 cheating 방지 → 실환경 전이 성공. 파라미터 수: VAE 4,446,915 / MDN-RNN 1,678,785 / Controller 1,088.

프레임워크 다이어그램

graph LR
    OBS["관측 o_t (64x64 frame)"]
    V["V: VAE Encoder"]
    Z["잠재 벡터 z_t (R^32 or R^64)"]
    H["은닉 상태 h_t (LSTM)"]
    C["C: Controller (선형, CMA-ES)"]
    ACT["행동 a_t"]
    M["M: MDN-RNN (LSTM + 5 Gaussians)"]
    ZN["예측 z_{t+1}"]
    ENV["환경 또는 Dream (hallucinated)"]

    OBS --> V
    V --> Z
    Z --> C
    H --> C
    C --> ACT
    Z --> M
    ACT --> M
    H --> M
    M --> ZN
    M --> H
    ZN -->|Dream loop| V
    ACT --> ENV
    ENV --> OBS

    style V fill:#4a90d9,color:#fff
    style M fill:#e8a838,color:#fff
    style C fill:#5cb85c,color:#fff

재현성 및 신뢰도 평가

항목등급비고
코드 공개worldmodels.github.io interactive article + 전체 코드 (github.com/hardmaru/WorldModels). CarRacing/VizDoom 포함.
데이터 공개학습 데이터는 rollout 자체 생성; CarRacing-v0, VizDoom Take Cover 모두 공개 환경.
하이퍼파라미터VAE latent dim(32/64), MDN-RNN hidden(256/512), Gaussian 수(5), CMA-ES pop(64), rollout(16), τ 범위 모두 기재.
실험 환경⚠️GPU/CPU 사양·학습 시간 미명시. 2018년 논문으로 gym/VizDoom 버전 의존성 주의.
통계적 신뢰도⚠️CarRacing 100 trials 평균±std 보고. VizDoom actual std ±556으로 매우 큼; 다중 seed 반복 부족.
종합 등급B코드/환경/하이퍼파라미터 공개 우수하나, 하드웨어 미기재 및 통계 반복 부족. 2018년 기준 상위권 재현성.

주장별 신뢰도

#주장근거신뢰도
1V+M+C가 CarRacing-v0 최초 해결(906±21)100 trials 평균이 threshold(900) 초과; ablation(V-only 632)으로 모듈 기여 입증🟢
2꿈에서만 학습한 컨트롤러가 실환경 전이 성공(1092±556)실환경 접근 없이 dream만으로 학습 후 전이; gym 820 대비 +272; 단 std 556🟡
3τ 증가가 world model “cheating” 방지 및 전이 개선τ 0.10~1.30 systematic ablation; virtual-actual 역상관 명확🟡
4극소 파라미터(867~1088) 컨트롤러로 충분CMA-ES로 ~1000 파라미터만 최적화; 전체 대비 < 0.02%🟢

읽기 난이도: ⭐⭐

Interactive article 형식으로 시각화가 풍부하나, VAE / LSTM / MDN / CMA-ES 개별 이해가 전제. 필요 배경: VAE, RNN/LSTM, Mixture Density Network, 진화 알고리즘 기초, OpenAI Gym, RL 기본 개념.

관련 연구 비교 매트릭스

선정 근거: Schmidhuber(1990)는 World Models의 직접 개념 선조(world model + controller 이분 구조), VAE(2014)는 V 컴포넌트의 기반. PlaNet·Dreamer는 “픽셀 기반 latent dynamics”를 다루는 직계 후속, MuZero는 value-equivalent planning이라는 대안 패러다임 대표작이다.

World Models (본 논문, 2018)Schmidhuber 1990 [base]VAE (2014) [base]PlaNet (2019) [successor]Dreamer (2020) [sota/successor]MuZero (2020) [alt]
World Model 역할환경 동역학을 압축·생성하는 “꿈”; controller가 real env 없이 모델 안에서 훈련C 훈련용 gradient를 전달하는 미분가능 예측기 M (개념 제안)world model의 부품(V)일 뿐, 자체는 프레임 압축픽셀→latent 추론 + MPC 계획용 dynamicslatent imagination rollout 생성용 dynamicsvalue-equivalent latent model; MCTS planning
모델 컴포넌트V(VAE)+M(MDN-RNN)+C(선형)Model network M + Controller CEncoder q(z|x)+Decoder p(x|z)RSSM(GRU+stochastic) + CNN encoderRSSM + actor + valuerepresentation h + dynamics g + prediction f (reconstruction-free)
정책/컨트롤러 학습CMA-ES(gradient-free)로 소형 C 최적화M 통한 backprop(개념)정책 없음(ELBO 학습)정책 없음; CEM 기반 MPCactor-critic, BPTT through RSSMMCTS + policy/value self-play
Planning vs ReactiveReactive(단일 순전파); dream은 오프라인 훈련용Reactive해당 없음Planning(매 스텝 CEM)test 시 Reactive(훈련은 imagination)Planning(매 스텝 MCTS)
핵심 벤치마크CarRacing 906(최초 해결); VizDoom dream-train 1092정량 없음이미지 생성 품질DMControl pixel MBRL SOTA(당시)DMControl 전반 대폭 개선Atari 731% / Go·Chess·Shogi
상상 내 학습?완전 yes(“training entirely in the dream”)부분(M 통한 backprop)해당 없음No(계획만 imagination, 정책 업데이트는 real)Yes(actor/value 전부 latent imagination)부분(MCTS는 model 내, 학습은 self-play)
코드 공개부분 ✅(pseudocode)

원자적 인사이트 (Zettelkasten)

💡 세계의 압축 표현 안에서 꿈꾸며 학습하기: 상상 기반 정책 훈련의 최초 실증

출처: 본 논문 (Ha & Schmidhuber, 2018) — 유형: 방법론적

에이전트가 실제 환경과 한 번도 상호작용하지 않고, 학습된 생성 모델(MDN-RNN)이 만든 꿈(dream) 환경에서만 정책을 훈련해 실제 환경으로 성공적으로 이전할 수 있음을 처음 실증했다(VizDoom 1092±556 > A3C 820). 핵심은 MDN-RNN이 미래 잠재 상태의 확률 분포 P(z_{t+1})를 출력해 불확실성을 내재화한다는 점이다.
연결: Dreamer

💡 온도 τ가 월드 모델 착취를 막는다: 꿈 환경의 불확실성 주입 원리

출처: 본 논문 (Ha & Schmidhuber, 2018) — 유형: 실험적

MDN-RNN의 샘플링 온도 τ를 낮추면(결정론적 꿈) 컨트롤러가 모델 결함을 착취한다(꿈 2086, 실제 193). τ=1.15로 확률적 노이즈를 주입하면 컨트롤러가 평균적 위험에 대비하도록 강제되어 실제 전이가 1092로 회복된다. 불완전한 모델을 시뮬레이터로 쓸 때 모델 불확실성을 명시적으로 다뤄야 함을 보여준다.
연결: Dreamer

💡 대형 비지도 표현 + 소형 진화 컨트롤러: 크레딧 할당 문제의 분리 해결

출처: 본 논문 (Ha & Schmidhuber, 2018) — 유형: 이론적

V+M은 비지도로 대규모 사전훈련하고, C는 867~1088 파라미터 선형 레이어로 제한해 CMA-ES로 최적화한다. 이 분리는 컨트롤러의 검색 공간을 극소화해 크레딧 할당 문제를 우회한다. 비지도 표현이 항상 과제 최적은 아니라는 한계는 이후 Dreamer의 과제 조건부 표현 학습으로 발전했다.
연결: JEPA, IWM

핵심 용어 정리

용어정의
월드 모델 (world model)에이전트가 환경의 동작 방식을 내부적으로 압축·예측하는 학습된 모델. 인지과학의 내부 시뮬레이션 개념에서 유래.
VAE (V 모듈)고차원 이미지를 저차원 잠재 벡터 z로 압축·복원하는 생성 모델. 각 프레임을 64×64에서 소수의 연속 변수로 인코딩.
MDN-RNN (M 모듈)LSTM 위에 혼합 가우시안 출력층을 얹은 순환 신경망. h, z, a를 받아 다음 z의 확률 분포를 예측 — ‘꿈’을 생성.
컨트롤러 (C 모듈)[z, h]를 행동으로 매핑하는 극소형 선형 레이어(867~1088). CMA-ES로 훈련.
온도 τ (temperature)MDN-RNN 샘플링의 결정론성을 조절하는 값. τ→0 결정론적, τ>1 불확실성 증가.
꿈 속 학습 (learning in dreams)실제 환경 없이 MDN-RNN이 생성한 가상 궤적에서 컨트롤러를 훈련하는 방식.
크레딧 할당 (credit assignment)순차 행동 중 어느 것이 최종 보상에 기여했는지 역추적하는 RL 난제.
CMA-ES공분산 행렬을 적응적으로 갱신하며 해를 탐색하는 진화 전략. 기울기 없이 작동.
잠재 벡터 zVAE가 이미지를 압축한 저차원 연속 표현. 픽셀 대신 이 공간에서 예측·추론.

관련 연구

  • Dreamer — World Models의 잠재 공간 상상 훈련을 계승하되 월드 모델을 보상으로 엔드투엔드 훈련하는 직계 후속.
  • JEPA — JEPA/AMI 비전이 표현 학습 측면에서 월드 모델 개념을 재해석한 연구. 다른 경로에서 동일한 “세계 모델” 아이디어에 수렴.
  • IWM — 비지도 표현 학습에 월드 모델을 명시적으로 활용한 IWM. V+M 분리 구조가 비전 표현 학습으로 확장된 맥락.
  • PlaNet — 잠재 공간 계획으로 World Models의 꿈 기반 추론을 체계화한 후속. (노트 미존재)

태그

paper #2018 world-model model-based-rl generative-model learning-in-imagination vae reinforcement-learning


BibTeX

@article{ha2018world,
  title={World Models},
  author={Ha, David and Schmidhuber, J{\"u}rgen},
  journal={arXiv preprint arXiv:1803.10122},
  year={2018},
  url={https://arxiv.org/abs/1803.10122},
  eprint={1803.10122},
  archivePrefix={arXiv}
}