Dream to Control: 잠재 상상으로 행동을 학습하다

Digest

영상 입력 기반 강화학습은 모델 없는(model-free) 방법의 막대한 표본 비용과, 모델 기반 온라인 계획(online planning)의 짧은 horizon 한계 사이에 갇혀 있었다 (Context). 저자들은 이미 PlaNet에서 학습한 잠재 동역학 모델(Recurrent State-Space Model, RSSM) 을 단순한 계획 도구가 아니라 상상 환경의 미분 가능한 시뮬레이터로 재해석한다 (Insight). Dreamer는 잠재 공간에서 H=15 스텝의 상상 궤적을 펼치고, 그 위에서 액션 모델 q_φ(a_τ|s_τ)와 가치 모델 v_ψ(s_τ)를 학습하되, 가치 추정으로 λ-가중 다단계 리턴 V_λ(λ=0.95)를 사용해 horizon 너머의 보상을 안정적으로 흡수하고, 정책 갱신은 재매개화(reparameterization)와 동역학 신경망을 통한 해석적 그래디언트 역전파로 수행한다 (Solution). DeepMind Control Suite 20개 영상 과제에서 5×10⁶ 환경 스텝 후 평균 823점을 기록해 10⁸ 스텝의 강력한 모델-프리 D4PG의 786점을 능가했고, V100 GPU 한 장으로 10⁶ 스텝당 약 3시간 — PlaNet의 11시간, D4PG의 24시간을 압축했다 (Evidence). 한계로는 픽셀 재구성 목표가 contrastive 대안보다 우수했고 보상 예측만으로는 불충분했으며, 시각 복잡도가 큰 환경 일반화는 미해결로 남겼다 (Limitations). 이는 후속 연구(DreamerV2의 이산 잠재, DreamerV3의 보편 하이퍼파라미터)와 “world model을 미분 가능 시뮬레이터로 사용해 정책을 학습한다”는 패러다임의 출발점이 되었다 (Open Questions).

섹션별 요약

Abstract

학습된 world model은 에이전트의 경험을 압축해 복잡한 행동 학습을 돕는다. 고차원 감각 입력으로부터 world model을 학습하는 것은 딥러닝으로 가능해졌지만, 모델로부터 행동을 도출하는 방식에는 여러 선택지가 존재한다. 저자들은 Dreamer, 즉 영상 입력으로부터 장기 horizon 과제를 순수히 잠재 상상만으로 해결하는 RL 에이전트를 제안한다. 학습된 잠재 동역학 모델의 압축된 상태 공간 내에서 상상한 궤적을 따라 학습된 상태 가치(state values)의 해석적 그래디언트(analytic gradients) 를 역전파함으로써 정책을 효율적으로 학습한다. DeepMind Control Suite의 20개 도전적 시각 제어 과제에서 Dreamer는 데이터 효율성, 계산 시간, 최종 성능 모두에서 기존 접근을 능가한다.

저자 contribution

장기 horizon 행동의 잠재 상상 학습: 유한 horizon으로 인한 모델 기반 에이전트의 근시안성을 액션과 상태 가치를 동시에 예측하여 해소. 잠재 공간 내 순수 상상 학습으로, 잠재 동역학을 통한 가치 그래디언트의 해석적 역전파를 가능케 함.
시각 제어에서의 실증 우위: DeepMind Control Suite 영상 입력 환경에서 동일 하이퍼파라미터로 모델 기반·모델-프리 SOTA를 데이터 효율성·계산 시간·최종 성능 3축에서 동시 추월.
표상 학습(representation learning) 직교성 입증: 동일한 Dreamer 알고리즘이 픽셀 재구성, contrastive estimation, 보상 예측 등 어떤 동역학 학습 목적과도 결합 가능하며 — 픽셀 재구성이 가장 우수, contrastive가 그 다음, 보상 예측 단독은 불충분 — 표상 학습 발전이 곧바로 제어 성능 향상으로 이전됨을 보임.

왜 이 연구를 하는가?

문제의 층위: 영상으로부터 RL을 푸는 것은 (i) 표상 학습(고차원 픽셀 → 잠재 상태)과 (ii) 정책 도출(잠재 상태 → 행동) 두 하위 문제로 분리된다. PlaNet은 (i)을 풀었지만 (ii)는 매 스텝마다 CEM으로 온라인 계획을 수행해 비싸고 horizon이 짧았다.
기존 접근의 3가지 한계:
1. 모델-프리 액터-크리틱(DDPG/SAC/D4PG)은 경험 재생만 사용 — 학습된 동역학을 통과하는 그래디언트를 활용하지 못해 Q함수의 즉시 그래디언트만 사용.
2. 모델 기반 온라인 계획(PETS, VisualMPC, PlaNet)은 derivative-free 최적화에 의존 — 동역학이 미분 가능한데도 그래디언트를 안 씀.
3. 고정 horizon 상상 보상 최대화(Dyna 류, World Models)은 horizon 너머의 가치를 무시 → 근시안적 정책.
핵심 질문 (RQ): 학습된 잠재 동역학을 정말로 미분 가능한 시뮬레이터처럼 활용해 액터-크리틱을 학습하면, 모델 오류에 강건성을 잃지 않으면서도 horizon 너머의 가치를 흡수해 장기 행동을 효율적으로 풀 수 있는가?
연구 동기: world model의 잠재 공간이 충분히 압축적이면 수천 개 궤적을 병렬로 상상할 수 있고, 이는 그래디언트 추정의 분산 문제를 완화하므로 — Reinforce가 아닌 reparameterization 기반 정책 학습이 처음으로 영상 RL에서 안정적으로 작동할 수 있다는 가설.

Introduction

지능적 에이전트는 동일한 상황을 두 번 마주치지 않는 환경에서도 목표를 달성하려면, 과거 경험으로부터 일반화 가능한 표상을 구축해야 한다. World model은 이를 명시적·매개변수적 형태로 표현해 미래 예측을 수행한다.
입력이 고차원 영상일 때 잠재 동역학 모델(latent dynamics models) 은 관측을 추상화해 압축된 상태 공간에서 forward prediction을 수행한다 (Watter+2015, Oh+2017, Gregor+2019). 픽셀 공간 예측 대비 메모리 footprint가 작아 수천 개 궤적을 병렬 상상 가능 (Krishnan+2015, Karl+2016, Doerr+2018, Buesing+2018).
동역학 모델로부터 행동을 도출하는 방식은 다양하다 — (a) 매개변수 모델로 상상 보상 최대화 (Sutton 1991, Ha & Schmidhuber 2018, Zhang+2019), (b) 온라인 계획 (Chua+2018, Hafner+2018). 그러나 고정 horizon만 고려하면 근시안 정책이 되고 (Wang+2019), 선행 연구는 모델 오류 강건성을 위해 derivative-free 최적화에 머무르며 (Ebert+2017, Chua+2018, Parmas+2019), 신경망 동역학이 제공하는 해석적 그래디언트(Henaff+2019, Srinivas+2018)를 활용하지 않았다.
Dreamer 제안: 영상으로부터 장기 horizon 행동을 순수 잠재 상상만으로 학습. 새로운 액터-크리틱은 imagination horizon 너머의 보상을 고려하면서도 신경망 동역학을 효율적으로 사용. 잠재 공간 내 상태 가치와 행동을 예측하고, 가치는 imagined 보상의 Bellman consistency를 최적화, 정책은 동역학을 통한 해석적 그래디언트로 가치를 최대화.
온라인/경험 재생 기반 액터-크리틱 (Lillicrap+2015, Mnih+2016, Schulman+2017, Haarnoja+2018, Lee+2019)과 비교해 world model은 (a) 과거 경험을 보간(interpolate)하고 (b) 다단계 리턴의 해석적 그래디언트를 제공해 정책 최적화 효율을 끌어올린다.

Methods

1) 문제 정의

POMDP: 이산 시간 t∈[1,T], 연속 행동 a_t ∼ p(a_t | o_<t, a_<t), 고차원 관측 + 스칼라 보상 o_t, r_t ∼ p(o_t, r_t | o_<t, a_<t). 목표는 E_p(Σ_t r_t) 최대화.
에이전트 3구성요소(Sutton 1991): (i) 동역학 학습, (ii) 행동 학습, (iii) 환경 상호작용 — 인터리브 또는 병렬로 수행.

2) 잠재 동역학 (Section 2 + 4: PlaNet 재사용)

표상 모델: p_θ(s_t | s_{t-1}, a_{t-1}, o_t) — RSSM(Recurrent State-Space Model)의 stochastic+deterministic 결합 상태에 CNN 인코더를 결합.
전이 모델: q_θ(s_t | s_{t-1}, a_{t-1}) — 관측 없이 잠재 공간에서 미래 상태 예측.
보상 모델: q_θ(r_t | s_t) — dense network.
(재구성 변형 시) 관측 모델: q_θ(o_t | s_t) — transposed CNN. ELBO/VIB 손실: J_REC = E_p[Σ_t (J_O^t + J_R^t + J_D^t)] (관측 + 보상 재구성 + KL).
표상 학습 목적은 알고리즘과 직교(orthogonal): 픽셀 재구성, contrastive (NCE), pure reward prediction 모두 시험.

3) 잠재 상상 환경 (Section 3, 핵심 기여)

압축된 잠재 상태 s_t는 Markov이므로 잠재 동역학은 MDP를 정의 — 완전 관측. 상상 시간 인덱스 τ.
상상 궤적은 데이터셋에서 추출한 실제 모델 상태 s_t에서 시작 → 전이 모델·보상 모델·정책으로 H=15 스텝 펼침.
목적함수: max_{q_φ} E_q[Σ_{τ=t}^∞ γ^{τ-t} r_τ] (정책 기준).

4) 액션·가치 모델

Action model: a_τ ∼ q_φ(a_τ | s_τ), tanh-transformed Gaussian (SAC와 동일), reparameterization으로 a_τ = tanh(μ_φ(s_τ) + σ_φ(s_τ) · ε), ε ∼ N(0,I).
Value model: v_ψ(s_τ) ≈ E_q[Σ_{τ’=τ}^{τ+H} γ^{τ’-τ} r_{τ’}].
협력 학습: 정책 반복(policy iteration) 패턴 — action은 가치 추정을 최대화, value는 갱신된 정책의 기대 리턴을 회귀.

5) 가치 추정: V_λ (편향-분산 트레이드오프)

V_R(s_τ) = Σ_{n=τ}^{t+H} r_n (horizon 내 보상만, value 미사용).
V_N^k(s_τ) = Σ_{n=τ}^{h-1} γ^{n-τ} r_n + γ^{h-τ} v_ψ(s_h), h = min(τ+k, t+H) (k 스텝 후 부트스트랩).
V_λ(s_τ) = (1-λ) Σ_{n=1}^{H-1} λ^{n-1} V_N^n(s_τ) + λ^{H-1} V_N^H(s_τ) — TD(λ)식 지수 가중 평균. λ=0.95.
V_R 대비 학습된 value model이 horizon 너머의 가치를 흡수해 짧은 H에서도 안정성 확보.

6) 학습 목표 (Eq. 7-8)

정책: max_φ E_{q_θ, q_φ} [Σ_{τ=t}^{t+H} V_λ(s_τ)] — V_λ가 동역학·정책에 미분 가능하므로 역전파.
가치: min_ψ E_{q_θ, q_φ} [Σ_{τ=t}^{t+H} ½ ‖v_ψ(s_τ) − V_λ(s_τ)‖²], V_λ는 stop-gradient.

7) 알고리즘 (Algorithm 1)

시드 에피소드 S개로 D 초기화.
while not converged:
- update 단계 c=1..C: D에서 B개 시퀀스 (길이 L) 샘플 → 잠재 상태 s_t 계산 → θ 갱신(동역학) → 각 s_t에서 H 스텝 상상 → V_λ 계산 → φ, ψ 갱신.
- 환경 상호작용 T 스텝: history로 s_t 추론 → action model로 a_t 샘플 + 탐색 잡음 → env.step → D에 추가.

발견 (Findings)

Headline 1: Dreamer는 영상 RL 20개 과제에서 5M step 평균 823점 — 100M step의 D4PG(786점)를 20배 적은 데이터로 추월 (Figure 6).
Headline 2: V_λ 가치 모델 도입으로 imagination horizon에 거의 무관한 성능 — H=10/20/30/40에서 모두 안정 (Figure 4, 4개 과제 sweep).
Headline 3: 동일 world model로 PlaNet의 온라인 계획을 3.7× 빠르게 학습(11h → 3h per 1M step), D4PG 대비 8× 빠름.
Headline 4: 표상 학습 목적은 알고리즘과 직교 — 픽셀 재구성 > contrastive (NCE) > 보상 예측 단독 (Figure 8). 보상 예측 단독은 sparse reward에서 실패.
메커니즘 가설: V_λ + 해석적 그래디언트 조합이 (a) 분산을 낮추고 (Reinforce 대비), (b) horizon 너머 보상 신호를 잠재 동역학을 거꾸로 통과시켜 신용 할당(credit assignment) 거리를 효과적으로 늘림. 이것이 hopper/acrobot처럼 reactive로 풀리지 않는 long-horizon 과제에서의 우위(Figure 7) 원인.

Results

결과	값	출처	신뢰도
20개 control task 평균(@5e6 step)	Dreamer 823 vs D4PG 786(@1e8) vs PlaNet 332(@5e6) vs A3C(@1e8)	Figure 6, p.6	A (다수 시드 평균, baseline 명시)
GPU·시간 효율	Dreamer 3h / 1e6 step (V100×1 + 10 CPU) vs PlaNet 11h vs D4PG 24h	Section 6 Implementation, p.8	A
Imagination horizon 강건성	Cartpole/Cheetah/Quadruped/Walker에서 H={10,20,30,40} 모두 Dreamer가 No-value/PlaNet 능가	Figure 4, p.4	A
Action model only(no value)·PlaNet 대비	19개 horizon-20 task 중 16승 4무	Section 6 Long horizons, p.9	A
표상 목적 비교(8개 과제)	Reconstruction > Contrastive > Reward-only on most tasks	Figure 8, p.8	B (reward-only 단독 실패 상세는 appendix)
이산 행동/조기 종료(Atari/DM Lab)	적용 가능성 시연 (수치는 Appendix C)	Section 6 + Appendix C	C (본문 수치 없음)
장기 예측 시각화	5 frame context로 45 step 미래 잠재 공간 예측 → 픽셀 디코딩 일관	Figure 5, p.5	B (정성적)
시드 수	5 시드 평균	Figure 6 caption	A

주요 baseline 정의

D4PG (Barth-Maron+2018): 분산 수집 + distributional Q-learning + multi-step return + 우선순위 재생 — 모델-프리 SOTA.
A3C (Mnih+2016): on-policy actor-critic, low-dim state input.
PlaNet (Hafner+2018): 같은 RSSM world model을 사용하되 매 스텝 CEM 온라인 계획.
R=2 action repeat로 모든 baseline 통일.

Discussion

연구 가치: Dreamer는 “world model을 미분 가능 시뮬레이터로 활용한다”는 명제를 영상 RL에서 처음으로 실증해, 모델 기반 RL의 SOTA 위치를 모델-프리 액터-크리틱 위로 끌어올렸다.
한계:
1. 표상 학습 의존성: 픽셀 재구성에 가장 의존적이며, contrastive/reward-only는 부족 — 시각 복잡도가 더 큰 환경(3D 게임, 실로봇)에서 재구성이 비현실적이 되면 한계 노출 가능.
2. 하이퍼파라미터 통일성: continuous task 모두 같은 hyperparameter지만 discrete (Atari/DM Lab)는 별도 — DreamerV2/V3가 해결한 문제.
3. Stochasticity 모델링: 결정론적 backprop 가능한 reparameterized 연속 행동에 의존 — 이산 행동에서는 straight-through estimator 사용. 이산 잠재 상태 + 이산 행동의 통합 처리는 미진(DreamerV2가 이를 해결).
4. 세계 모델 오류 누적: Long-horizon 상상에서 transition error가 누적될 위험 — V_λ가 부분적으로 완화하지만 모델 오류 강건성 정량 분석은 부재.
향후 방향:
- 더 복잡한 시각 환경(Atari 100k 등)으로의 확장 → DreamerV2 (2020), DreamerV3 (2023).
- 실로봇 적용 → DayDreamer (2022).
- Hierarchy 도입 → Director (2022).
- 계층적 잠재 + Transformer 동역학 → IRIS (2022), TransDreamer.

이론적 의의

Sutton(1991)의 Dyna 청사진의 현대적 완성: “model을 학습하고 그 model로 정책을 학습한다”는 아이디어가 잠재 공간 + 해석적 그래디언트 + λ-리턴이라는 세 부품으로 영상 입력 환경에서 처음으로 안정·효율적으로 구현됨.
Reinforce vs reparameterization 논쟁에 답함: world model이 충분히 정확하면 분산이 작은 reparameterization 그래디언트가 우세하다는 것을 수치로 입증 — DDPG/SAC가 1-step Q에 이를 한정한 것을 다단계로 확장.
Bellman consistency를 imagined trajectory에 적용 — 실제 transitions이 아닌 모델 transitions에서 V를 부트스트랩하므로 off-policy 데이터 효율성과 multi-step credit assignment를 동시 획득.
표상 학습과 행동 학습을 명시적으로 직교화 → 이후 EfficientZero, V-JEPA 등의 representation-as-foundation 패러다임으로 이어짐.

Discussion Points

논쟁점:
- 픽셀 재구성이 contrastive를 이긴 결과는 표상 학습 커뮤니티의 통념(contrastive > generative)과 반대 — 이는 (a) RL에서 보상 관련 신호가 “사소한” 픽셀에도 분포되어 generative가 유리한지, (b) DM Control의 단순한 시각이 reconstruction을 쉽게 만든 것인지 구분 필요.
- V_λ는 사실상 GAE(Schulman+2015)의 λ-return을 imagined trajectory에 적용한 것 — 진정한 신규성이 어디인지(액터-크리틱 자체인지, world model 활용인지)에 대한 논쟁.
검증이 필요한 가정:
- 잠재 동역학이 H=15 스텝 동안 충분히 정확하다는 가정 — 시각 복잡도가 높은 환경에서 실증 필요.
- 모든 continuous task에서 동일 hyperparameter가 작동한다는 보고 — task별 분산은 어떤가?
후속 연구 제안:
- 동일한 framework에서 world model 오류 허용도 정량화 (Lipschitz analysis, 모델 ensemble + uncertainty).
- Contrastive + reconstruction 하이브리드 표상 — JEPA 계열 아이디어와 결합.
- 계층적 V_λ — 다중 시간 스케일 추상화로 H 한계 극복.

실험 결과 상세

핵심 수치 표

Metric	Dreamer	PlaNet	D4PG	A3C
평균 점수 (20 task)	823 @5M step	332 @5M	786 @100M	<500 @100M
1M step 학습 시간	3 h (V100×1)	11 h	24 h	—
Long-horizon 승률 (vs alternatives)	16/20	—	—	—
시드 수	5	5	—	—
Action repeat R	2	2	2	2
Imagination horizon H	15	12 (CEM)	N/A	N/A
λ (가치 추정)	0.95	N/A	N/A	N/A
Discount γ	0.99	0.99	0.99	0.99

주요 표상 학습 비교 (Figure 8 요약)

표상 목적	평균 성능 (8 task)	비고
Pixel reconstruction (default)	가장 높음	ELBO + KL
Contrastive (NCE)	약 절반 task에서 reconstruction 수준	픽셀 출력 모델 불요
Reward prediction only	가장 낮음	sparse reward에서 실패

프레임워크 다이어그램

flowchart TB
    subgraph A["A. Dynamics Learning (from past experience)"]
        O1["Observations o_t"] --> ENC["Representation Model<br/>p_θ(s_t | s_{t-1}, a_{t-1}, o_t)"]
        ENC --> S["Latent State s_t"]
        S --> TRANS["Transition Model<br/>q_θ(s_t | s_{t-1}, a_{t-1})"]
        S --> REW["Reward Model<br/>q_θ(r_t | s_t)"]
        S --> OBS["Observation Model<br/>q_θ(o_t | s_t)<br/>(reconstruction signal)"]
        OBS -.->|"ELBO + KL"| L1["Representation Loss"]
    end

    subgraph B["B. Behavior Learning (in latent imagination)"]
        S2["Initial latent s_t"] --> IMAG["Imagine H-step trajectory<br/>via transition model"]
        IMAG --> ACT["Action Model<br/>a_τ ~ q_φ(a_τ | s_τ)"]
        IMAG --> VAL["Value Model<br/>v_ψ(s_τ)"]
        VAL --> VLAM["V_λ targets<br/>(λ-weighted multi-step)"]
        VLAM -->|"backprop analytic gradients<br/>through dynamics"| ACT
        VLAM -->|"regress targets"| VAL
    end

    subgraph C["C. Environment Interaction"]
        H["History o_<=t, a_<t"] --> ENC2["Encode current s_t"]
        ENC2 --> ACT2["Action model + exploration noise"]
        ACT2 --> ENV["env.step(a_t) → r_t, o_{t+1}"]
        ENV --> DATA["Append to dataset D"]
    end

    DATA -.->|"replay"| O1
    A -.->|"trained world model"| B
    B -.->|"trained policy"| C

재현성 및 신뢰도 평가

항목	등급	근거
코드 공개	A	https://danijar.com/dreamer (TensorFlow 2 공식 + PyTorch 재구현 다수)
하이퍼파라미터 명시	A	Appendix A에 continuous/discrete 모두 명시, 동일 hyperparameter 사용
하드웨어 사양	A	V100×1 + 10 CPU, 3h/1M step 명시
시드 다중성	A	5 시드 평균 + 표준 오차
베이스라인 공정성	B	D4PG는 보고된 점수 사용(재실행 X), PlaNet은 R=2 통일을 위해 재실행
데이터/환경 공개	A	DM Control Suite + Atari + DM Lab 공개
Ablation 깊이	A	imagination horizon, value model on/off, 표상 목적 3종
종합 등급	B (코드/HP는 A, baseline 재실행 한정성으로 B)

주장별 신뢰도

“5M step에서 D4PG 100M step을 능가”: A — Figure 6, 5 seed 평균.
“horizon에 강건”: A — Figure 4의 sweep으로 직접 입증.
“표상 목적과 직교”: B — 8 task만 비교, 20 task 전체 비교는 부재.
“discrete action·early termination 적용 가능”: C — 본문 수치 없음, Appendix C 참조 필요.

논문	접근 핵심	모델 사용 방식	학습 신호	평가 도메인	데이터 효율성	코드 공개	Dreamer 대비
PlaNet (Hafner+2018)	RSSM world model + CEM 온라인 계획	매 스텝 모델로 plan	ELBO 재구성	DM Control 영상	★★★	✅	Dreamer가 행동 모델 학습으로 11h→3h 단축
World Models (Ha & Schmidhuber 2018)	VAE+MDN-RNN, CMA-ES로 컨트롤러 진화	상상에서 진화	reconstruction + reward	CarRacing, Doom	★★	✅	Dreamer는 그래디언트 기반 + λ-return
D4PG (Barth-Maron+2018)	분산 distributional DDPG	모델 미사용	TD + replay	DM Control	★	⚠️부분	모델-프리 SOTA, Dreamer가 20× 데이터로 추월
SAC (Haarnoja+2018)	엔트로피 정규화 reparameterized AC	모델 미사용	TD + replay	MuJoCo state	★★	✅	1-step Q vs Dreamer의 multi-step V_λ
MuZero (Schrittwieser+2019)	학습된 모델 + MCTS planning	매 스텝 MCTS	scalar (reward+value+policy)	Atari, Go	★ (대용량 필요)	⚠️비공식	Dreamer는 plan-free, 훨씬 sample-efficient
MVE/STEVE (Feinberg+2018, Buckman+2018)	모델로 multi-step Q-learning 보강	replay 보강	TD + 모델 rollout	low-dim control	★★	✅	즉시 Q에 한정, Dreamer는 V를 직접 학습
DreamerV2 (Hafner+2020)	이산 잠재 + KL balancing	잠재 상상	reconstruction + reward	Atari 200M	★★★	✅	Atari에서 모델-프리 SOTA 동등

원자적 인사이트 (Zettelkasten)

Latent imagination as a differentiable simulator: 학습된 transition model이 미분 가능한 신경망이라면, 그것은 단순한 예측기가 아니라 정책 그래디언트를 흐르게 할 수 있는 시뮬레이터다. 이 관점이 model-based RL에서 derivative-free → analytic gradient로의 패러다임 전환을 정당화한다.
V_λ as the bridge between finite horizon and infinite return: 유한 H 상상 안에서 보상만 더하면 근시안적이고, value만 부트스트랩하면 분산이 크다. λ-가중 평균 V_λ는 편향-분산을 단일 노브 λ로 조절하는 우아한 절충안이며, GAE와 같은 직관을 imagined trajectory에 적용한 것이다.
Representation learning is orthogonal to behavior learning in MBRL: 동일한 액터-크리틱이 픽셀 재구성·contrastive·보상 예측 등 어떤 표상 목적과도 결합 가능하다는 Dreamer의 결과는, MBRL의 발전이 곧 표상 학습의 발전과 합산적임을 의미한다. 이는 후속 V-JEPA·EfficientZero·TD-MPC 등의 설계 근거가 된다.
Compact latent enables thousands of parallel rollouts: 픽셀 공간 모델은 메모리 폭발로 수십 개 궤적이 한계지만, 압축 latent는 GPU 한 장에서 수천 개 궤적을 병렬 상상 → 그래디언트 추정 분산을 통계적으로 평균화. 표상 압축은 단순한 효율이 아니라 학습 알고리즘의 통계적 속성을 바꾼다.

핵심 용어 정리

Latent Imagination (잠재 상상): 학습된 동역학 모델의 압축 잠재 공간 안에서 미래 궤적을 펼쳐, 실제 환경 상호작용 없이 정책·가치를 학습하는 것. 본 논문의 핵심.
Recurrent State-Space Model (RSSM): 결정론적(deterministic) 부분과 확률적(stochastic) 부분을 결합한 잠재 상태 동역학 모델. PlaNet에서 도입되어 Dreamer가 재사용. 결정론 부분이 장기 정보를, 확률 부분이 불확실성을 담당.
V_λ (λ-return value estimate): 1-step에서 H-step까지의 부트스트랩된 리턴들을 λ-지수 가중 평균한 가치 추정. λ=0: 1-step TD, λ=1: Monte Carlo. Dreamer는 λ=0.95.
Reparameterization gradient (재매개화 그래디언트): a = μ + σ·ε (ε는 외생 잡음)의 형태로 확률적 샘플링을 결정론적 함수로 표현하여 그래디언트가 통과할 수 있게 만드는 기법. Reinforce 대비 분산이 낮음.
Analytic value gradient (해석적 가치 그래디언트): V(s)를 동역학·정책에 대해 직접 미분해 정책 파라미터를 갱신. DDPG의 1-step 확장이 Dreamer의 multi-step V_λ.
Imagination horizon (H): 잠재 상상에서 펼치는 스텝 수. Dreamer 기본 H=15. 너무 짧으면 근시안, 너무 길면 모델 오류 누적 — V_λ가 후자를 완화.
DeepMind Control Suite (DMC): MuJoCo 기반 영상/state 입력 연속 제어 벤치마크 (cartpole, cheetah, hopper, walker, quadruped 등 20+ task). 본 논문 주 평가 환경.
Action repeat (R): 매 정책 결정마다 같은 행동을 R번 반복 → effective horizon 단축. Dreamer/PlaNet R=2.
ELBO (Evidence Lower Bound): 변분 추론에서 최대화하는 하한, 재구성 + KL의 합. RSSM 학습에 사용.
NCE (Noise Contrastive Estimation): 양성 샘플과 noise 샘플을 구분하는 분류 문제로 분포를 학습. Dreamer의 contrastive 표상 변형에서 사용.

BibTeX

@inproceedings{hafner2020dreamer,
  title     = {Dream to Control: Learning Behaviors by Latent Imagination},
  author    = {Hafner, Danijar and Lillicrap, Timothy and Ba, Jimmy and Norouzi, Mohammad},
  booktitle = {International Conference on Learning Representations (ICLR)},
  year      = {2020},
  url       = {https://arxiv.org/abs/1912.01603},
  eprint    = {1912.01603},
  archivePrefix = {arXiv},
  primaryClass  = {cs.LG}
}

Juhyeon's Blog

탐색기

Dream to Control - Learning Behaviors by Latent Imagination