확산 확률 모델을 이용한 이미지 생성 (DDPM)

Digest: 기존 확산 확률 모델(diffusion probabilistic model, 비평형 열역학에서 영감을 받은 잠재변수 모델)은 이론적 매력에도 불구하고 GAN 대비 샘플 품질이 낮아 실용성이 부족했다 (Context). 저자들은 역방향 과정(reverse process)의 특정 매개변수화, 즉 노이즈 ε를 직접 예측하는 형태로 재구성하면, 변분 하한(variational lower bound, VLB)이 다중 노이즈 수준에서의 denoising score matching과 수학적으로 등가가 된다는 점을 발견했다 (Insight). 이 통찰을 바탕으로 (1) 선형 분산 스케줄(linear noise schedule)을 가진 고정된 Gaussian 순방향 과정, (2) ε-예측 U-Net, (3) 가중치 항을 제거한 단순 손실 L_simple을 결합하여, 훈련을 안정화하고 Langevin 동역학 기반 샘플링과 연결했다 (Solution). 그 결과 CIFAR-10에서 Inception Score 9.46, FID 3.17로 당시 SOTA를 달성(Table 1) 했으며, LSUN Bedroom/Church/Cat 256×256에서도 ProgressiveGAN에 필적하는 고해상도 샘플을 생성했다(Table 3) (Evidence). 다만 샘플링이 T=1000 스텝을 요구해 속도가 느리고, 로그 우도(log-likelihood, NLL) 측면에서 autoregressive 모델에 열세하며, 단순 손실이 왜 VLB보다 샘플 품질이 높은지에 대한 완전한 이론적 설명이 없다 (Limitations). 이는 비마르코프(non-Markovian) 가속 샘플링, 조건부 생성으로의 확장, 가능도-품질 trade-off의 구조적 분석 등 이후 DDIM·classifier-guidance·latent diffusion 연구 라인을 열었다 (Open Questions).

섹션별 요약

Introduction

확산 모델은 2015년 Sohl-Dickstein이 제안했으나, 고해상도 이미지 샘플 품질이 GAN에 미치지 못해 주목받지 못했다.
본 논문은 확산 모델에 특정 매개변수화를 도입하면 품질을 크게 끌어올릴 수 있음을 보이고, denoising score matching(DSM)과의 등가성을 최초로 규명한다.
기여: (1) ε-예측 재매개화, (2) 단순 손실 L_simple 제안, (3) CIFAR-10 SOTA, (4) progressive lossy decompression 관점 해석.

Methods

순방향 과정(forward process) q(x_t | x_{t-1}) = N(x_t; √(1-β_t) x_{t-1}, β_t I): 고정된 Gaussian 노이즈 주입, T=1000, β_t 선형 스케줄(10⁻⁴→0.02).
폐형식(closed-form) q(x_t | x_0) = N(√ᾱ_t x_0, (1-ᾱ_t) I) 덕분에 임의의 t에서 직접 샘플링 가능 → 훈련 시 t를 균등 샘플링해 단일 스텝으로 손실 계산.
역방향 과정(reverse process) p_θ(x_{t-1} | x_t) = N(μ_θ(x_t, t), Σ_θ): 분산은 고정(β_t 또는 β̃_t), 평균은 ε-예측기(ε_θ)로 재매개화 → μ_θ = (1/√α_t)(x_t - (β_t/√(1-ᾱ_t)) ε_θ(x_t, t)).
단순 손실: L_simple = E_{t,x_0,ε} [ ||ε - ε_θ(√ᾱ_t x_0 + √(1-ᾱ_t) ε, t)||² ] — VLB의 가중치를 제거한 형태.
네트워크: PixelCNN++ 기반 U-Net + self-attention + sinusoidal time embedding.

Results

Model	Dataset	IS ↑	FID ↓	NLL (bits/dim) ↓
DDPM (L_simple)	CIFAR-10	9.46	3.17	≤3.75
DDPM (L_vlb)	CIFAR-10	7.67	13.51	3.70
StyleGAN2+ADA	CIFAR-10	10.02	2.92	—
NCSN (Song & Ermon)	CIFAR-10	8.87	25.32	—
ProgressiveGAN	LSUN Bedroom 256²	—	8.34	—
DDPM	LSUN Bedroom 256²	—	4.90 (Table 3)	—

Discussion

한계: (1) 샘플링이 T=1000 스텝 순차 실행이 필요해 GAN 대비 2~3 order 느림, (2) L_simple은 NLL 관점에서 L_vlb보다 열세, (3) 가능도-지각 품질 상충 관계의 이론적 설명 부재.
향후: 빠른 샘플링(후속 DDIM에서 해결), 조건부 생성, 오디오/3D 등 다른 모달리티 확장.

Insights

주목할 점: ε-예측은 단순한 구현 선택이 아니라 VLB ≡ multi-level DSM이라는 구조적 등가성을 드러낸다.
연결 고리: Song & Ermon(2019)의 NCSN/score matching과 Sohl-Dickstein(2015)의 확산 모델을 하나의 프레임워크로 통합.
시사점: 가중치 없는 단순 MSE가 경험적으로 더 좋은 샘플을 만든다 — 생성 모델에서 “좋은 손실”과 “좋은 가능도”가 다를 수 있음을 실증.
비판적 코멘트: L_simple이 고주파 잡음 수준을 과소가중해 지각 품질에 유리하지만, 저자는 이를 엄밀히 증명하지 않음.

Discussion Points

논쟁점: L_simple vs L_vlb — 품질 vs 가능도의 trade-off 본질.
검증 필요 가정: 선형 β 스케줄이 최적인가? (이후 Improved DDPM에서 cosine 스케줄이 더 우수함이 밝혀짐.)
후속 연구: DDIM(결정론적 샘플링 가속), Classifier/Classifier-free Guidance, Latent Diffusion(Stable Diffusion), Score-based SDE 통합(Song et al. 2021).

메타데이터

항목	내용
제목	Denoising Diffusion Probabilistic Models
저자	Jonathan Ho, Ajay Jain, Pieter Abbeel
소속	UC Berkeley
연도	2020
발표	NeurIPS 2020 / arXiv:2006.11239
링크	arXiv, GitHub
키워드	diffusion model, score matching, variational inference, generative model

왜 이 연구를 하는가?

핵심 질문

확산 확률 모델이 이론적으로 우아함에도 불구하고 실제 샘플 품질에서 GAN에 뒤처지는 이유는 무엇이며, 이를 어떻게 극복할 수 있는가?

기존 접근법의 한계

한계	설명
원조 확산 모델 (Sohl-Dickstein 2015)	이론적 프레임워크는 제시했으나 고해상도 샘플 품질이 낮음
NCSN (Song & Ermon 2019)	Score matching + Langevin 동역학 사용하지만 훈련이 불안정, 저해상도 위주
GAN	고품질이지만 훈련 불안정, 모드 붕괴(mode collapse), 가능도 계산 불가
VAE	안정적이지만 흐릿한(blurry) 샘플

핵심 통찰

역방향 과정의 평균 μ_θ를 직접 예측하는 대신 노이즈 ε를 예측하도록 재매개화하면, 변분 하한의 각 항이 서로 다른 노이즈 수준에서의 denoising score matching 손실과 정확히 일치한다.
따라서 DDPM의 훈련은 “다중 스케일 score matching을 동시에 수행하는 것”으로 재해석될 수 있다.
VLB의 시간 가중치를 제거한 단순 MSE 손실이 지각적 샘플 품질에는 더 유리하다 (VLB는 t가 작을 때 불필요하게 큰 가중치를 부여).

방법 (Method)

프레임워크 개요

graph LR
    X0[x₀ 원본] -- "q(x₁|x₀)" --> X1[x₁]
    X1 -- "q(x₂|x₁)" --> X2[x₂]
    X2 -- "..." --> XTm1[x_{T-1}]
    XTm1 -- "q(x_T|x_{T-1})" --> XT[x_T ≈ N(0,I)]
    XT -. "p_θ(x_{T-1}|x_T; ε_θ)" .-> XTm1
    XTm1 -. "..." .-> X2
    X2 -. "p_θ(x₁|x₂; ε_θ)" .-> X1
    X1 -. "p_θ(x₀|x₁; ε_θ)" .-> X0

실선은 고정된 순방향 노이즈 주입, 점선은 학습된 역방향 denoising (ε_θ 공유 네트워크).

핵심 구성요소

순방향 스케줄: β_1=10⁻⁴ → β_T=0.02 선형, T=1000.
ε_θ U-Net: PixelCNN++ 기반, group normalization, self-attention(16×16 해상도), sinusoidal t embedding.
훈련 알고리즘:
- t ~ Uniform{1,…,T}
- ε ~ N(0, I), x_t = √ᾱ_t x_0 + √(1-ᾱ_t) ε
- ∇_θ ||ε - ε_θ(x_t, t)||² 로 SGD.
샘플링: x_T ~ N(0,I) → t=T,…,1 에 대해 x_{t-1} = (1/√α_t)(x_t - (β_t/√(1-ᾱ_t)) ε_θ(x_t,t)) + σ_t z.

발견 (Findings)

주요 결과

실험	메트릭	값	비교
CIFAR-10 unconditional	FID	3.17 (Table 1)	StyleGAN2+ADA 2.92, NCSN 25.32
CIFAR-10 unconditional	IS	9.46 (Table 1)	BigGAN 9.22 (unconditional에서는 상회)
CIFAR-10	NLL	≤3.75 bits/dim	PixelCNN 3.14 (열세)
LSUN Bedroom 256²	FID	4.90 (Table 3)	ProgressiveGAN 8.34
LSUN Church 256²	FID	7.89 (Table 3)	—
LSUN Cat 256²	FID	19.75 (Table 3)	StyleGAN 8.53

핵심 발견

L_simple이 L_vlb보다 지각 품질 우수: L_vlb(FID 13.51) vs L_simple(FID 3.17) — 4배 이상 차이.
μ-예측 vs ε-예측: μ 직접 예측은 학습 불안정, ε-예측이 훨씬 안정적이고 품질 우수.
분산 Σ_θ 고정 vs 학습: β_t 또는 β̃_t 중 어느 것을 써도 유사, 학습된 분산은 오히려 불안정.

이론적 의의

ε-예측은 다중 노이즈 수준 DSM과 등가

역방향 과정의 매개변수화를 ε-예측으로 고정하면 VLB의 L_{t-1} 항이 E[||ε - ε_θ(x_t,t)||²]의 가중합으로 정확히 축약된다. 이는 Song & Ermon의 annealed score matching과 구조적으로 동일 — 확산 모델과 score-based 모델을 단일 프레임워크로 통합하는 교두보가 되었다.

가능도와 샘플 품질의 분리

L_vlb는 NLL을 직접 최적화하지만 FID는 더 나쁘고, L_simple은 NLL을 포기하는 대신 FID를 크게 개선한다. 이는 로그 우도가 지각 품질의 신뢰할 수 있는 대리 지표가 아님을 보여주며, 생성 모델 평가 철학에 영향을 주었다.

Progressive lossy decompression

저자들은 역방향 과정을 “coarse-to-fine 비트 단위 디코더”로 해석한다 — 큰 t일수록 개념/저주파 정보, 작은 t일수록 세부/고주파를 복원. 이 관점은 이후 diffusion의 조건부 생성과 잠재 공간 설계에 영감을 주었다.

재현성 및 신뢰도 평가

항목	등급	비고
코드 공개	✅	hojonathanho/diffusion TensorFlow 공식
데이터 공개	✅	CIFAR-10, LSUN, CelebA-HQ 모두 공개
하이퍼파라미터	✅	T, β 스케줄, U-Net 구조, lr, EMA decay 모두 Appendix에 명시
실험 환경	✅	TPU v3-8, 훈련 시간/스텝 수 보고
통계적 신뢰도	⚠️	단일 seed 결과, 표준편차 미보고
종합 등급	A	업계에서 광범위하게 재현됨 (PyTorch 포팅 다수)

주장별 신뢰도

#	주장	근거	신뢰도
1	CIFAR-10 FID 3.17 SOTA	Table 1, 공식 코드 재현 검증됨	🟢
2	L_simple > L_vlb (샘플 품질)	Table 2 ablation	🟢
3	ε-예측 ≡ multi-level DSM	Section 3.2 수식 유도	🟢
4	학습된 분산이 불안정	정성적 언급, 수치 ablation 제한적	🟡
5	LSUN Cat FID 19.75	단일 실행, StyleGAN 대비 열세 원인 분석 부족	🟡

읽기 난이도: ⭐⭐⭐

필요 배경: 변분 추론(VAE ELBO), 마르코프 체인, Gaussian reparameterization, score matching, Langevin MCMC, U-Net.
Section 3의 수식 유도(VLB → ε-예측 손실)가 핵심이며 따라가는 데 종이와 펜이 필요하다.

축	DDPM (본 논문)	NCSN (Song & Ermon 2019)	VAE (Kingma 2014)	BigGAN/StyleGAN2	DDIM (Song 2020)
핵심 접근	Markov 확산 + ε-예측 VLB	Annealed score matching + Langevin	Amortized 변분 추론	Adversarial 훈련	비마르코프 결정론적 확산
문제 정의	고품질 이미지 생성	〃	〃	〃	DDPM 샘플링 가속
데이터	CIFAR-10, LSUN 256²	CIFAR-10, CelebA 64²	저해상도	ImageNet, FFHQ 1024²	CIFAR-10, LSUN
핵심 메트릭	FID 3.17 (CIFAR-10)	FID 25.32	FID 높음(흐릿)	FID 2.92 (StyleGAN2+ADA)	FID 4.04 (50 steps)
샘플링 속도	느림 (T=1000)	느림 (Langevin)	빠름 (1-step)	빠름 (1-step)	10-100× 빠름
훈련 안정성	매우 안정적	불안정(스케줄 민감)	안정적	불안정(mode collapse)	DDPM과 동일 훈련
한계	샘플링 느림, NLL 열세	저해상도, 불안정	흐릿한 샘플	모드 붕괴, 가능도 없음	DDPM 훈련 필요
코드 공개	✅	✅	✅	✅	✅

원자적 인사이트 (Zettelkasten)

💡 역방향 과정의 ε-예측 재매개화는 다중 노이즈 수준 denoising score matching과 등가이다

출처: Denoising Diffusion Probabilistic Models (Ho et al., 2020)
유형: 이론적

확산 모델의 역방향 과정 평균 μ_θ를 직접 예측하는 대신, 입력에 주입된 노이즈 ε를 예측하도록 네트워크를 재매개화하면 변분 하한의 각 시간 단계 항이 서로 다른 σ_t에서의 denoising score matching 손실로 정확히 축약된다. 이는 Sohl-Dickstein 계열 확산 모델과 Song-Ermon 계열 score-based 모델이 본질적으로 동일한 목적함수를 최적화하고 있음을 밝힌 구조적 통찰이다.

핵심 조건/맥락: Gaussian 순방향 과정과 고정 분산 역방향 과정 가정 하에 성립.
연결: NCSN annealed score matching, Score-based SDE.
활용 가능성: 새로운 생성 모델 설계 시 “매개변수화 선택이 목적함수의 구조적 의미를 바꿀 수 있다”는 원리로 일반화 가능.

💡 단순화된 손실 L_simple은 변분 하한보다 샘플 품질이 우수하다

출처: Denoising Diffusion Probabilistic Models (Ho et al., 2020)
유형: 실험적

VLB의 시간 가중치 항을 제거한 가중치 없는 MSE 손실 L_simple로 훈련하면 CIFAR-10 FID가 13.51→3.17로 4배 이상 개선된다. 저자들은 L_vlb가 작은 t(낮은 노이즈)에서 불필요하게 큰 가중치를 부여해 지각적으로 덜 중요한 고주파 디테일에 용량을 낭비한다고 해석한다.

핵심 조건/맥락: NLL(가능도) 관점에서는 L_vlb가 우수 → 품질-가능도 trade-off 존재.
연결: Improved DDPM hybrid loss (L_simple + λ L_vlb).
활용 가능성: “더 엄밀한 목적함수가 항상 더 좋은 샘플을 보장하지 않는다” — 생성 모델 손실 설계의 일반 원리.

💡 폐형식 q(x_t | x_0)가 임의 시점 직접 샘플링을 허용해 효율적 훈련을 가능하게 한다

출처: Denoising Diffusion Probabilistic Models (Ho et al., 2020)
유형: 방법론적

순방향 과정이 Gaussian 마르코프 체인이므로 q(x_t | x_0) = N(√ᾱ_t x_0, (1-ᾱ_t)I) 가 폐형식으로 주어진다. 따라서 훈련 시 t를 균등 분포에서 샘플링하고 x_0 → x_t를 단 한 번의 reparameterization으로 생성해 해당 t의 손실만 계산하면 된다. T=1000 스텝 체인을 전부 시뮬레이션할 필요 없이 미니배치당 O(1) 시간 복잡도로 확률적 경사하강이 가능하다.

핵심 조건/맥락: 순방향 전이가 Gaussian이고 β_t가 고정일 때만 성립.
연결: Reparameterization trick(VAE), stochastic gradient estimation.
활용 가능성: 긴 마르코프 체인을 가진 임의의 잠재변수 모델에서 “폐형식 주변화(closed-form marginalization)가 가능하면 전체 체인 전개를 피할 수 있다”는 설계 원리.

💡 로그 우도와 지각 샘플 품질은 서로 다른 목적함수를 선호한다