확산 확률 모델을 이용한 이미지 생성 (DDPM)
Digest: 기존 확산 확률 모델(diffusion probabilistic model, 비평형 열역학에서 영감을 받은 잠재변수 모델)은 이론적 매력에도 불구하고 GAN 대비 샘플 품질이 낮아 실용성이 부족했다 (Context). 저자들은 역방향 과정(reverse process)의 특정 매개변수화, 즉 노이즈 ε를 직접 예측하는 형태로 재구성하면, 변분 하한(variational lower bound, VLB)이 다중 노이즈 수준에서의 denoising score matching과 수학적으로 등가가 된다는 점을 발견했다 (Insight). 이 통찰을 바탕으로 (1) 선형 분산 스케줄(linear noise schedule)을 가진 고정된 Gaussian 순방향 과정, (2) ε-예측 U-Net, (3) 가중치 항을 제거한 단순 손실 L_simple을 결합하여, 훈련을 안정화하고 Langevin 동역학 기반 샘플링과 연결했다 (Solution). 그 결과 CIFAR-10에서 Inception Score 9.46, FID 3.17로 당시 SOTA를 달성(Table 1) 했으며, LSUN Bedroom/Church/Cat 256×256에서도 ProgressiveGAN에 필적하는 고해상도 샘플을 생성했다(Table 3) (Evidence). 다만 샘플링이 T=1000 스텝을 요구해 속도가 느리고, 로그 우도(log-likelihood, NLL) 측면에서 autoregressive 모델에 열세하며, 단순 손실이 왜 VLB보다 샘플 품질이 높은지에 대한 완전한 이론적 설명이 없다 (Limitations). 이는 비마르코프(non-Markovian) 가속 샘플링, 조건부 생성으로의 확장, 가능도-품질 trade-off의 구조적 분석 등 이후 DDIM·classifier-guidance·latent diffusion 연구 라인을 열었다 (Open Questions).
섹션별 요약
Introduction
- 확산 모델은 2015년 Sohl-Dickstein이 제안했으나, 고해상도 이미지 샘플 품질이 GAN에 미치지 못해 주목받지 못했다.
- 본 논문은 확산 모델에 특정 매개변수화를 도입하면 품질을 크게 끌어올릴 수 있음을 보이고, denoising score matching(DSM)과의 등가성을 최초로 규명한다.
- 기여: (1) ε-예측 재매개화, (2) 단순 손실 L_simple 제안, (3) CIFAR-10 SOTA, (4) progressive lossy decompression 관점 해석.
Methods
- 순방향 과정(forward process)
q(x_t | x_{t-1}) = N(x_t; √(1-β_t) x_{t-1}, β_t I): 고정된 Gaussian 노이즈 주입, T=1000, β_t 선형 스케줄(10⁻⁴→0.02). - 폐형식(closed-form)
q(x_t | x_0) = N(√ᾱ_t x_0, (1-ᾱ_t) I)덕분에 임의의 t에서 직접 샘플링 가능 → 훈련 시 t를 균등 샘플링해 단일 스텝으로 손실 계산. - 역방향 과정(reverse process)
p_θ(x_{t-1} | x_t) = N(μ_θ(x_t, t), Σ_θ): 분산은 고정(β_t 또는 β̃_t), 평균은 ε-예측기(ε_θ)로 재매개화 →μ_θ = (1/√α_t)(x_t - (β_t/√(1-ᾱ_t)) ε_θ(x_t, t)). - 단순 손실:
L_simple = E_{t,x_0,ε} [ ||ε - ε_θ(√ᾱ_t x_0 + √(1-ᾱ_t) ε, t)||² ]— VLB의 가중치를 제거한 형태. - 네트워크: PixelCNN++ 기반 U-Net + self-attention + sinusoidal time embedding.
Results
| Model | Dataset | IS ↑ | FID ↓ | NLL (bits/dim) ↓ |
|---|---|---|---|---|
| DDPM (L_simple) | CIFAR-10 | 9.46 | 3.17 | ≤3.75 |
| DDPM (L_vlb) | CIFAR-10 | 7.67 | 13.51 | 3.70 |
| StyleGAN2+ADA | CIFAR-10 | 10.02 | 2.92 | — |
| NCSN (Song & Ermon) | CIFAR-10 | 8.87 | 25.32 | — |
| ProgressiveGAN | LSUN Bedroom 256² | — | 8.34 | — |
| DDPM | LSUN Bedroom 256² | — | 4.90 (Table 3) | — |
Discussion
- 한계: (1) 샘플링이 T=1000 스텝 순차 실행이 필요해 GAN 대비 2~3 order 느림, (2) L_simple은 NLL 관점에서 L_vlb보다 열세, (3) 가능도-지각 품질 상충 관계의 이론적 설명 부재.
- 향후: 빠른 샘플링(후속 DDIM에서 해결), 조건부 생성, 오디오/3D 등 다른 모달리티 확장.
Insights
- 주목할 점: ε-예측은 단순한 구현 선택이 아니라 VLB ≡ multi-level DSM이라는 구조적 등가성을 드러낸다.
- 연결 고리: Song & Ermon(2019)의 NCSN/score matching과 Sohl-Dickstein(2015)의 확산 모델을 하나의 프레임워크로 통합.
- 시사점: 가중치 없는 단순 MSE가 경험적으로 더 좋은 샘플을 만든다 — 생성 모델에서 “좋은 손실”과 “좋은 가능도”가 다를 수 있음을 실증.
- 비판적 코멘트: L_simple이 고주파 잡음 수준을 과소가중해 지각 품질에 유리하지만, 저자는 이를 엄밀히 증명하지 않음.
Discussion Points
- 논쟁점: L_simple vs L_vlb — 품질 vs 가능도의 trade-off 본질.
- 검증 필요 가정: 선형 β 스케줄이 최적인가? (이후 Improved DDPM에서 cosine 스케줄이 더 우수함이 밝혀짐.)
- 후속 연구: DDIM(결정론적 샘플링 가속), Classifier/Classifier-free Guidance, Latent Diffusion(Stable Diffusion), Score-based SDE 통합(Song et al. 2021).
메타데이터
| 항목 | 내용 |
|---|---|
| 제목 | Denoising Diffusion Probabilistic Models |
| 저자 | Jonathan Ho, Ajay Jain, Pieter Abbeel |
| 소속 | UC Berkeley |
| 연도 | 2020 |
| 발표 | NeurIPS 2020 / arXiv:2006.11239 |
| 링크 | arXiv, GitHub |
| 키워드 | diffusion model, score matching, variational inference, generative model |
왜 이 연구를 하는가?
핵심 질문
확산 확률 모델이 이론적으로 우아함에도 불구하고 실제 샘플 품질에서 GAN에 뒤처지는 이유는 무엇이며, 이를 어떻게 극복할 수 있는가?
기존 접근법의 한계
| 한계 | 설명 |
|---|---|
| 원조 확산 모델 (Sohl-Dickstein 2015) | 이론적 프레임워크는 제시했으나 고해상도 샘플 품질이 낮음 |
| NCSN (Song & Ermon 2019) | Score matching + Langevin 동역학 사용하지만 훈련이 불안정, 저해상도 위주 |
| GAN | 고품질이지만 훈련 불안정, 모드 붕괴(mode collapse), 가능도 계산 불가 |
| VAE | 안정적이지만 흐릿한(blurry) 샘플 |
핵심 통찰
- 역방향 과정의 평균 μ_θ를 직접 예측하는 대신 노이즈 ε를 예측하도록 재매개화하면, 변분 하한의 각 항이 서로 다른 노이즈 수준에서의 denoising score matching 손실과 정확히 일치한다.
- 따라서 DDPM의 훈련은 “다중 스케일 score matching을 동시에 수행하는 것”으로 재해석될 수 있다.
- VLB의 시간 가중치를 제거한 단순 MSE 손실이 지각적 샘플 품질에는 더 유리하다 (VLB는 t가 작을 때 불필요하게 큰 가중치를 부여).
방법 (Method)
프레임워크 개요
graph LR X0[x₀ 원본] -- "q(x₁|x₀)" --> X1[x₁] X1 -- "q(x₂|x₁)" --> X2[x₂] X2 -- "..." --> XTm1[x_{T-1}] XTm1 -- "q(x_T|x_{T-1})" --> XT[x_T ≈ N(0,I)] XT -. "p_θ(x_{T-1}|x_T; ε_θ)" .-> XTm1 XTm1 -. "..." .-> X2 X2 -. "p_θ(x₁|x₂; ε_θ)" .-> X1 X1 -. "p_θ(x₀|x₁; ε_θ)" .-> X0
실선은 고정된 순방향 노이즈 주입, 점선은 학습된 역방향 denoising (ε_θ 공유 네트워크).
핵심 구성요소
- 순방향 스케줄: β_1=10⁻⁴ → β_T=0.02 선형, T=1000.
- ε_θ U-Net: PixelCNN++ 기반, group normalization, self-attention(16×16 해상도), sinusoidal t embedding.
- 훈련 알고리즘:
- t ~ Uniform{1,…,T}
- ε ~ N(0, I), x_t = √ᾱ_t x_0 + √(1-ᾱ_t) ε
∇_θ ||ε - ε_θ(x_t, t)||²로 SGD.
- 샘플링: x_T ~ N(0,I) → t=T,…,1 에 대해
x_{t-1} = (1/√α_t)(x_t - (β_t/√(1-ᾱ_t)) ε_θ(x_t,t)) + σ_t z.
발견 (Findings)
주요 결과
| 실험 | 메트릭 | 값 | 비교 |
|---|---|---|---|
| CIFAR-10 unconditional | FID | 3.17 (Table 1) | StyleGAN2+ADA 2.92, NCSN 25.32 |
| CIFAR-10 unconditional | IS | 9.46 (Table 1) | BigGAN 9.22 (unconditional에서는 상회) |
| CIFAR-10 | NLL | ≤3.75 bits/dim | PixelCNN 3.14 (열세) |
| LSUN Bedroom 256² | FID | 4.90 (Table 3) | ProgressiveGAN 8.34 |
| LSUN Church 256² | FID | 7.89 (Table 3) | — |
| LSUN Cat 256² | FID | 19.75 (Table 3) | StyleGAN 8.53 |
핵심 발견
- L_simple이 L_vlb보다 지각 품질 우수: L_vlb(FID 13.51) vs L_simple(FID 3.17) — 4배 이상 차이.
- μ-예측 vs ε-예측: μ 직접 예측은 학습 불안정, ε-예측이 훨씬 안정적이고 품질 우수.
- 분산 Σ_θ 고정 vs 학습: β_t 또는 β̃_t 중 어느 것을 써도 유사, 학습된 분산은 오히려 불안정.
이론적 의의
ε-예측은 다중 노이즈 수준 DSM과 등가
역방향 과정의 매개변수화를 ε-예측으로 고정하면 VLB의 L_{t-1} 항이 E[||ε - ε_θ(x_t,t)||²]의 가중합으로 정확히 축약된다. 이는 Song & Ermon의 annealed score matching과 구조적으로 동일 — 확산 모델과 score-based 모델을 단일 프레임워크로 통합하는 교두보가 되었다.
가능도와 샘플 품질의 분리
L_vlb는 NLL을 직접 최적화하지만 FID는 더 나쁘고, L_simple은 NLL을 포기하는 대신 FID를 크게 개선한다. 이는 로그 우도가 지각 품질의 신뢰할 수 있는 대리 지표가 아님을 보여주며, 생성 모델 평가 철학에 영향을 주었다.
Progressive lossy decompression
저자들은 역방향 과정을 “coarse-to-fine 비트 단위 디코더”로 해석한다 — 큰 t일수록 개념/저주파 정보, 작은 t일수록 세부/고주파를 복원. 이 관점은 이후 diffusion의 조건부 생성과 잠재 공간 설계에 영감을 주었다.
재현성 및 신뢰도 평가
| 항목 | 등급 | 비고 |
|---|---|---|
| 코드 공개 | ✅ | hojonathanho/diffusion TensorFlow 공식 |
| 데이터 공개 | ✅ | CIFAR-10, LSUN, CelebA-HQ 모두 공개 |
| 하이퍼파라미터 | ✅ | T, β 스케줄, U-Net 구조, lr, EMA decay 모두 Appendix에 명시 |
| 실험 환경 | ✅ | TPU v3-8, 훈련 시간/스텝 수 보고 |
| 통계적 신뢰도 | ⚠️ | 단일 seed 결과, 표준편차 미보고 |
| 종합 등급 | A | 업계에서 광범위하게 재현됨 (PyTorch 포팅 다수) |
주장별 신뢰도
| # | 주장 | 근거 | 신뢰도 |
|---|---|---|---|
| 1 | CIFAR-10 FID 3.17 SOTA | Table 1, 공식 코드 재현 검증됨 | 🟢 |
| 2 | L_simple > L_vlb (샘플 품질) | Table 2 ablation | 🟢 |
| 3 | ε-예측 ≡ multi-level DSM | Section 3.2 수식 유도 | 🟢 |
| 4 | 학습된 분산이 불안정 | 정성적 언급, 수치 ablation 제한적 | 🟡 |
| 5 | LSUN Cat FID 19.75 | 단일 실행, StyleGAN 대비 열세 원인 분석 부족 | 🟡 |
읽기 난이도: ⭐⭐⭐
- 필요 배경: 변분 추론(VAE ELBO), 마르코프 체인, Gaussian reparameterization, score matching, Langevin MCMC, U-Net.
- Section 3의 수식 유도(VLB → ε-예측 손실)가 핵심이며 따라가는 데 종이와 펜이 필요하다.
관련 연구 비교 매트릭스
| 축 | DDPM (본 논문) | NCSN (Song & Ermon 2019) | VAE (Kingma 2014) | BigGAN/StyleGAN2 | DDIM (Song 2020) |
|---|---|---|---|---|---|
| 핵심 접근 | Markov 확산 + ε-예측 VLB | Annealed score matching + Langevin | Amortized 변분 추론 | Adversarial 훈련 | 비마르코프 결정론적 확산 |
| 문제 정의 | 고품질 이미지 생성 | 〃 | 〃 | 〃 | DDPM 샘플링 가속 |
| 데이터 | CIFAR-10, LSUN 256² | CIFAR-10, CelebA 64² | 저해상도 | ImageNet, FFHQ 1024² | CIFAR-10, LSUN |
| 핵심 메트릭 | FID 3.17 (CIFAR-10) | FID 25.32 | FID 높음(흐릿) | FID 2.92 (StyleGAN2+ADA) | FID 4.04 (50 steps) |
| 샘플링 속도 | 느림 (T=1000) | 느림 (Langevin) | 빠름 (1-step) | 빠름 (1-step) | 10-100× 빠름 |
| 훈련 안정성 | 매우 안정적 | 불안정(스케줄 민감) | 안정적 | 불안정(mode collapse) | DDPM과 동일 훈련 |
| 한계 | 샘플링 느림, NLL 열세 | 저해상도, 불안정 | 흐릿한 샘플 | 모드 붕괴, 가능도 없음 | DDPM 훈련 필요 |
| 코드 공개 | ✅ | ✅ | ✅ | ✅ | ✅ |
관련 연구
- Hierarchical Text-Conditional Image Generation with CLIP Latents — DALL·E 2, DDPM을 조건부 텍스트 생성으로 확장한 후속 라인.
- NCSN (Song & Ermon 2019) — DDPM과 이론적 등가성을 공유하는 score-based 계열.
- DDIM (Song et al. 2020) — 본 논문의 느린 샘플링을 결정론적 비마르코프 방식으로 10~50× 가속.
- Improved DDPM (Nichol & Dhariwal 2021) — cosine 스케줄, 학습된 분산 재조명.
- Score-based SDE (Song et al. 2021) — DDPM과 NCSN을 연속 시간 SDE 프레임워크로 통합.
원자적 인사이트 (Zettelkasten)
💡 역방향 과정의 ε-예측 재매개화는 다중 노이즈 수준 denoising score matching과 등가이다
출처: Denoising Diffusion Probabilistic Models (Ho et al., 2020)
유형: 이론적
확산 모델의 역방향 과정 평균 μ_θ를 직접 예측하는 대신, 입력에 주입된 노이즈 ε를 예측하도록 네트워크를 재매개화하면 변분 하한의 각 시간 단계 항이 서로 다른 σ_t에서의 denoising score matching 손실로 정확히 축약된다. 이는 Sohl-Dickstein 계열 확산 모델과 Song-Ermon 계열 score-based 모델이 본질적으로 동일한 목적함수를 최적화하고 있음을 밝힌 구조적 통찰이다.
핵심 조건/맥락: Gaussian 순방향 과정과 고정 분산 역방향 과정 가정 하에 성립.
연결: NCSN annealed score matching, Score-based SDE.
활용 가능성: 새로운 생성 모델 설계 시 “매개변수화 선택이 목적함수의 구조적 의미를 바꿀 수 있다”는 원리로 일반화 가능.
💡 단순화된 손실 L_simple은 변분 하한보다 샘플 품질이 우수하다
출처: Denoising Diffusion Probabilistic Models (Ho et al., 2020)
유형: 실험적
VLB의 시간 가중치 항을 제거한 가중치 없는 MSE 손실 L_simple로 훈련하면 CIFAR-10 FID가 13.51→3.17로 4배 이상 개선된다. 저자들은 L_vlb가 작은 t(낮은 노이즈)에서 불필요하게 큰 가중치를 부여해 지각적으로 덜 중요한 고주파 디테일에 용량을 낭비한다고 해석한다.
핵심 조건/맥락: NLL(가능도) 관점에서는 L_vlb가 우수 → 품질-가능도 trade-off 존재.
연결: Improved DDPM hybrid loss (L_simple + λ L_vlb).
활용 가능성: “더 엄밀한 목적함수가 항상 더 좋은 샘플을 보장하지 않는다” — 생성 모델 손실 설계의 일반 원리.
💡 폐형식 q(x_t | x_0)가 임의 시점 직접 샘플링을 허용해 효율적 훈련을 가능하게 한다
출처: Denoising Diffusion Probabilistic Models (Ho et al., 2020)
유형: 방법론적
순방향 과정이 Gaussian 마르코프 체인이므로 q(x_t | x_0) = N(√ᾱ_t x_0, (1-ᾱ_t)I) 가 폐형식으로 주어진다. 따라서 훈련 시 t를 균등 분포에서 샘플링하고 x_0 → x_t를 단 한 번의 reparameterization으로 생성해 해당 t의 손실만 계산하면 된다. T=1000 스텝 체인을 전부 시뮬레이션할 필요 없이 미니배치당 O(1) 시간 복잡도로 확률적 경사하강이 가능하다.
핵심 조건/맥락: 순방향 전이가 Gaussian이고 β_t가 고정일 때만 성립.
연결: Reparameterization trick(VAE), stochastic gradient estimation.
활용 가능성: 긴 마르코프 체인을 가진 임의의 잠재변수 모델에서 “폐형식 주변화(closed-form marginalization)가 가능하면 전체 체인 전개를 피할 수 있다”는 설계 원리.
💡 로그 우도와 지각 샘플 품질은 서로 다른 목적함수를 선호한다
출처: Denoising Diffusion Probabilistic Models (Ho et al., 2020)
유형: 이론적
L_vlb는 NLL을 직접 최적화해 3.70 bits/dim을 달성하지만 FID는 13.51로 나쁘고, L_simple은 NLL을 ≤3.75로 약간 희생하지만 FID 3.17로 크게 개선된다. 이는 로그 우도가 인간 지각 품질의 신뢰할 만한 대리 지표가 아니라는 Theis et al. (2016)의 관찰을 확산 모델 맥락에서 재확인한 것이다.
핵심 조건/맥락: 픽셀 공간 이미지 생성; 잠재 공간(LDM)이나 다른 모달리티에서는 다르게 나타날 수 있다.
연결: Theis et al. 2016 “A note on the evaluation of generative models”.
활용 가능성: 생성 모델 평가 시 다중 메트릭(FID, IS, NLL, precision/recall) 동시 사용의 당위.
핵심 용어 정리
| 용어 | 정의 |
|---|---|
| Diffusion probabilistic model | 데이터에 점진적으로 Gaussian 노이즈를 주입했다가 학습된 네트워크로 역으로 제거하여 샘플을 생성하는 잠재변수 모델. |
| Forward (diffusion) process | 고정된 Gaussian 전이로 x_0 → x_T (순수 잡음) 로 만드는 마르코프 체인 q(x_tx_{t-1}). |
| Reverse process | 학습된 Gaussian 전이 p_θ(x_{t-1}x_t) 로 잡음에서 데이터로 되돌아가는 마르코프 체인. |
| Noise schedule (β_t) | 각 시간 단계에서 주입되는 노이즈 분산의 스케줄. DDPM은 β_1=10⁻⁴ → β_T=0.02 선형. |
| ᾱ_t | ∏_{s=1}^t (1-β_s). x_t의 원본 신호 보존 비율을 나타내는 누적 계수. |
| Variational lower bound (VLB/ELBO) | 로그 우도의 하한으로 훈련 목적함수. DDPM에서는 KL 항의 합으로 분해됨. |
| ε-prediction parameterization | 역방향 평균 μ_θ를 직접 예측하는 대신 입력에 주입된 노이즈 ε를 예측하도록 네트워크를 재구성한 방식. |
| Denoising score matching (DSM) | 잡음 섞인 데이터에서 원본으로의 score ∇log p(x)를 추정하는 학습 원리. ε-예측과 스케일 차이만 존재. |
| L_simple | VLB의 시간 가중치를 제거한 가중치 없는 MSE 손실 E[ε - ε_θ ²]. |
| Langevin dynamics | score를 이용한 MCMC 샘플링. 역방향 확산의 1스텝 샘플링과 연결. |
| U-Net | 다운샘플-업샘플 + skip connection 구조의 이미지-투-이미지 네트워크. ε_θ의 백본. |
| FID (Fréchet Inception Distance) | 생성 샘플과 실제 데이터의 Inception feature 분포 간 Fréchet 거리. 낮을수록 좋음. |
| Inception Score (IS) | 생성 샘플의 분류 확신도와 다양성을 결합한 지표. 높을수록 좋음. |
| Progressive lossy decompression | 역방향 과정을 큰 t(개념) → 작은 t(세부)로 비트를 점진 복원하는 디코더로 해석하는 관점. |
태그
paper #2020 diffusion generative-model score-matching vision NeurIPS
BibTeX
@inproceedings{Ho2020DDPM,
title = {Denoising Diffusion Probabilistic Models},
author = {Ho, Jonathan and Jain, Ajay and Abbeel, Pieter},
booktitle = {Advances in Neural Information Processing Systems (NeurIPS)},
volume = {33},
pages = {6840--6851},
year = {2020},
url = {https://arxiv.org/abs/2006.11239}
}