Network Dissection: Quantifying Interpretability of Deep Visual Representations
Digest (CISELQ)
- Context: 딥 CNN이 학습한 내부 표현(hidden unit)이 의미론적으로 해석 가능한지에 대한 정량적 지표가 부재한 상황에서, 기존 정성적 시각화(activation maximization, deconvolution)는 재현성과 비교가능성이 낮았다.
- Issue: “개별 뉴런이 object/part/scene/texture/material/color 같은 의미 개념을 얼마나 정렬되게 검출하는가”를 아키텍처·학습 방식·초기화별로 비교 측정할 수단이 없었다.
- Solution: 풍부한 픽셀 수준 레이블을 통합한 Broden(Broadly and Densely Labeled) 데이터셋을 구축하고, 각 convolutional unit의 활성맵을 상위 0.5% 임계값(T_k)으로 이진화한 뒤 각 concept mask와의 IoU를 계산해 concept detector 수를 집계한다.
- Evaluation: AlexNet, GoogLeNet, VGG, ResNet을 ImageNet과 Places205/365로 학습해 유닛별 concept 정렬을 비교하고, basis rotation·self-supervision·batch norm·dropout·training iteration 효과를 체계적으로 분석한다.
- Learnings: 해석 가능성은 축 정렬(axis-aligned) 속성이며 회전 시 사라지고, 깊이가 클수록 concept detector 수가 증가하며, self-supervised 표현은 supervised 표현보다 해석 가능 유닛이 현저히 적다.
- Questions: Broden 레이블 공간 밖의 개념/추상 개념에 대한 검출은 어떻게 측정할 것인가? 유닛 수준 해석이 실제 downstream 결정 경로를 얼마나 설명하는가?
섹션별 요약
Introduction
CNN의 성능은 급성장했으나 “무엇을 학습했는지” 설명은 여전히 정성적이다. 저자들은 해석 가능성 = hidden unit이 인간 친화적 concept과 얼마나 일관되게 정렬되어 있는가로 조작적 정의하고, 이를 데이터·레이블·정량 척도로 측정하는 framework를 제안한다.
Methods
- Broden 데이터셋 구성: ADE20K, Pascal-Context, Pascal-Part, OpenSurfaces, DTD, 그리고 색상 맵을 통합해 객체/부분/장면/질감/재질/색상 6 카테고리에 걸친 1,197개 concept의 픽셀 마스크를 제공.
- 활성맵 스케일링: 각 conv unit k의 activation map A_k(x)를 bilinear upsample해 입력 해상도에 맞춤.
- 임계값 T_k: 전체 데이터셋에서 상위 0.5% 분위수(distribution quantile) 활성을 기준으로 이진 마스크 M_k(x)= (A_k(x) ≥ T_k) 생성.
- IoU 정렬: concept c의 GT 마스크 L_c와 M_k를 비교해 IoU(k,c) = |M_k ∩ L_c| / |M_k ∪ L_c| 계산. IoU ≥ 0.04일 때 유닛을 concept c의 detector로 라벨.
- Unique detector count: 동일 concept을 여러 유닛이 검출해도 1회만 세는 방식으로 네트워크의 의미 커버리지를 정량화.
Results
- 축 정렬성: AlexNet conv5의 basis를 무작위 직교 회전 Q로 변환하면 분류 정확도는 유지되지만 concept detector 수가 급감한다 → 해석 가능성은 basis에 의존.
- 아키텍처 깊이: ResNet152 > VGG16 > GoogLeNet > AlexNet 순으로 고유 concept detector 수 증가. 특히 object/part detector가 상위 층에서 집중적으로 등장.
- Task/Dataset 효과: Places365 학습 네트워크는 scene detector가 많고, ImageNet 학습은 object detector가 많다.
- Self-supervised: context prediction, colorization, audio 등 self-supervised ResNet/AlexNet은 같은 구조의 supervised 모델 대비 object/part detector 수가 현저히 적음 (texture detector 위주).
- 정규화/학습 진행: batch norm은 일부 detector를 감소시키고, dropout은 혼합 효과, training iteration이 늘수록 detector 수는 단조 증가.
| 비교 축 | 대표 결과 |
|---|---|
| 깊이 | ResNet152(고유 detector ≈ 수백 개) > AlexNet |
| Task | Places365 → scene 多, ImageNet → object 多 |
| Rotation | 회전 시 unique detector 수 급락, 정확도 불변 |
| Self-sup | Supervised 대비 object detector 수 1/2 이하 |
Discussion
해석 가능성은 “정확도의 부산물”이 아니라 학습 목표·데이터·basis가 결정하는 독립 차원이다. Representation의 품질을 평가할 때 discriminability와 interpretability를 함께 보아야 한다.
Insights
- Concept 정렬은 좌표계(basis)에 의존 → disentangled representation 연구의 실증 근거.
- Supervised signal이 object-level abstraction 학습에 핵심 역할.
- 깊이 증가가 단순히 용량이 아니라 의미적 분화를 동반함.
Discussion Points
- IoU ≥ 0.04 임계값은 작지만 통계적으로 유의한 정렬을 잡기 위한 선택—임계값 민감도 분석 필요.
- Broden 개념 공간에 없는 추상 개념/행동 개념은 여전히 “unlabeled but interpretable”일 수 있음.
메타데이터
| 항목 | 내용 |
|---|---|
| 저자 | David Bau, Bolei Zhou, Aditya Khosla, Aude Oliva, Antonio Torralba |
| 학회 | CVPR 2017 |
| 데이터셋 | Broden (ADE20K + Pascal-Context + Pascal-Part + OpenSurfaces + DTD + Colors) |
| 모델 | AlexNet, GoogLeNet, VGG16, ResNet152 |
| 학습 소스 | ImageNet, Places205/365, self-supervised tasks |
| 코드 | netdissect.csail.mit.edu |
왜 이 연구를 하는가?
기존 해석 가능성 연구는 (1) 정성적 시각화 중심이라 재현·비교가 어렵고, (2) 소수의 유닛만 cherry-pick해 보여주는 편향이 있었다. Network Dissection은 대규모 concept 주석 × 전 유닛 자동 평가로 이를 극복하고, “왜 깊은 네트워크가 잘 되는가”라는 질문을 “어떤 의미 개념을 얼마나 많이 학습하는가”로 측정 가능한 형태로 변환한다. 이는 모델 비교·디버깅·신뢰 구축에 필수적인 정량 기반을 제공한다.
방법 (Method)
flowchart TD A[입력 이미지 X in Broden] --> B[CNN forward pass] B --> C[Conv unit k 활성맵 A_k] C --> D[상위 0.5% 임계값 T_k 산출] D --> E[이진 마스크 M_k = A_k >= T_k] A --> F[Concept c 픽셀 마스크 L_c] E --> G[IoU k,c] F --> G G --> H{IoU >= 0.04?} H -- Yes --> I[유닛 k는 concept c detector] H -- No --> J[Unlabeled] I --> K[Unique concept detector 집계] K --> L[모델/학습 조건 비교]
발견 (Findings)
| # | 발견 | 함의 |
|---|---|---|
| 1 | 회전된 basis는 정확도는 유지하나 detector 수 감소 | 해석 가능성은 axis-aligned 속성 |
| 2 | 깊이·폭 증가 → unique detector 증가 | 의미 분화가 용량과 함께 성장 |
| 3 | Places vs ImageNet → scene vs object 편중 | 학습 데이터가 concept 분포 결정 |
| 4 | Self-sup < Supervised (object detector) | 감독 신호가 추상화 촉진 |
| 5 | Training iteration ↑ → detector 수 단조 증가 | 의미 표현의 점진적 emergence |
| 6 | BN은 일부 detector 감소시킴 | 정규화가 축 정렬을 흐릴 수 있음 |
이론적 의의
- Disentanglement 논쟁에 대한 실증 근거: 표준 CNN은 학습 중 자연스럽게 일부 축이 의미에 정렬되며, 이는 학습 objective의 함수임을 보였다.
- Representation 품질의 이중 축: 분류 정확도 외에 “concept detector 수”라는 축이 존재하며, 두 축은 독립적으로 움직일 수 있다.
- 후속 연구의 토대: GAN Dissection, Network Dissection 2.0, Concept Bottleneck, Mechanistic Interpretability 등 “unit ↔ concept” 연구 계열의 출발점.
재현성 및 신뢰도 평가
| 항목 | 평가 | 근거 |
|---|---|---|
| 코드 공개 | A | 공식 netdissect 저장소 제공 |
| 데이터 공개 | A | Broden 공개 (ADE20K 등 조합) |
| 실험 범위 | A | 4개 아키텍처 × 다수 데이터셋 × rotation/self-sup ablation |
| 통계적 엄밀성 | B+ | IoU 임계값 선택의 민감도 분석이 제한적 |
| 개념 커버리지 | B | 추상/관계적 개념은 Broden에 미포함 |
| 종합 | A | 해석 가능성 정량화의 표준 벤치마크 확립 |
관련 연구
- Zeiler & Fergus 2014 Visualizing and Understanding CNN — deconvolution 기반 정성 시각화.
- Bau et al. 2019 GAN Dissection — 동일 방법을 생성 모델로 확장.
- Olah et al. Feature Visualization — activation maximization 계열.
- Kim et al. 2018 TCAV — concept 방향을 분류기로 학습.
- Mu & Andreas 2020 Compositional Explanations of Neurons — logical 조합 concept으로 확장.
원자적 인사이트
- 해석 가능성은 basis 선택에 의존한다: 동일한 함수 f(x)라도 hidden space를 직교 회전하면 concept detector 수가 감소한다. 즉 네트워크의 “해석 가능성”은 함수 자체가 아니라 좌표계 수준에서 정의되는 속성이며, disentanglement를 유도하려면 학습 목표나 정규화로 특정 basis를 선호해야 한다.
- 감독 신호는 추상화 수준을 결정한다: Self-supervised 표현은 texture·color detector에 치우치고 object·part detector가 적다. 이는 “self-sup은 universal representation을 준다”는 주장에 대한 반례로, 의미적 추상화에는 label이 제공하는 semantic prior가 중요함을 시사한다.
- 깊이는 단순 용량 증가가 아니라 의미 분화이다: 층이 깊어질수록 고유 concept 수가 증가하며 상위 층에서 object/part가 집중적으로 등장한다. 이는 “hierarchical feature learning” 가설을 정량적으로 뒷받침한다.
핵심 용어 정리
- Network Dissection: 개별 hidden unit을 사전 정의된 concept 집합과 IoU로 정렬해 의미 해석을 부여하는 절차.
- Broden dataset: Broadly and Densely Labeled 데이터셋. 6개 카테고리 1,197개 concept의 픽셀 주석 통합.
- Unit activation mask M_k: 데이터셋 상위 0.5% 활성 분위수를 임계로 만든 이진 마스크.
- IoU(k, c): 유닛 k의 마스크와 concept c GT 마스크의 교집합/합집합 비율.
- Concept detector: IoU(k,c) ≥ 0.04를 만족하는 유닛.
- Axis-aligned interpretability: 해석 가능 의미가 특정 좌표축(유닛)에 정렬되는 성질.
- Unique detector count: 동일 concept 중복을 1회로 세어 네트워크의 의미 커버리지를 측정하는 지표.
태그
XAI Interpretability CNN NetworkDissection Broden ConceptDetector CVPR2017 TheoryOfDL