Network Dissection: Quantifying Interpretability of Deep Visual Representations

Digest (CISELQ)

Context: 딥 CNN이 학습한 내부 표현(hidden unit)이 의미론적으로 해석 가능한지에 대한 정량적 지표가 부재한 상황에서, 기존 정성적 시각화(activation maximization, deconvolution)는 재현성과 비교가능성이 낮았다.
Issue: “개별 뉴런이 object/part/scene/texture/material/color 같은 의미 개념을 얼마나 정렬되게 검출하는가”를 아키텍처·학습 방식·초기화별로 비교 측정할 수단이 없었다.
Solution: 풍부한 픽셀 수준 레이블을 통합한 Broden(Broadly and Densely Labeled) 데이터셋을 구축하고, 각 convolutional unit의 활성맵을 상위 0.5% 임계값(T_k)으로 이진화한 뒤 각 concept mask와의 IoU를 계산해 concept detector 수를 집계한다.
Evaluation: AlexNet, GoogLeNet, VGG, ResNet을 ImageNet과 Places205/365로 학습해 유닛별 concept 정렬을 비교하고, basis rotation·self-supervision·batch norm·dropout·training iteration 효과를 체계적으로 분석한다.
Learnings: 해석 가능성은 축 정렬(axis-aligned) 속성이며 회전 시 사라지고, 깊이가 클수록 concept detector 수가 증가하며, self-supervised 표현은 supervised 표현보다 해석 가능 유닛이 현저히 적다.
Questions: Broden 레이블 공간 밖의 개념/추상 개념에 대한 검출은 어떻게 측정할 것인가? 유닛 수준 해석이 실제 downstream 결정 경로를 얼마나 설명하는가?

섹션별 요약

Introduction

CNN의 성능은 급성장했으나 “무엇을 학습했는지” 설명은 여전히 정성적이다. 저자들은 해석 가능성 = hidden unit이 인간 친화적 concept과 얼마나 일관되게 정렬되어 있는가로 조작적 정의하고, 이를 데이터·레이블·정량 척도로 측정하는 framework를 제안한다.

Methods

Broden 데이터셋 구성: ADE20K, Pascal-Context, Pascal-Part, OpenSurfaces, DTD, 그리고 색상 맵을 통합해 객체/부분/장면/질감/재질/색상 6 카테고리에 걸친 1,197개 concept의 픽셀 마스크를 제공.
활성맵 스케일링: 각 conv unit k의 activation map A_k(x)를 bilinear upsample해 입력 해상도에 맞춤.
임계값 T_k: 전체 데이터셋에서 상위 0.5% 분위수(distribution quantile) 활성을 기준으로 이진 마스크 M_k(x)= (A_k(x) ≥ T_k) 생성.
IoU 정렬: concept c의 GT 마스크 L_c와 M_k를 비교해 IoU(k,c) = |M_k ∩ L_c| / |M_k ∪ L_c| 계산. IoU ≥ 0.04일 때 유닛을 concept c의 detector로 라벨.
Unique detector count: 동일 concept을 여러 유닛이 검출해도 1회만 세는 방식으로 네트워크의 의미 커버리지를 정량화.

Results

축 정렬성: AlexNet conv5의 basis를 무작위 직교 회전 Q로 변환하면 분류 정확도는 유지되지만 concept detector 수가 급감한다 → 해석 가능성은 basis에 의존.
아키텍처 깊이: ResNet152 > VGG16 > GoogLeNet > AlexNet 순으로 고유 concept detector 수 증가. 특히 object/part detector가 상위 층에서 집중적으로 등장.
Task/Dataset 효과: Places365 학습 네트워크는 scene detector가 많고, ImageNet 학습은 object detector가 많다.
Self-supervised: context prediction, colorization, audio 등 self-supervised ResNet/AlexNet은 같은 구조의 supervised 모델 대비 object/part detector 수가 현저히 적음 (texture detector 위주).
정규화/학습 진행: batch norm은 일부 detector를 감소시키고, dropout은 혼합 효과, training iteration이 늘수록 detector 수는 단조 증가.

비교 축	대표 결과
깊이	ResNet152(고유 detector ≈ 수백 개) > AlexNet
Task	Places365 → scene 多, ImageNet → object 多
Rotation	회전 시 unique detector 수 급락, 정확도 불변
Self-sup	Supervised 대비 object detector 수 1/2 이하

Discussion

해석 가능성은 “정확도의 부산물”이 아니라 학습 목표·데이터·basis가 결정하는 독립 차원이다. Representation의 품질을 평가할 때 discriminability와 interpretability를 함께 보아야 한다.

Insights

Concept 정렬은 좌표계(basis)에 의존 → disentangled representation 연구의 실증 근거.
Supervised signal이 object-level abstraction 학습에 핵심 역할.
깊이 증가가 단순히 용량이 아니라 의미적 분화를 동반함.

Discussion Points

IoU ≥ 0.04 임계값은 작지만 통계적으로 유의한 정렬을 잡기 위한 선택—임계값 민감도 분석 필요.
Broden 개념 공간에 없는 추상 개념/행동 개념은 여전히 “unlabeled but interpretable”일 수 있음.

메타데이터

항목	내용
저자	David Bau, Bolei Zhou, Aditya Khosla, Aude Oliva, Antonio Torralba
학회	CVPR 2017
데이터셋	Broden (ADE20K + Pascal-Context + Pascal-Part + OpenSurfaces + DTD + Colors)
모델	AlexNet, GoogLeNet, VGG16, ResNet152
학습 소스	ImageNet, Places205/365, self-supervised tasks
코드	netdissect.csail.mit.edu

왜 이 연구를 하는가?

기존 해석 가능성 연구는 (1) 정성적 시각화 중심이라 재현·비교가 어렵고, (2) 소수의 유닛만 cherry-pick해 보여주는 편향이 있었다. Network Dissection은 대규모 concept 주석 × 전 유닛 자동 평가로 이를 극복하고, “왜 깊은 네트워크가 잘 되는가”라는 질문을 “어떤 의미 개념을 얼마나 많이 학습하는가”로 측정 가능한 형태로 변환한다. 이는 모델 비교·디버깅·신뢰 구축에 필수적인 정량 기반을 제공한다.

방법 (Method)

flowchart TD
    A[입력 이미지 X in Broden] --> B[CNN forward pass]
    B --> C[Conv unit k 활성맵 A_k]
    C --> D[상위 0.5% 임계값 T_k 산출]
    D --> E[이진 마스크 M_k = A_k >= T_k]
    A --> F[Concept c 픽셀 마스크 L_c]
    E --> G[IoU k,c]
    F --> G
    G --> H{IoU >= 0.04?}
    H -- Yes --> I[유닛 k는 concept c detector]
    H -- No --> J[Unlabeled]
    I --> K[Unique concept detector 집계]
    K --> L[모델/학습 조건 비교]

발견 (Findings)

#	발견	함의
1	회전된 basis는 정확도는 유지하나 detector 수 감소	해석 가능성은 axis-aligned 속성
2	깊이·폭 증가 → unique detector 증가	의미 분화가 용량과 함께 성장
3	Places vs ImageNet → scene vs object 편중	학습 데이터가 concept 분포 결정
4	Self-sup < Supervised (object detector)	감독 신호가 추상화 촉진
5	Training iteration ↑ → detector 수 단조 증가	의미 표현의 점진적 emergence
6	BN은 일부 detector 감소시킴	정규화가 축 정렬을 흐릴 수 있음

이론적 의의

Disentanglement 논쟁에 대한 실증 근거: 표준 CNN은 학습 중 자연스럽게 일부 축이 의미에 정렬되며, 이는 학습 objective의 함수임을 보였다.
Representation 품질의 이중 축: 분류 정확도 외에 “concept detector 수”라는 축이 존재하며, 두 축은 독립적으로 움직일 수 있다.
후속 연구의 토대: GAN Dissection, Network Dissection 2.0, Concept Bottleneck, Mechanistic Interpretability 등 “unit ↔ concept” 연구 계열의 출발점.

재현성 및 신뢰도 평가

항목	평가	근거
코드 공개	A	공식 netdissect 저장소 제공
데이터 공개	A	Broden 공개 (ADE20K 등 조합)
실험 범위	A	4개 아키텍처 × 다수 데이터셋 × rotation/self-sup ablation
통계적 엄밀성	B+	IoU 임계값 선택의 민감도 분석이 제한적
개념 커버리지	B	추상/관계적 개념은 Broden에 미포함
종합	A	해석 가능성 정량화의 표준 벤치마크 확립

원자적 인사이트

해석 가능성은 basis 선택에 의존한다: 동일한 함수 f(x)라도 hidden space를 직교 회전하면 concept detector 수가 감소한다. 즉 네트워크의 “해석 가능성”은 함수 자체가 아니라 좌표계 수준에서 정의되는 속성이며, disentanglement를 유도하려면 학습 목표나 정규화로 특정 basis를 선호해야 한다.
감독 신호는 추상화 수준을 결정한다: Self-supervised 표현은 texture·color detector에 치우치고 object·part detector가 적다. 이는 “self-sup은 universal representation을 준다”는 주장에 대한 반례로, 의미적 추상화에는 label이 제공하는 semantic prior가 중요함을 시사한다.
깊이는 단순 용량 증가가 아니라 의미 분화이다: 층이 깊어질수록 고유 concept 수가 증가하며 상위 층에서 object/part가 집중적으로 등장한다. 이는 “hierarchical feature learning” 가설을 정량적으로 뒷받침한다.

핵심 용어 정리

Network Dissection: 개별 hidden unit을 사전 정의된 concept 집합과 IoU로 정렬해 의미 해석을 부여하는 절차.
Broden dataset: Broadly and Densely Labeled 데이터셋. 6개 카테고리 1,197개 concept의 픽셀 주석 통합.
Unit activation mask M_k: 데이터셋 상위 0.5% 활성 분위수를 임계로 만든 이진 마스크.
IoU(k, c): 유닛 k의 마스크와 concept c GT 마스크의 교집합/합집합 비율.
Concept detector: IoU(k,c) ≥ 0.04를 만족하는 유닛.
Axis-aligned interpretability: 해석 가능 의미가 특정 좌표축(유닛)에 정렬되는 성질.
Unique detector count: 동일 concept 중복을 1회로 세어 네트워크의 의미 커버리지를 측정하는 지표.

Juhyeon's Blog

탐색기

Network Dissection- Quantifying Interpretability of Deep Visual Representations