Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization

Paper Digest (CISELQ)

Context: CNN 기반 모델은 분류 성능이 뛰어나지만, 어떤 시각적 근거로 예측을 내렸는지 해석이 어려워 신뢰성과 디버깅 측면에서 한계가 있었다. 기존 Class Activation Mapping(CAM)은 GAP(Global Average Pooling)와 특정 아키텍처 제약을 요구하여 일반 CNN에 적용하기 곤란하였다.
Issue: FC layer를 포함하거나, 구조화된 출력을 내는 captioning/VQA 모델처럼 다양한 CNN 구조에 광범위하게 적용 가능하면서도, 클래스 구별성(class-discriminative)이 유지되는 시각적 설명 방법이 필요하다.
Solution: 목표 클래스 점수에 대한 마지막 convolutional feature map의 gradient를 구해 채널별로 global average pooling하여 중요도 가중치 α_k^c를 얻고, 이를 feature map에 가중 합산한 후 ReLU를 적용해 coarse heatmap을 만든다. Guided Backpropagation과 요소곱해 Guided Grad-CAM이라는 고해상도 시각화도 제공한다.
Evaluation: ImageNet 분류, weakly-supervised localization(top-1/top-5 localization error), weakly-supervised segmentation, pointing game, image captioning(Neuraltalk2), VQA, human trust 실험 등 다양한 과제에서 선행 방법을 능가하는 결과를 보고한다.
Limitations: 마지막 conv layer의 해상도에 제한된 coarse map이라는 점, gradient saturation, noise 및 class 구별에 실패하는 사례가 존재한다. multi-instance나 작은 객체에서 localization 성능이 떨어질 수 있다.
Questions: 왜 마지막 conv layer가 의미·공간 정보의 최적 trade-off인가? gradient가 아닌 attention/정보이론적 신호로 대체하면 어떠한가? Transformer 계열에도 같은 원리를 적용할 수 있는가?

섹션별 요약

Introduction

CNN 기반 모델의 설명가능성(interpretability)은 신뢰 구축, 실패 원인 디버깅, 편향 탐지를 위해 중요하다. 기존 CAM은 성능과 해석성 사이의 트레이드오프를 강요하고 아키텍처를 수정해야 한다. 저자들은 어떤 CNN 구조에도 적용 가능한 클래스 구별형 시각화 기법인 Grad-CAM을 제안한다.

Methods

타깃 클래스 c의 score y^c에 대해 마지막 convolutional feature map A^k의 각 요소에 대한 gradient를 구함.
가중치 α_k^c = (1/Z) Σ_i Σ_j ∂y^c / ∂A^k_{ij} 로 정의 (채널 중요도).
L^c_{Grad-CAM} = ReLU( Σ_k α_k^c A^k ) 로 coarse heatmap 생성. ReLU는 클래스 c에 긍정적 영향을 주는 영역만 남김.
Guided Backpropagation과 요소곱하여 class-discriminative 한 고해상도 설명(Guided Grad-CAM)을 얻음.
CAM의 일반화임을 수학적으로 증명.

Results

ImageNet 분류기(VGG, ResNet 등)에서 weakly-supervised localization 오차를 개선하고, pointing game 정확도에서 c-MWP, CAM을 능가한다. Image captioning 및 VQA에 바로 적용 가능하며, human study에서 참가자들이 Grad-CAM 설명을 통해 강/약 모델을 더 잘 구별했다.

과제	지표	주요 결과
ImageNet localization (VGG16)	Top-1 loc. error	CAM 대비 개선
Pointing game (COCO)	평균 정확도	c-MWP, CAM 초과
Weakly-sup segmentation (PASCAL)	mIoU	SEC 등 초기 방법 보완
Human trust study	선호도	Grad-CAM 설명이 신뢰 구축에 기여

Discussion

Grad-CAM은 CAM의 엄격한 GAP 요건을 제거하여 기존에 학습된 모든 CNN에 재학습 없이 적용 가능하다. 분류, captioning, VQA 등 이질적 과제에서 동일한 원리로 설명을 생성하므로 보편성이 높다. 다만 gradient가 포화되거나 noisy할 때 신뢰도가 떨어지며, 마지막 conv layer의 공간 해상도가 낮다.

Insights

공간 정보와 의미 정보의 trade-off 상 마지막 conv layer가 설명의 최적 지점이다.
Gradient는 단순 saliency를 넘어 class discrimination 정보를 담고 있다.
재학습 없이 post-hoc 방식으로 설명을 주입할 수 있음을 보여 다양한 태스크 확장에 영감을 주었다.

Discussion Points

Saturated softmax로 인해 gradient vanish 문제가 있을 때 어떻게 보정할 것인가?
Transformer attention이 같은 역할을 할 수 있는가, 아니면 gradient-based 설명이 여전히 필요한가?
Counterfactual/causal 설명과 결합 가능성은?

메타데이터

항목	내용
저자	R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh, D. Batra
학회	ICCV 2017 (arXiv 2016)
arXiv	1610.02391
Category	Theory (Interpretability)
코드	공개됨 (Caffe/PyTorch 다수 구현)

왜 이 연구를 하는가?

딥러닝 모델은 성능은 뛰어나지만 ‘블랙박스’라는 비판을 받는다. 모델이 어느 픽셀을 보고 예측했는지를 알 수 있으면, (1) 사용자의 신뢰 확보, (2) 모델의 실패 원인 진단, (3) 학습 데이터의 편향 발견, (4) 모델 비교 및 선택이 가능해진다. CAM은 단순하지만 GAP 기반 구조에만 적용되며, 기존 FC 기반 CNN이나 captioning·VQA 모델에 쓸 수 없다. Grad-CAM은 이 한계를 제거하고, 오직 ‘최종 conv layer에 대한 그래디언트’라는 보편적 신호만으로 시각적 설명을 생성하고자 한다.

방법 (Method)

Grad-CAM은 네 단계 파이프라인으로 요약된다: 순전파 → 클래스 점수에서 conv feature로의 역전파 → 채널별 중요도 가중치 계산 → 가중 합 및 ReLU.

flowchart LR
    A[Input Image] --> B[CNN Forward Pass]
    B --> C[Last Conv Feature Maps A_k]
    B --> D[Class Score y_c]
    D -->|Backprop| E[Gradient dy_c/dA_k]
    E --> F[Global Avg Pool to alpha]
    C --> G[Weighted Sum]
    F --> G
    G --> H[ReLU]
    H --> I[Coarse Grad-CAM Heatmap]
    I --> J[Elementwise x Guided Backprop]
    J --> K[Guided Grad-CAM High-Res Map]

핵심 수식은 α_k^c = (1/Z) Σ_{i,j} ∂y^c/∂A^k_{ij}, L^c = ReLU(Σ_k α_k^c A^k) 이다. ReLU는 ‘클래스 c에 양의 영향을 주는 영역’만 강조하여 설명을 깨끗하게 만든다.

발견 (Findings)

#	발견	의미
F1	Grad-CAM은 CAM을 엄밀히 일반화한다	GAP 기반 CNN에서 CAM과 동치임이 증명됨
F2	FC/비표준 CNN에도 재학습 없이 적용	기존 모델의 post-hoc 해석에 유용
F3	Pointing game과 localization에서 c-MWP·CAM 상회	클래스 구별성이 강함
F4	Captioning/VQA에 그대로 적용 가능	멀티모달 모델 설명에도 일반화
F5	편향 탐지 사례 (성별 분류기가 얼굴이 아닌 헤어스타일 참조)	데이터 편향 진단 도구로 활용 가능
F6	Human study에서 신뢰 구축에 기여	HCI 관점의 유용성 검증

이론적 의의

Grad-CAM은 ‘그래디언트 × 활성값’이라는 간단한 조합만으로도 클래스 구별형 설명이 가능함을 보여, saliency 계열(gradient-only)과 activation 계열(CAM)을 잇는 중간지점으로 자리 잡았다. 특히 마지막 conv layer의 feature map이 ‘공간적 위치 + 클래스 의미’의 교차점이라는 해석론적 관점을 강화했다. 이후 Grad-CAM++, Score-CAM, Ablation-CAM, Eigen-CAM 등 수많은 파생 방법들의 출발점이 되었으며, Vision Transformer용 설명 기법(Attention Rollout, Transformer Explainability)의 비교 기준점으로도 널리 사용된다.

재현성 및 신뢰도 평가

항목	평가	근거
Evidence Quality	A	다수 벤치마크·human study·다중 태스크 실험
Reproducibility	A	수식이 명시적이고, 공식/비공식 구현이 모든 주요 프레임워크에 존재
External Validity	A-	ImageNet/PASCAL/COCO 등 대표 데이터셋과 다양한 CNN
Limitations	보통	coarse 해상도, gradient saturation, 다중 객체에서 성능 저하

원자적 인사이트

‘가중치 학습’ 없이도 네트워크의 그래디언트만으로 class-discriminative localization이 가능하다 — 이는 학습된 표현 내부에 위치 정보가 이미 선형적으로 디코딩 가능함을 시사한다.
ReLU를 수식의 마지막에 붙이는 것은 단순 후처리가 아니라, ‘설명은 예측을 강화하는 근거만 남겨야 한다’는 해석론적 원칙의 수식화이다.
Grad-CAM은 post-hoc 방식이지만, 그 해석이 실제 모델 행동과 정렬됨을 human study로 실증했다 — 이는 설명가능성 연구에서 ‘사람-모델 alignment’ 평가의 초기 사례이다.
동일한 원리를 captioning·VQA 등 구조화된 출력에 확장할 수 있다는 사실은, 설명가능성이 ‘태스크 비종속적’ 프레임워크로 설계될 수 있음을 보여준다.

핵심 용어 정리

Class Activation Map (CAM): GAP 뒤의 분류기 가중치를 이용해 마지막 conv feature map을 선형 조합하여 얻는 클래스별 히트맵.
Grad-CAM: 클래스 점수의 그래디언트를 채널별 중요도로 사용하는 CAM의 일반화.
Guided Backpropagation: 음의 그래디언트를 차단한 역전파로, 고해상도 픽셀 수준 saliency 생성.
Guided Grad-CAM: Grad-CAM heatmap(저해상·클래스 구별) × Guided Backprop(고해상·비구별)의 요소곱.
Pointing Game: 설명 맵의 최댓값 위치가 객체 바운딩 박스 안에 있는지를 측정하는 localization 평가.
Weakly-Supervised Localization: 분류 라벨만으로 객체 위치를 추정하는 과제.
Saturated Gradient: softmax 등에서 확률이 0/1에 가까울 때 그래디언트가 소실되는 현상.

Juhyeon's Blog

탐색기

Grad-CAM- Visual Explanations from Deep Networks via Gradient-based Localization