Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV)

Paper Digest (CISELQ)

C (Context): 딥러닝 분류기는 픽셀·저수준 특성 위에서 작동하지만, 사람은 “줄무늬”, “점박이”와 같은 고수준 개념으로 사고한다. 기존 Saliency map·Feature attribution 방식은 “어느 픽셀이 중요했는가”만 답할 뿐, “어떤 개념이 예측에 얼마나 영향을 주었는가”라는 사용자 친화적 질문에는 답하지 못한다.
I (Issue): 모델 내부 상태를 재학습이나 구조 수정 없이, 사용자가 정의한 임의 개념 단위로 사후 해석(post-hoc)할 수 있는 정량적 도구가 부재했다. 또한 개별 이미지가 아닌 클래스 전역(global) 수준에서 “해당 개념이 이 클래스 판별에 유의미한가”를 통계적으로 검정할 방법이 필요하다.
S (Solution): 사용자가 양성/음성 개념 예시 이미지를 제공하면, 특정 레이어 활성값 공간에서 두 집합을 분리하는 선형 분류기(logistic regression)의 normal vector를 Concept Activation Vector(CAV, $v_{C}^{l}$ )로 정의한다. 클래스 로짓의 CAV 방향 directional derivative 부호로 개념 민감도를 측정하고, 클래스 이미지 전체에서 양의 비율을 집계한 TCAV 점수를 산출한다.
E (Evidence): InceptionV3·GoogLeNet에서 zebra 클래스가 striped 개념에 민감하고(TCAV ≈ 1.0), ping-pong ball 클래스가 cartoon 개념보다 dimpled 개념에 더 강하게 반응함을 확인. 무작위 개념(random500) 대비 two-sample t-test로 통계적 유의성 검정. Sorting test로 개념 순위 타당성 검증. 의료 영상(당뇨망막증)에서 임상의 개념과 모델 판단 일치를 보였다.
L (Limitations): CAV는 선형 분리 가능성을 가정하므로 비선형적으로 얽힌 개념에는 취약하며, 개념 예시의 질과 수에 민감하다. 또한 특정 레이어 선택 의존성이 있고, CAV 방향이 개념 외 bias를 내포할 수 있다.
Q (Quote/Takeaway): “Interpretability should not be constrained to the model’s input features” — 모델 해석은 픽셀이 아니라 사람이 이해하는 개념 언어로 이루어져야 한다.

섹션별 요약

Introduction

Saliency, LIME, gradient 기반 설명은 입력 특성 수준 해석에 국한되어, 이미지 분류기가 “줄무늬”와 같은 개념에 얼마나 의존하는지 답하지 못한다.
목표: (1) 사용자 정의 개념, (2) 사용자가 개념을 커스터마이즈, (3) 모델 재학습 불필요, (4) 클래스 전역 설명, (5) 정량 통계 검정을 만족하는 해석 프레임워크 제안.

Methods

CAV 정의: 레이어 $l$ 활성값에서 개념 예시( $P_{C}$ ) vs 무작위 예시( $N$ )를 분리하는 선형 분류기의 normal vector $v_{C}^{l}$ .
Conceptual sensitivity: $S_{C, k, l} (x) = \nabla h_{l, k} (f_{l} (x)) \cdot v_{C}^{l}$ (클래스 $k$ 로짓의 CAV 방향 directional derivative).
TCAV score: 클래스 $k$ 입력 집합 $X_{k}$ 중 $S_{C, k, l} (x) > 0$ 인 비율.
통계 검정: 다수 random CAV로 귀무 분포를 만들어 two-sample t-test(본페로니 보정).

Results

실험	모델	관찰
Zebra × striped	GoogLeNet/Inception	TCAV ≈ 1.0, 전 레이어에서 유의
Ping-pong × cartoon/dimpled	InceptionV3	dimpled > cartoon, 직관과 일치
Sorting test	-	CAV 유사도 순위가 의미적 유사도와 일치
의료(DR)	진단 모델	미세동맥류 개념 민감도가 임상적 예측 근거와 합치
편향 탐지	이미지 캡션 분류	성별·인종 개념이 특정 클래스 판별에 유의미하게 기여함을 정량화

Discussion

CAV는 재학습 없이 post-hoc으로 임의의 레이어를 probing.
레이어마다 개념 추상화 수준이 달라져, 상위 레이어에서 고수준 개념 민감도가 뚜렷.
인간 실험으로 saliency 대비 TCAV 설명이 과제 수행을 더 돕는다는 증거 제시.

Insights

모델 내부의 선형 기하학이 사람 개념 축과 정렬될 수 있다 → distributed representation 가정에 실증적 근거.
예측 해석을 입력 공간이 아니라 개념 공간으로 전이한 최초의 범용 프레임워크.

Discussion Points

CAV의 선형성 가정이 한계인 경우(개념 entanglement) 어떻게 일반화할 것인가?
개념 예시 선정에 따른 재현성 문제: 동일 개념이라도 collecting source가 다르면 CAV 분산이 커질 수 있다.

메타데이터

항목	내용
저자	Been Kim, Martin Wattenberg, Justin Gilmer, Carrie Cai, James Wexler, Fernanda Viegas, Rory Sayres
발표	ICML 2018 (arXiv 2017.11)
분야	XAI, Interpretability
데이터	ImageNet, 당뇨망막증(DR) 의료영상
모델	InceptionV3, GoogLeNet
코드	공식 저장소 공개 (tensorflow/tcav)

왜 이 연구를 하는가?

이미지 분류기가 “zebra”를 맞히는 근거가 실제로 “줄무늬” 때문인지, 아니면 아프리카 초원 배경 때문인지 확인하려면 개념 단위의 정량적 인과성이 필요하다. 기존 Saliency는 개별 이미지의 픽셀 중요도만 알려줘 사용자 질문(“stripes 때문에 맞혔어?“)에 정면으로 답하지 못한다. TCAV는 (1) 비전문가도 개념 예시만으로 질의 가능, (2) 클래스 전역(global) 해석, (3) 통계적 유의성 제공이라는 세 가지를 동시에 만족하는 것이 목표다. 또한 민감 속성(성별·인종)이 의사결정에 얼마나 스며드는지 정량화함으로써 공정성 감사 도구로도 활용 가능하다.

방법 (Method)

flowchart TD
    A[사용자: 개념 예시 P_C 수집<br/>예: 줄무늬 50장] --> B[레이어 l 활성값 f_l x 추출]
    C[Random set N] --> B
    B --> D[선형 분류기 학습<br/>P_C vs N]
    D --> E[CAV v_C_l = normal vector]
    E --> F[클래스 k 로짓 h_l_k에 대한<br/>directional derivative S_C_k_l x]
    F --> G[부호 greater than 0 비율<br/>= TCAV 점수]
    H[다수 random CAV] --> I[귀무 분포]
    G --> J[t-test + Bonferroni<br/>통계적 유의성]
    I --> J
    J --> K[개념 기반 global 해석]

1단계: 개념 $C$ 에 대해 양성 예시 이미지 $P_{C}$ 와 무작위 이미지 집합 $N$ 수집.
2단계: 타겟 레이어 $l$ 에서 활성값 추출 후, $P_{C}$ vs $N$ 이진 로지스틱 회귀 학습.
3단계: 학습된 분류기의 normal vector를 $v_{C}^{l}$ 로 지정 (CAV).
4단계: 관심 클래스 $k$ 입력 $x$ 마다 $S_{C, k, l} (x) = \nabla h_{l, k} (f_{l} (x)) \cdot v_{C}^{l}$ 계산.
5단계: $TCAV_{Q_{C, k, l}} = ∣ {x \in X_{k} : S_{C, k, l} (x) > 0} ∣/∣ X_{k} ∣$ .
6단계: 여러 random CAV로 동일 절차 반복, 두 분포(실제 vs 무작위) t-test로 검정.

발견

발견	의미
zebra 클래스 TCAV(striped) ≈ 1.0	직관적 개념-예측 관계가 정량적으로 확인됨
dimpled greater than cartoon for ping-pong	시각적으로 덜 명백한 질감 개념이 더 큰 기여
random CAV 대비 t-test 유의	통계 검정으로 가짜 발견 차단 가능
상위 레이어일수록 고수준 개념 정렬	레이어 간 추상화 위계의 실증
성별/인종 개념이 특정 직업 클래스에 유의	편향 감사 실용성
임상 DR 진단 모델에서 미세동맥류 개념 민감도 확인	전문가 지식-모델 정합성 검증

이론적 의의

해석의 언어 전이: 해석 단위를 픽셀에서 개념으로 옮겨, interpretability의 사용자 중심 재정의를 제공.
선형 probing 연구의 토대: 이후 BERT/LLM의 linear probe, sparse autoencoder, concept bottleneck model, representation engineering에 이론적 영감 제공.
Post-hoc global 해석: 개별 샘플 해석(local)과 구분되는 클래스 전역 설명 패러다임을 확립.
공정성·안전성 감사 도구: 민감 속성의 암묵적 기여를 정량화하는 규제 친화적 방법론.

재현성 및 신뢰도 평가

축	평가	근거
코드 공개	A	공식 TF 저장소 존재
데이터	A	ImageNet·공개 개념 예시
통계 처리	A	t-test + Bonferroni
한계 명시	B+	선형성·예시 품질 의존성 언급
Evidence Quality	A	다수 모델·도메인 교차 검증
Reproducibility	A	CAV 학습이 간단한 로지스틱 회귀

원자적 인사이트

활성값 공간의 사람 개념 축은 선형적이다: 단일 logistic regression의 normal vector만으로도 “줄무늬” 같은 고수준 개념을 probe할 수 있다는 사실은, 네트워크 내부 representation이 개념 축 기준으로 대체로 선형 분리 가능하다는 실증적 증거다. 이는 이후 sparse autoencoder·representation engineering의 출발점이 된다.
해석에는 귀무 분포가 필요하다: 단일 CAV로 얻은 점수는 무작위 방향이 만들 수 있는 허위 패턴과 구분되지 않는다. 다수 random CAV를 귀무 분포로 삼아 t-test로 검정하는 설계는 interpretability 연구에 통계적 엄밀성을 도입한 모범 사례다.
개념 선택이 곧 질문 설계다: TCAV에서 “어떤 개념을 테스트할지”는 분석자의 가설이며, 이는 해석 도구가 사용자 질문을 받아 답하는 대화형 프레임워크임을 시사한다.

핵심 용어 정리

CAV (Concept Activation Vector): 개념 양/음 예시를 분리하는 레이어별 선형 분류기의 normal vector.
Directional derivative: 특정 방향으로의 그래디언트 내적. 민감도 측정의 핵심 연산.
TCAV score: 클래스 이미지 중 개념 민감도가 양인 비율(0~1).
Sorting test: 개념 간 유사도 순위가 CAV 유사도와 일치하는지 확인하는 검정.
Post-hoc interpretability: 학습 완료 모델을 재학습 없이 해석하는 접근.
Linear probe: 내부 representation 위에 얕은 선형 모델을 붙여 특성을 진단하는 기법.

XAI Interpretability TCAV ConceptActivationVector ICML2018 Probing Theory

Juhyeon's Blog

탐색기

Interpretability Beyond Feature Attribution- Quantitative Testing with Concept Activation Vectors (TCAV)