SHAP: A Unified Approach to Interpreting Model Predictions

Digest (CISELQ)

Context (C): 복잡한 블랙박스 모델(앙상블, 심층망)의 예측 해석을 위해 LIME, DeepLIFT, Layer-wise Relevance Propagation, Shapley regression/sampling 등 서로 다른 설명 기법이 난립하던 시기였다.
Issue (I): 각 기법이 어떤 성질을 보장하는지, 서로 어떻게 다른지 통일된 관점이 부재했고, 일관성(consistency)이 깨지는 반례도 존재했다.
Solution (S): 저자들은 “additive feature attribution methods”라는 공통 클래스를 정의하고, 그 안에서 local accuracy·missingness·consistency 세 성질을 동시에 만족하는 설명값이 유일하게 Shapley value와 동치인 SHAP임을 증명한다.
Evidence (E): 합성 데이터에서 기존 기법의 일관성 위배 사례를 제시하고, Kernel SHAP·Deep SHAP·Max/Linear SHAP 등 모델별 근사를 통해 기존 방법보다 인간 직관 및 계산 효율 양 측면에서 개선됨을 보인다.
Limitation (L): 정확한 Shapley 값 계산은 특성 수에 지수 복잡도이며, Kernel SHAP은 특성 독립 가정에 의존하고 상관된 특성에서 왜곡이 발생할 수 있다.
Questions (Q): 상관된 특성 하에서의 conditional expectation 근사, 비additive 상호작용 설명, 전역(global) 설명과의 연결은 어떻게 확장할 것인가.

섹션별 요약

Introduction

예측 정확도와 해석 가능성 사이 trade-off가 반복적으로 지적되어 왔음을 배경으로 제시.
기존 설명 기법이 서로 겹치거나 모순되는 해석을 내놓는 문제를 지적하며, 통합 이론 프레임의 필요성을 강조.

Methods

Additive Feature Attribution: 설명 모델 $g (z^{'}) = ϕ_{0} + \sum_{i = 1}^{M} ϕ_{i} z_{i}^{'}$ 형태로 정의하고, LIME/DeepLIFT/LRP/Shapley 계열이 모두 이 프레임에 속함을 보임.
세 공리: (1) Local Accuracy $f (x) = g (x^{'})$ , (2) Missingness $x_{i}^{'} = 0 \Rightarrow ϕ_{i} = 0$ , (3) Consistency (기여가 커질수록 $ϕ_{i}$ 감소 금지).
유일성 정리: 세 공리를 만족하는 유일한 $ϕ_{i}$ 는 Shapley value $ϕ_{i} = \sum_{S \subseteq F ∖ {i}} \frac{∣ S ∣ ! ( ∣ F ∣ - ∣ S ∣ - 1 )!}{∣ F ∣ !} [f_{S \cup {i}} (x_{S \cup {i}}) - f_{S} (x_{S})]$ .
근사 알고리즘: Kernel SHAP(특정 가중 선형회귀로 LIME+Shapley 커널 조합), Deep SHAP(DeepLIFT를 Shapley로 재해석해 계층 합성), Linear/Max/Low-order SHAP.

Results

실험	비교 대상	발견
Consistency 검증(합성)	LIME, DeepLIFT, Saliency	SHAP만이 기여가 커진 특성의 $ϕ_{i}$ 가 감소하지 않음을 일관되게 유지
사용자 실험(Mechanical Turk)	LIME vs SHAP	인간 직관과의 일치도에서 SHAP이 유의하게 우세
MNIST/딥넷	DeepLIFT vs Deep SHAP	같은 연산량에서 Shapley 공리를 더 잘 만족
계산 효율	Shapley sampling	Kernel SHAP이 낮은 분산으로 유사 근사치 산출

Discussion

기존 기법들을 공리적 관점에서 통합·재해석하며, consistency 위배 등 경험적 문제를 이론적으로 설명.
Kernel SHAP은 model-agnostic, Deep SHAP은 model-specific 근사로 상보적임을 주장.

Insights

설명 기법을 “additive attribution” 구조로 환원하면 게임이론의 Shapley 유일성 정리를 직접 적용할 수 있다.
LIME의 손실/커널/정규화 선택을 바꾸면 Shapley 값을 근사하는 유일한 형태가 도출된다(→ Kernel SHAP).

Discussion Points

특성 간 상관이 강할 때 marginal vs conditional 기댓값 선택 문제.
지수 복잡도를 실전 규모 모델(수천 feature)에서 어떻게 더 줄일지.
공정성·causal 해석과의 연계 가능성.

메타데이터

항목	내용
저자	Scott M. Lundberg, Su-In Lee (Univ. of Washington)
발표	NIPS 2017
arXiv	1705.07874
분야	XAI / Feature Attribution
코드	github.com/slundberg/shap
인용	2만+ (대표 XAI 논문)

왜 이 연구를 하는가?

머신러닝 해석 도구가 난립하면서 “같은 예측을 설명하는데 기법마다 다른 값이 나온다”는 실무적 혼란이 커졌다. 저자들은 이를 단순히 새로운 방법을 하나 더 제안하는 것이 아니라, 기존 방법들이 공유하는 구조를 공리화하고 그 공리들을 만족시키는 해가 유일하게 결정됨을 보이는 메타이론적 접근으로 해결하려 한다. 이는 해석 가능성 연구에 협조적 게임이론(Shapley 1953)의 성숙한 이론 토대를 이식하는 첫 시도로서, 이후 TreeSHAP·DeepSHAP 등 모델별 고속 변형의 출발점이 된다.

방법 (Method)

flowchart TD
    A[Black-box model f] --> B[Simplified input x' in 0,1^M]
    B --> C[Additive explanation g = phi0 + sum phi_i x'_i]
    C --> D{세 공리 충족}
    D -->|Local Accuracy| E1[g x' = f x]
    D -->|Missingness| E2[x'_i = 0 => phi_i = 0]
    D -->|Consistency| E3[기여 증가시 phi_i 비감소]
    E1 --> F[유일해: Shapley value phi_i]
    E2 --> F
    E3 --> F
    F --> G1[Kernel SHAP: 가중 선형회귀 근사]
    F --> G2[Deep SHAP: DeepLIFT 계층 합성]
    F --> G3[Linear/Max/Low-order SHAP]
    G1 --> H[설명값 phi_i 출력]
    G2 --> H
    G3 --> H

발견 (Findings)

#	발견	함의
1	LIME·DeepLIFT·LRP가 모두 additive attribution의 특수 케이스	기존 방법 비교 기준 통일
2	세 공리 동시 만족 해는 Shapley 값으로 유일	해석값의 “옳음” 판정 근거 제공
3	LIME 기본 설정은 consistency를 위배	가중 커널·손실 수정 필요(→ Kernel SHAP)
4	Kernel SHAP이 Shapley sampling 대비 저분산·고효율	실전 적용성 확보
5	사용자 평가에서 SHAP 설명이 인간 직관에 더 부합	이론 ↔ 인지적 타당성 연결

이론적 의의

게임이론 ↔ XAI 브리지: Shapley 공리(efficiency, symmetry, dummy, additivity)를 ML 해석 공리(local accuracy·missingness·consistency)로 번역하여, “무엇이 공정한 기여 배분인가”라는 질문을 수학적으로 결정 가능하게 만들었다.
유일성 기반 표준화: 이후 평가 지표·벤치마크 논의에서 “Shapley 일치 여부”가 사실상 표준 기준으로 자리 잡게 한 출발점.
Post-hoc 해석의 한계 가시화: 유일성은 공리 하에서만 성립하므로, 공리 수정(예: 상관 feature를 위한 baseline 변경)은 곧 다른 유일해를 낳는다는 점에서 후속 변형(Owen, Aumann-Shapley, Asymmetric SHAP)을 유도.

재현성 및 신뢰도 평가

축	점수	근거
Evidence Quality	A	공리-정리-증명 구조 엄밀, 합성/실제/사용자 실험 혼합
Reproducibility	A	공식 `shap` 라이브러리와 예제 제공, 알고리즘 의사코드 공개
Generality	A	모델-불문 Kernel SHAP + 모델-특화 Deep SHAP 둘 다 제시
Limitations	B	특성 독립 가정·지수 복잡도 명시하나 상관 특성 처리는 후속 연구 과제

원자적 인사이트

“해석값의 유일성은 공리의 선택으로 결정된다” — local accuracy + missingness + consistency를 받아들이는 순간 Shapley 값은 선택이 아니라 필연이다. 즉 XAI 논쟁의 많은 부분은 방법 비교가 아니라 공리 비교로 환원될 수 있다.
“LIME을 제대로 가중하면 Shapley가 된다” — Kernel SHAP은 LIME의 커널/손실/정규화를 특정 형태로 고정하면 Shapley 값의 불편추정량이 된다는 사실을 보인다. 이는 local surrogate 모델의 하이퍼파라미터가 해석값의 이론적 성질을 근본적으로 바꿀 수 있음을 의미한다.
“Consistency 위배는 해석의 신뢰성을 무너뜨린다” — 모델이 특성 $i$ 에 더 의존하게 바뀌었는데 기여도 $ϕ_{i}$ 가 오히려 감소하는 기법은 디버깅·감사·규제 맥락에서 치명적이며, 이 논문은 그러한 반례를 구체적으로 제시한다.

핵심 용어 정리

Additive Feature Attribution: 설명값을 특성별 기여도의 합으로 표현하는 선형 설명 모델 클래스.
Local Accuracy: 단순화된 입력에서 설명 모델이 원모델 출력을 정확히 재현하는 성질.
Missingness: 누락된(혹은 단순화 입력에서 0) 특성은 기여도 0이라는 조건.
Consistency: 모델 변화로 특성의 marginal contribution이 증가하면 해당 특성의 $ϕ_{i}$ 도 감소하지 않아야 한다는 단조성 조건.
Shapley Value: 협조적 게임에서 각 플레이어에게 공정하게 총 이득을 배분하는 유일한 값(평균 marginal contribution).
Kernel SHAP: LIME 프레임에 Shapley 커널·손실·정규화를 결합한 model-agnostic Shapley 근사.
Deep SHAP: DeepLIFT의 reference 기반 backprop을 Shapley 값 합성으로 재해석한 심층망 전용 근사.

Juhyeon's Blog

탐색기

SHAP-A Unified Approach to Interpreting Model Predictions