SHAP: A Unified Approach to Interpreting Model Predictions
Digest (CISELQ)
Context (C): 복잡한 블랙박스 모델(앙상블, 심층망)의 예측 해석을 위해 LIME, DeepLIFT, Layer-wise Relevance Propagation, Shapley regression/sampling 등 서로 다른 설명 기법이 난립하던 시기였다.
Issue (I): 각 기법이 어떤 성질을 보장하는지, 서로 어떻게 다른지 통일된 관점이 부재했고, 일관성(consistency)이 깨지는 반례도 존재했다.
Solution (S): 저자들은 “additive feature attribution methods”라는 공통 클래스를 정의하고, 그 안에서 local accuracy·missingness·consistency 세 성질을 동시에 만족하는 설명값이 유일하게 Shapley value와 동치인 SHAP임을 증명한다.
Evidence (E): 합성 데이터에서 기존 기법의 일관성 위배 사례를 제시하고, Kernel SHAP·Deep SHAP·Max/Linear SHAP 등 모델별 근사를 통해 기존 방법보다 인간 직관 및 계산 효율 양 측면에서 개선됨을 보인다.
Limitation (L): 정확한 Shapley 값 계산은 특성 수에 지수 복잡도이며, Kernel SHAP은 특성 독립 가정에 의존하고 상관된 특성에서 왜곡이 발생할 수 있다.
Questions (Q): 상관된 특성 하에서의 conditional expectation 근사, 비additive 상호작용 설명, 전역(global) 설명과의 연결은 어떻게 확장할 것인가.
섹션별 요약
Introduction
예측 정확도와 해석 가능성 사이 trade-off가 반복적으로 지적되어 왔음을 배경으로 제시.
기존 설명 기법이 서로 겹치거나 모순되는 해석을 내놓는 문제를 지적하며, 통합 이론 프레임의 필요성을 강조.
Methods
Additive Feature Attribution: 설명 모델 g(z′)=ϕ0+∑i=1Mϕizi′ 형태로 정의하고, LIME/DeepLIFT/LRP/Shapley 계열이 모두 이 프레임에 속함을 보임.
세 공리: (1) Local Accuracy f(x)=g(x′), (2) Missingness xi′=0⇒ϕi=0, (3) Consistency (기여가 커질수록 ϕi 감소 금지).
유일성 정리: 세 공리를 만족하는 유일한 ϕi는 Shapley value ϕi=∑S⊆F∖{i}∣F∣!∣S∣!(∣F∣−∣S∣−1)![fS∪{i}(xS∪{i})−fS(xS)].
기존 기법들을 공리적 관점에서 통합·재해석하며, consistency 위배 등 경험적 문제를 이론적으로 설명.
Kernel SHAP은 model-agnostic, Deep SHAP은 model-specific 근사로 상보적임을 주장.
Insights
설명 기법을 “additive attribution” 구조로 환원하면 게임이론의 Shapley 유일성 정리를 직접 적용할 수 있다.
LIME의 손실/커널/정규화 선택을 바꾸면 Shapley 값을 근사하는 유일한 형태가 도출된다(→ Kernel SHAP).
Discussion Points
특성 간 상관이 강할 때 marginal vs conditional 기댓값 선택 문제.
지수 복잡도를 실전 규모 모델(수천 feature)에서 어떻게 더 줄일지.
공정성·causal 해석과의 연계 가능성.
메타데이터
항목
내용
저자
Scott M. Lundberg, Su-In Lee (Univ. of Washington)
발표
NIPS 2017
arXiv
1705.07874
분야
XAI / Feature Attribution
코드
github.com/slundberg/shap
인용
2만+ (대표 XAI 논문)
왜 이 연구를 하는가?
머신러닝 해석 도구가 난립하면서 “같은 예측을 설명하는데 기법마다 다른 값이 나온다”는 실무적 혼란이 커졌다. 저자들은 이를 단순히 새로운 방법을 하나 더 제안하는 것이 아니라, 기존 방법들이 공유하는 구조를 공리화하고 그 공리들을 만족시키는 해가 유일하게 결정됨을 보이는 메타이론적 접근으로 해결하려 한다. 이는 해석 가능성 연구에 협조적 게임이론(Shapley 1953)의 성숙한 이론 토대를 이식하는 첫 시도로서, 이후 TreeSHAP·DeepSHAP 등 모델별 고속 변형의 출발점이 된다.
방법 (Method)
flowchart TD
A[Black-box model f] --> B[Simplified input x' in 0,1^M]
B --> C[Additive explanation g = phi0 + sum phi_i x'_i]
C --> D{세 공리 충족}
D -->|Local Accuracy| E1[g x' = f x]
D -->|Missingness| E2[x'_i = 0 => phi_i = 0]
D -->|Consistency| E3[기여 증가시 phi_i 비감소]
E1 --> F[유일해: Shapley value phi_i]
E2 --> F
E3 --> F
F --> G1[Kernel SHAP: 가중 선형회귀 근사]
F --> G2[Deep SHAP: DeepLIFT 계층 합성]
F --> G3[Linear/Max/Low-order SHAP]
G1 --> H[설명값 phi_i 출력]
G2 --> H
G3 --> H
발견 (Findings)
#
발견
함의
1
LIME·DeepLIFT·LRP가 모두 additive attribution의 특수 케이스
기존 방법 비교 기준 통일
2
세 공리 동시 만족 해는 Shapley 값으로 유일
해석값의 “옳음” 판정 근거 제공
3
LIME 기본 설정은 consistency를 위배
가중 커널·손실 수정 필요(→ Kernel SHAP)
4
Kernel SHAP이 Shapley sampling 대비 저분산·고효율
실전 적용성 확보
5
사용자 평가에서 SHAP 설명이 인간 직관에 더 부합
이론 ↔ 인지적 타당성 연결
이론적 의의
게임이론 ↔ XAI 브리지: Shapley 공리(efficiency, symmetry, dummy, additivity)를 ML 해석 공리(local accuracy·missingness·consistency)로 번역하여, “무엇이 공정한 기여 배분인가”라는 질문을 수학적으로 결정 가능하게 만들었다.
유일성 기반 표준화: 이후 평가 지표·벤치마크 논의에서 “Shapley 일치 여부”가 사실상 표준 기준으로 자리 잡게 한 출발점.
Post-hoc 해석의 한계 가시화: 유일성은 공리 하에서만 성립하므로, 공리 수정(예: 상관 feature를 위한 baseline 변경)은 곧 다른 유일해를 낳는다는 점에서 후속 변형(Owen, Aumann-Shapley, Asymmetric SHAP)을 유도.
Shapley, L.S. (1953) A Value for n-Person Games — 이론적 뿌리.
원자적 인사이트
“해석값의 유일성은 공리의 선택으로 결정된다” — local accuracy + missingness + consistency를 받아들이는 순간 Shapley 값은 선택이 아니라 필연이다. 즉 XAI 논쟁의 많은 부분은 방법 비교가 아니라 공리 비교로 환원될 수 있다.
“LIME을 제대로 가중하면 Shapley가 된다” — Kernel SHAP은 LIME의 커널/손실/정규화를 특정 형태로 고정하면 Shapley 값의 불편추정량이 된다는 사실을 보인다. 이는 local surrogate 모델의 하이퍼파라미터가 해석값의 이론적 성질을 근본적으로 바꿀 수 있음을 의미한다.
“Consistency 위배는 해석의 신뢰성을 무너뜨린다” — 모델이 특성 i에 더 의존하게 바뀌었는데 기여도 ϕi가 오히려 감소하는 기법은 디버깅·감사·규제 맥락에서 치명적이며, 이 논문은 그러한 반례를 구체적으로 제시한다.
핵심 용어 정리
Additive Feature Attribution: 설명값을 특성별 기여도의 합으로 표현하는 선형 설명 모델 클래스.
Local Accuracy: 단순화된 입력에서 설명 모델이 원모델 출력을 정확히 재현하는 성질.
Missingness: 누락된(혹은 단순화 입력에서 0) 특성은 기여도 0이라는 조건.
Consistency: 모델 변화로 특성의 marginal contribution이 증가하면 해당 특성의 ϕi도 감소하지 않아야 한다는 단조성 조건.
Shapley Value: 협조적 게임에서 각 플레이어에게 공정하게 총 이득을 배분하는 유일한 값(평균 marginal contribution).
Kernel SHAP: LIME 프레임에 Shapley 커널·손실·정규화를 결합한 model-agnostic Shapley 근사.
Deep SHAP: DeepLIFT의 reference 기반 backprop을 Shapley 값 합성으로 재해석한 심층망 전용 근사.