SHAP: A Unified Approach to Interpreting Model Predictions

Digest (CISELQ)

  • Context (C): 복잡한 블랙박스 모델(앙상블, 심층망)의 예측 해석을 위해 LIME, DeepLIFT, Layer-wise Relevance Propagation, Shapley regression/sampling 등 서로 다른 설명 기법이 난립하던 시기였다.
  • Issue (I): 각 기법이 어떤 성질을 보장하는지, 서로 어떻게 다른지 통일된 관점이 부재했고, 일관성(consistency)이 깨지는 반례도 존재했다.
  • Solution (S): 저자들은 “additive feature attribution methods”라는 공통 클래스를 정의하고, 그 안에서 local accuracy·missingness·consistency 세 성질을 동시에 만족하는 설명값이 유일하게 Shapley value와 동치인 SHAP임을 증명한다.
  • Evidence (E): 합성 데이터에서 기존 기법의 일관성 위배 사례를 제시하고, Kernel SHAP·Deep SHAP·Max/Linear SHAP 등 모델별 근사를 통해 기존 방법보다 인간 직관 및 계산 효율 양 측면에서 개선됨을 보인다.
  • Limitation (L): 정확한 Shapley 값 계산은 특성 수에 지수 복잡도이며, Kernel SHAP은 특성 독립 가정에 의존하고 상관된 특성에서 왜곡이 발생할 수 있다.
  • Questions (Q): 상관된 특성 하에서의 conditional expectation 근사, 비additive 상호작용 설명, 전역(global) 설명과의 연결은 어떻게 확장할 것인가.

섹션별 요약

Introduction

  • 예측 정확도와 해석 가능성 사이 trade-off가 반복적으로 지적되어 왔음을 배경으로 제시.
  • 기존 설명 기법이 서로 겹치거나 모순되는 해석을 내놓는 문제를 지적하며, 통합 이론 프레임의 필요성을 강조.

Methods

  • Additive Feature Attribution: 설명 모델 형태로 정의하고, LIME/DeepLIFT/LRP/Shapley 계열이 모두 이 프레임에 속함을 보임.
  • 세 공리: (1) Local Accuracy , (2) Missingness , (3) Consistency (기여가 커질수록 감소 금지).
  • 유일성 정리: 세 공리를 만족하는 유일한 는 Shapley value .
  • 근사 알고리즘: Kernel SHAP(특정 가중 선형회귀로 LIME+Shapley 커널 조합), Deep SHAP(DeepLIFT를 Shapley로 재해석해 계층 합성), Linear/Max/Low-order SHAP.

Results

실험비교 대상발견
Consistency 검증(합성)LIME, DeepLIFT, SaliencySHAP만이 기여가 커진 특성의 가 감소하지 않음을 일관되게 유지
사용자 실험(Mechanical Turk)LIME vs SHAP인간 직관과의 일치도에서 SHAP이 유의하게 우세
MNIST/딥넷DeepLIFT vs Deep SHAP같은 연산량에서 Shapley 공리를 더 잘 만족
계산 효율Shapley samplingKernel SHAP이 낮은 분산으로 유사 근사치 산출

Discussion

  • 기존 기법들을 공리적 관점에서 통합·재해석하며, consistency 위배 등 경험적 문제를 이론적으로 설명.
  • Kernel SHAP은 model-agnostic, Deep SHAP은 model-specific 근사로 상보적임을 주장.

Insights

  • 설명 기법을 “additive attribution” 구조로 환원하면 게임이론의 Shapley 유일성 정리를 직접 적용할 수 있다.
  • LIME의 손실/커널/정규화 선택을 바꾸면 Shapley 값을 근사하는 유일한 형태가 도출된다(→ Kernel SHAP).

Discussion Points

  • 특성 간 상관이 강할 때 marginal vs conditional 기댓값 선택 문제.
  • 지수 복잡도를 실전 규모 모델(수천 feature)에서 어떻게 더 줄일지.
  • 공정성·causal 해석과의 연계 가능성.

메타데이터

항목내용
저자Scott M. Lundberg, Su-In Lee (Univ. of Washington)
발표NIPS 2017
arXiv1705.07874
분야XAI / Feature Attribution
코드github.com/slundberg/shap
인용2만+ (대표 XAI 논문)

왜 이 연구를 하는가?

머신러닝 해석 도구가 난립하면서 “같은 예측을 설명하는데 기법마다 다른 값이 나온다”는 실무적 혼란이 커졌다. 저자들은 이를 단순히 새로운 방법을 하나 더 제안하는 것이 아니라, 기존 방법들이 공유하는 구조를 공리화하고 그 공리들을 만족시키는 해가 유일하게 결정됨을 보이는 메타이론적 접근으로 해결하려 한다. 이는 해석 가능성 연구에 협조적 게임이론(Shapley 1953)의 성숙한 이론 토대를 이식하는 첫 시도로서, 이후 TreeSHAP·DeepSHAP 등 모델별 고속 변형의 출발점이 된다.

방법 (Method)

flowchart TD
    A[Black-box model f] --> B[Simplified input x' in 0,1^M]
    B --> C[Additive explanation g = phi0 + sum phi_i x'_i]
    C --> D{세 공리 충족}
    D -->|Local Accuracy| E1[g x' = f x]
    D -->|Missingness| E2[x'_i = 0 => phi_i = 0]
    D -->|Consistency| E3[기여 증가시 phi_i 비감소]
    E1 --> F[유일해: Shapley value phi_i]
    E2 --> F
    E3 --> F
    F --> G1[Kernel SHAP: 가중 선형회귀 근사]
    F --> G2[Deep SHAP: DeepLIFT 계층 합성]
    F --> G3[Linear/Max/Low-order SHAP]
    G1 --> H[설명값 phi_i 출력]
    G2 --> H
    G3 --> H

발견 (Findings)

#발견함의
1LIME·DeepLIFT·LRP가 모두 additive attribution의 특수 케이스기존 방법 비교 기준 통일
2세 공리 동시 만족 해는 Shapley 값으로 유일해석값의 “옳음” 판정 근거 제공
3LIME 기본 설정은 consistency를 위배가중 커널·손실 수정 필요(→ Kernel SHAP)
4Kernel SHAP이 Shapley sampling 대비 저분산·고효율실전 적용성 확보
5사용자 평가에서 SHAP 설명이 인간 직관에 더 부합이론 ↔ 인지적 타당성 연결

이론적 의의

  • 게임이론 ↔ XAI 브리지: Shapley 공리(efficiency, symmetry, dummy, additivity)를 ML 해석 공리(local accuracy·missingness·consistency)로 번역하여, “무엇이 공정한 기여 배분인가”라는 질문을 수학적으로 결정 가능하게 만들었다.
  • 유일성 기반 표준화: 이후 평가 지표·벤치마크 논의에서 “Shapley 일치 여부”가 사실상 표준 기준으로 자리 잡게 한 출발점.
  • Post-hoc 해석의 한계 가시화: 유일성은 공리 하에서만 성립하므로, 공리 수정(예: 상관 feature를 위한 baseline 변경)은 곧 다른 유일해를 낳는다는 점에서 후속 변형(Owen, Aumann-Shapley, Asymmetric SHAP)을 유도.

재현성 및 신뢰도 평가

점수근거
Evidence QualityA공리-정리-증명 구조 엄밀, 합성/실제/사용자 실험 혼합
ReproducibilityA공식 shap 라이브러리와 예제 제공, 알고리즘 의사코드 공개
GeneralityA모델-불문 Kernel SHAP + 모델-특화 Deep SHAP 둘 다 제시
LimitationsB특성 독립 가정·지수 복잡도 명시하나 상관 특성 처리는 후속 연구 과제

관련 연구

원자적 인사이트

  1. “해석값의 유일성은 공리의 선택으로 결정된다” — local accuracy + missingness + consistency를 받아들이는 순간 Shapley 값은 선택이 아니라 필연이다. 즉 XAI 논쟁의 많은 부분은 방법 비교가 아니라 공리 비교로 환원될 수 있다.
  2. “LIME을 제대로 가중하면 Shapley가 된다” — Kernel SHAP은 LIME의 커널/손실/정규화를 특정 형태로 고정하면 Shapley 값의 불편추정량이 된다는 사실을 보인다. 이는 local surrogate 모델의 하이퍼파라미터가 해석값의 이론적 성질을 근본적으로 바꿀 수 있음을 의미한다.
  3. “Consistency 위배는 해석의 신뢰성을 무너뜨린다” — 모델이 특성 에 더 의존하게 바뀌었는데 기여도 가 오히려 감소하는 기법은 디버깅·감사·규제 맥락에서 치명적이며, 이 논문은 그러한 반례를 구체적으로 제시한다.

핵심 용어 정리

  • Additive Feature Attribution: 설명값을 특성별 기여도의 합으로 표현하는 선형 설명 모델 클래스.
  • Local Accuracy: 단순화된 입력에서 설명 모델이 원모델 출력을 정확히 재현하는 성질.
  • Missingness: 누락된(혹은 단순화 입력에서 0) 특성은 기여도 0이라는 조건.
  • Consistency: 모델 변화로 특성의 marginal contribution이 증가하면 해당 특성의 도 감소하지 않아야 한다는 단조성 조건.
  • Shapley Value: 협조적 게임에서 각 플레이어에게 공정하게 총 이득을 배분하는 유일한 값(평균 marginal contribution).
  • Kernel SHAP: LIME 프레임에 Shapley 커널·손실·정규화를 결합한 model-agnostic Shapley 근사.
  • Deep SHAP: DeepLIFT의 reference 기반 backprop을 Shapley 값 합성으로 재해석한 심층망 전용 근사.

태그

XAI SHAP ShapleyValue FeatureAttribution Interpretability GameTheory Theory NIPS2017