DeepHit: 경쟁 위험(Competing Risks)을 다루는 생존 분석을 위한 딥러닝 접근

Digest: 생존 분석(time-to-event analysis)에서 기존 모형은 Cox proportional hazards처럼 기저 stochastic process의 모수적 형태(parametric form)와 covariate-hazard 관계의 시간 불변성(time-invariance)을 가정해 왔으며, 특히 한 환자에게 두 개 이상의 사망 원인이 경쟁하는 competing risks 상황에서는 위험 간 독립을 추가로 요구하여 실제 의료 데이터(예: 유방암 치료가 심혈관 사건 위험을 증가시키는 상황 — Koene et al. 2016)와 어긋난다. DeepHit는 covariate $x$ 를 입력 받아 (event $k$ , 이산 시점 $s$ )의 결합 분포 $P (s, k ∣ x)$ 를 직접 softmax로 출력하는 multi-task 신경망으로, 단일 shared sub-network + $K$ 개 cause-specific sub-network 구조를 통해 cause 간 잠재 표현은 공유하면서 cause-specific 표현은 분리한다. 손실은 $L_{Total} = L_{1} + L_{2}$ 로, $L_{1}$ 은 우중도절단(right-censoring)을 명시적으로 처리하는 결합 분포의 음의 로그우도이고 $L_{2}$ 는 $η (x, y) = exp (- (x - y) / σ)$ 기반의 cause-specific ranking loss로 concordance 개념을 직접 학습 신호로 사용한다. 평가는 5-fold CV에 시간 의존 일치도 지표 $C^{t d}$ (Antolini, Boracchi, and Biganzoli 2005)로 수행했고, SEER(유방암/CVD 경쟁), 합성(2개 경쟁 risk), UNOS(심장이식 단일 risk), METABRIC(유방암 단일 risk)에서 cs-Cox, Fine-Gray(1999), DMGP(Alaa·van der Schaar 2017), DeepSurv(Katzman et al. 2016), RSF, ThresReg, MP-* 등을 통계적으로 유의(주로 $p < 0.001$ ) 능가했다(예: SEER 유방암 $C^{t d}$ 0.752 vs DMGP 0.742; 합성 Event 1 0.755 vs DMGP 0.663; METABRIC 0.691 vs RSF 0.672). 함의는 (1) 생존 분포를 분포 가정 없이 discrete-time joint distribution으로 풀면 비비례·비선형·비독립 경쟁 위험까지 단일 손실로 다룰 수 있고, (2) ranking term의 명시적 사용이 비례 가정에서 자유로워진 모델의 위험 순서 학습에 핵심이라는 점이다.

섹션별 요약

Abstract

Survival analysis(시간-사건 분석)는 경제, 공학, 의학 등에서 covariate과 (생존 시간의 분포) 사이의 관계를 학습하는 문제다. 기존 접근은 생존 시간을 어떤 stochastic process의 first hitting time으로 보고, 그 프로세스의 모수적 형태를 가정한 뒤 covariate-모수 관계를 학습해 위험을 유도해 왔다. 그러나 이러한 모수 가정은 자주 위배된다. 본 논문은 DeepHit라는 다른 접근을 제시한다 — deep neural network로 생존 시간의 분포를 직접 학습하여 (1) 기저 stochastic process에 대한 가정을 두지 않고, (2) covariate-위험 관계가 시간에 따라 변화할 수 있도록 허용하며, (3) competing risks(둘 이상의 이벤트가 경쟁) 상황을 단일 framework에서 매끄럽게 처리한다. 실제·합성 데이터셋에서 기존 state-of-the-art 대비 크고 통계적으로 유의한 성능 개선을 보였다.

저자 contribution

생존 시간 분포를 분포 가정 없이 직접 모델링하는 deep learning approach 제안 — 기저 stochastic process의 형태나 covariate-모수 관계의 시간 불변성을 가정하지 않음
Shared sub-network + cause-specific sub-network로 구성된 multi-task 구조로 competing risks를 단일 softmax 출력에서 결합 분포로 학습
음의 로그우도(censoring 처리) + cause-specific ranking loss로 구성된 새로운 손실 함수 설계
SEER, METABRIC, UNOS, 합성 데이터에서 시간 의존 $C^{t d}$ -index 기준으로 cs-Cox, Fine-Gray, DMGP, DeepSurv, RSF 등을 통계적으로 유의하게 능가

왜 이 연구를 하는가?

임상 현실의 갭: 의학에서 환자는 흔히 동반질환(comorbidity)을 갖고, 한 치료가 다른 사망 원인의 위험을 변화시킨다 — 예: 유방암 치료가 심혈관 사건 위험을 키운다(Koene et al. 2016). 즉 위험은 일반적으로 독립이 아니다.
기존 모델의 한계:
- Cox proportional hazards(1972)는 가장 널리 쓰이지만 hazard rate의 시간 불변(비례) 가정과 covariate-hazard 로그선형 가정을 동시에 부과한다.
- First-hitting-time 계열(Wiener process — Lee·Whitmore 2010, Markov Chain — Longini 1989)은 competing risks를 자연스럽게 흡수할 수 있으나 기저 프로세스가 알려져 있어야 의미 있고, 의료 상황에서 잠재 질병 상태는 관측되지 않는다.
- Fine-Gray(1999)는 CIF를 직접 변환하지만 hazard 형태와 모수-covariate 관계에 강한 가정을 유지한다.
- 기존 신경망 생존 모델(Faraggi·Simon 1995, Katzman 2016 — DeepSurv, Luck 2017)은 covariate-hazard 비선형성은 완화했으나 여전히 Cox 가정(시간 불변 hazard)을 유지해 covariate의 시간 의존 영향을 포착하지 못한다.
- ML 계열(RSF — Ishwaran 2008, deep exponential families, dependent logistic regressors, GP 계열)은 covariate은 활용하나 competing risks를 직접 다루지 않으며, 단일 사건만 보고 나머지를 censoring 처리하는 변형은 위험이 독립일 때만 정당화된다.
연구 질문: 분포·시간 가정 없이 covariate $x$ 로부터 $P (s, k ∣ x)$ 의 결합 분포를 end-to-end로 직접 학습할 수 있는가? 그리고 그것이 단일 risk·경쟁 risk 양쪽에서 더 잘 작동하는가?

Introduction

저자들은 survival analysis의 본질적 문제 — covariate과 first hitting time 분포의 관계 학습 — 를 deep learning으로 재정식화한다. 핵심 관찰은 기존 모든 계열이 “stochastic process를 가정 → 모수와 covariate의 관계 학습 → 위험 유도”라는 간접 경로를 거친다는 점이다. DeepHit는 이를 우회해 covariate $x$ 가 주어졌을 때 (event $k$ , 시점 $s$ )에 대한 결합 PMF를 신경망의 softmax 출력으로 직접 산출한다. 두 가지 설계가 이를 가능하게 한다 — (1) shared sub-network이 cause 간 공통 잠재 표현 $f_{s} (x)$ 를 학습하고, (2) $K$ 개의 cause-specific sub-network이 각각 $(f_{s} (x), x)$ 를 받아 cause별 first-hitting-time 분포 $f_{c_{k}} (z)$ 를 산출한 뒤 단일 softmax로 결합 분포를 만든다. 학습은 결합 우도(censoring bias 포함)와 cause-specific ranking loss의 합으로 이뤄진다. 평가는 cardiac transplantation(UNOS), 유방암(METABRIC), SEER(유방암 + CVD 경쟁), 합성(quadratic 비선형 + 의존 경쟁) 등 4개 데이터셋에서 시간 의존 $C^{t d}$ -index로 수행되며, 모든 경우 state-of-the-art를 능가한다.

Methods

문제 정의 (Survival Data)

각 환자 $i$ 는 triple $(x^{(i)}, s^{(i)}, k^{(i)})$ 로 표현 — $x \in X$ 는 $D$ -차원 covariate, $s \in \mathcal{T} = \{0, \ldots, T_\max\}$ 는 사건/censoring 발생 이산 시점, $k \in K = {\emptyset, 1, \dots, K}$ 는 사건 종류( $\emptyset$ 이면 right-censored).
환자당 정확히 하나의 사건만 발생한다고 가정(Gooley et al. 1999) — 즉 한 환자는 한 원인으로만 사망.
목표: covariate $x^{*}$ 에 대해 진짜 $P (s = s^{*}, k = k^{*} ∣ x = x^{*})$ 를 추정하는 $\hat{P}$ 학습.
Right-censoring은 완전 무작위(completely at random) 가정.

네트워크 구조 (Model Description, Figure 2)

Shared sub-network ( $L_{S}$ fully-connected layers): 입력 $x$ → cause 간 공통 잠재 표현 $f_{s} (x)$ .
Cause-specific sub-network $K$ 개 ( $L_{C, k}$ FC layers): 각 $k$ 에 대해 $z = (f_{s} (x), x)$ 를 입력으로 받아 $f_{c_{k}} (z)$ 출력. Residual connection으로 원본 $x$ 를 cause-specific 입력에 결합 — 공통 표현으로 손실될 수 있는 cause-non-common 정보를 보존.
단일 softmax 출력 layer: 출력 벡터 $y = [y_{1,1}, \ldots, y_{1,T_\max}, \ldots, y_{K,1}, \ldots, y_{K,T_\max}]$ 로 $y_{k, s} = \hat{P} (s, k ∣ x)$ 가 결합 분포(marginal이 아님). 단일 softmax가 cause 간 합을 1로 강제해 marginal이 아닌 joint를 학습하게 한다.
추정 CIF(누적발생함수): $\hat{F}_{k^{*}} (s^{*} ∣ x^{*}) = \sum_{m = 0}^{s^{*}} y_{k^{*}, m}$ .

손실 함수 (Loss Function)

총 손실 $L_{Total} = L_{1} + L_{2}$ .
$L_{1}$ — censoring-aware joint log-likelihood:

L_{1} = - i = 1 \sum N [1 (k^{(i)} \neq = \emptyset) \cdot lo g y_{k^{(i)}, s^{(i)}}^{(i)} + 1 (k^{(i)} = \emptyset) \cdot lo g (1 - k = 1 \sum K \hat{F}_{k} (s^{(i)} ∣ x^{(i)}))]

첫 항: uncensored 환자의 결합 분포 $\hat{P} (s, k ∣ x)$ 직접 최대화.
둘째 항: censored 환자에 대해 “censoring 시점까지 어떤 사건도 안 일어났음”을 활용 — censoring 이후 $K$ 개 cause 중 하나로 사건이 발생할 확률, 즉 $1 - \sum_{k} \hat{F}_{k} (s^{(i)} ∣ x^{(i)})$ 를 최대화하여 censoring bias 보정.
$L_{2}$ — cause-specific ranking loss:
- Acceptable pair indicator: $A_{k, i, j} = 1 (k^{(i)} = k, s^{(i)} < s^{(j)})$ — 환자 $i$ 가 시점 $s^{(i)}$ 에 cause $k$ 로 사망했고, 환자 $j$ 는 그 시점까지 cause $k$ 를 겪지 않았을 때 비교 가능.

L_{2} = k = 1 \sum K α_{k} \cdot i \neq = j \sum A_{k, i, j} \cdot η (\hat{F}_{k} (s^{(i)} ∣ x^{(i)}), \hat{F}_{k} (s^{(i)} ∣ x^{(j)}))

본 논문은 $α_{k} = α$ 로 단순화, $η (x, y) = exp (- (x - y) / σ)$ 사용.
의미: 더 빨리 죽은 환자가 같은 시점에서 더 높은 추정 위험을 갖도록 강제 — concordance(Harrell et al. 1982) 개념을 학습 신호로 직접 도입.

훈련

학습 그래프(Figure 3): 입력 $x$ , 출력 $y$ , ${k^{(i)}, s^{(i)}}$ 로 indicator 계산 → acceptable pair 식별 → 손실 계산 → backprop으로 모든 sub-network 갱신.
4-layer 네트워크: shared sub-network 1 FC + cause-specific sub-network 2 FC + softmax (단일 risk이면 3 FC + softmax). Hidden node 수는 covariate 차원의 3·5·3배(layer 1·2·3), ReLU activation.
Adam optimizer, batch size 50, learning rate $1 0^{- 4}$ , dropout 0.6, Xavier initialization. TensorFlow 구현.
5-fold CV (train 80% / test 20%, train 중 20%를 validation), 각 split에서 사건/censoring 비율 유지. Hyperparameter $α, σ$ 는 validation 성능 기반 선택, early stopping은 total loss 기반.

발견 (Findings)

SEER (competing risks, CVD + 유방암) — Table 2:
- DeepHit가 CVD $C^{t d}$ 0.684 (CI 0.674–0.694), 유방암 0.752 (0.748–0.756)로 모든 baseline 능가.
- cs-Cox(0.672 / 0.639), Fine-Gray(0.663 / 0.639) 대비 유방암에서 대폭 개선 — 두 baseline은 선형 비례 가정이라 유방암 위험의 비선형성 포착에 실패.
- DMGP(0.657 / 0.742)도 유방암에서 0.01 차이로 능가.
- $α = 0$ ablation (ranking loss 제거 시): CVD 0.674 / 유방암 0.736 — ranking loss $L_{2}$ 가 SEER에서 약 +0.010~0.016 $C^{t d}$ 기여.
- 거의 모든 비교에서 $p < 0.001$ , cs-Cox CVD 1건 제외 모두 통계적 유의.
합성 데이터(competing risks, exponential hitting times with quadratic 비선형성) — Table 3:
- DeepHit: Event 1 0.755, Event 2 0.755. cs-Cox 0.578/0.588, Fine-Gray 0.579/0.589, DMGP 0.663/0.666.
- 모든 차이 $p < 0.001$ . quadratic 비선형성이 들어간 합성 데이터에서 cs-Cox/Fine-Gray의 선형성 가정 한계가 가장 극명하게 드러남.
- $α = 0$ : 0.739/0.737 — 합성에서도 ranking loss가 약 +0.016~0.018 추가 기여.
UNOS (single event, 심장 이식) — Table 4:
- DeepHit 0.589 (0.586–0.592) vs Cox 0.566, RSF 0.575, ThresReg 0.571, MP-RForest 0.552, MP-AdaBoost 0.582, MP-LogitR 0.571, DeepSurv 0.563. AdaBoost 제외 모두 $p < 0.01$ 이상으로 유의.
- $α = 0$ 시 0.573 — single-event에서도 ranking loss의 기여가 약 +0.016.
METABRIC (single event, 유방암 분자분류) — Table 4:
- DeepHit 0.691 (0.679–0.703) vs Cox 0.648, RSF 0.672, ThresReg 0.649, MP-RForest 0.650, MP-AdaBoost 0.633, MP-LogitR 0.661, DeepSurv 0.648. RSF 제외 모두 $p < 0.05$ 이상.
종합 관찰: 비례 가정 위배가 큰 데이터(특히 유방암, 합성)일수록 DeepHit 이득이 크고, ranking loss는 일관되게 +0.01~0.02 $C^{t d}$ 향상.

Results

평가 지표: 시간 의존 일치도 지표 $C^{t d}$ -index (Antolini, Boracchi, and Biganzoli 2005). 사건 $k$ 에 대해

C^{t d} = P (\hat{F}_{k} (s^{(i)} ∣ x^{(i)}) > \hat{F}_{k} (s^{(i)} ∣ x^{(j)}) ∣ s^{(i)} < s^{(j)})

이고, 경험적 형태는 $\sum_{i \neq = j} A_{k, i, j} \cdot 1 (\hat{F}_{k} (s^{(i)} ∣ x^{(i)}) > \hat{F}_{k} (s^{(i)} ∣ x^{(j)})) / \sum_{i \neq = j} A_{k, i, j}$ . 기존 Harrell C-index와 달리 시간에 따른 위험 변화를 반영하며, 단일 사건·비례 hazards 충족 시 Harrell C와 동치.

경쟁 위험 데이터 비교: SEER, 합성 두 데이터에서 Fine-Gray, DMGP, cs-Cox, DeepHit( $α = 0$ ), DeepHit를 비교(Tables 2, 3). 두 데이터셋 모두에서 DeepHit가 모든 baseline 능가, 거의 대부분 $p < 0.001$ . 보충자료에는 다른 모델의 cause-specific 버전과의 비교도 포함.
단일 위험 데이터 비교: UNOS, METABRIC에서 Cox, RSF, ThresReg, MP-RForest, MP-LogitR, MP-AdaBoost, DeepSurv와 비교(Table 4). DeepHit 일관 1위 — UNOS에서 AdaBoost 제외 모두 $p < 0.01$ 이상, METABRIC에서 RSF 제외 모두 $p < 0.05$ 이상.
데이터 통계 (Table 1):
- SEER 68,325명 (uncensored 11,537 ≈ 16.9% — CVD 903 / BC 10,634, censored 56,788 ≈ 83.1%), 23 features (7 real, 16 categorical), 사건 시점 0–176/177 개월, censoring 시점 0–179 개월.
- UNOS 60,400명 (uncensored 29,436, censored 30,964 ≈ 51.3%), 50 features (17 real, 33 categorical).
- METABRIC 1,981명 (uncensored 888 = 44.8%, censored 1,093 = 55.2%), 21 features (6 real, 15 categorical).
- 합성 30,000명, 50% censoring, 3개 4-차원 covariate 그룹.
저자 해석: 단일 risk에서도 개선되는 이유는 covariate 다수일 때 비선형 복잡 관계 포착 능력 때문이고, DeepSurv 대비 개선은 비례 가정에서 해방되었기 때문이라고 진단.

Discussion

DeepHit의 핵심 기여는 (a) 기저 stochastic process의 형태 가정 제거, (b) covariate-위험 관계의 시간 의존성 허용, (c) 단일 framework에서 competing risks를 매끄럽게 처리 — 위험 독립 가정 불필요.
한계 (논문 명시·암묵):
- “환자당 단 하나의 사건”이라는 강한 가정 — 여러 질병이 순차/공존 발병하는 일반 multi-event 시나리오는 future work로 명시.
- Right-censoring이 완전 무작위(completely at random)라는 가정 — informative censoring이 흔한 임상 데이터에서는 위배 가능.
- 시간 축이 이산( $T_\max$ 고정, 30일 단위)이므로 fine-grained continuous time 모델보다 정밀도 손실.
- 4개 데이터셋, 모두 의료 도메인 — 본문이 주장하는 generality(금융·공학)는 직접 실증되지 않음.
- Tunable hyperparameter ( $α, σ$ , 층수, 노드 수)가 많아 small dataset(METABRIC 1,981명) 신뢰구간이 상대적으로 넓음.
향후 방향:
- 다중·순차 사건(multiple/sequential events) 처리 framework 확장.
- Informative censoring 모델링.
- Continuous-time 변형, longitudinal covariate(시계열 입력) 통합.

이론적 의의

DeepHit은 survival analysis의 “stochastic process 가정 → 모수 학습 → 위험 유도”라는 간접 경로 자체를 우회한다. 이는 인과적 모형(질병의 latent dynamics를 명시적으로 가정)을 포기하는 대신, 관찰 가능한 사건-시점 결합 분포를 직접 학습하여 가정 위배 위험을 차단한다.
Ranking loss를 학습 신호로 직접 통합한 점은 평가 지표( $C^{t d}$ ) — 학습 손실 정합성을 만든다 — 비례 가정에서 해방된 모델이 순위를 학습할 보조 가이드가 필요함을 보였다.
Single softmax 출력으로 joint $(k, t)$ 분포를 표현한 설계는 후속 신경망 기반 경쟁 위험 모델(Dynamic-DeepHit 2019 등)의 표준 출력 형식으로 자리잡았다.
함의: deep learning이 survival/event-history 분석을 “분포 가정 free”한 새로운 패러다임으로 옮길 수 있음을 보였고, 이후 transformer·GP·flow 기반 후속 연구를 촉발했다.

Discussion Points

검증해야 할 가정: (1) censoring이 정말 random인지(임상 데이터에서 자주 informative). (2) 환자당 단일 사건 가정이 다중 합병증 환자에서 정당화되는지. (3) $T_\max$ 이산화 해상도가 long-tail 사건 분포를 왜곡하지 않는지.
논쟁점: DMGP는 SEER 유방암에서 DeepHit와 거의 동등(0.742 vs 0.752), 신뢰구간 일부 겹침 — Bayesian nonparametric 접근이 여전히 경쟁력이 있다. 또한 RSF는 METABRIC에서 DeepHit와 통계적 유의차가 없어, 소표본·tabular 임상 데이터에서 random forest 계열의 강건성이 살아남는다.
후속 검증 방향: (a) MIMIC/eICU 같은 longitudinal EHR에서 시계열 입력 확장 평가, (b) informative censoring 시뮬레이션에서 robust 평가, (c) calibration(시점별 예측 확률의 신뢰성) 평가 — 본 논문은 discrimination( $C^{t d}$ )만 보고하여 Brier score/IBS 등 calibration 지표는 미보고.

실험 결과 상세

Setting	Dataset	Algorithm	$C^{t d}$ (mean, 95% CI)	비고
Competing — CVD	SEER	cs-Cox	0.672 (0.664–0.680)
Competing — CVD	SEER	Fine-Gray	0.663 (0.656–0.670)	$p < 0.05$ vs DeepHit
Competing — CVD	SEER	DMGP	0.657 (0.632–0.682)
Competing — CVD	SEER	DeepHit ( $α = 0$ )	0.674 (0.661–0.687)	ablation: no ranking
Competing — CVD	SEER	DeepHit	0.684 (0.674–0.694)
Competing — BC	SEER	cs-Cox	0.639 (0.633–0.645)	$p < 0.001$ vs DeepHit
Competing — BC	SEER	Fine-Gray	0.639 (0.632–0.646)	$p < 0.001$
Competing — BC	SEER	DMGP	0.742 (0.738–0.746)	$p < 0.05$
Competing — BC	SEER	DeepHit ( $α = 0$ )	0.736 (0.733–0.739)
Competing — BC	SEER	DeepHit	0.752 (0.748–0.756)
Competing — Event 1	Synthetic	cs-Cox	0.578 (0.570–0.586)	$p < 0.001$
Competing — Event 1	Synthetic	Fine-Gray	0.579 (0.572–0.586)	$p < 0.001$
Competing — Event 1	Synthetic	DMGP	0.663 (0.658–0.668)	$p < 0.001$
Competing — Event 1	Synthetic	DeepHit ( $α = 0$ )	0.739 (0.735–0.744)
Competing — Event 1	Synthetic	DeepHit	0.755 (0.749–0.761)
Competing — Event 2	Synthetic	cs-Cox	0.588 (0.584–0.593)	$p < 0.001$
Competing — Event 2	Synthetic	Fine-Gray	0.589 (0.585–0.593)	$p < 0.001$
Competing — Event 2	Synthetic	DMGP	0.666 (0.660–0.672)	$p < 0.001$
Competing — Event 2	Synthetic	DeepHit ( $α = 0$ )	0.737 (0.732–0.742)
Competing — Event 2	Synthetic	DeepHit	0.755 (0.748–0.762)
Single risk	UNOS	Cox	0.566 (0.563–0.569)	$p < 0.001$
Single risk	UNOS	RSF	0.575 (0.571–0.579)	$p < 0.01$
Single risk	UNOS	ThresReg	0.571 (0.568–0.574)	$p < 0.001$
Single risk	UNOS	MP-RForest	0.552 (0.548–0.556)	$p < 0.001$
Single risk	UNOS	MP-AdaBoost	0.582 (0.578–0.586)	n.s.
Single risk	UNOS	MP-LogitR	0.571 (0.567–0.575)	$p < 0.001$
Single risk	UNOS	DeepSurv	0.563 (0.555–0.571)	$p < 0.001$
Single risk	UNOS	DeepHit ( $α = 0$ )	0.573 (0.571–0.575)
Single risk	UNOS	DeepHit	0.589 (0.586–0.592)
Single risk	METABRIC	Cox	0.648 (0.634–0.662)	$p < 0.01$
Single risk	METABRIC	RSF	0.672 (0.655–0.689)	n.s.
Single risk	METABRIC	ThresReg	0.649 (0.633–0.665)	$p < 0.01$
Single risk	METABRIC	MP-RForest	0.650 (0.630–0.670)	$p < 0.01$
Single risk	METABRIC	MP-AdaBoost	0.633 (0.617–0.649)	$p < 0.001$
Single risk	METABRIC	MP-LogitR	0.661 (0.643–0.679)	$p < 0.05$
Single risk	METABRIC	DeepSurv	0.648 (0.636–0.660)	$p < 0.01$
Single risk	METABRIC	DeepHit ( $α = 0$ )	0.646 (0.634–0.658)
Single risk	METABRIC	DeepHit	0.691 (0.679–0.703)

출처: 모든 값은 본문 Table 2, 3, 4 직접 인용. n.s. = 통계적 유의성 미표기.

프레임워크 다이어그램

flowchart TD
    X["covariates x<br/>(D-dim)"] --> Shared["Shared sub-network<br/>L_S FC layers"]
    Shared --> Fs["f_s(x)<br/>shared latent representation"]
    Fs --> Concat1["concat (f_s(x), x)<br/>residual skip"]
    X -.residual.-> Concat1
    Concat1 --> CS1["Cause-specific sub-network 1<br/>L_C,1 FC layers"]
    Concat1 --> CS2["Cause-specific sub-network 2<br/>L_C,2 FC layers"]
    Concat1 --> CSK["... Cause-specific sub-network K"]
    CS1 --> Softmax["Single softmax layer<br/>joint distribution"]
    CS2 --> Softmax
    CSK --> Softmax
    Softmax --> Y["y = P̂(s, k | x)<br/>K × T_max outputs"]
    Y --> L1["L1: censoring-aware<br/>log-likelihood"]
    Y --> CIF["CIF F̂_k(s|x) = Σ y_k,m"]
    CIF --> L2["L2: cause-specific<br/>ranking loss<br/>(concordance)"]
    L1 --> LTotal["L_Total = L1 + L2"]
    L2 --> LTotal
    LTotal --> Backprop["backprop (Adam,<br/>lr=1e-4, batch=50,<br/>dropout=0.6)"]

재현성 및 신뢰도 평가

항목	등급	근거
코드 공개	A	https://github.com/chl8856/DeepHit (저자 공식 구현, Python/TensorFlow)
데이터 접근성	C	METABRIC·합성은 공개·재현 가능, SEER는 신청 필요, UNOS는 제한적 접근
Hyperparameter 명시	B	본문에 batch size 50, lr $1 0^{- 4}$ , dropout 0.6, Xavier init, ReLU, 층별 hidden node 비율(3/5/3×D) 명시. 단 $α, σ$ 구체 값은 본문 미보고(validation으로 선정)
통계적 검증	A	5-fold CV, mean + 95% CI, p-value( $p < 0.001, p < 0.01, p < 0.05$ ) 표기
Ablation	A	$α = 0$ (ranking loss 제거) ablation을 모든 데이터셋에서 보고 — $L_{2}$ 기여 정량화
Baseline 다양성	A	통계 모델(Cox, Fine-Gray, ThresReg), tree(RSF), nonparametric Bayesian(DMGP), 신경망(DeepSurv), MP 변형 4종 — 총 8개 이상
시드/환경	C	랜덤 시드, 정확한 하드웨어, library 버전 미보고
보조 자료(suppl)	B	보충자료에 cause-specific 변형 비교 등 포함되어 있음(별도 부록)

종합 등급: B — 코드 공개와 통계 검증은 우수하나, SEER/UNOS 접근 제약과 일부 hyperparameter ( $α, σ$ ) 미보고가 완전 재현을 저해.

논문	연도	접근	Competing risks	시간 의존성	분포 가정	평가 지표	코드
DeepHit (본 논문)	2018	Deep NN, joint $(k, t)$ softmax + ranking loss	O (단일 framework)	O (비비례 허용)	무	$C^{t d}$ -index	O (chl8856/DeepHit)
Cox PH (Cox 1972)	1972	Semi-parametric proportional hazards	X (independence 필요)	X (시간 불변)	log-linear hazard	C-index	O (R survival)
Fine-Gray (Fine·Gray 1999)	1999	Subdistribution hazard for CIF	O (모형 내장)	X (proportional)	proportional subdist hazard	C-index, CIF	O (R cmprsk)
Random Survival Forests (Ishwaran et al. 2008)	2008	Ensemble of survival trees	△ (cause-specific 변형)	O (nonparametric)	무	C-index, IBS	O (randomForestSRC)
DeepSurv (Katzman et al. 2016)	2016	NN으로 Cox log-risk function 학습	X	X (Cox 가정 유지)	log-linear in NN output	C-index	O (DeepSurv)
DMGP (Alaa·van der Schaar 2017)	2017	Deep multi-task Gaussian process	O (multi-task)	O	Gaussian process latent	C-index	△ (저자 코드)
ThresReg (Lee·Whitmore 2006)	2006	First-hitting Wiener process	X	X	Wiener process	C-index	O (R threg)

원자적 인사이트 (Zettelkasten)

생존 분석에서 분포 직접 학습이 가정 위배 위험을 차단한다: covariate으로부터 stochastic process 모수를 학습한 뒤 분포를 유도하는 간접 경로는, 가정된 process가 틀리면 모든 후속 추론이 무너진다. covariate → joint PMF $P (s, k ∣ x)$ 를 직접 학습하는 경로는 process 가정 자체가 불필요해 모형 misspecification 위험이 사라진다.
Single softmax over (K events × T discrete times)는 marginal이 아닌 joint를 강제한다: cause별로 독립 softmax를 두면 marginal 분포만 학습되어 cause 간 trade-off가 표현되지 않는다. 전체 $K \times T_\max$ 출력에 단일 softmax를 적용하면 합이 1로 제약되어 competing risks 간의 의존적 trade-off가 모형에 내장된다.
Ranking loss는 평가 지표와 학습 손실을 정렬한다: $C^{t d}$ -index는 환자 쌍의 위험 순서 정확도이므로 우도만으로는 직접 최적화되지 않는다. Concordance를 모방한 pairwise ranking 항(L2)을 손실에 추가하면 평가 지표를 학습 단계에서 직접 가이드할 수 있다.
Censoring 보정은 “censoring 이후 어떤 사건이든 발생할 확률”을 우도에 흡수해 구현된다: censored 환자는 사건 시점·종류 정보가 없지만 “그 시점까지 살아 있음”은 알려진 정보다. $1 - \sum_{k} \hat{F}_{k} (s^{(i)} ∣ x^{(i)})$ 를 최대화하는 항을 우도에 더하면 censoring bias 없이 partial information을 학습 신호로 변환할 수 있다.
Residual covariate input은 shared representation의 정보 손실을 보상한다: shared sub-network이 cause 간 공통 표현만 추출하면 cause-specific 정보가 hidden state에서 소실될 수 있다. Cause-specific sub-network 입력에 원본 $x$ 를 함께 넣으면 공통 + 비공통 정보를 양쪽에서 받아 표현력이 보존된다.

핵심 용어 정리

Survival analysis (생존 분석, time-to-event analysis): covariate과 사건 발생 시점의 분포 사이의 관계를 학습하는 통계적 framework. 의학·공학·금융에서 활용.
First hitting time: 어떤 stochastic process가 사전에 정해진 boundary에 처음 도달하는 시점. 전통적 survival 모형은 사건 시점을 이 first hitting time으로 해석.
Competing risks (경쟁 위험): 한 개체에게 둘 이상의 mutually exclusive 사건(예: 유방암 사망 vs 심혈관 사망)이 발생 가능하고, 하나가 발생하면 다른 사건 관측이 차단되는 상황. 위험들이 일반적으로 독립이지 않음.
Right-censoring (우중도절단): 사건 발생 전에 관측이 종료되어 정확한 사건 시점을 모르지만 “censoring 시점까지는 생존”을 아는 데이터. 임상 데이터에서 보편적.
Cumulative incidence function (CIF): $F_{k} (t ∣ x) = P (s \leq t, k ∣ x)$ . 경쟁 위험 하에서 시점 $t$ 까지 cause $k$ 로 사건이 발생할 확률.
Cox proportional hazards model: hazard rate를 $h (t ∣ x) = h_{0} (t) exp (β^{⊤} x)$ 로 모형화. baseline hazard $h_{0} (t)$ 는 비모수, covariate 효과는 시간 불변(비례) 가정.
Fine-Gray model: subdistribution hazard로 CIF를 직접 모형화, competing risks를 명시적으로 처리하지만 비례 가정 유지.
Concordance index (C-index): $P (\overset{r}{^}_{i} > \overset{r}{^}_{j} ∣ s_{i} < s_{j})$ . 빨리 죽은 환자에게 더 높은 위험을 부여하는 정도. Harrell C는 초기 시점 고정, $C^{t d}$ 는 시간 의존.
Time-dependent concordance index ( $C^{t d}$ -index): 시점별 위험 변화를 반영한 일치도 지표. Antolini, Boracchi, and Biganzoli (2005). 본 논문의 주 평가 지표.
Multi-task network: 하나의 공통 표현에서 여러 task를 동시에 학습하는 신경망 구조. DeepHit는 cause-specific sub-network를 task로 둠.
Shared sub-network / cause-specific sub-network: DeepHit 구조 — 모든 cause가 공유하는 잠재 표현 추출기 + cause별 독립 표현 학습기.
Ranking loss: 쌍별 순서 정확도를 학습 신호로 변환한 손실. DeepHit는 $η (x, y) = exp (- (x - y) / σ)$ 형태로 acceptable pair에 적용.

BibTeX

@inproceedings{lee2018deephit,
  title     = {DeepHit: A Deep Learning Approach to Survival Analysis with Competing Risks},
  author    = {Lee, Changhee and Zame, William R. and Yoon, Jinsung and van der Schaar, Mihaela},
  booktitle = {Proceedings of the AAAI Conference on Artificial Intelligence},
  volume    = {32},
  number    = {1},
  year      = {2018},
  doi       = {10.1609/aaai.v32i1.11842},
  url       = {https://ojs.aaai.org/index.php/AAAI/article/view/11842}
}

Juhyeon's Blog

탐색기

DeepHit - A Deep Learning Approach to Survival Analysis with Competing Risks