DeepHit: 경쟁 위험(Competing Risks)을 다루는 생존 분석을 위한 딥러닝 접근
Digest: 생존 분석(time-to-event analysis)에서 기존 모형은 Cox proportional hazards처럼 기저 stochastic process의 모수적 형태(parametric form)와 covariate-hazard 관계의 시간 불변성(time-invariance)을 가정해 왔으며, 특히 한 환자에게 두 개 이상의 사망 원인이 경쟁하는 competing risks 상황에서는 위험 간 독립을 추가로 요구하여 실제 의료 데이터(예: 유방암 치료가 심혈관 사건 위험을 증가시키는 상황 — Koene et al. 2016)와 어긋난다. DeepHit는 covariate 를 입력 받아 (event , 이산 시점 )의 결합 분포 를 직접 softmax로 출력하는 multi-task 신경망으로, 단일 shared sub-network + 개 cause-specific sub-network 구조를 통해 cause 간 잠재 표현은 공유하면서 cause-specific 표현은 분리한다. 손실은 로, 은 우중도절단(right-censoring)을 명시적으로 처리하는 결합 분포의 음의 로그우도이고 는 기반의 cause-specific ranking loss로 concordance 개념을 직접 학습 신호로 사용한다. 평가는 5-fold CV에 시간 의존 일치도 지표 (Antolini, Boracchi, and Biganzoli 2005)로 수행했고, SEER(유방암/CVD 경쟁), 합성(2개 경쟁 risk), UNOS(심장이식 단일 risk), METABRIC(유방암 단일 risk)에서 cs-Cox, Fine-Gray(1999), DMGP(Alaa·van der Schaar 2017), DeepSurv(Katzman et al. 2016), RSF, ThresReg, MP-* 등을 통계적으로 유의(주로 ) 능가했다(예: SEER 유방암 0.752 vs DMGP 0.742; 합성 Event 1 0.755 vs DMGP 0.663; METABRIC 0.691 vs RSF 0.672). 함의는 (1) 생존 분포를 분포 가정 없이 discrete-time joint distribution으로 풀면 비비례·비선형·비독립 경쟁 위험까지 단일 손실로 다룰 수 있고, (2) ranking term의 명시적 사용이 비례 가정에서 자유로워진 모델의 위험 순서 학습에 핵심이라는 점이다.
섹션별 요약
Abstract
Survival analysis(시간-사건 분석)는 경제, 공학, 의학 등에서 covariate과 (생존 시간의 분포) 사이의 관계를 학습하는 문제다. 기존 접근은 생존 시간을 어떤 stochastic process의 first hitting time으로 보고, 그 프로세스의 모수적 형태를 가정한 뒤 covariate-모수 관계를 학습해 위험을 유도해 왔다. 그러나 이러한 모수 가정은 자주 위배된다. 본 논문은 DeepHit라는 다른 접근을 제시한다 — deep neural network로 생존 시간의 분포를 직접 학습하여 (1) 기저 stochastic process에 대한 가정을 두지 않고, (2) covariate-위험 관계가 시간에 따라 변화할 수 있도록 허용하며, (3) competing risks(둘 이상의 이벤트가 경쟁) 상황을 단일 framework에서 매끄럽게 처리한다. 실제·합성 데이터셋에서 기존 state-of-the-art 대비 크고 통계적으로 유의한 성능 개선을 보였다.
저자 contribution
- 생존 시간 분포를 분포 가정 없이 직접 모델링하는 deep learning approach 제안 — 기저 stochastic process의 형태나 covariate-모수 관계의 시간 불변성을 가정하지 않음
- Shared sub-network + cause-specific sub-network로 구성된 multi-task 구조로 competing risks를 단일 softmax 출력에서 결합 분포로 학습
- 음의 로그우도(censoring 처리) + cause-specific ranking loss로 구성된 새로운 손실 함수 설계
- SEER, METABRIC, UNOS, 합성 데이터에서 시간 의존 -index 기준으로 cs-Cox, Fine-Gray, DMGP, DeepSurv, RSF 등을 통계적으로 유의하게 능가
왜 이 연구를 하는가?
- 임상 현실의 갭: 의학에서 환자는 흔히 동반질환(comorbidity)을 갖고, 한 치료가 다른 사망 원인의 위험을 변화시킨다 — 예: 유방암 치료가 심혈관 사건 위험을 키운다(Koene et al. 2016). 즉 위험은 일반적으로 독립이 아니다.
- 기존 모델의 한계:
- Cox proportional hazards(1972)는 가장 널리 쓰이지만 hazard rate의 시간 불변(비례) 가정과 covariate-hazard 로그선형 가정을 동시에 부과한다.
- First-hitting-time 계열(Wiener process — Lee·Whitmore 2010, Markov Chain — Longini 1989)은 competing risks를 자연스럽게 흡수할 수 있으나 기저 프로세스가 알려져 있어야 의미 있고, 의료 상황에서 잠재 질병 상태는 관측되지 않는다.
- Fine-Gray(1999)는 CIF를 직접 변환하지만 hazard 형태와 모수-covariate 관계에 강한 가정을 유지한다.
- 기존 신경망 생존 모델(Faraggi·Simon 1995, Katzman 2016 — DeepSurv, Luck 2017)은 covariate-hazard 비선형성은 완화했으나 여전히 Cox 가정(시간 불변 hazard)을 유지해 covariate의 시간 의존 영향을 포착하지 못한다.
- ML 계열(RSF — Ishwaran 2008, deep exponential families, dependent logistic regressors, GP 계열)은 covariate은 활용하나 competing risks를 직접 다루지 않으며, 단일 사건만 보고 나머지를 censoring 처리하는 변형은 위험이 독립일 때만 정당화된다.
- 연구 질문: 분포·시간 가정 없이 covariate 로부터 의 결합 분포를 end-to-end로 직접 학습할 수 있는가? 그리고 그것이 단일 risk·경쟁 risk 양쪽에서 더 잘 작동하는가?
Introduction
저자들은 survival analysis의 본질적 문제 — covariate과 first hitting time 분포의 관계 학습 — 를 deep learning으로 재정식화한다. 핵심 관찰은 기존 모든 계열이 “stochastic process를 가정 → 모수와 covariate의 관계 학습 → 위험 유도”라는 간접 경로를 거친다는 점이다. DeepHit는 이를 우회해 covariate 가 주어졌을 때 (event , 시점 )에 대한 결합 PMF를 신경망의 softmax 출력으로 직접 산출한다. 두 가지 설계가 이를 가능하게 한다 — (1) shared sub-network이 cause 간 공통 잠재 표현 를 학습하고, (2) 개의 cause-specific sub-network이 각각 를 받아 cause별 first-hitting-time 분포 를 산출한 뒤 단일 softmax로 결합 분포를 만든다. 학습은 결합 우도(censoring bias 포함)와 cause-specific ranking loss의 합으로 이뤄진다. 평가는 cardiac transplantation(UNOS), 유방암(METABRIC), SEER(유방암 + CVD 경쟁), 합성(quadratic 비선형 + 의존 경쟁) 등 4개 데이터셋에서 시간 의존 -index로 수행되며, 모든 경우 state-of-the-art를 능가한다.
Methods
문제 정의 (Survival Data)
- 각 환자 는 triple 로 표현 — 는 -차원 covariate, s \in \mathcal{T} = \{0, \ldots, T_\max\}는 사건/censoring 발생 이산 시점, 는 사건 종류(이면 right-censored).
- 환자당 정확히 하나의 사건만 발생한다고 가정(Gooley et al. 1999) — 즉 한 환자는 한 원인으로만 사망.
- 목표: covariate 에 대해 진짜 를 추정하는 학습.
- Right-censoring은 완전 무작위(completely at random) 가정.
네트워크 구조 (Model Description, Figure 2)
- Shared sub-network ( fully-connected layers): 입력 → cause 간 공통 잠재 표현 .
- Cause-specific sub-network 개 ( FC layers): 각 에 대해 를 입력으로 받아 출력. Residual connection으로 원본 를 cause-specific 입력에 결합 — 공통 표현으로 손실될 수 있는 cause-non-common 정보를 보존.
- 단일 softmax 출력 layer: 출력 벡터 y = [y_{1,1}, \ldots, y_{1,T_\max}, \ldots, y_{K,1}, \ldots, y_{K,T_\max}]로 가 결합 분포(marginal이 아님). 단일 softmax가 cause 간 합을 1로 강제해 marginal이 아닌 joint를 학습하게 한다.
- 추정 CIF(누적발생함수): .
손실 함수 (Loss Function)
- 총 손실 .
- — censoring-aware joint log-likelihood:
- 첫 항: uncensored 환자의 결합 분포 직접 최대화.
- 둘째 항: censored 환자에 대해 “censoring 시점까지 어떤 사건도 안 일어났음”을 활용 — censoring 이후 개 cause 중 하나로 사건이 발생할 확률, 즉 를 최대화하여 censoring bias 보정.
- — cause-specific ranking loss:
- Acceptable pair indicator: — 환자 가 시점 에 cause 로 사망했고, 환자 는 그 시점까지 cause 를 겪지 않았을 때 비교 가능.
- 본 논문은 로 단순화, 사용.
- 의미: 더 빨리 죽은 환자가 같은 시점에서 더 높은 추정 위험을 갖도록 강제 — concordance(Harrell et al. 1982) 개념을 학습 신호로 직접 도입.
훈련
- 학습 그래프(Figure 3): 입력 , 출력 , 로 indicator 계산 → acceptable pair 식별 → 손실 계산 → backprop으로 모든 sub-network 갱신.
- 4-layer 네트워크: shared sub-network 1 FC + cause-specific sub-network 2 FC + softmax (단일 risk이면 3 FC + softmax). Hidden node 수는 covariate 차원의 3·5·3배(layer 1·2·3), ReLU activation.
- Adam optimizer, batch size 50, learning rate , dropout 0.6, Xavier initialization. TensorFlow 구현.
- 5-fold CV (train 80% / test 20%, train 중 20%를 validation), 각 split에서 사건/censoring 비율 유지. Hyperparameter 는 validation 성능 기반 선택, early stopping은 total loss 기반.
발견 (Findings)
- SEER (competing risks, CVD + 유방암) — Table 2:
- DeepHit가 CVD 0.684 (CI 0.674–0.694), 유방암 0.752 (0.748–0.756)로 모든 baseline 능가.
- cs-Cox(0.672 / 0.639), Fine-Gray(0.663 / 0.639) 대비 유방암에서 대폭 개선 — 두 baseline은 선형 비례 가정이라 유방암 위험의 비선형성 포착에 실패.
- DMGP(0.657 / 0.742)도 유방암에서 0.01 차이로 능가.
- ablation (ranking loss 제거 시): CVD 0.674 / 유방암 0.736 — ranking loss 가 SEER에서 약 +0.010~0.016 기여.
- 거의 모든 비교에서 , cs-Cox CVD 1건 제외 모두 통계적 유의.
- 합성 데이터(competing risks, exponential hitting times with quadratic 비선형성) — Table 3:
- DeepHit: Event 1 0.755, Event 2 0.755. cs-Cox 0.578/0.588, Fine-Gray 0.579/0.589, DMGP 0.663/0.666.
- 모든 차이 . quadratic 비선형성이 들어간 합성 데이터에서 cs-Cox/Fine-Gray의 선형성 가정 한계가 가장 극명하게 드러남.
- : 0.739/0.737 — 합성에서도 ranking loss가 약 +0.016~0.018 추가 기여.
- UNOS (single event, 심장 이식) — Table 4:
- DeepHit 0.589 (0.586–0.592) vs Cox 0.566, RSF 0.575, ThresReg 0.571, MP-RForest 0.552, MP-AdaBoost 0.582, MP-LogitR 0.571, DeepSurv 0.563. AdaBoost 제외 모두 이상으로 유의.
- 시 0.573 — single-event에서도 ranking loss의 기여가 약 +0.016.
- METABRIC (single event, 유방암 분자분류) — Table 4:
- DeepHit 0.691 (0.679–0.703) vs Cox 0.648, RSF 0.672, ThresReg 0.649, MP-RForest 0.650, MP-AdaBoost 0.633, MP-LogitR 0.661, DeepSurv 0.648. RSF 제외 모두 이상.
- 종합 관찰: 비례 가정 위배가 큰 데이터(특히 유방암, 합성)일수록 DeepHit 이득이 크고, ranking loss는 일관되게 +0.01~0.02 향상.
Results
- 평가 지표: 시간 의존 일치도 지표 -index (Antolini, Boracchi, and Biganzoli 2005). 사건 에 대해
이고, 경험적 형태는 . 기존 Harrell C-index와 달리 시간에 따른 위험 변화를 반영하며, 단일 사건·비례 hazards 충족 시 Harrell C와 동치.
- 경쟁 위험 데이터 비교: SEER, 합성 두 데이터에서 Fine-Gray, DMGP, cs-Cox, DeepHit(), DeepHit를 비교(Tables 2, 3). 두 데이터셋 모두에서 DeepHit가 모든 baseline 능가, 거의 대부분 . 보충자료에는 다른 모델의 cause-specific 버전과의 비교도 포함.
- 단일 위험 데이터 비교: UNOS, METABRIC에서 Cox, RSF, ThresReg, MP-RForest, MP-LogitR, MP-AdaBoost, DeepSurv와 비교(Table 4). DeepHit 일관 1위 — UNOS에서 AdaBoost 제외 모두 이상, METABRIC에서 RSF 제외 모두 이상.
- 데이터 통계 (Table 1):
- SEER 68,325명 (uncensored 11,537 ≈ 16.9% — CVD 903 / BC 10,634, censored 56,788 ≈ 83.1%), 23 features (7 real, 16 categorical), 사건 시점 0–176/177 개월, censoring 시점 0–179 개월.
- UNOS 60,400명 (uncensored 29,436, censored 30,964 ≈ 51.3%), 50 features (17 real, 33 categorical).
- METABRIC 1,981명 (uncensored 888 = 44.8%, censored 1,093 = 55.2%), 21 features (6 real, 15 categorical).
- 합성 30,000명, 50% censoring, 3개 4-차원 covariate 그룹.
- 저자 해석: 단일 risk에서도 개선되는 이유는 covariate 다수일 때 비선형 복잡 관계 포착 능력 때문이고, DeepSurv 대비 개선은 비례 가정에서 해방되었기 때문이라고 진단.
Discussion
- DeepHit의 핵심 기여는 (a) 기저 stochastic process의 형태 가정 제거, (b) covariate-위험 관계의 시간 의존성 허용, (c) 단일 framework에서 competing risks를 매끄럽게 처리 — 위험 독립 가정 불필요.
- 한계 (논문 명시·암묵):
- “환자당 단 하나의 사건”이라는 강한 가정 — 여러 질병이 순차/공존 발병하는 일반 multi-event 시나리오는 future work로 명시.
- Right-censoring이 완전 무작위(completely at random)라는 가정 — informative censoring이 흔한 임상 데이터에서는 위배 가능.
- 시간 축이 이산(T_\max 고정, 30일 단위)이므로 fine-grained continuous time 모델보다 정밀도 손실.
- 4개 데이터셋, 모두 의료 도메인 — 본문이 주장하는 generality(금융·공학)는 직접 실증되지 않음.
- Tunable hyperparameter (, 층수, 노드 수)가 많아 small dataset(METABRIC 1,981명) 신뢰구간이 상대적으로 넓음.
- 향후 방향:
- 다중·순차 사건(multiple/sequential events) 처리 framework 확장.
- Informative censoring 모델링.
- Continuous-time 변형, longitudinal covariate(시계열 입력) 통합.
이론적 의의
- DeepHit은 survival analysis의 “stochastic process 가정 → 모수 학습 → 위험 유도”라는 간접 경로 자체를 우회한다. 이는 인과적 모형(질병의 latent dynamics를 명시적으로 가정)을 포기하는 대신, 관찰 가능한 사건-시점 결합 분포를 직접 학습하여 가정 위배 위험을 차단한다.
- Ranking loss를 학습 신호로 직접 통합한 점은 평가 지표() — 학습 손실 정합성을 만든다 — 비례 가정에서 해방된 모델이 순위를 학습할 보조 가이드가 필요함을 보였다.
- Single softmax 출력으로 joint 분포를 표현한 설계는 후속 신경망 기반 경쟁 위험 모델(Dynamic-DeepHit 2019 등)의 표준 출력 형식으로 자리잡았다.
- 함의: deep learning이 survival/event-history 분석을 “분포 가정 free”한 새로운 패러다임으로 옮길 수 있음을 보였고, 이후 transformer·GP·flow 기반 후속 연구를 촉발했다.
Discussion Points
- 검증해야 할 가정: (1) censoring이 정말 random인지(임상 데이터에서 자주 informative). (2) 환자당 단일 사건 가정이 다중 합병증 환자에서 정당화되는지. (3) T_\max 이산화 해상도가 long-tail 사건 분포를 왜곡하지 않는지.
- 논쟁점: DMGP는 SEER 유방암에서 DeepHit와 거의 동등(0.742 vs 0.752), 신뢰구간 일부 겹침 — Bayesian nonparametric 접근이 여전히 경쟁력이 있다. 또한 RSF는 METABRIC에서 DeepHit와 통계적 유의차가 없어, 소표본·tabular 임상 데이터에서 random forest 계열의 강건성이 살아남는다.
- 후속 검증 방향: (a) MIMIC/eICU 같은 longitudinal EHR에서 시계열 입력 확장 평가, (b) informative censoring 시뮬레이션에서 robust 평가, (c) calibration(시점별 예측 확률의 신뢰성) 평가 — 본 논문은 discrimination()만 보고하여 Brier score/IBS 등 calibration 지표는 미보고.
실험 결과 상세
| Setting | Dataset | Algorithm | (mean, 95% CI) | 비고 |
|---|---|---|---|---|
| Competing — CVD | SEER | cs-Cox | 0.672 (0.664–0.680) | |
| Competing — CVD | SEER | Fine-Gray | 0.663 (0.656–0.670) | vs DeepHit |
| Competing — CVD | SEER | DMGP | 0.657 (0.632–0.682) | |
| Competing — CVD | SEER | DeepHit () | 0.674 (0.661–0.687) | ablation: no ranking |
| Competing — CVD | SEER | DeepHit | 0.684 (0.674–0.694) | |
| Competing — BC | SEER | cs-Cox | 0.639 (0.633–0.645) | vs DeepHit |
| Competing — BC | SEER | Fine-Gray | 0.639 (0.632–0.646) | |
| Competing — BC | SEER | DMGP | 0.742 (0.738–0.746) | |
| Competing — BC | SEER | DeepHit () | 0.736 (0.733–0.739) | |
| Competing — BC | SEER | DeepHit | 0.752 (0.748–0.756) | |
| Competing — Event 1 | Synthetic | cs-Cox | 0.578 (0.570–0.586) | |
| Competing — Event 1 | Synthetic | Fine-Gray | 0.579 (0.572–0.586) | |
| Competing — Event 1 | Synthetic | DMGP | 0.663 (0.658–0.668) | |
| Competing — Event 1 | Synthetic | DeepHit () | 0.739 (0.735–0.744) | |
| Competing — Event 1 | Synthetic | DeepHit | 0.755 (0.749–0.761) | |
| Competing — Event 2 | Synthetic | cs-Cox | 0.588 (0.584–0.593) | |
| Competing — Event 2 | Synthetic | Fine-Gray | 0.589 (0.585–0.593) | |
| Competing — Event 2 | Synthetic | DMGP | 0.666 (0.660–0.672) | |
| Competing — Event 2 | Synthetic | DeepHit () | 0.737 (0.732–0.742) | |
| Competing — Event 2 | Synthetic | DeepHit | 0.755 (0.748–0.762) | |
| Single risk | UNOS | Cox | 0.566 (0.563–0.569) | |
| Single risk | UNOS | RSF | 0.575 (0.571–0.579) | |
| Single risk | UNOS | ThresReg | 0.571 (0.568–0.574) | |
| Single risk | UNOS | MP-RForest | 0.552 (0.548–0.556) | |
| Single risk | UNOS | MP-AdaBoost | 0.582 (0.578–0.586) | n.s. |
| Single risk | UNOS | MP-LogitR | 0.571 (0.567–0.575) | |
| Single risk | UNOS | DeepSurv | 0.563 (0.555–0.571) | |
| Single risk | UNOS | DeepHit () | 0.573 (0.571–0.575) | |
| Single risk | UNOS | DeepHit | 0.589 (0.586–0.592) | |
| Single risk | METABRIC | Cox | 0.648 (0.634–0.662) | |
| Single risk | METABRIC | RSF | 0.672 (0.655–0.689) | n.s. |
| Single risk | METABRIC | ThresReg | 0.649 (0.633–0.665) | |
| Single risk | METABRIC | MP-RForest | 0.650 (0.630–0.670) | |
| Single risk | METABRIC | MP-AdaBoost | 0.633 (0.617–0.649) | |
| Single risk | METABRIC | MP-LogitR | 0.661 (0.643–0.679) | |
| Single risk | METABRIC | DeepSurv | 0.648 (0.636–0.660) | |
| Single risk | METABRIC | DeepHit () | 0.646 (0.634–0.658) | |
| Single risk | METABRIC | DeepHit | 0.691 (0.679–0.703) |
출처: 모든 값은 본문 Table 2, 3, 4 직접 인용. n.s. = 통계적 유의성 미표기.
프레임워크 다이어그램
flowchart TD X["covariates x<br/>(D-dim)"] --> Shared["Shared sub-network<br/>L_S FC layers"] Shared --> Fs["f_s(x)<br/>shared latent representation"] Fs --> Concat1["concat (f_s(x), x)<br/>residual skip"] X -.residual.-> Concat1 Concat1 --> CS1["Cause-specific sub-network 1<br/>L_C,1 FC layers"] Concat1 --> CS2["Cause-specific sub-network 2<br/>L_C,2 FC layers"] Concat1 --> CSK["... Cause-specific sub-network K"] CS1 --> Softmax["Single softmax layer<br/>joint distribution"] CS2 --> Softmax CSK --> Softmax Softmax --> Y["y = P̂(s, k | x)<br/>K × T_max outputs"] Y --> L1["L1: censoring-aware<br/>log-likelihood"] Y --> CIF["CIF F̂_k(s|x) = Σ y_k,m"] CIF --> L2["L2: cause-specific<br/>ranking loss<br/>(concordance)"] L1 --> LTotal["L_Total = L1 + L2"] L2 --> LTotal LTotal --> Backprop["backprop (Adam,<br/>lr=1e-4, batch=50,<br/>dropout=0.6)"]
재현성 및 신뢰도 평가
| 항목 | 등급 | 근거 |
|---|---|---|
| 코드 공개 | A | https://github.com/chl8856/DeepHit (저자 공식 구현, Python/TensorFlow) |
| 데이터 접근성 | C | METABRIC·합성은 공개·재현 가능, SEER는 신청 필요, UNOS는 제한적 접근 |
| Hyperparameter 명시 | B | 본문에 batch size 50, lr , dropout 0.6, Xavier init, ReLU, 층별 hidden node 비율(3/5/3×D) 명시. 단 구체 값은 본문 미보고(validation으로 선정) |
| 통계적 검증 | A | 5-fold CV, mean + 95% CI, p-value() 표기 |
| Ablation | A | (ranking loss 제거) ablation을 모든 데이터셋에서 보고 — 기여 정량화 |
| Baseline 다양성 | A | 통계 모델(Cox, Fine-Gray, ThresReg), tree(RSF), nonparametric Bayesian(DMGP), 신경망(DeepSurv), MP 변형 4종 — 총 8개 이상 |
| 시드/환경 | C | 랜덤 시드, 정확한 하드웨어, library 버전 미보고 |
| 보조 자료(suppl) | B | 보충자료에 cause-specific 변형 비교 등 포함되어 있음(별도 부록) |
종합 등급: B — 코드 공개와 통계 검증은 우수하나, SEER/UNOS 접근 제약과 일부 hyperparameter () 미보고가 완전 재현을 저해.
관련 연구 비교 매트릭스
| 논문 | 연도 | 접근 | Competing risks | 시간 의존성 | 분포 가정 | 평가 지표 | 코드 |
|---|---|---|---|---|---|---|---|
| DeepHit (본 논문) | 2018 | Deep NN, joint softmax + ranking loss | O (단일 framework) | O (비비례 허용) | 무 | -index | O (chl8856/DeepHit) |
| Cox PH (Cox 1972) | 1972 | Semi-parametric proportional hazards | X (independence 필요) | X (시간 불변) | log-linear hazard | C-index | O (R survival) |
| Fine-Gray (Fine·Gray 1999) | 1999 | Subdistribution hazard for CIF | O (모형 내장) | X (proportional) | proportional subdist hazard | C-index, CIF | O (R cmprsk) |
| Random Survival Forests (Ishwaran et al. 2008) | 2008 | Ensemble of survival trees | △ (cause-specific 변형) | O (nonparametric) | 무 | C-index, IBS | O (randomForestSRC) |
| DeepSurv (Katzman et al. 2016) | 2016 | NN으로 Cox log-risk function 학습 | X | X (Cox 가정 유지) | log-linear in NN output | C-index | O (DeepSurv) |
| DMGP (Alaa·van der Schaar 2017) | 2017 | Deep multi-task Gaussian process | O (multi-task) | O | Gaussian process latent | C-index | △ (저자 코드) |
| ThresReg (Lee·Whitmore 2006) | 2006 | First-hitting Wiener process | X | X | Wiener process | C-index | O (R threg) |
관찰: DeepHit는 (분포 가정 무 + 시간 의존성 허용 + competing risks 단일 framework + 코드 공개) 네 축을 동시에 충족하는 유일한 동시대 모델이다. DMGP가 가장 가까운 경쟁자이나 GP 가정을 유지하고, RSF는 cause-specific 확장이 필요하며, DeepSurv는 단일 risk 한정.
원자적 인사이트 (Zettelkasten)
- 생존 분석에서 분포 직접 학습이 가정 위배 위험을 차단한다: covariate으로부터 stochastic process 모수를 학습한 뒤 분포를 유도하는 간접 경로는, 가정된 process가 틀리면 모든 후속 추론이 무너진다. covariate → joint PMF 를 직접 학습하는 경로는 process 가정 자체가 불필요해 모형 misspecification 위험이 사라진다.
- Single softmax over (K events × T discrete times)는 marginal이 아닌 joint를 강제한다: cause별로 독립 softmax를 두면 marginal 분포만 학습되어 cause 간 trade-off가 표현되지 않는다. 전체 K \times T_\max 출력에 단일 softmax를 적용하면 합이 1로 제약되어 competing risks 간의 의존적 trade-off가 모형에 내장된다.
- Ranking loss는 평가 지표와 학습 손실을 정렬한다: -index는 환자 쌍의 위험 순서 정확도이므로 우도만으로는 직접 최적화되지 않는다. Concordance를 모방한 pairwise ranking 항(L2)을 손실에 추가하면 평가 지표를 학습 단계에서 직접 가이드할 수 있다.
- Censoring 보정은 “censoring 이후 어떤 사건이든 발생할 확률”을 우도에 흡수해 구현된다: censored 환자는 사건 시점·종류 정보가 없지만 “그 시점까지 살아 있음”은 알려진 정보다. 를 최대화하는 항을 우도에 더하면 censoring bias 없이 partial information을 학습 신호로 변환할 수 있다.
- Residual covariate input은 shared representation의 정보 손실을 보상한다: shared sub-network이 cause 간 공통 표현만 추출하면 cause-specific 정보가 hidden state에서 소실될 수 있다. Cause-specific sub-network 입력에 원본 를 함께 넣으면 공통 + 비공통 정보를 양쪽에서 받아 표현력이 보존된다.
핵심 용어 정리
- Survival analysis (생존 분석, time-to-event analysis): covariate과 사건 발생 시점의 분포 사이의 관계를 학습하는 통계적 framework. 의학·공학·금융에서 활용.
- First hitting time: 어떤 stochastic process가 사전에 정해진 boundary에 처음 도달하는 시점. 전통적 survival 모형은 사건 시점을 이 first hitting time으로 해석.
- Competing risks (경쟁 위험): 한 개체에게 둘 이상의 mutually exclusive 사건(예: 유방암 사망 vs 심혈관 사망)이 발생 가능하고, 하나가 발생하면 다른 사건 관측이 차단되는 상황. 위험들이 일반적으로 독립이지 않음.
- Right-censoring (우중도절단): 사건 발생 전에 관측이 종료되어 정확한 사건 시점을 모르지만 “censoring 시점까지는 생존”을 아는 데이터. 임상 데이터에서 보편적.
- Cumulative incidence function (CIF): . 경쟁 위험 하에서 시점 까지 cause 로 사건이 발생할 확률.
- Cox proportional hazards model: hazard rate를 로 모형화. baseline hazard 는 비모수, covariate 효과는 시간 불변(비례) 가정.
- Fine-Gray model: subdistribution hazard로 CIF를 직접 모형화, competing risks를 명시적으로 처리하지만 비례 가정 유지.
- Concordance index (C-index): . 빨리 죽은 환자에게 더 높은 위험을 부여하는 정도. Harrell C는 초기 시점 고정, 는 시간 의존.
- Time-dependent concordance index (-index): 시점별 위험 변화를 반영한 일치도 지표. Antolini, Boracchi, and Biganzoli (2005). 본 논문의 주 평가 지표.
- Multi-task network: 하나의 공통 표현에서 여러 task를 동시에 학습하는 신경망 구조. DeepHit는 cause-specific sub-network를 task로 둠.
- Shared sub-network / cause-specific sub-network: DeepHit 구조 — 모든 cause가 공유하는 잠재 표현 추출기 + cause별 독립 표현 학습기.
- Ranking loss: 쌍별 순서 정확도를 학습 신호로 변환한 손실. DeepHit는 형태로 acceptable pair에 적용.
관련 연구
- DeepSurv - Personalized Treatment Recommender System Using A Cox Proportional Hazards Deep Neural Network — NN으로 Cox 가정 유지하며 hazard 학습. DeepHit가 비례 가정을 깨면서 능가.
- Deep Multi-task Gaussian Processes for Survival Analysis with Competing Risks (Alaa·van der Schaar, NIPS 2017) — GP 기반 nonparametric competing risks. DeepHit의 가장 강한 경쟁 baseline.
- Random Survival Forests (Ishwaran et al. 2008) — tree 기반 nonparametric 생존 모형. small dataset에서 여전히 경쟁력.
- Fine-Gray Subdistribution Hazard Model (1999) — competing risks의 고전 통계 표준.
- Cox Proportional Hazards Model (Cox 1972) — survival regression의 출발점.
- Threshold Regression for Survival Analysis (Lee·Whitmore 2006) — Wiener process 기반 first-hitting-time.
태그
survival-analysis competing-risks deep-learning time-to-event ranking-loss medical-ai multi-task-learning cumulative-incidence-function c-index healthcare
BibTeX
@inproceedings{lee2018deephit,
title = {DeepHit: A Deep Learning Approach to Survival Analysis with Competing Risks},
author = {Lee, Changhee and Zame, William R. and Yoon, Jinsung and van der Schaar, Mihaela},
booktitle = {Proceedings of the AAAI Conference on Artificial Intelligence},
volume = {32},
number = {1},
year = {2018},
doi = {10.1609/aaai.v32i1.11842},
url = {https://ojs.aaai.org/index.php/AAAI/article/view/11842}
}