DeepSurv: Cox 비례위험 신경망으로 환자별 처리 추천을 학습하다

Digest

임상 의사결정에서는 “이 환자에게 어떤 처치(treatment)가 더 오래 살게 하는가?”라는 환자 단위 질문에 답해야 하지만, 표준 도구인 Cox 비례위험 모형(Cox Proportional Hazards, CPH) 은 위험 함수(log-risk function)를 공변량의 선형 결합으로 가정해 처리-공변량 상호작용 항(interaction term)을 분석가가 손으로 지정해야만 학습할 수 있다 (Context). Faraggi-Simon(1995) 이후 신경망 기반 생존 모형이 여러 차례 시도되었지만 선형 CPH를 일관되게 능가하지 못했고, 저자들은 그 원인을 신경망 기법(activation, 정규화, 최적화)의 시대적 미성숙에서 찾는다 (Insight). 저자들은 DeepSurv, 즉 출력 노드 한 개의 log-risk를 내고 손실로 음의 부분우도(negative log partial likelihood) + L₂ 정규화를 쓰는 다층 퍼셉트론을 제안한다. SELU·ReLU 활성, 드롭아웃, Adam + Nesterov 모멘텀, 학습률 스케줄링과 같은 현대 딥러닝 기법을 결합하고, 처리군별로 독립 위험 함수 h_i(x)를 학습한 뒤 추천 함수 rec_ij(x) = h_i(x) − h_j(x) 로 환자 단위 처치 권고를 산출한다 (Solution). 시뮬레이션 비선형 가우시안 위험 실험에서 CPH C-index 0.487 → DeepSurv 0.652, 실제 METABRIC 유방암 데이터에서 CPH 0.632 → DeepSurv 0.654로 일관된 우위를 보였으며, Rotterdam에서 학습해 GBSG 무작위 임상시험에서 평가한 전이 실험에서는 DeepSurv 권고를 따른 부분군의 중앙 생존시간이 40.099개월로 anti-recommendation 군 31.770개월 대비 log-rank 검정으로 유의하게 길었다(반면 RSF 권고는 유의하지 않았다) (Evidence). 한계는 (a) 비례위험 가정(proportional hazards assumption) 을 여전히 가정하므로 시간 의존 위험 변화는 표현하지 못하고, (b) Rotterdam(90% event)과 GBSG(56% 검열)처럼 검열·결과 분포가 크게 다른 코호트 간 전이가 일반화될지 미검증이며, (c) 비교 대상이 CPH·RSF에 한정되어 후속 신경망 생존 모형(DeepHit, Cox-Time)과의 비교는 추후 과제로 남았다 (Limitations). 이 연구는 “현대 딥러닝 + 부분우도 손실”이라는 단순한 조합으로 신경망 생존 분석의 오랜 정체를 뚫었고, 이후 Cox-Time(Kvamme+2019), DeepHit(Lee+2018), Bayesian Perturbation Cox(2021) 등 후속 패러다임의 출발점이 되었다 (Open Questions).

섹션별 요약

Abstract

의료 실무자는 환자 공변량(임상·유전 특징)과 처치(treatment) 효과의 관계를 탐색하기 위해 생존 모형을 사용한다. 표준 선형 Cox 비례위험(CPH) 모형은 개인 수준의 처리 상호작용을 모델링하기 위해 광범위한 feature engineering이나 사전 의학 지식을 요구한다. 신경망·생존 포레스트와 같은 비선형 생존 방법은 본질적으로 고차 상호작용을 학습할 수 있지만 처치 추천 시스템으로서의 효능은 검증되지 않았다. 저자들은 Cox 비례위험 심층신경망이자 SOTA 생존 방법인 DeepSurv를 제안하여, 환자 공변량과 처치 효과의 상호작용을 모델링하고 개인화된 처치 권고를 제공한다. 시뮬레이션·실제 생존 데이터에서 DeepSurv가 기존 SOTA 생존 모형과 동등 이상의 성능을 보이며, 환자 공변량과 위험의 점차 복잡해지는 관계를 성공적으로 학습함을 검증한다. 마지막으로 실제 임상 연구 데이터로 학습된 DeepSurv가 일군의 환자에 대해 중앙 생존시간을 늘릴 수 있는 환자별 처치 권고를 제공함을 보인다.

저자 contribution

현대 딥러닝 + Cox 부분우도(partial likelihood) 조합으로 SOTA 생존 예측 달성: 선형 CPH와 RSF(Random Survival Forest)를 시뮬레이션 비선형 위험과 METABRIC 유방암·SUPPORT·WHAS 코호트에서 동등 이상으로 능가하여, Faraggi-Simon(1995) 이래의 “신경망은 선형 CPH를 못 이긴다”는 통설을 깬다.
처리-공변량 상호작용 자동 학습 + 개인화 추천 함수 도입: 처리군별 독립 위험 함수 h_i(x)를 학습하고 rec_ij(x) = h_i(x) − h_j(x) 로 환자 단위 권고를 산출 — CPH가 사전 지정 없이 상수 권고만 내는 한계를 구조적으로 해소한다.
실제 임상시험 전이로 임상적 의미 입증: Rotterdam 관측 데이터로 학습 → GBSG 무작위 임상시험으로 평가에서 DeepSurv 권고 군 중앙 생존시간 40.099개월 vs anti-recommendation 31.770개월(log-rank 유의)로, 관측 코호트→RCT 전이 시나리오에서 처음으로 통계적 유의성을 확보.

왜 이 연구를 하는가?

문제의 층위: 임상 생존 분석은 (i) 위험 예측(risk prediction) — 환자별 hazard 추정, (ii) 처치 의사결정(treatment decision) — “A·B 중 누구에게 무엇이 더 나은가?”의 두 하위 문제로 나뉜다. CPH는 (i)에서는 표준이 되었지만 (ii)에서는 분석가가 treatment × covariate 항을 손으로 지정해야 한다.
기존 접근의 한계:
1. 선형 CPH(Cox 1972): 처치 상호작용을 학습하려면 도메인 지식으로 항을 미리 지정해야 함 → 미지의 비선형 상호작용은 누락. 개인화 추천 함수는 사전 지정이 없으면 상수가 됨.
2. Faraggi-Simon(1995) 등 신경망: 부분우도 손실의 신경망 적용을 시도했지만 ReLU/SELU·Adam·드롭아웃이 없던 시대 기법으로 학습이 불안정 — “previous studies have demonstrated mixed results on NNs ability to predict risk”, 선형 CPH를 일관되게 이기지 못함.
3. Random Survival Forest (RSF, Ishwaran+2008): 트리 앙상블로 비선형 상호작용은 잡지만, 처치 추천 알고리즘으로의 명시적 확장은 검증되지 않았고, 개별 환자 권고가 통계적 유의성을 확보하지 못함(본 논문의 GBSG 실험에서 RSF 권고는 log-rank 유의 ✗).
핵심 질문 (RQ): 현대 딥러닝 기법(SELU/ReLU·드롭아웃·Adam·학습률 스케줄링)을 Cox 부분우도 손실에 결합하면, Faraggi-Simon의 한계를 넘어 선형 CPH·RSF를 일관되게 능가하면서 동시에 개인 단위로 통계적으로 유의한 처치 권고를 제공할 수 있는가?
연구 동기: 임상의가 흔히 마주하는 “이 환자에게는 어느 약을 줘야 하나?” 질문에 분석가의 사전 지정 없이 자동으로 답하는 단일 모형. 본 연구는 그 답을 “단일 출력 노드 + 부분우도 손실 + 현대 정규화”라는 미니멀한 설계로 제시한다.

Introduction

생존 분석의 표준 도구: CPH(Cox 1972)는 log-hazard를 공변량의 선형 결합 h(x) = β^T x로 가정하고, 부분우도(partial likelihood) 최대화로 β를 추정한다. 처치 t를 추가 공변량으로 넣어 main effect는 잡지만, 처치-공변량 상호작용은 t × x_k 항을 분석가가 명시적으로 추가해야만 학습된다.
신경망 생존 분석의 세 갈래: (a) 분류 기반(classification) — 시간을 빈(bin)으로 나눠 분류 문제로 환원, (b) 시간 인코딩(time-encoded) — 시간을 입력 특징으로, (c) risk-predicting feed-forward — Faraggi-Simon 계열, 단일 노드로 log-risk를 예측. 그러나 어느 갈래도 표준 통계 방법을 명확히 능가하지 못했다.
이전 시도의 공통 결함: “previous studies have demonstrated mixed results on NNs ability to predict risk” — 작은 데이터, sigmoid/tanh 활성, 모멘텀 없는 SGD, L1/L2 정규화 부재 같은 시대적 한계가 누적되어 선형 CPH 이상의 일반화 성능을 못 냈다.
저자들의 가설: 현대 딥러닝 기법(SELU 자기정규화, 드롭아웃, Adam, Nesterov 모멘텀, 학습률 스케줄링, 표준화 입력)을 Cox 부분우도 손실에 그대로 끼워 넣기만 해도 — 즉 손실 함수와 출력 형태는 Faraggi-Simon과 동일하더라도 — Faraggi-Simon이 못 했던 일을 할 수 있다.
기여 요약: (1) 시뮬레이션·실데이터에서 SOTA 예측력 검증, (2) 처치-공변량 상호작용 자동 학습 입증, (3) 환자별 추천 함수 rec_ij(x)로 추천 모듈 제공, (4) Rotterdam → GBSG 전이 실험으로 임상적 유의성 확보.

Methods

1) 문제 정식화 — Cox 비례위험과 부분우도

데이터: 각 환자 i에 대해 (x_i, T_i, E_i). x_i ∈ ℝ^d는 baseline 공변량, T_i는 관측된 사건/검열 시점, E_i ∈ {0,1}은 사건 발생 여부.
위험 모형(Cox PH): 시점 t의 hazard를 λ(t | x) = λ_0(t) · exp(h(x))로 분해. λ_0(t)는 baseline hazard, h(x)는 log-risk function.
부분우도(partial likelihood): 사건 시점 T_i에서 risk set ℜ(T_i) = {j : T_j ≥ T_i}에 대해 L(θ) = ∏_{i:E_i=1} exp(ĥ_θ(x_i)) / Σ_{j∈ℜ(T_i)} exp(ĥ_θ(x_j)). baseline hazard λ_0(t)는 우도에서 소거되므로 추정 불필요.

2) DeepSurv 아키텍처

구성: 입력 x → fully-connected hidden layer(SELU 또는 ReLU + 드롭아웃) × 1–3개 → 단일 노드 linear 출력 ĥ_θ(x) (= log-risk 추정치).
출력의 의미: 단일 스칼라가 환자 risk 순위(ranking)를 정함. 절대값 자체는 baseline hazard와 결합되어야 시점별 hazard가 되지만, 처치 비교나 C-index 평가에는 ĥ_θ(x)만 있으면 충분.
손실 함수 (Eq. 2):
l(θ) = −(1/N_E) · Σ_{i:E_i=1} [ ĥ_θ(x_i) − log Σ_{j∈ℜ(T_i)} exp(ĥ_θ(x_j)) ] + λ ||θ||²₂
- N_E: 관측된 사건 수, λ: L₂ 정규화 강도. 부분우도의 음의 로그를 평균화한 형태.
현대 딥러닝 기법 결합: 표준화 입력, SELU 활성(자기정규화로 깊은 네트워크 안정화), Adam + Nesterov 모멘텀, 학습률 스케줄(plateau 시 감쇠), 드롭아웃.
하이퍼파라미터 탐색: 3-fold cross-validation에서 C-index를 목적함수로 random search. 본 논문의 Table 3 기준 — Depth 1–3, Nodes 4–48/layer, learning rate 0.001–0.067, L₂ 1.999–16.094, dropout 0.109–0.661, momentum 0.844–0.936.

3) 처치 추천 시스템 (Treatment Recommender)

가정: 처치군 i ∈ {0, 1, …, T−1}마다 독립 위험 함수 h_i(x) 가 존재. 즉 동일 환자라도 처치별로 다른 log-risk를 산출.
학습 방식: 처치를 추가 입력으로 넣어 단일 네트워크로 학습하거나, 처치군별 별도 네트워크 학습 — 본 논문 실험에서는 단일 네트워크에 처치 변수를 입력으로 결합.
추천 함수 (Eq. 3): rec_ij(x) = h_i(x) − h_j(x)
- 양수 → 처치 j가 더 안전(낮은 risk) → j 권고.
- 음수 → 처치 i가 더 안전 → i 권고.
CPH 대비 구조적 이점: 선형 CPH에서 처치 상호작용 항이 사전 지정되지 않으면 rec_ij(x) = β_i − β_j = const가 되어 모든 환자에게 같은 처치를 권고. DeepSurv는 비선형 h_i(x)로 환자별 다른 권고가 가능.

4) 평가 지표

Concordance Index (C-index): 무작위로 선택한 두 환자 쌍에 대해 모델이 매긴 risk 순위와 실제 생존시간 순위가 일치할 확률. 0.5 = 무작위, 1.0 = 완벽. 검열(censoring)에 강건하여 생존 분석의 사실상 표준.
Log-rank test: 추천 군(Recommendation, 모델 권고 처치를 받은 환자) vs anti-recommendation 군(모델 권고 반대 처치를 받은 환자)의 Kaplan-Meier 생존곡선이 통계적으로 유의하게 다른지 검정. 추천의 임상적 가치 입증에 사용.

발견 (Findings)

선형 위험 시뮬레이션에서는 CPH와 동률, 비선형에서는 압도: 진짜 위험이 h(x) = x₀ + 2x₁로 선형일 때 CPH 0.779 / DeepSurv 0.778 / RSF 0.758로 사실상 동일. 그러나 진짜 위험이 가우시안 h(x) = log(5)·exp[−(x₀² + x₁²)/(2·0.5²)]일 때 CPH C-index 0.487 (≈ 무작위)인 반면 DeepSurv 0.652, RSF 0.627 — CPH의 선형 가정 위반이 즉시 성능 붕괴로 이어지고, DeepSurv는 진짜 비선형 표면을 시각적으로도 재구성한다.
실데이터에서도 일관된 우위 또는 동률: METABRIC(유방암 유전자 발현, 1,980명) CPH 0.632 → DeepSurv 0.654 (RSF 0.620), SUPPORT(중환자 9,105명) CPH 0.583 → DeepSurv 0.619 (RSF 0.619 동률), WHAS(심근경색 1,638명) CPH 0.816 → DeepSurv 0.867 (단 RSF 0.893으로 최고). DeepSurv는 모든 실데이터에서 CPH를 능가, RSF와 비교 시 데이터셋별로 우열.
처치 추천의 임상적 유의성 — Rotterdam → GBSG 전이: Rotterdam 1,546명(90% event)으로 학습 → GBSG 686명(56% 검열, 무작위 임상시험)으로 평가. DeepSurv 권고를 따른 환자의 중앙 생존시간 40.099개월 vs anti-recommendation 31.770개월(log-rank 검정 유의). 동일 실험에서 RSF 권고는 log-rank 유의성 미확보 → DeepSurv가 RSF보다 환자별 권고를 더 잘 개인화함을 시사.
시뮬레이션 처치 추천에서도 동일 패턴: Control(τ=0) 상수 위험 + Treatment(τ=1) 가우시안 위험 시나리오에서 DeepSurv C-index 0.575 / RSF 0.550. KM curve로 권고군 중앙 생존 3.334개월 vs anti-recommendation 2.867개월(p < 0.000090).

Results

1) 시뮬레이션 실험 — 위험 함수 복잡도 스펙트럼

Linear log-risk: 4,000 train / 1,000 val / 1,000 test, 공변량 10개 중 2개만 실제 영향. C-index — CPH 0.779, DeepSurv 0.778, RSF 0.758. MSE는 CPH 20.528 vs DeepSurv 0.193 — DeepSurv가 선형 함수의 형태까지 더 정확히 회복.
Nonlinear (Gaussian) log-risk: h(x) = log(5.0)·exp[−(x₀² + x₁²)/(2·0.5²)]. CPH 0.487(거의 무작위), DeepSurv 0.652, RSF 0.627. DeepSurv가 가우시안 표면을 시각적으로 재구성하며, CPH는 단일 상수에 가까운 예측을 내놓아 ranking 정보가 거의 없음.

2) 실데이터 벤치마크 — C-index

Dataset	환자 수	특성 수	사건율	CPH	DeepSurv	RSF
WHAS (Worcester Heart Attack)	1,638	5	42%	0.816	0.867	0.893
SUPPORT (중환자)	9,105	14	68%	0.583	0.619	0.619
METABRIC (유방암 유전자)	1,980	57	58%	0.632	0.654	0.620

해석: DeepSurv는 모든 실데이터에서 CPH 능가. RSF와 비교 시 — 단순한 임상 변수(WHAS 5 features)에서는 RSF의 트리 앙상블이 강하고, 고차원 유전자 발현(METABRIC 57 features)에서는 DeepSurv 우위. SUPPORT는 동률.

3) 처치 추천 실험 — Rotterdam & GBSG 유방암

설정: Rotterdam 1,546명(관측 코호트, 90% event observed)으로 처치-공변량 상호작용 학습 → GBSG 686명(독립 무작위 임상시험, 56% 검열)에서 추천 평가.
C-index: DeepSurv 0.676 > CPH 0.659 > RSF 0.648.
추천의 임상 효과 (중앙 생존시간):
- DeepSurv Recommendation: 40.099개월
- DeepSurv Anti-Recommendation: 31.770개월
- log-rank 검정: 유의
- RSF Recommendation: log-rank 검정 유의하지 않음
임상적 함의: 관측 데이터로 학습한 추천 모델이 RCT 평가에서 유의한 생존 향상을 보임 → 비례위험 가정이 무너지지 않는 한 deep + Cox는 실세계로 전이 가능함을 시사.

Discussion

방법론적 의의: 신경망 + 부분우도 손실의 결합 자체는 Faraggi-Simon(1995) 이후 새롭지 않다. 본 논문이 보이는 것은 “현대 딥러닝의 누적된 작은 개선들(SELU, 드롭아웃, Adam, Nesterov 모멘텀, 학습률 스케줄)이 임계점을 넘어 — 동일한 손실로도 — 선형 CPH를 안정적으로 능가하기 시작한다”는 사실. 즉 모형 혁신이 아니라 최적화·정규화 환경의 혁신이 핵심 동인이다.
추천 함수의 구조적 이점: 저자들의 표현 — “DeepSurv’s architecture holds an advantage over the CPH because it calculates the recommender function without an a priori specification of treatment interaction terms.” CPH는 처치-공변량 상호작용을 분석가가 사전 지정해야 비상수 권고 함수가 나오는 반면, DeepSurv는 비선형성을 신경망에 위임하여 자동으로 환자별 권고를 산출.
임상적 의의: Rotterdam → GBSG 전이에서 log-rank 유의는 단순 in-sample 평가가 아닌 독립 RCT에서의 외부 타당성을 보였다는 점에서 강한 증거. RSF가 같은 실험에서 유의성을 못 잡았다는 점은, 트리 앙상블이 ranking은 합리적으로 매기지만 처치별 위험 차이를 안정적으로 분리하는 데서는 한계가 있을 수 있음을 암시.
모형 가정의 한계 (저자들이 명시적으로는 안 했지만 본문에서 도출 가능):
1. 비례위험 가정: hazard ratio가 시간에 무관해야 함. 시간에 따라 위험 비율이 역전되는 시나리오는 표현 불가 — 이 가정 자체는 CPH와 동일하게 유지됨.
2. Baseline hazard 공유: 모든 환자가 동일 λ_0(t)를 공유한다고 가정. 이질적 모집단(예: 인종·국가별)에서는 일반화 의문.
3. 검열의 무정보성(non-informative censoring): 검열 시점이 위험과 독립이라는 표준 생존 분석 가정 필요.
4. 처치 군별 독립 risk function 가정: rec_ij(x) = h_i(x) − h_j(x)가 의미 있으려면 처치별 표본이 충분해야 하며, 한 군에 데이터가 매우 적으면 권고가 unreliable.

이론적 의의

신경망 생존 분석의 정체 돌파: 1990년대부터 시도되었지만 선형 CPH를 못 이겨 사실상 폐기된 줄기를, 현대 딥러닝 도구로 부활시켜 후속 패러다임 — DeepHit(Lee+2018, 분류 + 랭킹 손실), Cox-Time(Kvamme+2019, 비비례위험 확장), Bayesian Perturbation Cox(2021) — 의 출발점이 됨.
처치 효과 추정에서의 새 axis: 인과 추론(causal inference) 문헌의 X-learner/T-learner와 본질적으로 유사한 구조 — 처치군별 위험 함수 학습 후 차이를 권고에 사용 — 를 생존 분석 도메인에서 신경망으로 구현. 인과 추론과 생존 분석의 교차점 연구를 촉발.
medical AI의 “임상 유의성” 기준 제시: in-sample C-index만이 아니라 독립 RCT에서의 log-rank 유의성 까지 검증해야 한다는 평가 프로토콜을 제시.

Discussion Points

논쟁점: DeepSurv는 비례위험 가정을 유지하므로, 시간에 따라 위험 비율이 변하는 임상 시나리오(예: 면역치료의 지연 효과, 수술 직후 위험 급증 후 감소)에는 부적합. 이 가정을 깬 Cox-Time(Kvamme+2019)이 후속으로 등장한 이유.
검증되어야 할 가정: (1) Rotterdam→GBSG 전이의 성공이 다른 종양 유형·다른 인구 집단에서도 재현되는가? (2) 처치 군 표본이 매우 불균형할 때(예: 신약 vs 표준 치료에서 신약 환자 100명) 권고가 여전히 신뢰할 만한가? (3) 비례위험 가정이 위반되었을 때 DeepSurv의 성능이 어떻게 저하되는지 정량화 필요.
후속 연구 방향:
1. 의료 영상과의 결합: 저자들이 명시 — “convolution neural networks to predict risk with medical imaging”. CT/MRI/병리 슬라이드를 입력으로 한 CNN-Cox 결합.
2. 비비례위험 확장: Cox-Time 같이 시간을 추가 입력으로 받아 비례위험 가정을 완화.
3. 경쟁 위험(competing risks): DeepHit처럼 여러 사건 유형을 동시 모델링.
4. 인과 추론 통합: 관측 데이터의 confounding을 다루는 propensity score, IPTW와 DeepSurv 결합.

실험 결과 상세

시뮬레이션 실험 종합

시나리오	진짜 위험 함수	CPH C-index	DeepSurv C-index	RSF C-index	비고
Linear log-risk	h = x₀ + 2x₁	0.779	0.778	0.758	CPH MSE 20.528 vs DeepSurv MSE 0.193
Nonlinear Gaussian	h = log(5)·exp[−(x₀² + x₁²)/0.5]	0.487	0.652	0.627	CPH는 거의 상수 예측으로 붕괴
Treatment (Sim)	Control 상수 / Treatment 가우시안	—	0.575	0.550	KM 중앙 생존 3.334 vs 2.867개월, p<0.0001

실데이터 벤치마크

Dataset	n	features	사건율	CPH	DeepSurv	RSF	우승
WHAS	1,638	5	42%	0.816	0.867	0.893	RSF
SUPPORT	9,105	14	68%	0.583	0.619	0.619	동률(DS/RSF)
METABRIC	1,980	57	58%	0.632	0.654	0.620	DeepSurv
Rotterdam→GBSG	1546→686	—	90%/44%	0.659	0.676	0.648	DeepSurv

처치 추천 — Rotterdam → GBSG (외부 RCT 평가)

지표	DeepSurv	RSF
C-index (GBSG test)	0.676	0.648
추천 군 중앙 생존시간 (개월)	40.099	—
Anti-recommendation 중앙 생존시간	31.770	—
log-rank test	유의	유의 ✗

하이퍼파라미터 범위 (Table 3 기준)

항목	범위	비고
Hidden depth	1–3 layers	데이터셋별 random search 결과
Nodes per layer	4–48	작은 임상 데이터셋이라 폭은 좁음
Learning rate	0.001–0.067	학습률 plateau 감쇠
L₂ regularization (λ)	1.999–16.094	작은 데이터에서 큰 정규화 필요
Dropout	0.109–0.661	데이터셋별 편차 큼
Momentum (Nesterov)	0.844–0.936	—

프레임워크 다이어그램

flowchart TB
    subgraph Input["입력: 환자 baseline 공변량 x ∈ R^d"]
        X[clinical features<br/>genetic features<br/>treatment indicator]
    end

    subgraph Network["DeepSurv MLP"]
        H1[Hidden Layer 1<br/>SELU/ReLU + Dropout]
        H2[Hidden Layer 2-3<br/>optional]
        OUT[Single linear output node<br/>log-risk ĥ_θ x]
        H1 --> H2 --> OUT
    end

    subgraph Loss["손실 함수"]
        PL["부분우도(partial likelihood)<br/>l θ = - 1/N_E · Σ ĥ_i - log Σ_j∈R T_i exp ĥ_j<br/>+ λ ||θ||²₂"]
    end

    subgraph Inference["추론 단계 — 환자별 처치 추천"]
        H0["h_0 x = log-risk for treatment 0"]
        H1T["h_1 x = log-risk for treatment 1"]
        REC["rec_01 x = h_0 x - h_1 x<br/>양수: treatment 1 권고<br/>음수: treatment 0 권고"]
        H0 --> REC
        H1T --> REC
    end

    X --> H1
    OUT --> PL
    OUT -.학습 후 처치별 평가.-> H0
    OUT -.학습 후 처치별 평가.-> H1T
    REC --> EVAL["Kaplan-Meier 곡선 비교<br/>+ log-rank 검정"]

재현성 및 신뢰도 평가

데이터 공개성: SUPPORT, METABRIC, GBSG, Rotterdam은 모두 공개 데이터셋(공식 저장소/논문 supplementary 또는 공동 연구자 요청을 통해 접근 가능). WHAS도 SAS 교재용으로 공개. → A 등급.
코드 공개성: 커뮤니티 구현 https://github.com/jaredleekatzman/DeepSurv 가 공식 저자 계정 기반으로 존재(Theano/Lasagne). 원 논문은 코드 링크를 본문에 명시하지 않으나 저자 GitHub로 추적 가능. → B 등급 (프레임워크가 deprecated된 Theano라 재현 시 추가 작업 필요).
하이퍼파라미터 명시성: Table 3에 데이터셋별 최종 하이퍼파라미터 범위 명시. random search 절차도 기술. → A 등급.
실험 통계의 엄밀성: C-index 평균만 보고하고 신뢰구간/표준오차 제시는 제한적. log-rank 검정 p-value는 일부 실험만 명시. → C 등급.
외부 타당성: Rotterdam → GBSG처럼 학습/평가 코호트를 명확히 분리한 점은 강함. 단 단일 도메인(유방암)에서만 외부 RCT 평가가 이루어짐. → B 등급.

재현성 종합등급: B

데이터·하이퍼파라미터 명시는 우수하지만 (1) 공식 코드의 Theano 의존, (2) 실험 통계 보고의 일부 누락, (3) 외부 RCT 검증이 한 도메인에 국한된 점이 감점 요소.

주장별 신뢰도:

“DeepSurv가 비선형 위험에서 CPH를 능가” — 신뢰도 A (명확한 시뮬레이션 + 3개 실데이터 일관 증거).
“DeepSurv 권고가 실제 환자 생존을 늘림” — 신뢰도 B (Rotterdam → GBSG 단일 사례, log-rank 유의 확보됨).
“DeepSurv가 RSF를 일관되게 능가” — 신뢰도 C (WHAS에서는 RSF 우세, 데이터셋별 우열 혼재).

항목	DeepSurv (Katzman+2018)	Cox PH (Cox 1972)	Faraggi-Simon (1995)	RSF (Ishwaran+2008)	Cox-Time (Kvamme+2019)	DeepHit (Lee+2018)
접근 방식	다층 MLP + 부분우도 손실 + 현대 정규화	선형 log-risk + 부분우도	단일 hidden layer NN + 부분우도	트리 앙상블 + log-rank 분할	시간을 입력으로 받는 NN + nested case-control loss	시간 빈 분류 + 랭킹 손실
비례위험 가정	유지	유지	유지	비모수, 가정 없음	완화 (비비례위험 지원)	없음
처치 추천 함수	rec = h_i − h_j (환자별)	const (사전 항 없이는)	미검증	미검증	미검증	미검증
시뮬레이션 비선형 C-index	0.652	0.487	미보고	0.627	(Brier score 기준 동등 이상)	(Brier score 기준 우수)
METABRIC C-index	0.654	0.632	—	0.620	후속 논문에서 유사 수준	0.651 (후속 보고)
외부 RCT 전이 검증	Rotterdam→GBSG log-rank 유의 ✓	미시도	미시도	본 논문에서 유의 ✗	미시도	미시도
코드 공개	github.com/jaredleekatzman/DeepSurv (Theano)	모든 통계 패키지 (R `survival`, lifelines)	미공개	R `randomForestSRC`	github.com/havakv/pycox	github.com/chl8856/DeepHit

원자적 인사이트 (Zettelkasten)

“방법은 그대로, 환경만 현대화해도 임계점을 넘을 수 있다”: Faraggi-Simon(1995)과 DeepSurv는 손실 함수와 출력 형태가 동일하다(둘 다 부분우도 + 단일 log-risk 출력). 차이는 활성함수(sigmoid→SELU), 정규화(없음→드롭아웃+L₂), 최적화(SGD→Adam+Nesterov), 입력 표준화 — 즉 “주변 기법들”의 누적. 새로운 손실이나 새로운 구조 없이도, 인접 기술의 성숙만으로 23년 묵은 정체가 풀린 사례. → 다른 분야에서도 “한때 작동 안 한 아이디어”를 재방문할 때 모형 자체가 아니라 인프라를 점검하라는 휴리스틱.
“개인화 권고는 손실 함수가 아니라 추론 단계에서 만들어진다”: DeepSurv는 학습 시점에는 처치-공변량 상호작용에 대해 명시적 손실을 두지 않는다. 단지 처치를 입력으로 받아 위험을 예측할 뿐. 그러나 추론 시점에 동일 환자에 두 처치를 “가상으로” 넣고 차이 rec_ij(x) = h_i(x) − h_j(x)를 계산하는 것만으로 환자별 권고가 나온다. 이는 인과 추론의 T-learner 와 본질적으로 동일한 구조 — 모형은 결과 예측만 학습하고, 처치 효과는 두 예측의 차이로 회복. → 개인화 ML 시스템 설계에서 “학습 목적함수에 모든 것을 욱여넣지 않고, 추론에서 조합으로 표현”하는 패턴의 한 사례.
“외부 RCT 전이 유의성은 ML 의료 모델의 새로운 표준이다”: in-sample C-index가 RSF와 동률이어도, 독립 RCT에서 log-rank 유의성을 확보하느냐는 별개 차원. DeepSurv는 Rotterdam → GBSG 전이에서 유의 ✓, RSF는 유의 ✗. 이는 ranking quality와 처치 효과의 separation quality가 다른 능력이며, 후자가 임상 채택의 실질 기준임을 시사. → 의료 ML 평가 프로토콜이 “예측 정확도 → 처치 효과 분리도”로 한 단계 더 까다로워져야 함.
“부분우도 손실은 baseline hazard를 무시할 수 있게 해주는 우아한 트릭이다”: Cox PH의 hazard λ(t|x) = λ_0(t)·exp(h(x))에서 λ_0(t)는 비모수이므로 직접 추정이 까다롭다. 그러나 부분우도는 사건 시점에서 risk set 내 상대적 위험만 보므로 λ_0(t)가 분자·분모에서 소거된다. DeepSurv는 이 트릭을 그대로 신경망 손실에 옮겨, 출력 노드가 절대 hazard가 아닌 상대 log-risk만 학습하면 되도록 한다. → 신경망을 통계 모형에 결합할 때, 통계 모형의 “수학적 우아함”을 손실 함수 설계에 그대로 흡수하는 패턴.

핵심 용어 정리

Cox 비례위험 모형 (Cox Proportional Hazards, CPH): hazard를 λ(t|x) = λ_0(t)·exp(β^T x)로 분해해 시간 의존 baseline λ_0(t)와 공변량 의존 부분 exp(β^T x)을 분리하는 준모수(semi-parametric) 생존 모형. 비례위험 가정 — 두 환자의 hazard ratio가 시간에 무관 — 이 핵심.
부분우도 (Partial Likelihood): Cox(1975)가 제안한 추정 방법. 각 사건 시점에서 risk set 내 상대적 위험만 사용하므로 baseline hazard λ_0(t)를 추정하지 않고도 β를 일치(consistent) 추정 가능. 신경망 손실로 옮겼을 때 출력이 절대 hazard일 필요가 없게 만드는 핵심 장치.
위험 집합 (Risk Set, ℜ(t)): 시점 t에 아직 사건이 발생하지 않고 검열되지도 않은 환자들의 집합. 부분우도의 분모는 risk set 내 위험의 합.
Concordance Index (C-index, Harrell’s C): 두 환자 쌍을 무작위로 골랐을 때 모델의 risk 순위와 실제 생존시간 순위가 일치할 확률. 검열에 강건한 ranking 평가지표. 0.5 = 무작위, 1.0 = 완벽.
검열 (Censoring): 추적 기간 종료까지 사건이 발생하지 않은 관측. 우측 검열(right-censoring)이 가장 흔하며, 본 논문은 검열이 위험과 독립이라는 non-informative censoring 가정 하에 동작.
Random Survival Forest (RSF): Ishwaran(2008)이 제안한 트리 앙상블 생존 모형. 분할 기준으로 log-rank 통계량을 사용하며 비례위험 가정이 없다. DeepSurv의 주요 비교 베이스라인.
Log-rank test: 두 군의 Kaplan-Meier 생존곡선이 통계적으로 다른지 검정. 본 논문에서 추천군 vs anti-recommendation군의 차이 유의성 평가에 사용.
추천 함수 (Recommender Function, rec_ij): 두 처치 i, j에 대해 rec_ij(x) = h_i(x) − h_j(x). 양수면 j 권고, 음수면 i 권고. DeepSurv의 핵심 추론 산출물.
Faraggi-Simon network: 단일 은닉층 신경망 + 부분우도 손실의 1995년 원형. DeepSurv의 직접 조상이며 본 논문이 능가 대상으로 명시.
METABRIC: 1,980명 유방암 환자의 57개 유전자 발현 + 임상 변수 코호트. 본 논문이 신경망 우위를 입증하는 핵심 실데이터.

BibTeX

@article{katzman2018deepsurv,
  title   = {{DeepSurv}: personalized treatment recommender system using a {Cox} proportional hazards deep neural network},
  author  = {Katzman, Jared L. and Shaham, Uri and Cloninger, Alexander and Bates, Jonathan and Jiang, Tingting and Kluger, Yuval},
  journal = {BMC Medical Research Methodology},
  volume  = {18},
  number  = {1},
  pages   = {24},
  year    = {2018},
  doi     = {10.1186/s12874-018-0482-1},
  url     = {https://doi.org/10.1186/s12874-018-0482-1},
  note    = {arXiv:1606.00931 (preprint title: "Deep Survival: A Deep Cox Proportional Hazards Network")}
}

Juhyeon's Blog

탐색기

DeepSurv - Personalized Treatment Recommender System Using A Cox Proportional Hazards Deep Neural Network