회귀 모형과 생명표 (Regression Models and Life-Tables)
Digest: 의료/신뢰도 통계에서 중도절단(censored) 실패시간(failure-time) 데이터에 회귀를 적용하려면 기저 위험(baseline hazard) 의 함수 형태(지수·Weibull 등)를 가정해야 했고, 가정이 틀리면 회귀계수 의 추론까지 왜곡됐다. Cox(1972)는 가 추론의 관심대상이 아닌 nuisance라면 굳이 모수화할 필요가 없다는 통찰에서 출발해, 위험함수를 로 곱셈 분해(비례 위험 모형, proportional hazards)한 뒤, 각 실패시점 의 위험집합(risk set) 위에서 “그 시점에 누가 실패했는가”의 조건부 확률 만 곱한 조건부 우도(conditional likelihood, 후속 문헌에서 “partial likelihood”) 를 최대화해 를 ML로 추정한다 — 이 과정에서 가 분자·분모에서 자동으로 약분된다. Freireich et al. 백혈병 데이터(6-MP n=21 vs 대조군 n=21)에 적용해 , 위험비(hazard ratio) , 95% CI , 우도비 검정 를 얻었고, 시간의존 항 추가 시 , 로 비례성 가정과 데이터의 부합을 검증했다. 한계는 (1) 결합 묶음(tied) 데이터 처리가 ad hoc(Section 6의 이산형 logistic 일반화로 제시), (2) 에 대한 정보 손실의 정량적 평가 부재, (3) 조건부 우도의 엄밀한 우도 정당화는 사후 Cox(1975) “partial likelihood”에 의존이다. 그럼에도 본 논문은 (i) 곱셈으로 분리된 nuisance 함수는 조건화로 약분된다는 추론 패러다임, (ii) 생존 분석과 contingency table 분석(Mantel-Haenszel)의 형식적 동치성(Section 7), (iii) 시간의존 공변량 를 통한 비례성 검정 framework를 동시에 제시하며 이후 50년 의생물 통계의 표준이 된다.
섹션별 요약
Abstract
중도절단된 실패시간(censored failure times)의 분석을 다룬다. 각 개체에서 하나 이상의 설명변수(explanatory variables) 값이 관측된다고 가정한다. 위험함수(hazard function, age-specific failure rate)는 설명변수와 미지의 회귀계수의 함수에 미지의 시간 함수를 곱한 형태로 둔다. 조건부 우도(conditional likelihood)를 도출해 미지의 회귀계수에 대한 추론을 수행한다. 몇 가지 일반화를 함께 소개한다.
핵심어: LIFE TABLE; HAZARD FUNCTION; AGE-SPECIFIC FAILURE RATE; PRODUCT LIMIT ESTIMATE; REGRESSION; CONDITIONAL INFERENCE; ASYMPTOTIC THEORY; CENSORED DATA; TWO-SAMPLE RANK TESTS; MEDICAL APPLICATIONS; RELIABILITY THEORY; ACCELERATED LIFE TESTS.
저자 contribution
- 비례 위험 모형(proportional hazards model) 제안: 로 위험함수를 시간 함수 와 공변량 함수 의 곱으로 분해 (Eq 9, Section 3).
- 조건부 우도(conditional likelihood) 도출: 각 실패시점에서 risk set 위의 실패 사건에 대한 조건부 확률을 곱해 를 제거 (Eq 12, 13, Section 5). 이는 후속 문헌에서 partial likelihood로 정착.
- 시간의존 공변량 확장: 를 도입해 비례 위험 가정의 검정과 일반화 가능 (Section 3, Example 2; Eq 10–11).
- 이산 시간 일반화: 결합 묶음(tied) 데이터를 위한 logistic 모형 (Eq 21, Section 6).
- 2×2 contingency table 분석과의 형식적 동등성: 두 표본 점수 검정 이 Mantel-Haenszel 통계량과 동치임을 §7에서 보임.
- 백혈병 데이터 실증: Freireich et al. (Gehan 1965) 데이터에 적용해 , hazard ratio 5.21을 얻고 비례성 가정 검증 (Section 10).
왜 이 연구를 하는가?
- 수요: 생명표(life table) 기법은 통계학에서 가장 오래된 방법론 중 하나로 의료통계학자와 보험계리사가 광범위하게 사용해 왔으나, 공변량(covariate)에 대한 회귀(regression) 형태의 형식적 통계 이론은 1972년까지 상대적으로 거의 정리되지 않은 상태였다 (p.187).
- 기존 한계 ①: Kaplan & Meier (1958)의 product-limit 추정량은 비모수적이지만 공변량을 반영하지 못한다. 군별로 따로 추정하고 비교하는 방식은 다공변량 회귀로 확장이 어렵다.
- 기존 한계 ②: 모수적 가정(지수, Weibull, log-normal)으로 회귀를 풀면 회귀계수의 효율적 ML 추정은 가능하지만 — Cox 본인의 표현 — “이러한 일부 정당화는 가능하나 거의 모든 경우 의심의 여지가 있다”(p.190). 즉 baseline shape를 잘못 가정하면 회귀 추론까지 함께 무너진다.
- 기존 한계 ③: 두 표본 검정에서 Gehan (1965), Mantel (1966)이 censored data에 대한 비모수 검정을 제안했으나 이는 검정 통계량이지 회귀 모형이 아니다.
- 연구 질문(RQ): 를 임의(arbitrary)로 놓아도 회귀계수 에 대해 합리적(sensible) 추론이 가능한가? 가능하다면 에 대한 정보 손실은 얼마나 작은가?
- 핵심 통찰: 두 개체의 위험비 는 에 무관 — 즉 를 약분할 수 있는 곱셈 구조가 핵심이다. 이를 risk set 조건화로 추론에서 활용한다.
Introduction (Section 1)
- 문제 설정: 한 모집단의 개체들 각각에 대해 실패시간 또는 검열시간(censoring time)을 관측한다. 검열의 가정은 “정보 없는(non-informative)” 검열 — 즉 검열 시점에서 알 수 있는 것은 뿐이다(p.187).
- 위험함수 정의: . 연속·이산 모두를 포괄하는 일반 정의(Eq 1).
- product integral 표현: (Eq 3). 연속에서는 , 이산에서는 로 자연 분해.
- 선행 연구 위치: Kaplan & Meier (1958)가 그 전까지의 작업을 종합. Chiang (1968)이 birth-death process와의 연결을 탐구. Cox 본인의 기여는 *life table에 회귀 같은 인수(regression-like arguments)*를 도입하는 것이라 명시(p.187).
- 응용 영역: 의료 통계와 신뢰도(reliability) 연구가 보험계리학(actuarial)보다 적절한 응용 도메인. 표본 변동이 실용적으로 의미 있는 크기일 때 점근 이론이 유효함을 강조.
Methods
Section 2 — Product-Limit Method (사전 정리)
- 비모수 출발점: 개 독립 개체에서 이 관측된 경우, 고유 실패시간 , 다중도(multiplicity) , risk set 크기 로부터 (Eq 7), (Eq 8). 이것이 Kaplan-Meier 추정량.
- 검열의 강한 가정: “검열된 개체의 실패시간에 대한 유일한 정보는 검열시간을 초과한다는 것뿐”(p.188) — 추가 정보가 있다면 검정 가능하지만 표준 분석에서는 가정.
- 의의: 이후 §8에서 베이스라인 생존함수 추정(Eq 37-38)이 이 product-limit의 일반화로 등장.
Section 3 — Regression Models (모형 정의)
- 핵심 모형 (Eq 9): 개체 의 공변량 벡터를 로 두고,
는 일 때의 위험함수. 는 임의의 양함수 로 대체 가능하지만 이 일반화는 현 단계에서 불필요. - Example 1 (Two-sample): , . 두 군의 위험은 와 , . 연속에서는 — Lehmann (1953)의 alternative와 동등.
- Example 2 (시간의존 확장): 로 시간의존 항 도입. 두 번째 표본의 위험은 — 비례성에서 단조 이탈하는 형태(Eq 10). 재모수화 (Eq 11)로 직교성 확보.
- Example 3 (covariate): 추가 변수 도입으로 두 표본 비교에서 confounder 조정.
- Example 4 (Regression): 를 의 함수로 두면 위험이 단순 곱셈을 넘어 시간 의존 효과를 갖도록 확장.
Section 4 — 분석 전략의 위치 설정
Cox는 4가지 대안을 비교한다(p.190):
- 상수 → 지수분포 가정 (Chernoff 1962, accelerated life tests).
- 2-모수 family (Weibull, power-law) → ML 분석 가능하나 정당화 빈약.
- 를 정성적으로 제약 (단조, 계단) → Tukey 제안.
- (본 논문 선택) 를 임의로 두고 회귀계수 만 추론.
4번을 택하는 이유: nuisance 함수 를 “완전히 미지”로 보는 것이 단순 문제에서 nuisance parameter를 미지로 보는 것과 자연스럽게 평행. 를 임의로 두면서 에 대한 정보 손실은 보통 작을 것(p.190)이라는 가설은 본 논문의 핵심 작업 가설이자 미해결 문제로 명시.
Section 5 — A Conditional Likelihood (핵심 도출)
- 조건화 대상: 가 임의이므로 실패가 일어나지 않은 시간 구간은 에 대한 정보를 줄 수 없다. 따라서 실패 순간들의 집합 위에서 조건화 (p.190).
- 위험집합 위 조건부 확률 (Eq 12):
가 분자·분모에서 약분된다 — 이것이 결정적 통찰. - 조건부 로그 우도 (Eq 13):
- score (Eq 14, 19): , 여기서 는 risk set 위에서의 “exponentially weighted” 평균.
- 정보행렬 (Eq 16, 17): , 는 가중 표본 공분산.
- 귀무 검정 (Eq 18): — 점근적.
Section 6 — 이산 시간 일반화 (Ties)
- 결합 묶음(ties)이 있는 실제 데이터에 대응. 연속 모형 Eq 9 → 이산화 Eq 21:
오즈비(odds) 형태 — 즉 이산형에서는 logistic regression으로 환원. - 조건부 우도 (Eq 22): , , 분모 합은 에서 개를 뽑는 모든 부분집합에 대해.
- 정보행렬에 보정항 등장 (Eq 24) — 유한모집단 비복원 추출의 분산 보정.
Section 7 — Two-Sample Problem (Mantel-Haenszel과의 동치성)
- 두 표본 가정. Eq 25-26:
- 이 점근적으로 표준정규 — Gehan (1965) Wilcoxon 변형과 다른 검정.
- (중요) 본 검정은 각 실패시점에서 contingency table을 세워 Mantel-Haenszel (1959), Mantel (1963) 방식으로 결합한 검정과 형식적으로 동일 — Cochran (1954) 결합 정신. 단, contingency table에서는 정확검정이 가능한 반면 본 검정은 stopping rule의 어려움 때문에 점근적이다(p.193).
- 순위검정과의 연결: 미차원 데이터에서 Savage (1956) exponential score test와 동치 (Eq 32-36).
Section 8 — Baseline Survivor Function 추정
- 확보 후 (혹은 ) 추정: 를 실패시점 외에는 0으로 두고, 각 실패시점에서 따로 ML.
- 단일 시점 기여 (Eq 37): 가 다음 식을 만족:
반복법으로 해. 는 편의상 risk set 평균. - 베이스라인 생존함수 (Eq 38): . 임의 에서는 로 치환.
- 미공변량(uncensored, no covariate) 한계에서 Kaplan-Meier로 환원.
Section 9 — Bivariate Life Tables (확장)
- 두 종류의 실패시간 가 한 개체에서 관측될 때(예: bioassay), 결합 위험 로 분해 (Eq 39-42).
- 독립 조건: (Eq 41). 공변량 는 네 함수 모두에 동일하게 곱셈으로 진입(가장 단순한 형태).
- 다차원 시간 / point process로의 확장은 Cox & Lewis (1972) 등 후속 작업에 위임.
발견 (Findings) — Section 10 실증의 핵심
- 데이터 검증 자체로 비례 위험 가정이 데이터에 부합함을 확인했다. 시간의존 항 을 추가했을 때 , , 95% CI 로 비례성으로부터의 “smooth monotonic departure”가 데이터에서 검출되지 않았다(p.198).
- 본 점수검정이 Gehan 일반화 Wilcoxon보다 강력하다는 첫 실증: vs Gehan critical ratio (p.197) — 같은 데이터에서 본 검정이 더 큰 표준편차로 귀무가설 기각.
- 부분우도와 모수적 분석의 결과 일치: 지수분포 가정 95% CI vs 비례 위험 95% CI . Cox는 이를 “비례 위험 모형이 자료에 부합하는 강한 보조 증거”로 해석.
- Weibull 적합 시 미세 이탈: 이 (지수)과 5% 수준에서만 약하게 다르나, Cox는 “sample 0에서 작은 실패시간의 결핍” 때문이라고 진단(p.200) — 즉 모형 위반이 아닌 데이터 편향 가능성.
Results (Section 10 — Freireich 백혈병 데이터 상세)
- 데이터(Table 1, p.196): 백혈병 관해(remission) 주(week) 단위 데이터, Gehan (1965)이 Freireich et al.로부터 추출.
- Sample 0 (6-MP): 6, 6, 6, 7, 9*, 10, 10*, 11*, 13, 16, 17*, 19*, 20*, 22, 23, 25*, 32*, 32*, 34*, 35* — n=21, 9 실패
- Sample 1 (대조군): 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8, 11, 11, 12, 12, 15, 17, 22, 23 — n=21, 21 실패 (*=검열)
- Table 2(p.197): 각 고유 실패시간에서 risk set 분할, multiplicity, . 최종: , , .
- 비례 위험 모형 적합: , (위험비), 의 95% CI = (우도 윈도우 내), 우도비 검정 , 표준화 이탈도 3.86 (p.198).
- 비례성 검정 (Eq 11에서 도입): , 추가 (“심지어 의심스러울 정도로 작음”), 95% CI .
- 대안 분석과의 비교: 지수분포 가정 → 검정, log 평균비 95% CI . Weibull → , .
- Fig 1 (p.199): 4개 경험 생존함수 — 무제약 product-limit(점선/실선) vs 비례 위험 제약 추정(⊙/×). 시각적 일치로 PH 모형의 데이터 부합 확인. CDC 6600에서 17개 반복방정식 해법에 30초 소요.
상세 수치 표는 아래 실험 결과 상세 절 참조.
Discussion
Section 11 — Physical Interpretation
- Cox는 본문 모형 (9)가 주로 경험적(empirical) 임을 인정하고, 물리적 해석 가능성을 검토한다 — 한 referee의 요구에 응답하는 형태(p.200).
- Accelerated life test 해석: stress 변수 가 있다면 시간 척도가 에 의존하는 모형 (Eq 45). , 로 두면 — 이는 본 논문 모형 (9)와 다르다. (9)와 일치하는 해석은 별도 모형 (Eq 48): “독립적 ageing process × stress-dependent 항”으로 분해될 때.
- Shock model 해석: 누적 충격이 임계값을 넘으면 실패 → Poisson rate이 에 의존하는 경우 (45)가 적용; 비누적 충격(임계값 초과 즉시 실패)에서는 (48)이 자연.
- 모형 (9)의 실용적 정당화: “fairly empirical data reduction”으로서, 가능하면 time-dependent exponent까지 허용하면 충분히 유연·만족스러움.
이론적 의의
- 새로운 추론 패러다임의 탄생: 곱셈으로 분리된 nuisance 함수는 조건화로 약분 → 이후 partial likelihood (Cox 1975), marginal likelihood (Kalbfleisch & Sprott 1970), profile likelihood로 일반화. 통계학에서 “기존 우도 형태로 보지 말고 score의 점근 정규성이 유지되면 정당하다”는 시각 전환.
- 생존 분석과 categorical data 분석의 통합: §7의 점수 검정이 Mantel-Haenszel과 동치임을 보임으로써, 시간을 따라 누적된 table 분석 framework로 censored data 추론을 환원. 이는 후속 counting process 이론(Andersen & Gill 1982)에서 multiplicative intensity로 형식화.
- 준모수(semiparametric) 통계학의 출발점: 는 모수, 는 무한차원 함수로 둔 채 유한차원 모수 추론 — 이후 Bickel, Klaassen, Ritov, Wellner (1993) 등 준모수 효율성 이론의 첫 실제 모형.
- 시간의존 공변량 framework: 허용으로 약물 농도, 누적 노출, 시간 의존 처리 효과를 동일 framework에서 처리 — 임상시험 분석의 표준 도구가 됨.
Discussion Points
- 논쟁점 (controversies, RSS Discussion p.202–220, Cox 1972 본인 응답 포함):
- Lindley (p.208–209): Eq (13)이 marginal likelihood로 정당화되지 않는다고 비판. 상수 가정 시 marginal posterior 는 에 매우 strongly 의존 — Cox 논증으로 정당화 불가.
- Kalbfleisch & Prentice (p.215–216): Eq (12)가 정확히 어떤 conditional probability statement에 대응하는지 모호. 곱한 결과 (13)이 risk set 사건들의 결합 우도라기보다 marginal likelihood 형태 (식 iv)에 더 가깝다고 지적. 후속 Kalbfleisch-Prentice (1973, 1980)에서 marginal likelihood 정식화.
- Peto (p.205–207): Cox의 tied-rank 처리가 grouped continuous-time likelihood의 근사로서만 정당. 동등하게 좋은 더 간단한 근사 “rough probability” 제안.
- Howard (p.210–211): Eq (22) 분모 합의 효율적 계산 — symmetric function 를 risk set에 대한 재귀로 계산 → 200명, 5모수 적합도 실현 가능.
- 검증이 필요한 가정:
- 비례 위험성(proportional hazards, PH): 가 에 무관. Cox 본인이 시간의존 항 추가로 검정 가능하다고 §10에서 제시. 후속 표준: Schoenfeld residuals (1980), martingale residuals (Therneau et al. 1990).
- 검열의 독립성(non-informative censoring): 검열 시간이 공변량 와 독립이거나 조건부 독립이어야 함. Cox는 §5에서 “censoring times가 random이고 z와 독립이라고 가정하는 것은 만족스럽지 않다”고 명시 — Breslow (1970) 가정 확장 필요.
- 공변량 효과의 log-linear 가정: . 가법 위험(Aalen) 모형이 더 적절한 도메인 존재. 비선형 효과는 spline / pen reg로 확장됨.
- 후속 연구 (Subsequent Research Lines):
- Cox (1975) “Partial likelihood” Biometrika 62 — 본 논문의 conditional likelihood를 partial likelihood로 일반화·이론 완성. RSS Discussion의 Lindley/Kalbfleisch-Prentice 비판에 응답.
- Breslow (1974) “Covariance analysis of censored survival data” Biometrics — 결합 묶음 데이터의 표준 근사 (Breslow approximation, 현대 패키지 기본값).
- Efron (1977) “Efficiency of Cox’s likelihood function for censored data” — 결합 묶음에 대한 Efron approximation.
- Andersen & Gill (1982) “Cox’s regression model for counting processes” — counting process / martingale 이론 기반 일반화.
- Therneau & Grambsch (2000) Modeling Survival Data: Extending the Cox Model — 진단법(residuals), 시간의존 공변량, frailty 등 종합 교과서.
- 머신러닝 확장: DeepSurv (Katzman 2018) — 신경망 기반 대체; DeepHit (Lee 2018) — Cox 가정 자체를 버리고 (event, time) 결합 분포 직접 학습; Neural Survival Recommender (recommender system 응용).
실험 결과 상세
| 통계량 | 값 | 출처 (p.번호) | 비교군 / 비고 |
|---|---|---|---|
| 회귀계수 | 1.65 | p.198 | = 차이 없음 (귀무가설) |
| 위험비(hazard ratio) | 5.21 | p.198 | 대조군 대비 6-MP 군의 재발 위험 비율 |
| 의 95% CI (우도 윈도우법) | p.198 | 이 최대치 이상인 구간 | |
| 의 95% CI (Fisher 정보 역행렬법) | “합리적으로 일치” | p.198 | 수치 미제시; 우도 윈도우법과 근사 일치 |
| 우도비 검정(LRT) | 14.9 () | p.198 | 귀무가설 강하게 기각 |
| LRT 표준화 이탈도 | 3.86 | p.198 | |
| 점수(score) 검정 | p.197 | 하 정규분포 근사 | |
| 점수함수 값 | 10.25 | p.197 | |
| 정보량 | 6.2570 | p.197 | |
| Gehan (1965) 일반화 Wilcoxon 임계비 | p.197 | 동일 데이터; 본 점수검정(4.10)보다 작음 | |
| 시간의존 항 (비례성 검증) | p.198 | ; PH 가정과 일치 | |
| 의 95% CI | p.198 | 0 포함 → 비례 위험 가정 지지 | |
| 지수분포 가정 95% CI (log 평균비) | p.198–199 | 검정 기반; PH CI 과 근사 일치 | |
| Weibull 공통 형태모수 | 1.3 | p.200 | (지수)와 5% 수준에서 약하게 유의 |
| Weibull | p.200 | 모형에서의 척도모수 | |
| 기저생존함수 추정 반복 계산 시간 | 초 | p.199 | CDC 6600 메인프레임; 17개 반복방정식 |
프레임워크 다이어그램
graph TB A["입력 데이터<br/>(t_i, δ_i, z_i), i=1..n<br/>우측중도절단(right-censoring) 허용"] B["비례위험 모형(PH model) 설정<br/>λ(t;z) = λ_0(t) · exp(z'β)<br/>λ_0(t): 미지의 기저위험함수"] C["실패시간 집합 {t_(1) < ... < t_(k)} 식별<br/>(중도절단 제외, k개 고유 실패시간)"] D["위험집합(risk set) R(t_(i)) 구성<br/>t_(i) 직전까지 생존 중인 개체"] E["조건부 확률 계산 (λ_0 소거)<br/>P(i번째 개체가 실패 | R(t_(i)))<br/>= exp(z_(i)'β) / Σ_{l∈R} exp(z_l'β)"] F["부분우도(partial likelihood) 구성<br/>L(β) = ∏ exp(z_(i)'β) / Σ exp(z_l'β)"] G["로그부분우도 (Eq 13)<br/>log L(β) = Σ z_(i)'β − Σ log[Σ exp(z_l'β)]"] H["점수함수 U(β) 및 정보행렬 I(β)"] I["β̂ 추정 (수치 최적화)"] J1["Wald 검정<br/>β̂ / se(β̂)"] J2["점수 검정 (Score)<br/>U(0)^T I(0)^-1 U(0) ~ χ²_p"] J3["우도비 검정 (LRT)<br/>2[log L(β̂) − log L(0)] ~ χ²_p"] K["기저생존함수 추정 (Eq 37-38)<br/>반복법으로 π_(i) 산출 → F̂_0(t)"] A --> B B --> C C --> D D --> E E --> F F --> G G --> H H --> I I --> J1 I --> J2 I --> J3 I --> K
mmdc 구문 검증 완료(paper-evidence agent).
재현성 및 신뢰도 평가
| 항목 | 등급 | 비고 |
|---|---|---|
| 데이터 공개 | ✅ A | 백혈병 관해 데이터가 Table 1 (p.196)에 주차 단위로 전수 수록. 중도절단 표시(*) 포함. n=42 (각 군 21명) |
| 방법 명세도 | ✅ A | 핵심 수식 모두 폐쇄형 제시: Eq(9) 위험함수, Eq(12) 조건부 확률, Eq(13) 로그부분우도, Eq(14-17) score·정보, Eq(37-38) 기저생존함수 |
| 코드 공개 | ❌ | 1972년 논문 → 코드 없음. 현대 재구현체: R survival::coxph, Python lifelines.CoxPHFitter, statsmodels PHReg |
| 수치 재현성 | ✅ A | Table 1 데이터로 어떤 현대 통계 패키지에서도 , , LRT 재현. Table 2의 , 도 검증 가능 |
| 계산 비용 | ✅ A | Cox 본인 보고: 17개 반복방정식, CDC 6600에서 초. 현대(<1ms) 사실상 즉시 |
| 종합 등급 | A | 데이터·수식·수치 모두 완전 공개. 코드 부재(시대적 한계)는 현대 재구현으로 완전 보완 |
주장별 신뢰도
| # | 주장 | 근거 | 등급 |
|---|---|---|---|
| 1 | 6-MP는 대조군보다 위험비 5.21배 낮은 재발 위험을 보인다 () | Table 1 원시데이터 + Eq(13) 최대화 — 현대 패키지로 재현 확인 가능 | 🟢 |
| 2 | 본 점수검정()이 Gehan 검정()보다 강력하다 | Table 2의 수치 명시, 독립 계산 가능 | 🟢 |
| 3 | 비례 위험 가정은 이 데이터에서 위반되지 않는다 (, ) | 시간의존 확장 검정, 95% CI 로 0 포함 | 🟢 |
| 4 | PH 모형 95% CI 이 지수분포 가정 CI 와 유사 | 두 방법 동일 데이터 적용, 결과 일치로 모형 견고성 지지 | 🟡 (지수 가정 자체의 타당성 별도 검증 필요) |
| 5 | Weibull 형태모수 이 과 5% 수준에서 유의 | Cox 본인이 “작은 실패시간 결핍” 탓이라 해석 — 사후 설명이므로 주의 | 🟡 (n=42 검정력 제한) |
| 6 | 조건부 우도(Eq 13)는 점근적으로 완전우도와 동등 효율 | 1972 논문에서는 “conditional likelihood”로 제시. 엄밀 정당화는 Cox (1975) “partial likelihood” 의존 | 🟡 (이론 완성은 후속) |
읽기 난이도: ⭐⭐⭐⭐ (4/5)
수리통계 대학원 수준의 배경지식 필요:
- 생존분석 기초: Kaplan-Meier, 중도절단, 위험함수 개념.
- 우도 이론: ML, Fisher 정보행렬, 점수·왈드·우도비 검정.
- 조건부 추론: 충분통계량을 통한 조건부 우도 도출 논리 (RSS Discussion에서 가장 격렬한 논쟁 대상).
- 선형대수: 행렬 표기, 차원 벡터, 정보행렬 역행렬.
- **RSS Discussion (p.202–220)**은 당대 최고 통계학자(Peto, Kalbfleisch, Breslow, Lindley)들의 이론적 논쟁을 담고 있어 현대 생존분석 문헌(특히 Cox 1975, Andersen-Gill 1982)의 맥락 없이는 이해하기 어렵다.
관련 연구 비교 매트릭스
| 논문 | 연도 | 학술지 | 위험모형 형태 | 추정 | 처리 | 결합 묶음 (ties) | 시간의존 공변량 | 코드 공개 |
|---|---|---|---|---|---|---|---|---|
| Cox (본 논문) | 1972 | JRSS-B | — 곱셈 분해 | 조건부/부분 우도 ML | 임의(미모수) | 이산 logistic (Eq 21) | 가능 (§3 Ex 2) | ❌ (1972) |
| Kaplan & Meier | 1958 | JASA | 없음 (비모수) | N/A (공변량 없음) | Product-limit 추정 | 단계함수 점프 | ❌ | ❌ |
| Gehan | 1965 | Biometrika | 없음 (순위검정) | N/A | 암묵적 | 수정 순위 | ❌ | ❌ |
| Mantel (log-rank) | 1966 | Cancer Chemo. Rep. | 없음 (검정만) | N/A | 암묵적 | 시점별 표 | ❌ | ❌ |
| Breslow | 1970 | Biometrika | 없음 (-표본 순위) | N/A | 암묵적 | 묶음 내 처리 | ❌ | ❌ |
| Peto & Peto | 1972 | JRSS-A | 순위 기반 | N/A (효율적 순위검정) | 순위 불변(rank invariant) | 가능 | ❌ | ❌ |
핵심 차별점:
- 공변량 회귀: 이전 모든 방법은 두 표본(혹은 -표본) 비모수 검정에 그쳤다 — Cox만 다공변량 회귀 모형을 제공.
- 임의성: Kaplan-Meier는 추정 대상으로 보는 반면, Cox는 nuisance로 보고 조건화로 약분 — 추론 효율과 안전성의 균형.
- 2×2 표 분석과의 동치성: Cox §7이 Mantel-Haenszel과 형식적으로 동치임을 보여 생존 분석을 categorical data framework로 통합.
원자적 인사이트 (Zettelkasten)
Insight 1: 곱셈으로 분리된 nuisance 함수는 조건화로 약분된다
처럼 관심 모수 가 nuisance 함수 와 곱셈적으로 분리되어 있을 때, risk set 위의 “그 시점에 누가 실패했는가”의 조건부 확률을 곱한 우도에서 가 분자·분모에서 자동 약분된다. 이는 후속 partial likelihood (Cox 1975), profile likelihood, marginal likelihood 일반화의 원형이다. 패러다임 함의: “우도의 정의를 따르기보다, score 통계량의 점근 분포가 정상이면 충분”이라는 시각 전환.
Insight 2: 생존 분석은 시간을 따라 누적된 2×2 contingency table 분석이다
Cox §7의 두 표본 점수 검정 이 각 실패시점에서 세운 표를 Mantel-Haenszel 방식으로 결합한 통계량과 형식적으로 동치다. 함의: (1) 생존 분석과 categorical data 분석은 같은 형식 구조를 공유, (2) counting process 이론(Andersen-Gill 1982)에서 이를 multiplicative intensity로 일반화하면 곧바로 일반 마팅게일 추론 framework가 된다. 이산형 데이터의 logistic regression(§6 Eq 21)과 연속형의 Cox 모형이 같은 모형의 두 측면이다.
Insight 3: 시간의존 공변량 는 비례성 검정의 자연스러운 도구다
공변량을 로 두면, 두 번째 군의 위험이 가 되어 비례성으로부터의 단조 이탈을 검정할 수 있다 (§3 Example 2, §10에서 실증). 즉 같은 framework 안에서 모형 가정 검증과 시간의존 효과 모델링이 모두 가능하다. 함의: 모형 검정과 모형 일반화가 분리되지 않은 통합 도구 — 후속 Schoenfeld residuals 진단법의 직접 원형.
Insight 4: 의 정보 손실은 일반적으로 작지만, 정량은 미해결이었다
Cox 본인이 §4에서 명시: “를 임의로 두는 데서 오는 에 대한 정보 손실은 일반적으로 작을 것 — 만일 그렇다면 이 절차가 정당화된다… 에 대한 추론이 의 다양한 가정 하에서 갖는 상대 효율은 미해결 문제(major outstanding problem)“이다(p.190). 함의: 준모수 효율성 이론의 출발점 — 이후 Bickel, Klaassen, Ritov, Wellner (1993)에서 일반 이론이 정립되었고 Cox 모형이 첫 실제 적용 사례.
핵심 용어 정리
- 위험함수 (Hazard function, ): 시점 까지 생존했을 때 다음 순간 실패할 순간 위험률. (Eq 1).
- 생존함수 (Survivor function, ): . 위험함수와의 관계: 연속 시간에서 (Eq 4).
- 위험집합 (Risk set, ): 시점 직전까지 실패도 검열도 되지 않은 개체들의 집합. Cox 우도의 핵심 단위 — 조건화 대상이 risk set이다.
- 중도절단 (Censoring): 실패시간 를 직접 관측하지 못하고 만 알려진 경우(우측 중도절단, right-censoring). 본 논문의 강한 가정: 검열된 개체에 대한 정보는 “검열 시간을 초과”뿐 (p.188).
- Product-limit 추정량 (Kaplan-Meier estimator): 비모수 생존함수 추정 (Eq 8). Cox 모형의 추정량은 이의 회귀 일반화.
- 조건부 우도 (Conditional likelihood) / 부분 우도 (Partial likelihood): risk set 위의 실패 사건에 대한 조건부 확률만 곱한 우도(Eq 13). 를 약분해 만 등장시킨다. 1972 논문의 “conditional likelihood”는 Cox (1975)에서 partial likelihood로 일반화·정당화.
- 비례 위험 (Proportional hazards, PH): 가 에 무관. 본 모형의 핵심 가정 — 검정 가능(시간의존 항 추가).
- 기저 위험 (Baseline hazard, ): 일 때의 위험함수. 본 논문에서는 비모수적으로 남겨둠 — 추정은 §8 Eq (37–38)에서 사후적으로.
- 점수 함수 (Score function, ): , 는 risk set 위의 가중 평균 (Eq 14, 15).
- (Fisher) 정보행렬 (Information matrix, ): , 는 가중 공분산 (Eq 16, 17).
- 가속 수명 시험 (Accelerated life test): stress 변수 를 높여 빠른 실험 결과를 통상 수명으로 외삽하는 신뢰도 시험. §11에서 본 모형의 물리적 해석 검토 (Eq 45-49).
관련 연구
직접 선행 (Direct predecessors)
- Kaplan & Meier (1958) “Nonparametric estimation from incomplete observations.” J. Am. Stat. Assoc. 53:457–481.
- Mantel (1966) “Evaluation of survival data and two new rank order statistics.” Cancer Chemotherapy Reports 50:163–170.
- Gehan (1965) “A generalized Wilcoxon test for comparing arbitrarily singly-censored samples.” Biometrika 52:203–224.
- Breslow (1970) “A generalized Kruskal-Wallis test for comparing samples…” Biometrika 57:579–594.
동시대 평행 (Parallel work)
- Peto & Peto (1972) “Asymptotically efficient rank invariant test procedures.” JRSS-A 135:185–206.
직접 후속 (Direct successors)
- Kalbfleisch & Prentice (1973, 1980) marginal likelihood 정식화.
- Breslow (1974) “Covariance analysis of censored survival data.” Biometrics 30:89–99 — Breslow approximation for ties.
- Cox (1975) “Partial likelihood.” Biometrika 62:269–276 — 본 논문 conditional likelihood의 이론적 정당화·일반화.
- Efron (1977) “Efficiency of Cox’s likelihood function for censored data.” JASA 72:557–565 — Efron approximation for ties.
- Andersen & Gill (1982) “Cox’s regression model for counting processes: a large sample study.” Ann. Stat. 10:1100–1120 — counting process / martingale 이론.
- Therneau & Grambsch (2000) Modeling Survival Data: Extending the Cox Model. Springer.
머신러닝 확장
- DeepSurv (Katzman et al. 2018) — Cox 가정 유지, 를 신경망으로 대체
- DeepHit (Lee et al. 2018) — Cox 비례성·독립 위험 가정 모두 제거, 결합 분포 직접 학습
- Neural Survival Recommender — 추천 시스템 응용
태그
SurvivalAnalysis CoxProportionalHazards PartialLikelihood CensoredData SemiparametricModel MedicalStatistics ReliabilityTheory HazardFunction ProductLimitEstimator ProportionalHazards FoundationalPaper
BibTeX
@article{cox1972regression,
author = {Cox, D. R.},
title = {Regression Models and Life-Tables},
journal = {Journal of the Royal Statistical Society. Series B (Methodological)},
volume = {34},
number = {2},
pages = {187--220},
year = {1972},
publisher = {Wiley for the Royal Statistical Society},
url = {https://www.jstor.org/stable/2985181},
note = {Read before the Royal Statistical Society, March 8, 1972. With Discussion (pp.~202--220).}
}