회귀 모형과 생명표 (Regression Models and Life-Tables)

Digest: 의료/신뢰도 통계에서 중도절단(censored) 실패시간(failure-time) 데이터에 회귀를 적용하려면 기저 위험(baseline hazard) $λ_{0} (t)$ 의 함수 형태(지수·Weibull 등)를 가정해야 했고, 가정이 틀리면 회귀계수 $β$ 의 추론까지 왜곡됐다. Cox(1972)는 $λ_{0} (t)$ 가 추론의 관심대상이 아닌 nuisance라면 굳이 모수화할 필요가 없다는 통찰에서 출발해, 위험함수를 $λ (t; z) = λ_{0} (t) exp (z^{'} β)$ 로 곱셈 분해(비례 위험 모형, proportional hazards)한 뒤, 각 실패시점 $t_{(i)}$ 의 위험집합(risk set) $R (t_{(i)})$ 위에서 “그 시점에 누가 실패했는가”의 조건부 확률 $exp {z_{(i)}^{'} β} / \sum_{l \in R (t_{(i)})} exp {z_{(l)}^{'} β}$ 만 곱한 조건부 우도(conditional likelihood, 후속 문헌에서 “partial likelihood”) $L (β) = \sum z_{(i)}^{'} β - \sum lo g [\sum_{l \in R} exp (z_{(l)}^{'} β)]$ 를 최대화해 $\hat{β}$ 를 ML로 추정한다 — 이 과정에서 $λ_{0} (t)$ 가 분자·분모에서 자동으로 약분된다. Freireich et al. 백혈병 데이터(6-MP n=21 vs 대조군 n=21)에 적용해 $\hat{β} = 1.65$ , 위험비(hazard ratio) $e^{\hat{β}} = 5.21$ , 95% CI $(0.78, 2.60)$ , 우도비 검정 $χ_{1}^{2} = 14.9$ 를 얻었고, 시간의존 항 $γ (t - 10)$ 추가 시 $\overset{γ}{^} \approx 0$ , $Δ lo g L = 0.01$ 로 비례성 가정과 데이터의 부합을 검증했다. 한계는 (1) 결합 묶음(tied) 데이터 처리가 ad hoc(Section 6의 이산형 logistic 일반화로 제시), (2) $λ_{0} (t)$ 에 대한 정보 손실의 정량적 평가 부재, (3) 조건부 우도의 엄밀한 우도 정당화는 사후 Cox(1975) “partial likelihood”에 의존이다. 그럼에도 본 논문은 (i) 곱셈으로 분리된 nuisance 함수는 조건화로 약분된다는 추론 패러다임, (ii) 생존 분석과 $2 \times 2$ contingency table 분석(Mantel-Haenszel)의 형식적 동치성(Section 7), (iii) 시간의존 공변량 $z_{j} (t)$ 를 통한 비례성 검정 framework를 동시에 제시하며 이후 50년 의생물 통계의 표준이 된다.

섹션별 요약

Abstract

중도절단된 실패시간(censored failure times)의 분석을 다룬다. 각 개체에서 하나 이상의 설명변수(explanatory variables) 값이 관측된다고 가정한다. 위험함수(hazard function, age-specific failure rate)는 설명변수와 미지의 회귀계수의 함수에 미지의 시간 함수를 곱한 형태로 둔다. 조건부 우도(conditional likelihood)를 도출해 미지의 회귀계수에 대한 추론을 수행한다. 몇 가지 일반화를 함께 소개한다.

핵심어: LIFE TABLE; HAZARD FUNCTION; AGE-SPECIFIC FAILURE RATE; PRODUCT LIMIT ESTIMATE; REGRESSION; CONDITIONAL INFERENCE; ASYMPTOTIC THEORY; CENSORED DATA; TWO-SAMPLE RANK TESTS; MEDICAL APPLICATIONS; RELIABILITY THEORY; ACCELERATED LIFE TESTS.

저자 contribution

비례 위험 모형(proportional hazards model) 제안: $λ (t; z) = exp (z^{'} β) λ_{0} (t)$ 로 위험함수를 시간 함수 $λ_{0} (t)$ 와 공변량 함수 $exp (z^{'} β)$ 의 곱으로 분해 (Eq 9, Section 3).
조건부 우도(conditional likelihood) 도출: 각 실패시점에서 risk set 위의 실패 사건에 대한 조건부 확률을 곱해 $λ_{0} (t)$ 를 제거 (Eq 12, 13, Section 5). 이는 후속 문헌에서 partial likelihood로 정착.
시간의존 공변량 확장: $z_{j} (t)$ 를 도입해 비례 위험 가정의 검정과 일반화 가능 (Section 3, Example 2; Eq 10–11).
이산 시간 일반화: 결합 묶음(tied) 데이터를 위한 logistic 모형 (Eq 21, Section 6).
2×2 contingency table 분석과의 형식적 동등성: 두 표본 점수 검정 $U (0) / I (0)$ 이 Mantel-Haenszel 통계량과 동치임을 §7에서 보임.
백혈병 데이터 실증: Freireich et al. (Gehan 1965) 데이터에 적용해 $\hat{β} = 1.65$ , hazard ratio 5.21을 얻고 비례성 가정 검증 (Section 10).

왜 이 연구를 하는가?

수요: 생명표(life table) 기법은 통계학에서 가장 오래된 방법론 중 하나로 의료통계학자와 보험계리사가 광범위하게 사용해 왔으나, 공변량(covariate)에 대한 회귀(regression) 형태의 형식적 통계 이론은 1972년까지 상대적으로 거의 정리되지 않은 상태였다 (p.187).
기존 한계 ①: Kaplan & Meier (1958)의 product-limit 추정량은 비모수적이지만 공변량을 반영하지 못한다. 군별로 따로 추정하고 비교하는 방식은 다공변량 회귀로 확장이 어렵다.
기존 한계 ②: 모수적 가정(지수, Weibull, log-normal)으로 회귀를 풀면 회귀계수의 효율적 ML 추정은 가능하지만 — Cox 본인의 표현 — “이러한 일부 정당화는 가능하나 거의 모든 경우 의심의 여지가 있다”(p.190). 즉 baseline shape를 잘못 가정하면 회귀 추론까지 함께 무너진다.
기존 한계 ③: 두 표본 검정에서 Gehan (1965), Mantel (1966)이 censored data에 대한 비모수 검정을 제안했으나 이는 검정 통계량이지 회귀 모형이 아니다.
연구 질문(RQ): $λ_{0} (t)$ 를 임의(arbitrary)로 놓아도 회귀계수 $β$ 에 대해 합리적(sensible) 추론이 가능한가? 가능하다면 $β$ 에 대한 정보 손실은 얼마나 작은가?
핵심 통찰: 두 개체의 위험비 $λ (t; z) / λ (t; z^{'}) = exp ((z - z^{'})^{'} β)$ 는 $t$ 에 무관 — 즉 $λ_{0} (t)$ 를 약분할 수 있는 곱셈 구조가 핵심이다. 이를 risk set 조건화로 추론에서 활용한다.

Introduction (Section 1)

문제 설정: 한 모집단의 개체들 각각에 대해 실패시간 $T$ 또는 검열시간(censoring time)을 관측한다. 검열의 가정은 “정보 없는(non-informative)” 검열 — 즉 검열 시점에서 알 수 있는 것은 $T > t_{cens}$ 뿐이다(p.187).
위험함수 정의: $λ (t) = lim_{Δ t \to 0 +} Pr (t \leq T < t + Δ t ∣ t \leq T) /Δ t$ . 연속·이산 모두를 포괄하는 일반 정의(Eq 1).
product integral 표현: $F (t) = \prod_{u = 0}^{t - 0} {1 - λ (u) d u}$ (Eq 3). 연속에서는 $exp {- \int_{0}^{t} λ (u) d u}$ , 이산에서는 $\prod_{u_{j} < t} (1 - λ_{u_{j}})$ 로 자연 분해.
선행 연구 위치: Kaplan & Meier (1958)가 그 전까지의 작업을 종합. Chiang (1968)이 birth-death process와의 연결을 탐구. Cox 본인의 기여는 *life table에 회귀 같은 인수(regression-like arguments)*를 도입하는 것이라 명시(p.187).
응용 영역: 의료 통계와 신뢰도(reliability) 연구가 보험계리학(actuarial)보다 적절한 응용 도메인. 표본 변동이 실용적으로 의미 있는 크기일 때 점근 이론이 유효함을 강조.

Methods

Section 2 — Product-Limit Method (사전 정리)

비모수 출발점: $n_{0}$ 개 독립 개체에서 $n \leq n_{0}$ 이 관측된 경우, 고유 실패시간 $t_{(1)} < \dots < t_{(k)}$ , 다중도(multiplicity) $m_{(i)}$ , risk set 크기 $r_{(i)}$ 로부터 $\hat{λ} (t) = \sum (m_{(i)} / r_{(i)}) δ (t - t_{(i)})$ (Eq 7), $\hat{F} (t) = \prod_{t_{(i)} < t} (1 - m_{(i)} / r_{(i)})$ (Eq 8). 이것이 Kaplan-Meier 추정량.
검열의 강한 가정: “검열된 개체의 실패시간에 대한 유일한 정보는 검열시간을 초과한다는 것뿐”(p.188) — 추가 정보가 있다면 검정 가능하지만 표준 분석에서는 가정.
의의: 이후 §8에서 베이스라인 생존함수 $F_{0} (t)$ 추정(Eq 37-38)이 이 product-limit의 일반화로 등장.

Section 3 — Regression Models (모형 정의)

핵심 모형 (Eq 9): 개체 $j$ 의 공변량 벡터를 $z_{j} = (z_{1 j}, \dots, z_{p j})$ 로 두고,
$λ (t; z) = exp (z^{'} β) λ_{0} (t)$
$λ_{0} (t)$ 는 $z = 0$ 일 때의 위험함수. $exp (z^{'} β)$ 는 임의의 양함수 $h (z, β)$ 로 대체 가능하지만 이 일반화는 현 단계에서 불필요.
Example 1 (Two-sample): $p = 1$ , $z \in {0, 1}$ . 두 군의 위험은 $λ_{0} (t)$ 와 $ψ λ_{0} (t)$ , $ψ = e^{β}$ . 연속에서는 $F_{1} (t) = {F_{0} (t)}^{ψ}$ — Lehmann (1953)의 alternative와 동등.
Example 2 (시간의존 확장): $z = (z_{1}, t z_{1})$ 로 시간의존 항 도입. 두 번째 표본의 위험은 $ψ e^{β^{'} t} λ_{0} (t)$ — 비례성에서 단조 이탈하는 형태(Eq 10). 재모수화 $ρ exp {β_{2} (t - t^{*})}$ (Eq 11)로 직교성 확보.
Example 3 (covariate): 추가 변수 $z$ 도입으로 두 표본 비교에서 confounder 조정.
Example 4 (Regression): $z$ 를 $t$ 의 함수로 두면 위험이 단순 곱셈을 넘어 시간 의존 효과를 갖도록 확장.

Section 4 — 분석 전략의 위치 설정

Cox는 4가지 대안을 비교한다(p.190):

$λ_{0}$ 상수 → 지수분포 가정 (Chernoff 1962, accelerated life tests).
2-모수 family (Weibull, power-law) → ML 분석 가능하나 정당화 빈약.
$λ_{0}$ 를 정성적으로 제약 (단조, 계단) → Tukey 제안.
(본 논문 선택) $λ_{0}$ 를 임의로 두고 회귀계수 $β$ 만 추론.
4번을 택하는 이유: nuisance 함수 $λ_{0}$ 를 “완전히 미지”로 보는 것이 단순 문제에서 nuisance parameter를 미지로 보는 것과 자연스럽게 평행. $λ_{0}$ 를 임의로 두면서 $β$ 에 대한 정보 손실은 보통 작을 것(p.190)이라는 가설은 본 논문의 핵심 작업 가설이자 미해결 문제로 명시.

Section 5 — A Conditional Likelihood (핵심 도출)

조건화 대상: $λ_{0} (t)$ 가 임의이므로 실패가 일어나지 않은 시간 구간은 $β$ 에 대한 정보를 줄 수 없다. 따라서 실패 순간들의 집합 ${t_{(i)}}$ 위에서 조건화 (p.190).
위험집합 위 조건부 확률 (Eq 12):
$Pr (개체 (i) 가 t_{(i)} 에서 실패 ∣ R (t_{(i)}), 한 명 실패) = \frac{e x p ( z _{(i)}^{'} β )}{\sum _{l \in R (t_{(i)})} e x p ( z _{(l)}^{'} β )}$
$λ_{0} (t)$ 가 분자·분모에서 약분된다 — 이것이 결정적 통찰.
조건부 로그 우도 (Eq 13):
$L (β) = \sum_{i = 1}^{k} z_{(i)}^{'} β - \sum_{i = 1}^{k} lo g [\sum_{l \in R (t_{(i)})} exp (z_{(l)}^{'} β)]$
score (Eq 14, 19): $U_{ξ} (β) = \sum_{i = 1}^{k} {z_{ξ (i)} - A_{(ξ i)} (β)}$ , 여기서 $A_{(ξ i)} (β) = \sum_{l} z_{ξ l} exp (z_{l}^{'} β) / \sum_{l} exp (z_{l}^{'} β)$ 는 risk set 위에서의 “exponentially weighted” 평균.
정보행렬 (Eq 16, 17): $I_{ξ η} (β) = \sum_{i = 1}^{k} C_{(ξ η i)} (β)$ , $C$ 는 가중 표본 공분산.
귀무 $β = 0$ 검정 (Eq 18): ${U (0)}^{T} {I (0)}^{- 1} {U (0)} \sim H_{0} χ_{p}^{2}$ — 점근적.

Section 6 — 이산 시간 일반화 (Ties)

결합 묶음(ties)이 있는 실제 데이터에 대응. 연속 모형 Eq 9 → 이산화 Eq 21:
$\frac{λ ( t ; z ) d t}{1 - λ ( t ; z ) d t} = exp (z^{'} β) \frac{λ _{0} ( t ) d t}{1 - λ _{0} ( t ) d t}$
오즈비(odds) 형태 — 즉 이산형에서는 logistic regression으로 환원.
조건부 우도 (Eq 22): $exp {s_{(i)}^{'} β} / \sum_{l} exp {s_{(l)}^{'} β}$ , $s_{(i)} = \sum_{ties} z$ , 분모 합은 $R (t_{(i)})$ 에서 $m_{(i)}$ 개를 뽑는 모든 부분집합에 대해.
정보행렬에 $m_{(i)} (r_{(i)} - m_{(i)}) / (r_{(i)} - 1)$ 보정항 등장 (Eq 24) — 유한모집단 비복원 추출의 분산 보정.

Section 7 — Two-Sample Problem (Mantel-Haenszel과의 동치성)

$p = 1$ 두 표본 가정. Eq 25-26:
$U (0) = n_{1} - \sum_{i = 1}^{k} m_{(i)} A_{(i)}, I (0) = \sum_{i = 1}^{k} \frac{m _{(i)} { r _{(i)} - m _{(i)} }}{r _{(i)} - 1} A_{(i)} {1 - A_{(i)}}$
$U (0) / I (0)$ 이 점근적으로 표준정규 — Gehan (1965) Wilcoxon 변형과 다른 검정.
(중요) 본 검정은 각 실패시점에서 $2 \times 2$ contingency table을 세워 Mantel-Haenszel (1959), Mantel (1963) 방식으로 결합한 검정과 형식적으로 동일 — Cochran (1954) 결합 정신. 단, contingency table에서는 정확검정이 가능한 반면 본 검정은 stopping rule의 어려움 때문에 점근적이다(p.193).
순위검정과의 연결: 미차원 데이터에서 Savage (1956) exponential score test와 동치 (Eq 32-36).

Section 8 — Baseline Survivor Function 추정

$\hat{β}$ 확보 후 $λ_{0} (t)$ (혹은 $F_{0} (t)$ ) 추정: $λ_{0} (t)$ 를 실패시점 외에는 0으로 두고, 각 실패시점에서 따로 ML.
단일 시점 기여 (Eq 37): $\overset{π}{^}_{(i)}$ 가 다음 식을 만족:
$\overset{π}{^}_{(i)} = \frac{m _{(i)}}{r _{(i)}} - \frac{π ^ _{(i)} ( 1 - π ^ _{(i)} )}{r _{(i)}} \sum_{j \in R ∖ (i)} \frac{e x p { β ^ ( z _{j} - z ˉ _{(i)} )} - 1}{1 - π ^ _{(i)} + π ^ _{(i)} e x p { β ^ ( z _{j} - z ˉ _{(i)} )}}$
반복법으로 해. $\overset{ˉ}{z}_{(i)}$ 는 편의상 risk set 평균.
베이스라인 생존함수 (Eq 38): $\hat{F}_{0} (t) = \prod_{t_{(i)} < t} {1 - \overset{π}{^}_{(i)} exp (- \hat{β}^{'} \overset{ˉ}{z}_{(i)}) / [1 - \overset{π}{^}_{(i)} + \overset{π}{^}_{(i)} exp (- \hat{β}^{'} \overset{ˉ}{z}_{(i)})]}$ . 임의 $z$ 에서는 $exp (\hat{β}^{'} (z - \overset{ˉ}{z}_{(i)}))$ 로 치환.
미공변량(uncensored, no covariate) 한계에서 Kaplan-Meier로 환원.

Section 9 — Bivariate Life Tables (확장)

두 종류의 실패시간 $T_{1}, T_{2}$ 가 한 개체에서 관측될 때(예: bioassay), 결합 위험 $λ_{10}, λ_{20}, λ_{21∣ u}, λ_{12∣ u}$ 로 분해 (Eq 39-42).
독립 조건: $λ_{12} (t ∣ u) = λ_{10} (t), λ_{21} (t ∣ u) = λ_{20} (t)$ (Eq 41). 공변량 $z$ 는 네 함수 모두에 동일하게 곱셈으로 진입(가장 단순한 형태).
다차원 시간 / point process로의 확장은 Cox & Lewis (1972) 등 후속 작업에 위임.

발견 (Findings) — Section 10 실증의 핵심

데이터 검증 자체로 비례 위험 가정이 데이터에 부합함을 확인했다. 시간의존 항 $γ (t - 10)$ 을 추가했을 때 $\overset{γ}{^} \approx 0$ , $Δ lo g L = 0.01$ , 95% CI $(- 0.12, 0.14)$ 로 비례성으로부터의 “smooth monotonic departure”가 데이터에서 검출되지 않았다(p.198).
본 점수검정이 Gehan 일반화 Wilcoxon보다 강력하다는 첫 실증: $U (0) / I (0) = 4.10$ vs Gehan critical ratio $\approx 3.6$ (p.197) — 같은 데이터에서 본 검정이 더 큰 표준편차로 귀무가설 기각.
부분우도와 모수적 분석의 결과 일치: 지수분포 가정 95% CI $(0.83, 2.43)$ vs 비례 위험 95% CI $(0.78, 2.60)$ . Cox는 이를 “비례 위험 모형이 자료에 부합하는 강한 보조 증거”로 해석.
Weibull 적합 시 미세 이탈: $\overset{ν}{^} = 1.3$ 이 $ν = 1$ (지수)과 5% 수준에서만 약하게 다르나, Cox는 “sample 0에서 작은 실패시간의 결핍” 때문이라고 진단(p.200) — 즉 모형 위반이 아닌 데이터 편향 가능성.

Results (Section 10 — Freireich 백혈병 데이터 상세)

데이터(Table 1, p.196): 백혈병 관해(remission) 주(week) 단위 데이터, Gehan (1965)이 Freireich et al.로부터 추출.
- Sample 0 (6-MP): 6, 6, 6, 7, 9*, 10, 10*, 11*, 13, 16, 17*, 19*, 20*, 22, 23, 25*, 32*, 32*, 34*, 35* — n=21, 9 실패
- Sample 1 (대조군): 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8, 11, 11, 12, 12, 15, 17, 22, 23 — n=21, 21 실패 (*=검열)
Table 2(p.197): 각 고유 실패시간에서 risk set 분할, multiplicity, $A_{(i)}$ . 최종: $U (0) = 10.25$ , $I (0) = 6.2570$ , $U (0) / I (0) \approx 4.10$ .
비례 위험 모형 적합: $\hat{β} = 1.65$ , $e^{\hat{β}} = 5.21$ (위험비), $β$ 의 95% CI = $(0.78, 2.60)$ (우도 윈도우 $\frac{1}{2} \times 1.9 6^{2} = 1.92$ 내), 우도비 검정 $2Δ lo g L = 14.9 \sim χ_{1}^{2}$ , 표준화 이탈도 3.86 (p.198).
비례성 검정 (Eq 11에서 $γ$ 도입): $\overset{γ}{^} \approx 0$ , 추가 $Δ lo g L = 0.01$ (“심지어 의심스러울 정도로 작음”), 95% CI $γ \in (- 0.12, 0.14)$ .
대안 분석과의 비교: 지수분포 가정 → $F (1, 44)$ 검정, log 평균비 95% CI $(0.83, 2.43)$ . Weibull → $\overset{ν}{^} = 1.3$ , $lo g \overset{κ}{^}^{2} = 1.31$ .
Fig 1 (p.199): 4개 경험 생존함수 — 무제약 product-limit(점선/실선) vs 비례 위험 제약 추정(⊙/×). 시각적 일치로 PH 모형의 데이터 부합 확인. CDC 6600에서 17개 반복방정식 해법에 30초 소요.

상세 수치 표는 아래 실험 결과 상세 절 참조.

Discussion

Section 11 — Physical Interpretation

Cox는 본문 모형 (9)가 주로 경험적(empirical) 임을 인정하고, 물리적 해석 가능성을 검토한다 — 한 referee의 요구에 응답하는 형태(p.200).
Accelerated life test 해석: stress 변수 $s$ 가 있다면 시간 척도가 $s$ 에 의존하는 모형 $F (t; s) = F (g (s) t; 1)$ (Eq 45). $g (s) = s^{β}$ , $z = lo g s$ 로 두면 $e^{β z} λ_{0} (e^{β z} t)$ — 이는 본 논문 모형 (9)와 다르다. (9)와 일치하는 해석은 별도 모형 (Eq 48): “독립적 ageing process × stress-dependent 항”으로 분해될 때.
Shock model 해석: 누적 충격이 임계값을 넘으면 실패 → Poisson rate이 $s$ 에 의존하는 경우 (45)가 적용; 비누적 충격(임계값 초과 즉시 실패)에서는 (48)이 자연.
모형 (9)의 실용적 정당화: “fairly empirical data reduction”으로서, 가능하면 time-dependent exponent까지 허용하면 충분히 유연·만족스러움.

이론적 의의

새로운 추론 패러다임의 탄생: 곱셈으로 분리된 nuisance 함수는 조건화로 약분 → 이후 partial likelihood (Cox 1975), marginal likelihood (Kalbfleisch & Sprott 1970), profile likelihood로 일반화. 통계학에서 “기존 우도 형태로 보지 말고 score의 점근 정규성이 유지되면 정당하다”는 시각 전환.
생존 분석과 categorical data 분석의 통합: §7의 점수 검정이 Mantel-Haenszel과 동치임을 보임으로써, 시간을 따라 누적된 $2 \times 2$ table 분석 framework로 censored data 추론을 환원. 이는 후속 counting process 이론(Andersen & Gill 1982)에서 multiplicative intensity로 형식화.
준모수(semiparametric) 통계학의 출발점: $β$ 는 모수, $λ_{0} (t)$ 는 무한차원 함수로 둔 채 유한차원 모수 추론 — 이후 Bickel, Klaassen, Ritov, Wellner (1993) 등 준모수 효율성 이론의 첫 실제 모형.
시간의존 공변량 framework: $z (t)$ 허용으로 약물 농도, 누적 노출, 시간 의존 처리 효과를 동일 framework에서 처리 — 임상시험 분석의 표준 도구가 됨.

Discussion Points

논쟁점 (controversies, RSS Discussion p.202–220, Cox 1972 본인 응답 포함):
- Lindley (p.208–209): Eq (13)이 marginal likelihood로 정당화되지 않는다고 비판. $λ_{0} (t) = θ$ 상수 가정 시 marginal posterior $ψ^{n^{'} - 1} / (S + ψ T)^{m^{'} + n^{'}}$ 는 $ψ$ 에 매우 strongly 의존 — Cox 논증으로 정당화 불가.
- Kalbfleisch & Prentice (p.215–216): Eq (12)가 정확히 어떤 conditional probability statement에 대응하는지 모호. 곱한 결과 (13)이 risk set 사건들의 결합 우도라기보다 marginal likelihood 형태 (식 iv)에 더 가깝다고 지적. 후속 Kalbfleisch-Prentice (1973, 1980)에서 marginal likelihood 정식화.
- Peto (p.205–207): Cox의 tied-rank 처리가 grouped continuous-time likelihood의 근사로서만 정당. 동등하게 좋은 더 간단한 근사 “rough probability” $P_{rough} = e_{j 1} e_{j 2} / (2 N) (\sum e / N)^{2}$ 제안.
- Howard (p.210–211): Eq (22) 분모 합의 효율적 계산 — symmetric function $a (R; m), b, c, d$ 를 risk set에 대한 재귀로 계산 → 200명, 5모수 적합도 실현 가능.
검증이 필요한 가정:
- 비례 위험성(proportional hazards, PH): $λ (t; z) / λ (t; z^{'})$ 가 $t$ 에 무관. Cox 본인이 시간의존 항 $γ (t - t^{*})$ 추가로 검정 가능하다고 §10에서 제시. 후속 표준: Schoenfeld residuals (1980), martingale residuals (Therneau et al. 1990).
- 검열의 독립성(non-informative censoring): 검열 시간이 공변량 $z$ 와 독립이거나 조건부 독립이어야 함. Cox는 §5에서 “censoring times가 random이고 z와 독립이라고 가정하는 것은 만족스럽지 않다”고 명시 — Breslow (1970) 가정 확장 필요.
- 공변량 효과의 log-linear 가정: $lo g λ (t; z) - lo g λ_{0} (t) = z^{'} β$ . 가법 위험(Aalen) 모형이 더 적절한 도메인 존재. 비선형 효과는 spline / pen reg로 확장됨.
후속 연구 (Subsequent Research Lines):
- Cox (1975) “Partial likelihood” Biometrika 62 — 본 논문의 conditional likelihood를 partial likelihood로 일반화·이론 완성. RSS Discussion의 Lindley/Kalbfleisch-Prentice 비판에 응답.
- Breslow (1974) “Covariance analysis of censored survival data” Biometrics — 결합 묶음 데이터의 표준 근사 (Breslow approximation, 현대 패키지 기본값).
- Efron (1977) “Efficiency of Cox’s likelihood function for censored data” — 결합 묶음에 대한 Efron approximation.
- Andersen & Gill (1982) “Cox’s regression model for counting processes” — counting process / martingale 이론 기반 일반화.
- Therneau & Grambsch (2000) Modeling Survival Data: Extending the Cox Model — 진단법(residuals), 시간의존 공변량, frailty 등 종합 교과서.
- 머신러닝 확장: DeepSurv (Katzman 2018) — 신경망 기반 $z^{'} β$ 대체; DeepHit (Lee 2018) — Cox 가정 자체를 버리고 (event, time) 결합 분포 직접 학습; Neural Survival Recommender (recommender system 응용).

실험 결과 상세

통계량	값	출처 (p.번호)	비교군 / 비고
회귀계수 $\hat{β}$	1.65	p.198	$β = 0$ = 차이 없음 (귀무가설)
위험비(hazard ratio) $exp (\hat{β})$	5.21	p.198	대조군 대비 6-MP 군의 재발 위험 비율
$\hat{β}$ 의 95% CI (우도 윈도우법)	$(0.78, 2.60)$	p.198	$lo g L$ 이 최대치 $- 1.92$ 이상인 구간
$\hat{β}$ 의 95% CI (Fisher 정보 역행렬법)	“합리적으로 일치”	p.198	수치 미제시; 우도 윈도우법과 근사 일치
우도비 검정(LRT) $2Δ lo g L$	14.9 ( $χ_{1}^{2}$ )	p.198	$β = 0$ 귀무가설 강하게 기각
LRT 표준화 이탈도	3.86	p.198	$14.9 = 3.86$
점수(score) 검정 $U (0) / I (0)$	$10.25/2.50 \approx 4.10$	p.197	$β = 0$ 하 정규분포 근사
점수함수 값 $U (0)$	10.25	p.197	$n_{1} - \sum m_{(i)} A_{(i)}$
정보량 $I (0)$	6.2570	p.197	$\sum m_{(i)} {r_{(i)} - m_{(i)}} / (r_{(i)} - 1) \cdot A_{(i)} (1 - A_{(i)})$
Gehan (1965) 일반화 Wilcoxon 임계비	$\approx 3.6$	p.197	동일 데이터; 본 점수검정(4.10)보다 작음
시간의존 항 $\overset{γ}{^}$ (비례성 검증)	$\approx 0$	p.198	$Δ lo g L = 0.01$ ; PH 가정과 일치
$\overset{γ}{^}$ 의 95% CI	$(- 0.12, 0.14)$	p.198	0 포함 → 비례 위험 가정 지지
지수분포 가정 95% CI (log 평균비)	$(0.83, 2.43)$	p.198–199	$F (1, 44)$ 검정 기반; PH CI $(0.78, 2.60)$ 과 근사 일치
Weibull 공통 형태모수 $\overset{ν}{^}$	1.3	p.200	$ν = 1$ (지수)와 5% 수준에서 약하게 유의
Weibull $lo g (\overset{κ}{^}^{2})$	$\approx 1.31$	p.200	$\overset{ν}{^} = 1.3$ 모형에서의 척도모수
기저생존함수 추정 반복 계산 시간	$\sim 30$ 초	p.199	CDC 6600 메인프레임; 17개 반복방정식

프레임워크 다이어그램

graph TB
    A["입력 데이터<br/>(t_i, δ_i, z_i), i=1..n<br/>우측중도절단(right-censoring) 허용"]
    B["비례위험 모형(PH model) 설정<br/>λ(t;z) = λ_0(t) · exp(z'β)<br/>λ_0(t): 미지의 기저위험함수"]
    C["실패시간 집합 {t_(1) < ... < t_(k)} 식별<br/>(중도절단 제외, k개 고유 실패시간)"]
    D["위험집합(risk set) R(t_(i)) 구성<br/>t_(i) 직전까지 생존 중인 개체"]
    E["조건부 확률 계산 (λ_0 소거)<br/>P(i번째 개체가 실패 | R(t_(i)))<br/>= exp(z_(i)'β) / Σ_{l∈R} exp(z_l'β)"]
    F["부분우도(partial likelihood) 구성<br/>L(β) = ∏ exp(z_(i)'β) / Σ exp(z_l'β)"]
    G["로그부분우도 (Eq 13)<br/>log L(β) = Σ z_(i)'β − Σ log[Σ exp(z_l'β)]"]
    H["점수함수 U(β) 및 정보행렬 I(β)"]
    I["β̂ 추정 (수치 최적화)"]
    J1["Wald 검정<br/>β̂ / se(β̂)"]
    J2["점수 검정 (Score)<br/>U(0)^T I(0)^-1 U(0) ~ χ²_p"]
    J3["우도비 검정 (LRT)<br/>2[log L(β̂) − log L(0)] ~ χ²_p"]
    K["기저생존함수 추정 (Eq 37-38)<br/>반복법으로 π_(i) 산출 → F̂_0(t)"]

    A --> B
    B --> C
    C --> D
    D --> E
    E --> F
    F --> G
    G --> H
    H --> I
    I --> J1
    I --> J2
    I --> J3
    I --> K

mmdc 구문 검증 완료(paper-evidence agent).

재현성 및 신뢰도 평가

항목	등급	비고
데이터 공개	✅ A	백혈병 관해 데이터가 Table 1 (p.196)에 주차 단위로 전수 수록. 중도절단 표시(*) 포함. n=42 (각 군 21명)
방법 명세도	✅ A	핵심 수식 모두 폐쇄형 제시: Eq(9) 위험함수, Eq(12) 조건부 확률, Eq(13) 로그부분우도, Eq(14-17) score·정보, Eq(37-38) 기저생존함수
코드 공개	❌	1972년 논문 → 코드 없음. 현대 재구현체: R `survival::coxph`, Python `lifelines.CoxPHFitter`, statsmodels `PHReg`
수치 재현성	✅ A	Table 1 데이터로 어떤 현대 통계 패키지에서도 $\hat{β} \approx 1.65$ , $e^{\hat{β}} \approx 5.21$ , LRT $\approx 14.9$ 재현. Table 2의 $U (0) = 10.25$ , $I (0) = 6.2570$ 도 검증 가능
계산 비용	✅ A	Cox 본인 보고: 17개 반복방정식, CDC 6600에서 $\sim 30$ 초. 현대(<1ms) 사실상 즉시
종합 등급	A	데이터·수식·수치 모두 완전 공개. 코드 부재(시대적 한계)는 현대 재구현으로 완전 보완

주장별 신뢰도

#	주장	근거	등급
1	6-MP는 대조군보다 위험비 5.21배 낮은 재발 위험을 보인다 ( $\hat{β} = 1.65$ )	Table 1 원시데이터 + Eq(13) 최대화 — 현대 패키지로 재현 확인 가능	🟢
2	본 점수검정( $\approx 4.10$ )이 Gehan 검정( $\approx 3.6$ )보다 강력하다	Table 2의 $U (0), I (0)$ 수치 명시, 독립 계산 가능	🟢
3	비례 위험 가정은 이 데이터에서 위반되지 않는다 ( $\overset{γ}{^} \approx 0$ , $Δ lo g L = 0.01$ )	시간의존 확장 검정, 95% CI $(- 0.12, 0.14)$ 로 0 포함	🟢
4	PH 모형 95% CI $(0.78, 2.60)$ 이 지수분포 가정 CI $(0.83, 2.43)$ 와 유사	두 방법 동일 데이터 적용, 결과 일치로 모형 견고성 지지	🟡 (지수 가정 자체의 타당성 별도 검증 필요)
5	Weibull 형태모수 $\overset{ν}{^} = 1.3$ 이 $ν = 1$ 과 5% 수준에서 유의	Cox 본인이 “작은 실패시간 결핍” 탓이라 해석 — 사후 설명이므로 주의	🟡 (n=42 검정력 제한)
6	조건부 우도(Eq 13)는 점근적으로 완전우도와 동등 효율	1972 논문에서는 “conditional likelihood”로 제시. 엄밀 정당화는 Cox (1975) “partial likelihood” 의존	🟡 (이론 완성은 후속)

읽기 난이도: ⭐⭐⭐⭐ (4/5)

수리통계 대학원 수준의 배경지식 필요:

생존분석 기초: Kaplan-Meier, 중도절단, 위험함수 개념.
우도 이론: ML, Fisher 정보행렬, 점수·왈드·우도비 검정.
조건부 추론: 충분통계량을 통한 조건부 우도 도출 논리 (RSS Discussion에서 가장 격렬한 논쟁 대상).
선형대수: 행렬 표기, $p$ 차원 $β$ 벡터, 정보행렬 역행렬.
**RSS Discussion (p.202–220)**은 당대 최고 통계학자(Peto, Kalbfleisch, Breslow, Lindley)들의 이론적 논쟁을 담고 있어 현대 생존분석 문헌(특히 Cox 1975, Andersen-Gill 1982)의 맥락 없이는 이해하기 어렵다.

논문	연도	학술지	위험모형 형태	$β$ 추정	$λ_{0} (t)$ 처리	결합 묶음 (ties)	시간의존 공변량	코드 공개
Cox (본 논문)	1972	JRSS-B	$λ_{0} (t) exp (z^{'} β)$ — 곱셈 분해	조건부/부분 우도 ML	임의(미모수)	이산 logistic (Eq 21)	가능 (§3 Ex 2)	❌ (1972)
Kaplan & Meier	1958	JASA	없음 (비모수)	N/A (공변량 없음)	Product-limit 추정	단계함수 점프	❌	❌
Gehan	1965	Biometrika	없음 (순위검정)	N/A	암묵적	수정 순위	❌	❌
Mantel (log-rank)	1966	Cancer Chemo. Rep.	없음 (검정만)	N/A	암묵적	시점별 $2 \times 2$ 표	❌	❌
Breslow	1970	Biometrika	없음 ( $k$ -표본 순위)	N/A	암묵적	묶음 내 처리	❌	❌
Peto & Peto	1972	JRSS-A	순위 기반	N/A (효율적 순위검정)	순위 불변(rank invariant)	가능	❌	❌

원자적 인사이트 (Zettelkasten)

Insight 1: 곱셈으로 분리된 nuisance 함수는 조건화로 약분된다

$λ (t; z) = λ_{0} (t) exp (z^{'} β)$ 처럼 관심 모수 $β$ 가 nuisance 함수 $λ_{0} (t)$ 와 곱셈적으로 분리되어 있을 때, risk set 위의 “그 시점에 누가 실패했는가”의 조건부 확률을 곱한 우도에서 $λ_{0} (t)$ 가 분자·분모에서 자동 약분된다. 이는 후속 partial likelihood (Cox 1975), profile likelihood, marginal likelihood 일반화의 원형이다. 패러다임 함의: “우도의 정의를 따르기보다, score 통계량의 점근 분포가 정상이면 충분”이라는 시각 전환.

Insight 2: 생존 분석은 시간을 따라 누적된 2×2 contingency table 분석이다

Cox §7의 두 표본 점수 검정 $U (0) / I (0)$ 이 각 실패시점에서 세운 $2 \times 2$ 표를 Mantel-Haenszel 방식으로 결합한 통계량과 형식적으로 동치다. 함의: (1) 생존 분석과 categorical data 분석은 같은 형식 구조를 공유, (2) counting process 이론(Andersen-Gill 1982)에서 이를 multiplicative intensity로 일반화하면 곧바로 일반 마팅게일 추론 framework가 된다. 이산형 데이터의 logistic regression(§6 Eq 21)과 연속형의 Cox 모형이 같은 모형의 두 측면이다.

Insight 3: 시간의존 공변량 $z (t)$ 는 비례성 검정의 자연스러운 도구다

공변량을 $z_{j} = (z_{1 j}, t z_{1 j})$ 로 두면, 두 번째 군의 위험이 $ψ e^{β^{'} t} λ_{0} (t)$ 가 되어 비례성으로부터의 단조 이탈을 검정할 수 있다 (§3 Example 2, §10에서 실증). 즉 같은 framework 안에서 모형 가정 검증과 시간의존 효과 모델링이 모두 가능하다. 함의: 모형 검정과 모형 일반화가 분리되지 않은 통합 도구 — 후속 Schoenfeld residuals 진단법의 직접 원형.

Insight 4: $λ_{0} (t)$ 의 정보 손실은 일반적으로 작지만, 정량은 미해결이었다

Cox 본인이 §4에서 명시: “ $λ_{0} (t)$ 를 임의로 두는 데서 오는 $β$ 에 대한 정보 손실은 일반적으로 작을 것 — 만일 그렇다면 이 절차가 정당화된다… $β$ 에 대한 추론이 $λ_{0} (t)$ 의 다양한 가정 하에서 갖는 상대 효율은 미해결 문제(major outstanding problem)“이다(p.190). 함의: 준모수 효율성 이론의 출발점 — 이후 Bickel, Klaassen, Ritov, Wellner (1993)에서 일반 이론이 정립되었고 Cox 모형이 첫 실제 적용 사례.

핵심 용어 정리

위험함수 (Hazard function, $λ (t)$ ): 시점 $t$ 까지 생존했을 때 다음 순간 실패할 순간 위험률. $λ (t) = lim_{Δ t \to 0 +} Pr (t \leq T < t + Δ t ∣ t \leq T) /Δ t$ (Eq 1).
생존함수 (Survivor function, $F (t)$ ): $Pr (T \geq t)$ . 위험함수와의 관계: 연속 시간에서 $F (t) = exp {- \int_{0}^{t} λ (u) d u}$ (Eq 4).
위험집합 (Risk set, $R (t)$ ): 시점 $t -$ 직전까지 실패도 검열도 되지 않은 개체들의 집합. Cox 우도의 핵심 단위 — 조건화 대상이 risk set이다.
중도절단 (Censoring): 실패시간 $T$ 를 직접 관측하지 못하고 $T > c$ 만 알려진 경우(우측 중도절단, right-censoring). 본 논문의 강한 가정: 검열된 개체에 대한 정보는 “검열 시간을 초과”뿐 (p.188).
Product-limit 추정량 (Kaplan-Meier estimator): 비모수 생존함수 추정 $\hat{F} (t) = \prod_{t_{(i)} < t} {1 - m_{(i)} / r_{(i)}}$ (Eq 8). Cox 모형의 $\hat{F}_{0} (t)$ 추정량은 이의 회귀 일반화.
조건부 우도 (Conditional likelihood) / 부분 우도 (Partial likelihood): risk set 위의 실패 사건에 대한 조건부 확률만 곱한 우도(Eq 13). $λ_{0} (t)$ 를 약분해 $β$ 만 등장시킨다. 1972 논문의 “conditional likelihood”는 Cox (1975)에서 partial likelihood로 일반화·정당화.
비례 위험 (Proportional hazards, PH): $λ (t; z) / λ (t; z^{'}) = exp ((z - z^{'})^{'} β)$ 가 $t$ 에 무관. 본 모형의 핵심 가정 — 검정 가능(시간의존 항 추가).
기저 위험 (Baseline hazard, $λ_{0} (t)$ ): $z = 0$ 일 때의 위험함수. 본 논문에서는 비모수적으로 남겨둠 — 추정은 §8 Eq (37–38)에서 사후적으로.
점수 함수 (Score function, $U (β)$ ): $\partial lo g L / \partial β = \sum_{i = 1}^{k} {z_{(i)} - A_{(i)} (β)}$ , $A_{(i)}$ 는 risk set 위의 가중 평균 (Eq 14, 15).
(Fisher) 정보행렬 (Information matrix, $I (β)$ ): $- \partial^{2} lo g L / \partial β \partial β^{T} = \sum C_{(i)}$ , $C_{(i)}$ 는 가중 공분산 (Eq 16, 17).
가속 수명 시험 (Accelerated life test): stress 변수 $s$ 를 높여 빠른 실험 결과를 통상 수명으로 외삽하는 신뢰도 시험. §11에서 본 모형의 물리적 해석 검토 (Eq 45-49).

BibTeX

@article{cox1972regression,
  author    = {Cox, D. R.},
  title     = {Regression Models and Life-Tables},
  journal   = {Journal of the Royal Statistical Society. Series B (Methodological)},
  volume    = {34},
  number    = {2},
  pages     = {187--220},
  year      = {1972},
  publisher = {Wiley for the Royal Statistical Society},
  url       = {https://www.jstor.org/stable/2985181},
  note      = {Read before the Royal Statistical Society, March 8, 1972. With Discussion (pp.~202--220).}
}

Regression Models and Life-Tables