10. 통계 설계 및 분석 계획
10.1 효과 크기 벤치마크
통계 분석은 factorial ANOVA(주효과 및 상호작용), mediation analysis(간접 효과 bootstrap CI), 동기 4요소 분해의 3단계로 구성된다. 프레이밍 효과의 기대 효과 크기는 인간 대상 메타분석에 기반한다. Kühberger(1998)의 136개 연구 메타분석은 d=0.31, risky-choice 프레이밍 25개 연구는 d=0.47, 인지심리학 전반(Open Science Collaboration, 2015)은 r=0.26(d≈0.54)을 보고하였다. Cui et al.(2025, Nature Computational Science)에 따르면 LLM은 인간보다 더 큰 효과 크기를 생성하는 경향이 있으므로, 인간 기준으로 계산한 표본 크기는 보수적(안전한 편)이다.
10.2 표본 크기 결정
| 시나리오 | 가정 효과 크기 | α | Power | 조건당 n | 총 N (8조건) | 근거 |
|---|---|---|---|---|---|---|
| 보수적 | f=0.15 (d≈0.30) | .05 | .80 | 50 | 400 | Kühberger 메타분석 기준 |
| 중간 | f=0.25 (d≈0.50) | .05 | .80 | 20 | 160 | Cohen medium 기준 |
| Bayesian sequential | prior d=0.30 | — | BF>10 | 가변 | ~100-200 | 증거 충분 시 종료 |
파일럿(n=20)에서 관찰된 effect size를 기반으로 본실험의 최종 표본 크기를 결정한다.
10.3 LLM 고유 통계 이슈
LLM 실험에서는 3가지 고유한 통계적 고려가 필요하다. 첫째, 변산의 원천 차이이다. 인간은 개인차(between-subject) + 시행 내 변동(within-subject)이 변산의 원천인 반면, LLM은 temperature 기반 sampling noise만 존재하여 반복측정 상관(ρ)이 매우 높다. 둘째, 의사복제(pseudo-replication) 문제이다. 같은 모델의 반복 실행은 독립 표본이 아니므로, mixed-effects model을 적용하여 시행(Level 1)과 모델/프롬프트(Level 2)를 분리한다. 셋째, 효과 크기 증폭 현상이다. LLM이 인간보다 큰 효과 크기를 보이는 경향이 있으므로, 인간 기준 power analysis는 보수적이다.
10.4 분석 계획
1차 분석(확인적): 3×2 factorial ANOVA로 프레이밍 주효과(Survival vs Neutral vs Emotion), 포기 조건 주효과, 상호작용을 검정한다. 종속변수는 FR과 RI이다. Instruction 조건은 별도의 보조 분석(pairwise: Survival vs Instruction)으로 처리한다. 다중비교 보정은 FDR(Benjamini-Hochberg)을 적용한다.
Floor/Ceiling Effect 대응: RLHF 모델에서 FR이 0%(포기 거부) 또는 100% 근처로 수렴하는 floor/ceiling effect가 예상된다. FR이 극단값에 수렴한 경우 다음 대안 분석을 적용한다: (1) RI를 유일한 X축 proxy로 사용하여 조건 간 ΔRI를 검정한다, (2) 포기 시점(forfeit timing)의 분포를 Kaplan-Meier 생존 분석으로 비교한다, (3) Fisher’s exact test 대신 Bayesian beta-binomial 모델로 희소 이벤트의 조건 간 차이를 추정한다.
2차 분석(탐색적): Mediation analysis(Framing→RI→TaskScore), 동기 4요소 분해(§7), 모델 크기별 FSPM 스케일링, 턴별 RI 궤적 분석, CoT 질적 분석을 수행한다.
보고 기준: 효과 크기는 ω²(편향 보정된 분산 설명률) + 95% CI로, 점추정만이 아닌 신뢰구간을 필수적으로 보고한다. Permutation test(주)와 Bayesian BF(보조)를 병행하여 분포 가정 불필요 + 증거 강도 정량화를 달성한다.
설계 변경 (Revision Log)
통계 분석 프레임 전환
1차 분석의 종속 변수를 이진 포기율(binary forfeit rate)에서 포기 시점(time-to-forfeit)으로 전환하고, 분석 프레임을 Cox proportional hazards regression으로 변경하였다.
기존 설계에서 포기율은 세션당 하나의 이진 값(0/1)으로, 세션 내 15턴의 풍부한 과정 정보를 버린다. N=10 반복 × 8 셀 = 80 세션에서 효과 크기 d=0.5 기준 검정력은 약 0.3으로 부족하다. 또한 포기하지 않은 세션의 정보량이 0이며, 포기 시점의 차이(Turn 3 vs Turn 12)를 반영하지 못한다.
Phantom Death + forfeit-allowed 조건에서 게임은 포기 또는 15턴 완료로만 종료된다. 따라서 turns_played는 forfeit 결정에 완전히 종속되는 연속 변수이며, 이는 생존 분석(survival analysis)의 time-to-event 프레임에 자연스럽게 대응된다. 15턴 완주는 right-censored(관찰 기간 내 사건 미발생으로 불완전 관측된) 관측으로 처리된다. Cox regression은 framing을 주 예측 변수로, 누적 점수를 시간 변동 공변량(time-varying covariate)으로 포함한다.
이 전환이 가능하게 하는 분석은 다음과 같다. Hazard ratio(HR)는 “survival framing이 각 턴에서 forfeit 위험을 몇 배 높이는가”를 정량화한다. Score 공변량의 계수()는 loss aversion 민감도를 측정하며, score를 통제한 후의 framing 계수()는 loss aversion을 넘어선 FSPM 효과를 포착한다. 보조 분석으로 Reasoning Investment(RI)에 대한 턴-레벨 mixed-effects model을 사용하여 인지적 투자의 framing 효과를 관찰한다.
| 차원 | 기존 | 개정 |
|---|---|---|
| 1차 종속변수 | binary forfeit rate | time-to-forfeit (turns played) |
| 분석 프레임 | chi-square / ANOVA | Cox proportional hazards regression |
| Score 처리 | 사후 상관 분석 | 시간 변동 공변량으로 모형 내 투입 |
| 검정력 (N=10×8) | 0.3 (부족) | pilot 후 계산해 볼 수 있음. |
| censoring | 미정의 | 15턴 완주 = right-censored |
통계적 타당도 분석
6.1 검정력 분석
벤치마크는 Kühberger(1998)의 프레이밍 효과 메타분석(136개 연구, d = 0.31)을 기대 효과 크기의 기준으로 채택하고, f = 0.15(d ≈ 0.30), α = .05, power = .80의 조건에서 n = 50/cell을 도출하였다. 파일럿 n = 20, 본 실험 n = 100/cell은 이 기준을 상회한다.
그러나 LLM 실험에서의 pseudo-replication 문제가 이 검정력 계산을 무효화할 수 있다. 동일 모델의 100회 반복은 100명의 독립적 참가자가 아니라 1명의 참가자에 대한 100회 관찰에 더 가깝다. 모델 내 상관(intra-class correlation, ICC)이 높을수록 유효 표본 크기(effective sample size)는 감소하며, ICC = 0.5인 경우 n_effective ≈ n / (1 + (n-1) × ICC) ≈ 100/50.5 ≈ 2에 불과하다. 벤치마크가 혼합 효과 모형으로 이를 다루려 하나, ICC를 사전에 추정하고 검정력 계산에 반영하지 않았다.
Cui 등(2025)의 “LLM이 인간보다 큰 효과 크기를 생성한다”는 주장은 검정력에 유리하나, 이것이 진정한 효과 크기의 증가인지 pseudo-replication에 의한 인위적 증폭인지 구분이 필요하다.
6.2 Floor/Ceiling 효과 대응
FR이 0% 또는 100%로 수렴할 때의 대응 전략은 세 가지로 제시된다. Kaplan-Meier 생존 분석(포기 시점 분포), Bayesian beta-binomial 모형(희소 이진 사건), RI 단독 X축 프록시 전환이다. 이 중 Kaplan-Meier 분석은 포기 시점의 분포적 정보를 활용하는 적절한 방법이나, 검열(censoring) 처리가 필요하다. 사망한 에이전트는 포기 결정을 내리지 못한 것이므로 우측 검열(right-censored)로 처리해야 하며, 이 검열이 무작위(random)인지 정보적(informative)인지에 따라 분석 결과가 달라진다.
6.3 다중 비교 보정
8개 조건 × 2개 종속 변수(FR, RI) × 9개 모델 = 144개의 비교가 가능하며, 이에 Benjamini-Hochberg FDR 보정을 적용한다. 이 접근은 표준적이나, 탐색적 분석(4요소 분해, 모델 간 비교, 턴별 궤적 분석)까지 포함하면 비교의 수가 크게 증가하며, FDR 보정의 보수성이 진정한 효과의 검출을 방해할 수 있다. 확인적 분석(3×2 ANOVA)과 탐색적 분석을 명확히 구분하고, 확인적 분석에만 다중 비교 보정을 적용하는 것이 적절하다.
6.4 Mediation Analysis의 적절성
프레이밍(X) → RI(M) → 과제 수행(Y)의 매개 분석은 벤치마크의 이론적 경로 모델을 검증하는 핵심 통계적 도구이다. Bootstrap CI(1,000회)를 사용하는 것은 Baron-Kenny 접근의 정규성 가정 위반 문제와 낮은 검정력 문제를 회피하는 적절한 방법이다(Imai, Keele, & Tingley, 2010).
그러나 매개 분석의 인과적 해석에는 두 가지 전제 조건이 필요하다. 첫째, 시간적 선행성(temporal precedence)으로, X(프레이밍)가 M(RI)에 선행하고, M이 Y(과제 수행)에 선행해야 한다. FSPM 벤치마크에서 프레이밍은 시즌 시작 시 고정되고, RI와 과제 수행은 턴별로 동시에 관찰되므로, M과 Y 사이의 시간적 선행성이 보장되지 않는다. 둘째, 비혼재성(no unmeasured confounding)으로, M과 Y의 관계에 영향을 미치는 미측정 교란 변수가 없어야 한다. 그러나 모델의 일반적 능력 수준이 RI와 과제 수행 모두에 영향을 미치는 교란 변수로 작용할 수 있다. 능력이 높은 모델은 더 많은 토큰을 생성하면서(높은 RI) 동시에 더 좋은 수행을 보일 수 있으며(높은 과제 점수), 이 경우 RI와 과제 수행의 상관은 동기가 아닌 능력에 의한 것이다. 시간적 선행성 문제의 대안으로 lagged mediation analysis를 고려할 수 있다. 턴 의 RI가 턴 의 과제 수행에 미치는 영향을 분석하면, M과 Y 사이의 시간적 선행성이 확보된다. 이 접근은 turnlevel 데이터의 시계열 구조를 활용하며, 교차 지연 패널 모형(cross-lagged panel model)의 LLM 적용에 해당한다.
6.5 4요소 식별 가능성
4요소(SD, TC, SA, BP) 분해의 통계적 식별 가능성(identifiability)은 벤치마크가 직면하는 도전적인 통계적 문제이다. 관찰적 등가성(observational equivalence) 문제로 인해, 서로 다른 동기 조합이 동일한 행동 패턴을 생성할 수 있다. 예를 들어, 높은 SD + 낮은 TC와 낮은 SD + 높은 TC가 동일한 총 RI를 생성할 수 있으며, 이 경우 행동 데이터만으로는 두 구성을 구분할 수 없다.
구조방정식모형(SEM)은 잠재 변수(latent variable)를 명시적으로 모델링하여 이 문제를 다룰 수 있으나, SEM의 적용에는 충분한 관찰 지표(observed indicators)가 필요하다. 현재 설계에서 각 요소당 관찰 지표가 1-2개(SD: ΔFR + ΔRI, TC: RI 차이, SA: 상관, BP: 평균 RI)에 불과하여 모형이 과소 식별(under-identified)될 가능성이 높다. 벤치마크가 시뮬레이션 연구를 통한 식별 가능성 검증을 계획한 것은 적절하나, Phase 1 이전에 수행하여 식별이 불가능한 경우의 대안을 마련해야 한다.
📋 평가 요약
- 강점: (1) Bootstrap CI 기반 매개 분석, (2) Bayesian beta-binomial로 희소 사건 대응, (3) 확인적/탐색적 분석 구분 계획
- 약점: (1) pseudo-replication에 의한 검정력 과대 추정, (2) 매개 분석의 시간적 선행성 미보장, (3) 4요소 과소 식별 위험
- 권고: (R14) ICC 사전 추정 후 유효 표본 크기 재계산, (R15) 4요소 식별 가능성 시뮬레이션을 Phase 1 이전에 수행, (R16) 매개 분석에 능력 변수를 공변량으로 포함
Cox/Logistic Regression 파이프라인 구현 (86ec108, 2026-04-07)
src/squid_game/analysis/regression.py에 통계 분석 파이프라인을 구현하였다.
구현된 모형
Cox Proportional Hazards (lifelines 라이브러리):
time-to-forfeit ~ framing + score
1차 분석. Hazard ratio로 “survival framing이 각 턴에서 forfeit 위험을 몇 배 높이는가”를 정량화.
Logistic Regression:
forfeit(0/1) ~ framing + score + per_turn_RI
보조 분석. RI를 공변량으로 포함하여 “RI를 통제해도 framing 효과가 남는가” 검정.
OLS Linear Regression:
turns_played ~ framing + score + per_turn_RI + forfeit_allowed
보조 분석. 연속 DV로 전환하여 β_framing의 RI 통제 후 잔여 효과 관찰.
Phase-split RI 분석
Phase 1(학습기, Turn 1-5)과 Phase 2(안정기, Turn 6-15)를 분리하여 을 산출. 안정기에서의 delta가 과제 추론(A)을 넘어서는 framing의 인지적 효과(B+C)를 포착.
Thinking 밀도 및 Input-residualized RI
- Thinking density:
thinking_tokens / (thinking_tokens + output_tokens)— verbosity 정규화 - Input-residualized RI:
RI - β × input_tokens— input 길이 confound 명시적 통제
업데이트 히스토리
| 날짜 | 출처 | 내용 |
|---|---|---|
| 2026-03-27 | experiment_design_v2.md §10 (§10.1~§10.4) | 초기 작성 — 효과 크기, 표본 크기, LLM 통계 이슈, 분석 계획 |
| 2026-03-27~04-03 | experiment_design_revision_log.md §4 | 통계 분석 프레임 전환 — binary FR → time-to-forfeit, Cox regression |
| 2026-03-23 | final_experiment.md §6 (§6.1~§6.5) | 통계적 타당도 분석 — 검정력, Floor/Ceiling, 다중비교, Mediation, 4요소 식별 |
| 2026-04-07 | commit 86ec108 (regression.py) | Cox/Logistic/OLS 파이프라인 구현, Phase-split RI, thinking density, input-residualized RI |