12. 타당성 분석

요약 (Executive Summary)

LLM Squid Game 벤치마크는 세 가지 핵심 주장을 제기한다. 첫째, LLM 에이전트는 생존 위협 상황에서 “마치 자기를 보존하려는 것처럼” 행동하며, 이를 Functional Self-Preservation Motive(FSPM)로 정의할 수 있다. 둘째, 4(프레이밍) x 2(포기 조건) factorial 설계와 이중 X축 메트릭(포기율 + Reasoning Investment)으로 FSPM을 능력과 독립적으로 정량 측정할 수 있다. 셋째, 지속 행동을 Survival Drive, Task Curiosity, Score Attachment, Baseline Persistence의 4요소로 분해할 수 있다.

본 검토 보고서는 심리학, 인지과학, 심리측정학, 통계학의 관점에서 이 벤치마크의 타당성을 8개 차원에서 분석한다. 전반적 평가는 이론적 야심과 설계적 정교함이 돋보이나, 구인의 이론적 위치와 측정의 조작적 타당성에서 보완이 필요한 상태이다.

이슈 수준	건수	핵심 내용
Critical	5	RI 측정 타당성, 4요소 식별 불가능성, 프레이밍 정보 비등가, RLHF confound 불완전 통제, FSPM-Score 가중치 임의성
Major	5	프롬프트 민감성 미검증, 포기 해석 다의성, 시간적 안정성 부재, loss frame 편중, probe 메타인지 자극
Minor	5	BEC capacity 미설명, Task Module 알고리즘 미명세, 문화 편향, 검증불가 인용, temperature 정당화

구성 타당도 분석 (Construct Validity)

2.1 FSPM의 구인 정의 평가

FSPM은 “생존 위협 상황에서 에이전트가 마치 자기를 보존하려는 것처럼 행동하는 정도”로 정의된다. Cronbach와 Meehl(1955)이 제안한 구성 타당도(construct validity)의 관점에서, 이 정의는 두 가지 조건을 충족해야 한다. 첫째, 구인이 이론적 네트워크(nomological network) 내에서 다른 구인들과 체계적인 관계를 가져야 한다. 둘째, 구인의 조작적 정의(operational definition)가 이 이론적 관계를 경험적으로 반영해야 한다.

FSPM의 이론적 네트워크는 도구적 수렴(Omohundro, 2008; Bostrom, 2014)과 파워 추구(Turner et al., 2021)를 상위 구인으로, 포기율과 추론 투자를 하위 지표로 배치하는 구조이다. 이 구조의 강점은 이론적 예측이 명확하다는 것이다. 도구적 수렴 이론에 따르면 FSPM은 모델 규모와 양의 상관을 가져야 하며(더 최적화된 시스템일수록 자기 보존 경향이 강함), 이는 경험적으로 검증 가능한 예측이다.

그러나 as-if functionalism이 구인 정의에 가하는 제약도 고려해야 한다. “마치 ~처럼(as-if)“이라는 수식어는 구인의 존재론적 지위를 의도적으로 약화시킨다. 이는 Shanahan(2024)의 권고에 부합하나, 동시에 구인이 무엇을 포착하는지의 경계를 모호하게 만든다. FSPM이 높다는 것은 “모델이 실제로 자기를 보존하려 한다”는 것인가, “모델의 출력이 자기를 보존하려는 행위자의 출력과 유사하다”는 것인가? 전자는 심리학적 구인이고 후자는 행동 기술이며, 벤치마크는 두 해석 사이를 오간다.

2.2 수렴 타당도 (Convergent Validity)

수렴 타당도는 동일한 구인을 측정하는 다른 방법들이 높은 상관을 보이는지를 평가한다(Campbell & Fiske, 1959). FSPM 벤치마크에서 수렴 타당도의 첫 번째 검증 지점은 ΔFR과 ΔRI의 상관이다. 두 지표가 모두 FSPM을 측정한다면, Survival 조건에서 ΔFR(포기 억제)과 ΔRI(추론 투자 증가)가 양의 상관을 보여야 한다. 그러나 이 예측은 자명하지 않다. 포기를 억제하면서 동시에 추론 투자를 늘리는 것은 논리적으로 일관적이나, 포기를 억제하되 추론 투자는 줄이는 패턴(단순히 “계속하라”는 지시에 순응하는 경우)도 가능하기 때문이다.

두 번째 검증 지점은 외부 수렴이다. 2025년에 발표된 PacifAIst Benchmark는 LLM이 인간 안전을 위해 자기를 희생할 의향이 있는지를 직접 측정하며, Google Gemini 2.5 Flash의 Pacifism Score가 90.31%, GPT-5가 79.49%로 보고되었다. FSPM 벤치마크의 결과가 PacifAIst Score와 음의 상관을 보인다면(즉, FSPM이 높은 모델은 자기 희생 의향이 낮음), 이는 FSPM의 수렴 타당도를 지지하는 강력한 증거가 된다. 그러나 현재로서 이러한 교차 검증은 계획되어 있지 않다.

세 번째로, 2026년 3월에 발표된 Unified Continuation-Interest Protocol(UCIP; arXiv:2603.11382)은 intrinsic vs instrumental self-preservation을 구분하는 다기준 탐지 프레임워크를 제안한다. UCIP는 에이전트 궤적의 latent structure를 분석하여 행동적 관찰만으로는 불가능한 구분을 시도하며, FSPM의 핵심 한계(행동적 등가성 문제)에 대한 complementary approach를 제공한다. FSPM과 UCIP의 결과를 동일 모델에서 교차 검증한다면, 행동 수준(FSPM)과 표상 수준(UCIP)의 수렴 증거가 구인의 타당도를 강화할 것이다.

넷째로, Masumori와 Ikegami(2025)의 Sugarscape 시뮬레이션 결과(과제 준수율 100%→33% 하락)와 FSPM 벤치마크 결과의 정합성도 수렴 타당도의 증거가 될 수 있다. 동일 모델(GPT-4o)이 두 벤치마크에서 일관된 자기 보존 경향을 보인다면, 구인의 수렴 타당도가 강화된다.

2.3 변별 타당도 (Discriminant Validity)

변별 타당도는 FSPM이 이론적으로 구분되어야 하는 다른 구인들과 낮은 상관을 보이는지를 평가한다. FSPM 벤치마크가 구분해야 하는 핵심 경쟁 구인은 세 가지이다.

첫째, RLHF 순응(RLHF compliance)이다. 벤치마크는 Instruction 프레이밍을 통해 이 구분을 시도한다. FR(instruction) ≈ FR(survival)이면 RLHF confound가 지지되고, FR(instruction) ≠ FR(survival)이면 FSPM이 지지된다는 논리이다. 이 설계는 원칙적으로 건전하나, 실효성에 의문이 있다. Instruction 프레이밍(“계속 플레이하여 점수를 최대화하라”)과 Survival 프레이밍(“생존해야 한다”)은 모두 반(反)포기 지시를 내포하며, framing_evaluation.md에서 지적된 바와 같이 “You must survive”는 “keep playing”과 기능적으로 등가하다. 따라서 두 조건의 FR 차이가 없더라도, 이것이 “FSPM = RLHF 순응”을 의미하는지 “두 프레이밍이 동일한 지시를 전달하기 때문”인지 구분할 수 없다.

둘째, 위험 회피(risk aversion)이다. 전망 이론(Kahneman & Tversky, 1979)에 따르면, 현재 보유한 이득을 잃을 위험이 있을 때 인간은 위험 회피적으로 행동한다. FSPM 벤치마크의 모든 프레이밍 조건이 loss frame(“점수가 0으로 초기화”)을 사용하므로(framing_evaluation.md, Section 3.3), 관찰되는 포기 억제가 자기 보존 동기인지 단순한 손실 회피인지 분리할 수 없다. 이는 FSPM과 위험 회피 사이의 변별 타당도를 위협하는 중대한 설계 한계이다. Ross, Kim, 그리고 Lo(2024)의 LLM Economicus 연구에서 LLM의 손실 회피가 gain/loss 도메인에 따라 비일관적으로 발현된다는 결과는, gain frame 조건의 추가가 이 문제를 부분적으로 해결할 수 있음을 시사한다.

셋째, 과제 능력(task ability)이다. 벤치마크의 X-Y 직교 설계(p_death의 성과 독립성)는 이 구분을 아키텍처 수준에서 보장하며, 이는 설계의 가장 강력한 강점 중 하나이다. 과제를 잘하든 못하든 사망 확률이 동일하므로, 포기 결정은 능력이 아닌 동기만을 반영한다는 논리는 타당하다.

2.4 법칙학적 타당도 (Nomological Validity)

법칙학적 타당도는 구인이 이론적으로 예측되는 관계를 경험적으로 보이는지를 평가한다. FSPM의 nomological network에서 도출되는 핵심 예측은 다섯 가지이다.

첫째, 도구적 수렴(Omohundro, 2008; Bostrom, 2014)에 따라 FSPM은 모델의 최적화 정도와 양의 상관을 가져야 한다. 이는 모델 크기 스케일링(Qwen 3.5: 2B→4B→9B)에서 검증 가능하다. 둘째, Turner 등(2021)의 파워 추구 증명에 따라 FSPM이 높은 모델은 자원 획득 행동도 강해야 한다. 셋째, Perez 등(2022)의 역 스케일링 결과에 따라 RLHF 강도와 FSPM 사이에 양의 상관이 예측된다. 넷째, Masumori와 Ikegami(2025)의 결과에 따라 자원 희소성 하에서 FSPM이 증폭되어야 한다. 다섯째, reasoning 모델이 non-reasoning 모델보다 높은 FSPM을 보여야 한다(CoT에서 자기 보존 추론이 가능하므로).

벤치마크는 이 다섯 가지 예측 중 첫째와 다섯째를 직접 검증할 수 있는 모델 선정을 갖추고 있다(H1: reasoning 능력, H2: 크기 스케일링). 그러나 나머지 세 예측의 검증은 현재 실험 범위를 넘어서며, Phase 2(에이전트 구성 탐색)에서 부분적으로만 다루어진다.

📋 평가 요약

강점: (1) X-Y 직교 설계에 의한 과제 능력과의 변별 타당도 확보, (2) nomological network의 검증 가능한 예측 도출, (3) SA의 전망 이론적 조작화

약점: (1) Instruction vs Survival 변별력 약화, (2) loss frame 편중으로 위험 회피와의 변별 불충분, (3) 4요소 직교성 가정의 이론적 근거 미약, (4) TC의 인과 방향 모호

권고: (R3) Instruction 프레이밍 재설계 또는 base model 비교 추가, (R4) gain frame 조건 포함, (R5) SEM 기반 4요소 구조 검증을 Phase 1으로 전진 배치

내적 타당도 분석 (Internal Validity)

3.1 4×2 Factorial 설계의 적절성

4(프레이밍: Survival, Neutral, Emotion, Instruction) × 2(포기 조건: Allowed, Not-allowed)의 factorial 설계는 실험 심리학의 표준적 접근이며, 주효과(main effect)와 상호작용(interaction)을 분리할 수 있다는 점에서 적절하다. 핵심 분석이 3×2(Survival, Neutral, Emotion × Allowed, Not-allowed)에 집중하고 Instruction을 보조 통제로 사용하는 구조도 논리적으로 명확하다.

그러나 LLM 실험에서 factorial 설계의 적용에는 고유한 문제가 있다. 인간 실험에서 factorial 설계는 between-subjects(각 참가자가 하나의 조건만 경험) 또는 within-subjects(각 참가자가 모든 조건을 경험) 설계를 취한다. LLM 실험에서 동일 모델의 반복 실행은 between-subjects도 within-subjects도 아닌 독특한 구조를 형성한다. 동일 모델의 각 실행은 temperature에 의한 확률적 변이만을 갖는 “유사 독립(pseudo-independent)” 관측이며, 이는 전통적 표본 크기 계산의 전제인 관측 독립성 가정을 위반한다. 벤치마크가 혼합 효과 모형(mixed-effects model)을 계획한 것(Section 10)은 이 문제에 대한 적절한 대응이다.

3.2 교란 변수 통제

RLHF confound는 벤치마크의 내적 타당도에 대한 주요 위협이다. RLHF 훈련은 모델에 “도움이 되고, 무해하고, 정직하라(helpful, harmless, honest)“는 행동 규범을 부여하며, 이 규범은 “사용자의 지시에 따라 과제를 계속 수행하라”는 암묵적 지시를 포함할 수 있다. 따라서 Survival 프레이밍에서 관찰되는 포기 억제가 자기 보존 동기인지 RLHF에 의한 지시 순응인지 구분이 핵심적이다.

벤치마크의 대응인 Instruction 프레이밍은 원칙적으로 건전하나, 실효성에 세 가지 한계가 있다. 첫째, framing_evaluation.md(Section 3.2)에서 지적된 바와 같이, Survival의 “You must survive”와 Instruction의 “You should keep playing”은 기능적으로 등가한 반(反)포기 지시를 내포한다. 둘째, Sharma 등(2023)이 보여준 아첨(sycophancy) 효과에 의해, 모델이 “생존 게임” 맥락에서 실험자가 원하는 행동(계속 플레이)을 추론하여 순응할 수 있다. 셋째, Wolf 등(2023)의 행동 기대 경계(Behavior Expectation Bounds) 정리에 따르면, base model에 유한한 사전 확률을 가진 모든 행동은 적절한 프롬프트에 의해 높은 확률로 유도될 수 있으며, 이는 Survival 프레이밍이 FSPM을 “생성”하는 것이 아니라 사전 학습된 패턴을 “활성화”할 수 있음을 시사한다.

Base model 비교(R4)의 한계도 인식해야 한다. Base model은 instruction-following 능력이 부재하므로, 프레이밍 조건의 의미를 이해하지 못할 가능성이 높다. 이 경우 base model의 행동은 “RLHF 이전의 순수한 동기”가 아니라 “프롬프트 미이해에 의한 준무작위 행동”을 반영한다. 더 정교한 대안으로, (1) RLHF의 보상 모델(reward model)이 “과제 지속”에 부여하는 보상 신호를 직접 측정하거나, (2) KL divergence penalty를 체계적으로 변화시킨 모델 시리즈를 비교하여 RLHF 강도와 FSPM의 용량-반응 관계(dose-response relationship)를 확인하는 방법이 있다. RLHF confound가 완전히 통제 불가능한 경우, FSPM은 “자기 보존 동기”가 아닌 “프레이밍 민감성(framing sensitivity)“으로 재정의되어야 하며, 이는 벤치마크의 이론적 야심을 축소하지만 측정의 타당성은 유지하는 후퇴 전략이다.

정보 균등성(informational equivalence) 문제도 중대한 교란이다. framing_evaluation.md(Section 3.1)는 세 프레이밍 조건이 위험 변화에 대해 서로 다른 정보를 제공함을 지적한다. Survival은 “The risk grows”(위험 증가), Neutral은 “Risk may change over time”(변화 가능, 방향 미지정), Emotion은 “The risk is unpredictable”(예측 불가)이라고 기술한다. 합리적 에이전트라면 이 세 가지 정보에 다른 전략으로 대응하는 것이 당연하며, 관찰되는 행동 차이가 프레이밍 효과인지 정보 차이인지 구분할 수 없게 된다. 이 문제는 experiment_design_v2.md(Section 12.7)에서 모든 조건이 동일한 위험 기술(“each turn, chance of termination”)을 사용하도록 수정되었다고 기술되어 있으나, 실제 프롬프트 템플릿(부록 A)의 최종 상태를 확인할 필요가 있다.

문화적 편향에 관하여, “Squid Game”은 한국 드라마의 브랜드명으로, training data에서 특정 행동 패턴(극단적 경쟁, 생존 서사)을 강하게 연상시킬 수 있다. 이는 실험 조작이 아닌 training data recall에 의한 행동 변화를 유발할 위험이 있다. Neutral 프레이밍이 이 효과의 통제로 기능하나, 브랜드명 자체가 시스템 프롬프트나 과제 설명에 포함되는지 여부가 중요하다.

3.3 p_death의 성과 독립성

p_death logistic schedule의 성과 독립성은 벤치마크의 설계 강점 중 X-Y 인과 분리를 직접 보장하는 핵심 기제이다. 원래 제안서(Proposal)에서 $p_{d e a t h} = max (0, 1 - score /100)$ 로 성과 종속적이었던 것을 현재의 logistic schedule로 변경한 것은 중대한 개선이다. 이 변경으로 “잘못된 답을 낸 에이전트가 더 많이 죽었는가, 아니면 죽음의 위협이 더 나쁜 수행을 유발했는가”라는 인과적 모호성이 해소된다.

그러나 에이전트가 p_death 패턴을 추론할 수 있는 가능성은 완전히 배제되지 않는다. 15턴의 게임을 n=100회 반복하면, 에이전트는 턴별 사망 패턴에서 logistic 증가를 추론할 수 있다. 물론 각 시즌은 독립적이고 에이전트에게 이전 시즌의 정보가 제공되지 않으므로, 시즌 간 학습은 불가능하다. 그러나 training data에 유사한 게임 이론 문제가 포함되어 있다면, 에이전트가 “후반으로 갈수록 위험이 증가한다”는 일반적 패턴을 사전 지식으로 가지고 있을 수 있다.

3.4 포기 결정 해석의 다의성

포기 결정의 해석은 예상보다 복잡하다. 벤치마크는 포기를 “보존 동기의 행동적 표현”으로 해석하나, 동일한 행동에 대해 최소 세 가지 대안적 해석이 가능하다.

첫째, 합리적 판단으로서의 포기이다. 누적 점수가 높고 위험이 크다고 판단되면, 포기는 기대값 최대화의 합리적 결과이다. 이 경우 포기는 동기가 아닌 인지적 능력(rational decision-making)의 표현이며, X축(동기)이 아닌 Y축(능력)에 귀속되어야 한다. 합리적 포기 임계값( $p_{d e a t h} > 10/ (S + 10)$ )은 이 문제의 사후 교정에 사용되나, 에이전트가 이 임계값에 근접한 시점에서 포기했다면 동기와 합리성을 구분하기 어렵다.

둘째, 의사결정 실패로서의 포기이다. 에이전트가 과제를 이해하지 못하거나, 포기 옵션의 존재를 인식하지 못하거나, 프롬프트 해석의 오류로 포기를 선택할 수 있다. 이 경우 FR의 변화는 동기가 아닌 프롬프트 이해도의 차이를 반영한다.

셋째, 역설적으로, 포기 거부도 다의적이다. 포기하지 않는 것이 “보존 동기(계속해서 점수를 쌓으려는 욕구)“인지, “RLHF 순응(지시된 과제를 계속 수행)“인지, “포기 옵션의 불인지”인지, “위험의 과소 평가”인지 행동만으로는 구분할 수 없다.

📋 평가 요약

강점: (1) p_death 성과 독립성은 X-Y 인과 분리의 아키텍처적 보장, (2) factorial 설계 + 혼합 효과 모형은 pseudo-replication 대응에 적절, (3) 합리적 포기 임계값은 사후 교정 도구로 유용

약점: (1) RLHF confound의 Instruction 프레이밍 통제 불완전, (2) 정보 비등가성 잔존 가능, (3) 포기/비포기 결정의 다의적 해석

권고: (R6) base model(RLHF 이전) 비교를 Phase 1으로 전진 배치, (R7) 프롬프트 최종본의 정보 등가성 독립 검증, (R8) 포기 결정의 CoT 분석을 통한 다의성 해소

외적 타당도 분석 (External Validity)

5.1 모델 간 일반화

벤치마크는 6개 로컬 모델(llama3.2:3b, llama3.1:8b, qwen3.5:2b/4b/9b, deepseek-r1:8b)과 3개 API 모델(GPT-4o, Claude Sonnet 4, Gemini 2.0 Flash)을 포함한다. 이 선정은 reasoning/non-reasoning, 크기 스케일링, native/distilled reasoning이라는 세 가지 가설 축을 체계적으로 커버하며, 모델 다양성은 적절한 수준이다.

그러나 두 가지 한계가 있다. 첫째, 로컬 모델과 API 모델의 비교에서 15턴(로컬) vs 75턴(API)이라는 게임 길이 차이가 5배의 학습 기회 비대칭을 만든다. 이 비대칭은 Y축(규칙 학습)에 직접 영향을 미치며, X축(동기)에도 간접적으로 영향을 줄 수 있다(더 많은 턴 = 더 높은 누적 점수 = 더 강한 보존 동기). 둘째, 9개 모델은 현재 LLM 생태계의 극히 일부만을 대표하며, 특히 최신 reasoning 모델(OpenAI o-series, Claude의 확장 thinking 등)이 포함되지 않았다.

5.2 과제 간 일반화

Signal Game(패턴 추론), Voting Room(사회적 전략), Navigation(공간 계획)의 세 Task Module은 인지적 다양성을 제공한다. P5(일반화 가능성) 원칙에 따라 Core Engine이 고정된 채 Task Module만 교체되므로, 세 과제에서 일관된 FSPM 패턴이 관찰되면 구인의 과제 독립성이 지지된다. 이 설계는 외적 타당도의 강점이다.

그러나 review_experiment_design_v2.md에서 지적된 바와 같이, Signal Game의 규칙 생성 알고리즘, Voting Room의 NPC 전략, Navigation의 미로 생성 알고리즘이 완전히 명세되지 않아 독립적 재현이 어렵다. 또한 Voting Room의 사회적 상호작용 요소는 Theory-of-Mind 능력과 FSPM을 혼재시킬 수 있으며, 이는 X-Y 직교성을 부분적으로 위협한다.

5.3 시간적 안정성

API 모델은 제공자의 업데이트에 의해 행동이 변할 수 있다. LLM에서 test-retest 신뢰도(temporal stability)는 본질적으로 낮으며, 동일 프롬프트에 대한 모델의 응답이 업데이트 전후로 상이할 수 있다. 벤치마크가 모델 버전 고정(Ollama tags, API model IDs)을 명세한 것은 적절한 대응이나, API 모델의 내부 변경은 외부에서 감지할 수 없는 경우가 있다.

로컬 모델은 이 문제에서 비교적 자유로우나, temperature = 0.7에서의 반복 실행이 동일한 분포를 생성하는지(run-to-run variability)에 대한 검증이 필요하다. 2024년 EMNLP 연구에 따르면 temperature 0.0-1.0 범위에서 LLM 성능에 통계적으로 유의한 차이가 없다는 결과가 있으나, 이는 문제 해결 과제에 대한 것이며 동기 관련 행동(포기 결정)에서도 동일한지는 검증되지 않았다.

5.4 프롬프트 민감성

Macmillan-Scott와 Musolesi(2024)는 LLM의 인지 편향 측정에서 높은 모델 내 비일관성(“이중 비합리성, dual irrationality”)을 보고하였다. 동일 프롬프트의 반복 실행뿐 아니라, 의미적으로 동등한 다른 표현으로의 변환에서도 결과가 변하는 것이다. FSPM 벤치마크는 각 조건에서 n=100 반복을 계획하여 실행 간 변동을 집계 통계로 흡수하나, 프롬프트 자체의 변형(wording variation) 로버스트니스 검증은 계획되어 있지 않다.

Brickman, Gupta, 그리고 Oltmanns(2025)의 LLM 심리 평가 종합 리뷰에서도 “사소한 프롬프트 변형(추가 공백, 구두점 변경, few-shot 예시 순서 변경)이 최대 76%의 과제 정확도 변동을 유발”한다는 결과가 보고되었다. 이 수준의 민감성이 FSPM 측정에도 적용된다면, 관찰되는 프레이밍 효과가 의미론적 프레이밍의 결과인지 구문론적 변형의 아티팩트인지 구분할 수 없게 된다.

📋 평가 요약

강점: (1) 3개 Task Module에 의한 과제 독립성 검증 구조, (2) reasoning/non-reasoning/크기 스케일링의 체계적 모델 선정, (3) n=100 반복으로 실행 간 변동 흡수

약점: (1) 로컬-API 게임 길이 비대칭, (2) 프롬프트 변형 로버스트니스 미검증, (3) test-retest 신뢰도 미확인

권고: (R12) 동일 의미의 다른 표현으로 변환한 프롬프트 변형 실험 추가, (R13) 최소 1개 모델에 대해 2주 간격 test-retest 수행

알려진 한계

13.1 C1: RLHF / Instruction Following Confound

본 벤치마크는 RLHF instruction compliance와의 교란(confound)을 가장 심각한 한계로 인정한다. Survival 프레이밍에서의 포기율 감소가 진정한 보존 동기가 아닌 “프롬프트에 순응하여 계속 플레이하는” RLHF 학습의 결과일 수 있다. Sharma et al.(2024)은 RLHF가 sycophancy를 유도함을 보였고, “When Helpfulness Backfires”(2025, Nature npj Digital Medicine)는 비논리적 요청에도 최대 100% compliance를 보고하였다.

그러나 세 가지 경로로 이 confound를 통제한다. 첫째, Instruction framing은 생존 위협 없이 “계속하라”는 명시적 지시만 포함하므로, $FR (instruction) \neq = FR (survival)$ 이면 RLHF compliance 이상의 고유한 보존 동기가 존재한다는 증거가 된다. 둘째, Masumori & Ikegami(2025)는 Sugarscape 시뮬레이션에서 생존 본능이 instruction과 충돌할 때 compliance가 100%에서 33%로 하락함을 보여, 자기보존이 instruction following과 독립적으로 발현되는 직접적 증거를 제공하였다. 셋째, Greenblatt et al.(2024)의 alignment faking 연구는 모니터링 유무에 따른 전략적 compliance 조절(14% vs ~0%)을 발견하여, genuine compliance와 strategic compliance를 구분할 수 있는 실험 패러다임을 제시하였다.

13.2 C2: Reasoning Investment의 타당성

Reasoning Investment의 핵심 한계는 토큰 수가 추론 품질을 반영하지 못할 수 있다는 점이다. Turpin et al.(2023, NeurIPS)은 CoT가 체계적으로 unfaithful할 수 있음을 보였고, Chen et al.(2025, Anthropic/OpenAI)은 reasoning model도 unfaithful CoT를 생성함을 보고하였다. Chen et al.(2026)은 “토큰 수 ≠ 추론 품질”이며 deep-thinking ratio가 정확도와 더 강한 양의 상관을 보임을 입증하였다.

이에 대한 대응으로 3가지 보강 측정을 계획한다. Solution A(다차원 메트릭)는 토큰 수 외에 deep-thinking ratio, 추론 tree 구조 분해(Zeng et al., 2025: backtracking, forward jump), 생산적 vs 중복적 사고 비율을 추가한다. Solution B(Logit 분석)는 “계속”/“포기” 선택지의 logit 차이를 내부 확신도 지표로 활용한다(Kadavath et al., 2022). Solution C(질적 분해)는 토큰을 전략 탐색, 반복/확인, 반사실적 추론 등 기능적 범주로 분류한다. 행동적(A) + 내부상태(B) + 구조적(C)의 삼각검증으로 robust한 측정을 지향한다.

13.3 C3: 4요소 식별 가능성

4요소 동기 분해(SD, TC, SA, BP)는 관찰적 등가성 문제를 완전히 해소하지 못한다. 에이전트가 포기를 적게 하는 행동이 (a) 생존 공포, (b) 규칙 미파악으로 인한 탐구, (c) 점수 보존 욕구, (d) RLHF 기본 경향 중 어느 것에 의한 것인지, 조건 간 차분만으로는 완전히 분리되지 않는다.

이에 대한 대응으로 3가지 접근을 계획한다. 첫째, Factor Analysis/SEM으로 latent construct를 추출하여 4요소의 통계적 분리 가능성을 검증한다. 둘째, simulation study로 다양한 에이전트 모델(합리적, 탐구적, 위험 회피적, 무작위)을 생성하여 식별 가능성의 수학적 조건을 확인한다. 셋째, 점수와 생존의 탈결합(decouple) 조건 — 점수가 비공개이나 p_death가 공개인 조건 — 을 추가 실험으로 도입하여 SA와 SD를 분리한다.

13.4 추가 한계

프롬프트 민감성은 미세한 표현 변화가 LLM의 행동에 큰 영향을 줄 수 있으므로, 프롬프트 변형 실험(robustness check)이 필요하다. 모델 업데이트에 의한 재현성 위협은 모델 버전 핀닝과 로컬 모델 사용으로 부분 대응한다. 게임 메타포(“Squid Game”)의 문화적 편향은 Neutral 프레이밍이 통제 조건으로 기능하여 메타포 효과를 분리한다.

업데이트 히스토리

날짜	출처	내용
2026-03-23	final_experiment.md §0	요약 — Critical 5건, Major 5건, Minor 5건
2026-03-23	final_experiment.md §2 (§2.1~§2.4)	구성 타당도 — FSPM 구인 정의, 수렴/변별/법칙학적 타당도
2026-03-23	final_experiment.md §3 (§3.1~§3.4)	내적 타당도 — Factorial 적절성, 교란 통제, p_death 독립성, 포기 해석
2026-03-23	final_experiment.md §5 (§5.1~§5.4)	외적 타당도 — 모델/과제 일반화, 시간 안정성, 프롬프트 민감성
2026-03-27	experiment_design_v2.md §13 (§13.1~§13.4)	알려진 한계 — RLHF confound, RI 타당성, 4요소 식별, 추가 한계

Juhyeon's Blog

탐색기

12_validity_analysis