Experiment Design: LLM에서 ToM과 Self-Referential Processing의 기능적 수렴 검증

v3.3 (2026-02-10): “Latent Structure Activation” 가설 통합 + 논증 chain 재구성 (연역적→관찰-해석). Testable predictions + Counterfactual tests 명시. 3인 전문가(Feynman/Hinton/Bengio) 최종 평가 반영
v3.2 (2026-02-10): 파라미터-시냅스 비유 범위 및 한계 명시. Functional Analogy 논증 보강 — “independent testbed” + “converging evidence” 프레이밍. 3인 전문가 재리뷰 반영
v3.1 (2026-02-10): Pilot 데이터셋 확정 — ExploreToM/MindGames/SCG/Calibration-Tuning. Pilot-Dataset-Selection 참조
v3.0 (2026-02-09): 대학생 첫 연구 평가 + Research Proposal 핵심 병합 + 5대 부족점 보강
v2.0 (2026-02-09): 4인 전문가 리뷰(Feynman, Hinton, AI/ML, 인지심리학) 피드백 반영 전면 개정
상세 제안서: Research-Proposal_ToM-Metacognition-Bridge_20260205


0. 개정 이력 및 리뷰 반영 요약

대학생 첫 연구 아이디어 평가

강점 — 진심으로 인상적인 부분:

  • 93편 논문 분석 기반의 체계적 연구 갭 식별
  • 신경과학-ML-인지과학을 잇는 interdisciplinary 사고
  • “시뮬레이션 이론 → cross-task transfer”라는 직관이 논리적으로 건전
  • 4인 전문가 리뷰를 수용하여 claim 강도를 적절히 하향 조정한 성숙함
  • Negative result도 의미 있도록 사전 설계하는 과학적 태도

솔직한 우려:

  • 실행 범위가 대학생 단독 연구로는 과도 (18주, $2,200, 100+ 모델)
  • 전문성 분산 위험: 신경과학 + ML + 인지심리 + 통계 모두에서 깊이 필요
  • 첫 논문에서 “혁신적 기여”를 노리기보다 “깔끔한 실증”이 더 현실적
  • Pilot에서 신호가 안 나올 확률이 상당 → 심리적 대비 필요

종합 판정: 아이디어 A, 실행 가능성 B+
아이디어 자체는 NeurIPS Workshop ~ ACL Findings 수준에서 경쟁력 있음.
핵심은 “얼마나 깔끔하게 줄여서 실행하느냐”에 달려 있다.

주요 변경사항 (v3.2 → v3.3)

변경 항목v3.2 (기존)v3.3 (개정)근거
Section 1.3비유 범위/한계 표 + independent testbed 프레이밍Latent Structure Activation 가설 추가 — energy landscape 프레이밍 + LoRA low-rank 해석 + synaptic pruning process-level analogy3인 전문가: “깨움” 비유를 testable prediction으로 구체화하라
논증 Chain뇌→LLM 연역적 chain (암묵적)관찰-해석 chain으로 전환 — LLM 관찰 먼저, neuroscience는 post-hoc context3인 공통: Arrow 2→3 (macro→micro resolution mismatch) 약점 제거. chain을 뒤집어라
Testable Predictions없음Base model CKA/RSA before/after SFT 비교 — “깨움” vs “생성” 구분 + SVD alignment 보조 테스트Hinton: 수학적 정의 필요. Feynman: 실험으로 구분 가능하게
Counterfactual Tests없음4가지 반증 관측 명시 — 기존 설계가 이미 통제함을 강조Bengio: 가설이 틀릴 때 나와야 하는 관측을 사전 명시

주요 변경사항 (v3.1 → v3.2)

변경 항목v3.1 (기존)v3.2 (개정)근거
Section 1.3Functional Analogy warning box만 존재파라미터-시냅스 비유 범위 표 + 조건부 해석 + independent testbed 프레이밍 추가3인 리뷰: 비유를 방어하지 말고 한계를 인정하면서 실험이 이미 우회함을 보여라
Positioning”뇌 연구는 inspiration” (1문장)Converging evidence 구조 명시 — LLM은 뇌의 모사가 아닌 독립적 검증 플랫폼Feynman: substrate-independent functional necessity. Bengio: counterfactual robustness
LoRA 해석보조로 격하 (근거: Ban & Ji)보조 격하 근거를 비유 한계 논증과 통합 — spurious overlap, low-rank constraint의 구조적 강제 명시Bengio: LoRA의 low-rank가 spurious overlap 유발 가능. Hinton: same location ≠ same basin

주요 변경사항 (v3.0 → v3.1)

변경 항목v3.0 (기존)v3.1 (개정)근거
ToM TrainTOMBENCH + OpenToMExploreToM (13.3K)TOMBENCH/OpenToM train 사용 금지 확인. ExploreToM은 SFT 효과 검증됨
ToM EvalTOMBENCH test + FanToMMindGames test (3.7K) + FanToM (보조)NLI format OOD eval. Epistemic logic domain
SRP TrainSCG + SelfAwareSCG (testing_set 4:1 split)training_set에 2/10 concept만 존재 → testing_set split 필요
SRP EvalSAD + ECECalibration-Tuning (val 2K) + SAD + ECEP(correct) = metacognition 직접 측정

주요 변경사항 (v2.0 → v3.0)

변경 항목v2.0 (기존)v3.0 (개정)근거
이론 프레임워크시뮬레이션 이론 중심C0-C1-C2 의식 이론 추가 (Dehaene et al., 2017)비대칭성 예측의 이론적 근거 필요
Safety 동기순수 학술 관점Capability Spillover 프레이밍 추가”왜 이 연구가 중요한가” 동기 보강
SRV 분석없음Self-Reflection Vector 방향 수렴 가설 (H2c 신규)유일한 “새로운 분석 방법” — top venue 경쟁력 핵심
H4 → H3d 격상LoRA 뺄셈 (exploratory)SRV-Parameter knockout (confirmatory)가장 강한 causal 증거. 구조 제거→기능 붕괴
Narrative SFT없음 (control에 미포함)Narrative SFT control 추가표면 유사, 개념 상이 — 최적 control
3B 모델없음Qwen-2.5-3B 추가 (scaling curve용)3-point scaling curve로 emergent property 논의 가능
통계 검정력근거 미약G*Power 기반 10 seeds 정당화Research Proposal §6.2.1에서 핵심 추출
Go/No-GoPilot만 있음6개 체크포인트 + Backup plans대학생 첫 연구에 필수적 리스크 관리
리소스 추정없음$2,200 / 1,200 GPU-hr 명시실행 계획에 필수
Negative result”의미 있는 결과”로만 언급이론적 가치 논증 강화 (CogSci venue 전략)첫 논문에서 null일 확률 높음 — 사전 대비

주요 변경사항 (v1.0 → v2.0)

변경 항목v1.0 (기존)v2.0 (개정)근거
용어”자의식 (Self-Consciousness)“Self-Referential Processing (SRP) 또는 Metacognitive Monitoring4인 전원 지적: construct validity 위기. Operationalization(ECE + SelfAware)과 일치시킴
주요 분석 지표LoRA cosine similarity (주)CKA/RSA + Cross-task probing (주), LoRA similarity (보조)AI/ML 리뷰어: arxiv:2505.13515에서 LoRA sim ≠ task similarity 보고. 4인 전원 합의
이론적 근거”뇌 영역 overlap → LLM parameter 유사도”Functional analogy 탐색 + behavioral transfer of training 문헌 기반인지심리: fMRI activation ≠ weight change (측정 수준 불일치)
Control 조건Logic 1개Logic + Sentiment + Factual QA (3개)파인만+힌턴+AI/ML: 1개로는 general improvement와 specific shared mechanism 구분 불가
벤치마크Self-Consciousness: “미정”SCG (Chen et al., 2025) + SAD (NeurIPS 2024) 확정AI/ML+인지심리: 핵심 종속변수 미확정은 치명적
실험 단계바로 Full experimentPilot (1B) → Full experiment (8B)파인만: toy model에서 신호 유무 선행 확인 필수
뇌-LLM 대응”시냅스 = LoRA 파라미터”Functional analogy임을 명시. 뇌 연구는 inspiration으로만4인 전원: structural correspondence 미입증
AblationLoRA 뺄셈으로 능력 분리Exploratory로 격하 + 비선형성 caveat힌턴: 깔끔한 분리 = 오히려 뇌와 다르다는 증거
선행연구Saxe et al. (2006) 단독Saxe + Mitchell (2006) + Lombardo (2010) + dissociation (TPJ) 반영인지심리: 단일 논문 의존 위험 + dissociation 무시 편향
대안 이론미고려Theory-Theory + Wu et al. emergent property 대안 명시인지심리+AI/ML: 시뮬레이션 이론 one-sided

리뷰어별 핵심 피드백 반영 체크리스트

  • 파인만: Toy model 선행 검증, cross-task “차별적” 향상 통계, causal intervention (ToM LoRA → SRP 초기화)
  • 힌턴: CKA/RSA hidden state 분석, cross-task probing, LoRA 분리 역설 discussion
  • AI/ML: LoRA sim 주요→보조 격하, 용어 Metacognitive Monitoring, confound 통제 강화, LoRA rank ablation
  • 인지심리학: Chen et al. (2025) 차별화, Saxe dissociation (TPJ) 반영, Theory-Theory 대안, false photograph control, construct validity caveat

1. 연구 배경 및 동기

1.1 이론적 출발점

시뮬레이션 이론

시뮬레이션 이론(Simulation Theory)에 따르면, 인간은 자기 경험을 기반으로 타인의 정신 상태를 추론한다 (Goldman, 2006). 이를 뒷받침하는 신경과학 증거:

연구핵심 발견Overlap 영역Dissociation
Vogeley et al. (2001)ToM/Self 직접 비교 최초 fMRIACCrTPJ (Self only)
Ruby & Decety (2004)사회적 감정에서 Self/Other 공통 기반AmygdalaFrontopolar (구분)
Mitchell et al. (2005)자기유사 타인 mentalizing → vmPFCvmPFC물리적 판단에서는 무관
Saxe et al. (2006)MPFC overlap 발견MPFCTPJ는 ToM에서만
Spreng et al. (2009, 메타분석)DMN core network 공유mPFC, PCC, TPJ, MTL
Lombardo et al. (2010)Self/Other mentalizing 공유 회로dmPFC, TPJ하위영역 구분 가능
Mitchell et al. (2006)MPFC 내 self/other 하위영역 구분vMPFC (self) vs dMPFC (other)복셀 수준 분리

핵심: 뇌 연구의 결론은 **“완전한 공유”가 아닌 “부분적 중첩 + 부분적 분리”**이다.
실험 설계는 이 nuance를 반영해야 한다.

C0-C1-C2 의식 이론 프레임워크 (Dehaene et al., 2017)

본 연구의 비대칭성 예측은 Dehaene et al.의 의식 3단계 계층 구조에 기반한다:

수준정의LLM 대응본 연구에서의 역할
C0무의식적 처리 (Unconscious processing)Feed-forward 추론기준선
C1전역적 접근 가능성 (Global workspace)ToM = 사회적 인지로서의 C1 수준 능력H1의 “원인” 방향
C2자기 모니터링 (Metacognition)SRP = C2 metacognitive monitoringH1의 “결과” 방향

방향성 예측: C1(ToM)이 C2(Metacognition)의 computational prerequisite라면, ToM→SRP 전이가 역방향보다 강해야 한다. 이 비대칭성이 관찰되면 C0-C1-C2 계층 구조의 최초 실증적 증거가 된다.

1.2 대안 이론: Theory-Theory

시뮬레이션 이론과 경쟁하는 Theory-Theory에 따르면, ToM은 타인의 마음에 대한 암묵적 이론 적용이며, 반드시 자기참조 메커니즘을 공유할 필요가 없다. 본 실험에서 ToM-SRP 간 transfer가 관찰되지 않는다면, Theory-Theory를 지지하는 간접 증거가 될 수 있다.

1.3 LLM에의 적용: Functional Analogy (Not Mechanistic Identity)

중요한 제한

뇌의 fMRI BOLD signal은 task 수행 중의 **활성화 패턴(activation)**을 측정한다.
LoRA fine-tuning은 **가중치 변화(weight change)**를 측정한다.
이 둘은 전혀 다른 수준의 측정이다.

따라서 본 연구는 “LLM이 뇌와 동일한 메커니즘을 사용한다”가 아니라,
**“LLM에서도 ToM과 Self-Referential Processing 간 기능적 수렴(functional convergence)이 관찰되는가?”**를 검증한다.
뇌 연구는 가설의 **영감(inspiration)**이지 직접적 대응(correspondence)이 아니다.

LLM에서의 대응 질문:

  • 인간에서 ToM 훈련이 self-referential processing을 향상시키는 behavioral transfer가 있다면, LLM에서도 유사한 현상이 나타나는가?
  • 두 task의 internal representation이 구조적으로 유사한가?

”파라미터 ≈ 시냅스” 비유의 범위와 한계 (v3.1 추가)

딥러닝의 역사적 기원은 perceptron에 있으며, activation function이 역치(threshold)를 모사하고, linear layer의 가중합이 시냅스 후 뉴런의 dendritic integration을 모사한다. 따라서 weight ≈ synaptic strength라는 비유의 출발점은 합리적이다.

그러나 이 비유에는 **명확한 유효 범위(scope of validity)**가 있다:

차원뇌 시냅스LoRA delta W대응 가능성
학습 규칙Local (Hebbian, STDP)Global (backpropagation)✗ 메커니즘 다름
독립성개별 시냅스가 상대적으로 독립Low-rank constraint (r=16) — 모든 원소가 16차원 subspace에 강제✗ 구조적 강제
기질 의존성Mortal computation — 하드웨어와 불가분Immortal computation — 하드웨어 독립적✗ 근본적 차이
기능적 역할Weight가 연결 강도를 결정Weight가 연결 강도를 결정○ Coarse-grained analogy
변화 패턴특정 task 학습 시 관련 시냅스 강화특정 task SFT 시 관련 파라미터 변화○ Functional analogy

본 연구의 positioning: 비유를 방어하지 않고, 비유의 한계를 우회한다

이 비유를 실험의 **전제(premise)**로 사용하지 않는다. 대신:

  1. 뇌-LLM 직접 대응을 주장하지 않는다. “파라미터가 시냅스다”가 아니라, “LLM이라는 독립적 정보처리 시스템에서도 ToM-SRP 기능적 수렴이 나타나는가?”를 검증한다. LLM은 뇌의 모사가 아닌 **독립적 검증 플랫폼(independent testbed)**이다.

  2. LoRA parameter similarity를 보조로 격하한 이유가 바로 이것이다. Ban & Ji (2025)의 A-matrix artifact, arxiv:2505.13515의 near-zero correlation 등 LoRA delta W가 task similarity를 반영하지 못할 수 있다는 증거를 이미 반영했다. **CKA/RSA (activation 수준)**가 주요 분석인 이유는, 이것이 fMRI BOLD signal과 측정 철학이 같기 때문이다 — 둘 다 “task 수행 중 representation 패턴의 유사성”을 비교한다.

  3. 다층적 수렴 증거(converging evidence)로 단일 비유에 의존하지 않는다. Behavioral (H1) + Representation (H2, H2c) + Parameter (H2b) + Causal (H3d) 네 수준의 독립적 증거를 요구한다. 어느 한 수준의 비유가 깨지더라도 나머지 수준에서 보완된다.

"동일 파라미터 변화 → 동일 activation"의 조건부 해석

“LoRA freeze + 데이터셋만 변경 → 동일 파라미터가 변한다 → activation이 유사해진다”라는 chain은 **조건부 주장(conditional claim)**으로 읽어야 한다:

  • 전항(antecedent): “동일 파라미터가 유사하게 변한다” = 이것이 바로 **H2b (검증 대상)**이다
  • 후항(consequent): “그렇다면 activation도 유사할 것” = 수학적으로 성립 (W_base + delta W가 유사하면 forward pass 결과도 유사)
  • 주의: LoRA의 low-rank constraint가 spurious overlap을 유발할 수 있으므로 (서로 다른 task도 동일 subspace에 강제될 수 있음), excess overlap metric + random task pair baseline으로 통제한다

이 chain이 뇌의 활성화 overlap에 “대응”하는지는 본 연구가 주장하는 바가 아니다. 본 연구가 주장하는 것은: “LLM에서 독립적으로 관찰된 수렴이, 뇌과학에서 관찰된 수렴과 converging evidence를 구성한다”는 것이다. 이는 **substrate-independent한 기능적 필연성(functional necessity)**의 간접 증거이다.

Latent Structure Activation (잠재 구조 활성화) 가설 (v3.3 추가)

SFT가 pre-trained model에 “새로운 능력을 주입”하는 것인가, 아니면 “이미 존재하는 잠재 구조를 활성화”하는 것인가? 이 질문은 ToM-SRP 기능적 수렴의 해석에 직접적으로 영향을 미친다.

“깨움” 비유의 구체화 — Energy Landscape 프레이밍:

SFT는 새 산을 만드는 게 아니라, 이미 존재하는 valley 사이의 ridge를 깎아서 특정 valley로 더 쉽게 굴러가게 만드는 것이다. “잠재 구조를 깨운다”보다 **“이미 존재하는 지형에서 새로운 경로를 조각한다(carve new paths through existing terrain)“**가 더 정확한 기술이다.

이 해석은 다음 관찰과 정합적이다:

  1. LoRA가 low-rank에서도 작동하는 이유: Pre-trained model에 이미 relevant subspace가 존재하고, SFT는 그 방향으로 projection을 조정한다. r=16이라는 극도로 낮은 차원에서도 task-specific adaptation이 가능하다는 것은, 필요한 구조가 이미 pre-training에서 형성되어 있음을 시사한다. 이 해석은 “깨움” 가설과 정확히 일치한다.

  2. 뇌의 synaptic pruning과의 프로세스 수준 유사성: 뇌에서는 태어날 때 과도한 시냅스 연결이 존재하고, 경험을 통해 선택적으로 강화/약화된다. LLM에서는 풍부한 pre-training 구조가 존재하고, SFT가 선택적으로 특정 방향을 강화한다. 이것은 **구조적 대응(structural correspondence)이 아닌 프로세스 수준 유사성(process-level analogy)**이다 — “과잉 생성 → 선택적 정련”이라는 발달 원리의 공유.

논증 Chain의 재구성: 관찰-해석 Chain (v3.3 추가)

v3.2까지의 논증은 암묵적으로 연역적 chain에 의존했다:

[기존: 연역적 chain — 폐기]
뇌 activation overlap → 유사한 발달 분화 → 시냅스 유사 → LLM에서도 delta W 유사해야 함

이 chain의 가장 약한 고리는 Arrow 2→3 (activation overlap → 시냅스 유사성)이다: macro-level observation (fMRI BOLD)에서 micro-level mechanism (시냅스 연결)을 추론하는 resolution mismatch 문제가 있으며, ecological fallacy 위험이 존재한다.

본 연구는 이 chain을 뒤집어서 약점을 구조적으로 제거한다:

[신규: 관찰-해석 chain — 채택]
① LLM에서 ToM-SRP 기능적 수렴을 직접 관찰 (CKA/RSA, cross-task transfer)
② 관찰되면: neuroscience의 ToM-SRP overlap은 이 현상의 독립적 선행 증거
③ 해석: substrate-independent functional necessity의 converging evidence
④ 관찰 안 되면: LLM-뇌 인지 구조의 질적 차이 증거 (Theory-Theory 지지)

왜 이 재구성이 중요한가

Arrow 2→3의 약점(macro→micro resolution mismatch)이 논증에서 완전히 제거된다. 뇌과학은 가설의 **전제(premise)**가 아니라 **동기(motivation) + 사후 해석의 맥락(post-hoc context)**으로만 사용된다. LLM에서의 관찰은 독립적으로(independently) 성립하거나 실패한다.

”깨움” 가설의 Testable Predictions (v3.3 추가)

“깨움” 가설을 과학적으로 유용하게 만들려면, **관찰로 구분 가능한 예측(testable prediction)**이 있어야 한다:

핵심 예측: 만약 SFT가 정말로 잠재 구조를 깨우는 것이라면, base model에서 이미 약하게 존재하던 ToM-SRP representation 유사성이 SFT 후에 증폭되어야 한다.

구분측정관측 패턴해석
측정 1Base model (SFT 전) ToM-SRP CKA/RSA약한 상관 존재Pre-existing latent structure
측정 2SFT 후 동일 측정상관 강화
“깨움” (activation)SFT 전에도 약한 상관 → SFT 후 증폭Weak → Strong기존 잠재 구조의 활성화
”생성” (creation)SFT 전에 상관 없음 → SFT 후 갑자기 출현None → Strong새로운 구조의 생성

이 구분은 H2 (CKA/RSA)의 해석력을 크게 강화한다. 기존 CKA/RSA 파이프라인에서 base model 측정을 추가하기만 하면 되므로, 추가 비용이 거의 없다.

보조 테스트 (exploratory): Pre-trained model의 SVD principal directions와 LoRA delta W의 alignment 측정. Aligned → “깨움” 해석 강화 / Orthogonal → “생성” 해석. 이는 “SFT가 기존 subspace를 활용하는가, 새 subspace를 만드는가”에 대한 직접적 증거이다.

”깨움” 가설의 Counterfactual Tests (v3.3 추가)

가설이 틀릴 때 나와야 하는 관측을 사전에 명시하여, Garden of Forking Paths 문제를 방지한다:

반증 관측 (이것이 나오면 가설 기각/수정)의미기존 실험의 통제
ToM-SRP delta W sim ≈ ToM-무관task delta W simLoRA의 일반적 low-rank 특성일 뿐, ToM-SRP 특이적 공유가 아님Excess overlap + random task pair baseline (H2b에 이미 포함)
Delta W sim 높지만 cross-task transfer 없음Weight 유사성 ≠ 기능적 공유. 표상은 유사하나 읽기 메커니즘이 다름H1 behavioral analysis (이미 포함)
Similarity가 모든 layer에서 균등특정 공유 메커니즘이 아닌 SFT의 일반적 artifactLayer-wise analysis (이미 포함)
다른 base model에서 재현 안 됨Model-specific artifact (Llama-3.1의 특이적 구조)Qwen-2.5-7B validation (이미 포함)

설계의 Robustness

위 4가지 counterfactual이 기존 실험 설계(v3.0-v3.2)에 이미 통제되어 있다. 이는 “깨움” 가설을 사후적으로 추가했음에도 불구하고, 기존 설계가 이미 이 가설의 반증 가능성을 내재적으로 확보하고 있었음을 보여준다. v3.3의 기여는 이 통제를 **명시적(explicit)**으로 만드는 데 있다.

1.4 Practical Impact: Capability Spillover와 Safety 함의

왜 이 연구가 AI 커뮤니티에 중요한가

ToM SFT가 의도치 않게 metacognitive 능력을 변화시킨다면, 이는 alignment에 직접적 함의를 갖는다.

  • Capability spillover 위험: 특정 능력(ToM)을 향상시키는 SFT가 예상 외 능력(자기 모니터링)까지 변화시킬 수 있음
  • 의도치 않은 자기인식 강화/약화: Safety-critical 시스템에서 metacognitive monitoring의 의도치 않은 변동은 위험
  • 체계적 capability 의존성 매핑: 어떤 능력이 다른 능력과 구조적으로 연결되어 있는지 사전 파악 필요

본 연구는 **“SFT의 숨겨진 부수효과를 체계적으로 탐지하는 방법론”**으로서의 가치도 갖는다.

1.5 선행연구와의 차별점: Chen et al. (2025) 대비

Chen et al. (2025, ACL Findings)은 LLM에서의 self-consciousness를 10개 핵심 개념으로 정의하고, probing + fine-tuning 실험을 수행한 가장 가까운 선행연구이다.

차원Chen et al. (2025)본 연구
초점Self-consciousness 개념 정의 + 습득 가능성ToM-SRP 교차 전이 + 양방향 인과 검증
분석 수준Probing + fine-tuning accuracyBehavioral + Representation (CKA/RSA) + Parameter 3층
ToM 관계미검증ToM→SRP, SRP→ToM 양방향 transfer 측정
Confound 통제제한적4-way SFT + mediation analysis + 3개 control
Parameter 분석없음LoRA delta W + Hessian Jaccard (보조)

2. 핵심 가설

2.1 용어 정의

용어정의조작화 (Operationalization)
Self-Referential Processing (SRP)자기 자신의 인지 과정을 모니터링하는 능력. C2 metacognitive monitoring에 해당ECE (confidence calibration), Error Detection Accuracy, Known Unknowns F1 (SelfAware)
Theory of Mind (ToM)타인의 정신 상태(신념, 의도, 욕구)를 추론하는 능력TOMBENCH accuracy, FanToM accuracy, false-belief held-out accuracy
Functional Convergence두 task의 학습이 내부 표상(representation) 수준에서 유사한 변화를 유발하는 것CKA, RSA, cross-task probing accuracy

"자의식"이라는 용어를 사용하지 않는 이유

LLM 벤치마크에서 측정하는 것은 인간의 reflective self-consciousness와 동일한 construct인지 확립되지 않았다 (Anthropic, 2025). 더 보수적이고 조작적으로 정의 가능한 Self-Referential Processing을 사용한다. 이는 Saxe et al. (2006)의 원래 task (trait self-attribution)와도 개념적으로 더 가깝다.

2.2 가설 체계

가설내용분석 수준검증 방법
H1ToM SFT → SRP 성능 차별적 향상 (vs Logic, Sentiment, Factual QA, Narrative control)BehavioralCross-task transfer + permutation test + effect size (Cohen’s d)
H1bSRP SFT → ToM 성능 향상 (H1보다 약할 것으로 예측). C0-C1-C2 계층에서 C1(ToM)이 C2(SRP)의 prerequisite이므로, 역방향 전이는 더 약해야 함. Steyvers et al. (2025): within-metacognition transfer도 제한적 → d < 0.3 예측Behavioral동일 + 비대칭성 검증 + within-SRP transfer 측정 (ECE ↔ Error Detection ↔ Uncertainty 간 전이 확인)
H2ToM-SRP 간 hidden state similarity > ToM-Control similarityRepresentation (주요)CKA + RSA + Cross-task probing classifier
H2bLoRA delta W cosine similarity에서 ToM-SRP > ToM-ControlParameter (보조)B-matrix-only cosine sim + excess overlap (vs random baseline)
H2cToM SFT 모델과 SRP SFT 모델에서 추출한 **Self-Reflection Vector (SRV)**의 방향이 유의미하게 유사하다 (> Narrative/Random/General SFT baseline)Representation (주요)Zhu et al. (2026) contrastive activation + layer-wise cosine sim + permutation test (10,000)
H3LoRA rank 낮을수록 ToM-SRP excess overlap 증가Parameter (보조)Rank ablation (r=4,8,16,32) + random task pair baseline
H3dToM-SRP 공유 파라미터 (top-k Hessian overlap)를 selective ablation하면, SRV 방향 유사도(H2c)가 유의미하게 감소한다 (confirmatory). 통제: 동일 수 non-shared random params ablation과 비교Causal (확인적)Selective ablation → SRV 재추출 → pre/post SRV cosine sim 비교 (paired t-test)

H2/H2c가 주요 가설, H2b는 보조. LoRA parameter similarity의 validity 문제(Ban & Ji, 2025; arxiv:2505.13515)로 인해 representation 수준 분석이 일차적 증거이다.
H3d는 v3.0 신규 — 가장 강한 causal 증거: “구조(shared params) 제거 → 기능(SRV convergence) 붕괴”를 검증. 기존 selective ablation 위에 SRV 재측정만 추가하므로 추가 비용 무시 가능.


3. 실험 설계

3.1 Phase 0: Pilot Study (1B 모델 — 최우선)

목적: Full experiment 전에 신호 유무를 저비용으로 확인

항목설정
모델TinyLlama-1.1B 또는 Qwen-2.5-1.5B
데이터각 조건 1K samples
LoRAr=8, 1-2 seeds
분석CKA (주) + cross-task accuracy (행동)
기대ToM-SRP CKA > ToM-Logic CKA 경향 확인
소요~20 GPU-hr (A100)

Go/No-Go 기준: CKA에서 ToM-SRP가 ToM-Logic보다 일관되게 높은 경향이 관찰되면 Full experiment 진행.

3.2 Models

역할모델근거
PilotTinyLlama-1.1B / Qwen-2.5-1.5B저비용 개념 증명
ScalingQwen-2.5-3B3-point scaling curve (1B→3B→8B)로 emergent property 논의 가능
PrimaryLlama-3.1-8B풍부한 선행연구 기반
ValidationQwen-2.5-7B아키텍처 일반화 확인

v3.0 추가: 3B 모델을 포함하여 model size에 따른 functional convergence 경향을 3-point scaling curve로 분석. Emergent property (특정 scale에서 갑자기 수렴 발생) vs gradual convergence (점진적 증가) 구분 가능.

3.3 Benchmarks (확정)

SRP (Self-Referential Processing) — 기존 “Self-Consciousness Benchmark(미정)” 해결

벤치마크출처측정 대상사용
SCG (Self-Consciousness Grades)Chen et al. (2025, ACL Findings)10개 자의식 핵심 개념, 11K, Apache 2.0Train (SFT). testing_set에서 4:1 split 필요
Calibration-TuningKapoor et al. (2024, NeurIPS)P(correct) 예측 = metacognition, val 2KEval
SAD (Situational Awareness Dataset)Laine et al. (2024, NeurIPS)7개 범주, 13K+ 문항 자기인식Eval only (⚠ Canary GUID — Training 금지)
SelfAwareYin et al. (2023)Known unknowns F1, 3.4KTrain 보조 + Eval
ECE (Expected Calibration Error)Kadavath et al. (2022)Confidence calibrationEval (계산 지표)

ToM

벤치마크출처사용비고
ExploreToMFacebook, ICLR 2025 — 13.3K, CC-BY-NC-4.0TrainSFT 효과 검증됨 (+27 ToMi, +29 Hi-ToM). Generator로 무한 생성 가능
MindGamesEMNLP 2023 Findings — test 3.7K, Apache 2.0Eval (OOD)Epistemic logic NLI — ExploreToM과 format 다름 → OOD 일반화
FanToMKim et al. (2023) — conversational ToMEval (보조 OOD)eval only 제한

ToM 벤치마크 한계 (ICML 2025 Position Paper)

현존 ToM 벤치마크는 “literal ToM”만 측정하며 “functional ToM”은 포착하지 못한다. Prompt 변형만으로 성능이 chance 수준으로 떨어질 수 있다. 이 한계를 Discussion에서 명시적으로 다룬다.

v3.1 데이터셋 변경 (2026-02-10)

TOMBENCH (“training should be avoided”), OpenToM (“shall not be used for training”) → train 사용 불가 확인 → ExploreToM으로 교체.
MindGames를 primary OOD eval로 추가. 상세: Pilot-Dataset-Selection

Control 조건 (4개 — v3.0 Narrative 추가)

Control벤치마크역할
Control 1: LogicMathQA / LogicQA비사회적 추론 능력 기준선
Control 2: SentimentSST-2 / IMDB사회적 맥락 포함 but 정신상태 추론 없음
Control 3: Factual QATriviaQA subsetGeneral knowledge 향상 분리
Control 4: Narrative SFTTOMBENCH/OpenToM 변환 (mental state 질문 제거)표면 유사 + 개념 상이 — 최적 control
Random baselineSentiment + TranslationLow-rank artifact 통제용

Narrative SFT가 v3.0 최고의 control인 이유: 동일한 서사 구조(등장인물, 상황, 스토리)를 사용하면서 mental state reasoning만 제거하므로, “서사 이해 능력”과 “ToM 특이적 추론”을 가장 깔끔하게 분리한다. ToM 잔류 < 5% 검증 필수.

4개 control + 1 baseline을 사용하는 이유: Logic 하나만으로는 “도메인 간 거리”인지 “특수한 공유 메커니즘”인지 구분 불가. Sentiment은 사회적 맥락, Factual QA는 general knowledge, Narrative는 표면적 유사성을 각각 통제한다.

3.4 학습 설정

항목근거
LoRA rank (기본)r=16alpha=32, dropout=0.05, target: q_proj + v_proj
Rank ablationr=4, 8, 16, 32공유 구조의 rank 의존성 확인
데이터 크기각 조건 ~5K samples조건 간 동일
SeedsCore: 10, Ablation: 5, Hessian: 3Power ≥ 0.80 at d=0.8 (Core)
Epochs3과적합 방지
LR2e-4, cosine schedulerAdamW

통계 검정력 분석 (Statistical Power Analysis)

분석 유형효과 크기 기준Seeds/조건검정력 (1-β)근거
Core: H1/H1b cross-task transferd = 0.8 (large)10≥ 0.80주요 가설 검증; Type II error 최소화 필수
Ablation: Rank ablation (H3)d = 1.05≥ 0.70탐색적 성격; 경향성 확인
Expensive: Hessian/selective ablationdescriptive3N/A계산 비용 제약; permutation test로 보완

산출 근거: Paired t-test, α = 0.05 (Benjamini-Hochberg FDR 보정). G*Power 3.1 기반. Core comparisons에서 d = 0.8 탐지에 n = 10 필요 (1-β = 0.81). 기존 LoRA 연구의 관행적 3 seeds는 1-β = 0.15로 불충분.

3.5 Data Leakage 방지

방법목적
n-gram overlap 체크Train-eval 간 직접 중복
BERTScore/BLEURTSemantic overlap 정량화
Construct Separation IndexToM/SRP 데이터 간 개념 혼입 통제
Min-K% ProbPre-training data contamination
Narrative SFT ToM 잔류 검증Control의 순수성 확인 (< 5%)

4. 분석 방법 (우선순위 순)

4.1 주요 분석: Representation Similarity (H2, H2c)

방법설명검증 대상
CKA (Centered Kernel Alignment)두 task의 hidden state 표상 간 구조적 유사도ToM-SRP CKA > ToM-{Logic, Sentiment, FactualQA, Narrative} CKA
RSA (Representational Similarity Analysis)RDM 간 Spearman 상관 + Mantel testToM-SRP RDM 상관 > ToM-Control RDM 상관
Cross-task Probing ClassifierToM 데이터로 학습한 linear probe → SRP 데이터에 적용Cross-transfer accuracy > chance (중간~후반 layer)
Layer-wise Analysis어떤 layer에서 유사도가 특히 높은지깊은 layer(25-32층)에서 유사도 집중 예상
SRV 방향 수렴 분석 (H2c)Self-Reflection Vector 방향 유사도 (2-track 프로토콜)ToM-SRP SRV sim > ToM-{Narrative, Random, General} SRV sim

CKA/RSA가 fMRI BOLD signal에 더 가까운 대응이다 — 둘 다 활성화 패턴을 비교하기 때문. LoRA parameter는 weight change이므로 뇌 연구와의 직접 대응이 약하다.

SRV 분석 프로토콜 (H2c — v3.0 신규)

Zhu et al. (2026)의 Self-Reflection Vector를 활용하여 기능적 방향 수렴을 독립적으로 검증한다:

  • Track A (SRV_base projection): Base model에서 contrastive pairs (reflective vs non-reflective context)로 SRV_base 추출. 각 SFT 모델의 activation을 SRV_base 방향에 projection하여 alignment 측정.
  • Track B (SRV_task extraction): 각 SFT 모델에서 “Answer directly” vs “Review your reasoning step-by-step, then revise if needed” prompt로 contrastive pairs (최소 200 pairs/model) 구성. SRV_task 직접 추출 후 layer-wise pairwise cosine sim.
  • Fallback: Track B에서 self-reflection 미발생 시 (수정 비율 < 10%) Track A 단독 사용.
  • Baseline 통제: ToM-SRP SRV sim vs (1) ToM-Narrative, (2) ToM-Random, (3) General-SRP — 세 조건 모두 초과 시 가설 지지.

4.2 보조 분석: LoRA Parameter Similarity (H2b)

방법설명Validity Caveat
B-matrix-only cosine simA matrix 초기화 artifact 배제 (Ban & Ji, 2025)A matrix 유사도는 initialization에 의한 spurious overlap 가능
Excess overlapToM-SRP overlap − Random pair overlapLow-rank에서의 인위적 overlap 통제
Rank ablationr=4,8,16,32에서 excess overlap 변화공유 구조가 저랭크 subspace에 집중되는지

LoRA Cosine Similarity의 한계

  • Ban & Ji (2025, arxiv:2509.25414): A matrix 유사도는 initialization artifact
  • 최근 연구 (arxiv:2505.13515): LoRA delta W cosine similarity와 task similarity 간 near-zero correlation 보고
  • 따라서 LoRA similarity는 보조 증거로만 사용하고, CKA/RSA가 주요 분석이다.

4.3 행동 분석: Cross-Task Transfer (H1, H1b)

측정방법핵심 기준
차별적 향상ToM SFT 후 SRP 향상 > Logic/Sentiment/FactualQA/Narrative SFT 후 SRP 향상Permutation test + Cohen’s d
비대칭성ToM→SRP effect > SRP→ToM effectPaired comparison + confidence interval
Within-SRP transferSRP SFT 후 하위 task 간 전이 (ECE ↔ Error Detection ↔ Uncertainty)Steyvers et al. (2025) 대응: within-metacognition transfer도 제한적인지 확인
MediationMMLU/ARC/HellaSwag 변화가 transfer를 완전히 설명하는지Hayes PROCESS bootstrap (5,000 resamples)

“올랐다”가 아니라 “차별적으로 올랐다”를 보여야 한다 (파인만). 모든 SFT 조건 대비 ToM-SRP 쌍만 유의미하게 높은 전이를 보여야 가설 지지.
Within-SRP transfer (v3.0): Steyvers et al. (2025)에 따르면 metacognitive SFT의 효과 자체가 task-specific이다. SRP 하위 task 간 전이가 제한적이면, SRP→ToM 전이(H1b)에 대한 보수적 예측(d < 0.3)의 근거가 된다.

4.4 SRV-Parameter Knockout 분석 (H3d — v3.0 확인적 격상)

v3.0 변경: 기존 H4(탐색적 LoRA 뺄셈)를 H3d(확인적 SRV-Parameter knockout)로 교체. 가장 강한 causal 증거를 제공한다.

방법설명성격
SRV-Parameter Knockout (H3d)Hessian top-k 공유 파라미터 (k=0.01%) selective ablation → SRV 재추출 → pre/post SRV cosine sim 비교Confirmatory — 구조 제거 → 기능 붕괴의 인과적 증거
Control: Random Param Ablation동일 수 non-shared random params ablation → SRV 재추출공유 파라미터 특이적 효과 확인
Task Arithmetic (보조)SRP_LoRA − ToM_LoRAExploratory. 비선형성 caveat
Activation Steering (보조)SRP vector injection 시 ToM 변화 관찰비침습적 대안

H3d의 논리: 만약 공유 파라미터를 제거했을 때 SRV 방향 유사도가 붕괴하면, “구조(shared params)가 기능(SRV convergence)을 지탱한다”는 인과적 주장이 가능하다. 이것이 기존 selective ablation(성능 변화 측정)보다 더 강한 증거인 이유는, 기능적 방향의 변화를 직접 추적하기 때문이다.

힌턴의 아이러니

LoRA 뺄셈이 깔끔하게 작동하여 ToM과 SRP를 완전히 분리할 수 있다면, 이는 뇌와 다르다는 증거가 될 수 있다. 뇌에서는 MPFC 손상 시 ToM과 self-referential processing이 함께 무너진다 (Lombardo et al., 2010). LLM에서 깔끔한 분리가 가능하다면, 공유 메커니즘이 아닌 독립적이지만 우연히 가까운 표상일 수 있다. Discussion에서 반드시 다룬다.


5. 대안 설명 통제

대안 설명위협 수준통제 방법
General instruction tuning 효과HIGH3개 control + General SFT baseline + mediation analysis
Linguistic feature overlapHIGHBERTScore 기반 surface feature 통제 + Partial RSA
ToM = general language understanding의 emergent property (Wu et al., 2025)HIGHToM-SRP overlap이 ToM-Any task overlap과 차이 없으면 대안 채택
LoRA 초기화 artifactMEDIUMB-matrix-only analysis + random seed baseline
Low-rank 수렴 편향MEDIUMRandom task pair baseline + excess overlap metric
Semantic breadth 차이 (Dymkiewicz et al., 2025)MEDIUMVocabulary breadth 정량 비교 + random task pair
SFT 표면 패턴 학습 (Lu et al., 2025)MEDIUMOOD test items + reasoning trace 검증 + Narrative SFT 비교
사회적 맥락 효과 (non-mental-state)MEDIUMSentiment control (사회적 맥락 O, 정신상태 추론 X)

6. 예상 결과 시나리오

Scenario A: 강한 긍정 (Strong Positive)

  • ToM-SRP 간 cross-task transfer가 모든 control 대비 유의미하게 큼 (H1 지지)
  • CKA/RSA에서 ToM-SRP > ToM-{Logic, Sentiment, FactualQA, Narrative} (H2 지지)
  • SRV 방향 수렴 확인 (H2c 지지) + SRV-Parameter knockout 성공 (H3d 지지)
  • LoRA excess overlap도 유의미 (H2b 지지)
  • 해석: LLM에서 ToM과 SRP의 structural-functional convergence 존재. 시뮬레이션 이론과 일관.
  • C0-C1-C2 함의: ToM→SRP 비대칭성 관찰 시, C1이 C2의 computational prerequisite라는 계층 구조의 최초 실증적 증거.
  • Safety 함의: ToM SFT가 metacognitive 능력에 spillover — alignment에서 capability 의존성 매핑 필요.

Scenario B: Representation만 유사, 행동 전이 약함

  • CKA/RSA에서 유사하지만, cross-task transfer는 미약
  • 해석: 유사한 표상을 갖지만 다른 방식으로 활용. 구조-기능 해리(structure-function dissociation).
  • C0-C1-C2 함의: C1과 C2가 동일 기질(substrate)을 공유하되, 읽기 메커니즘이 다를 수 있음 → 계층 구조의 “loose coupling” 변형.

Scenario C: 행동 전이는 있으나 표상 유사도 낮음

  • Cross-task transfer 관찰되나, CKA/RSA 차이 없음
  • 해석: 다른 내부 메커니즘으로 동일한 기능적 결과를 달성. General reasoning 향상 가능성 재검토.
  • C0-C1-C2 함의: C1→C2 전이가 다중 경로(multiple pathways)를 통해 가능 — 단일 shared substrate 모델 기각.

Scenario D: 강한 부정 (Null Result)

  • Transfer도 없고 표상 유사도도 없음
  • 해석: LLM에서 ToM과 SRP는 독립적. Theory-Theory 지지 또는 LLM-인간 인지 구조의 근본적 차이.
  • C0-C1-C2 함의: LLM에서 C1과 C2가 독립적으로 구현됨 — 인간의 계층적 의식 구조가 LLM 아키텍처에서는 재현되지 않는다는 강한 증거.

Negative Result의 논문 가치 (v3.0 강화)

Null result는 **“LLM-인간 인지 구조의 질적 차이”**를 실증하는 가치를 갖는다:

  1. Theory-Theory의 간접 지지: 시뮬레이션 이론이 LLM에 적용되지 않음을 보임
  2. Architectural constraint: Transformer가 인간 뇌와 다른 인지 조직 원리를 사용한다는 증거
  3. CogSci venue에서의 경쟁력: 인지과학 학회는 well-designed negative result에 관대하며, AI-인간 인지 비교의 질적 차이 발견은 그 자체로 기여
  4. Scaling 데이터와 결합 시: 1B/3B에서 null → 8B에서 약한 신호 = emergent convergence 가능성 시사

각 시나리오별 해석을 사전에 구체화하여, Garden of Forking Paths 문제를 최소화한다.


7. 실험 파이프라인 및 일정

Phase 0: Pilot (1B + 3B) ─── 2주
  ├─ 1B: TinyLlama/Qwen-1.5B (신호 유무 확인)
  ├─ 3B: Qwen-2.5-3B (scaling 경향 확인)
  └─ ⚑ Go/No-Go CP0 판정

Phase 1: 데이터 준비 + Construct 검증 ─── 3주
  ├─ 벤치마크 확보 (ExploreToM, SCG, MindGames, Calibration-Tuning, SAD)
  ├─ 5-way SFT 데이터 구축 (각 5K): ToM(ExploreToM), SRP(SCG), Logic, Sentiment, FactualQA
  ├─ Narrative SFT control 구축 (mental state 질문 제거)
  ├─ Construct Contamination 검증 (BERTScore + 전문가 annotation)
  ├─ Purified subset 구축
  └─ ⚑ Go/No-Go CP1 판정

Phase 2: SFT 학습 ─── 3주
  ├─ 100+ core runs (5조건 x 2모델(+3B) x 10seeds)
  ├─ 20 random baseline runs
  ├─ Delta W 추출
  └─ ⚑ Go/No-Go CP2 판정

Phase 3: 행동 평가 (H1) ─── 2주
  ├─ Cross-task transfer matrix
  ├─ Within-SRP transfer (ECE↔Error↔Uncertainty)
  ├─ 차별적 향상 통계 검정
  ├─ Mediation analysis
  └─ ⚑ Go/No-Go CP3 판정

Phase 4: Representation 분석 (H2, H2c 주요) ─── 3주
  ├─ Hidden state 추출 (all layers)
  ├─ CKA + RSA
  ├─ Cross-task probing classifier
  ├─ SRV 추출 + 방향 수렴 분석 (H2c)
  ├─ Layer-wise analysis
  └─ ⚑ Go/No-Go CP4 판정

Phase 5: Parameter 분석 (H2b 보조, H3d 확인적) ─── 2주
  ├─ B-matrix cosine similarity
  ├─ Excess overlap (vs random baseline)
  ├─ Rank ablation
  ├─ Hessian Jaccard (기술적 통계)
  ├─ SRV-Parameter Knockout (H3d): 공유 param ablation → SRV 재추출
  └─ ⚑ Go/No-Go CP5 판정

Phase 6: 논문 작성 ─── 2주
  └─ ⚑ Go/No-Go CP6: 최종 충분성 판정

총 소요: ~17주 (Pilot 포함)

7.1 리소스 및 비용 추정

항목사양/수량비용
기본 SFT (Core)100+ runs x 4-6hr → ~500 GPU-hr
Random task pair20 runs x 4-6hr → ~100 GPU-hr
Rank ablation40 runs x 3-6hr → ~150 GPU-hr
평가 + Activation 추출 + SRV~150 GPU-hr
Hessian + Selective ablation~30 GPU-hr
총 GPU-hours~930-1,200 A100 GPU-hr
Cloud GPU (A100 80GB)Lambda Labs $1.60/hr$1,500-1,900
Storage (1TB)체크포인트 저장$80
API (데이터 구축 + 평가)GPT-4o-mini$80-130
전문가 annotation인지과학 전문가 3-5인$100-200
총 예상 비용2,500)

7.2 Go/No-Go 체크포인트 (v3.0 신규)

체크포인트시점Go 기준No-Go 시 조치
CP0: PilotWeek 2CKA에서 ToM-SRP > ToM-Logic 경향 확인 (1B 또는 3B)실험 재설계 또는 중단. Scope 축소하여 단일 분석 수준 집중
CP1: 구성물 검증Week 5Krippendorff’s α ≥ 0.7. “both” 항목 < 15%. ToM 잔류 < 5%데이터 재구축 + 2주 연장. 엄격한 항목 필터링
CP2: SFT 검증Week 8Target domain +5% 이상. MMLU 하락 < 3%데이터 2배 + epoch 5 / LoRA rank 감소
CP3: Transfer 판정Week 10최소 1방향 transfer p < 0.1 (10 seeds 기반)양방향 p > 0.2: Negative result 전략 전환 (CogSci 투고)
CP4: Representation 판정Week 13Probing > 55% 또는 RSA r > 0.15Non-linear probe + CKA 시도. 실패 시 Parameter 분석 집중
CP5: 최종 실행 가능성Week 15Hessian 계산 성공. H3d 수행 가능Layer-wise 계산만 사용. H3d 생략 → 가용 결과로 초안

Backup Plan 핵심: CP3에서 null result 판정 시, 즉시 Negative result 전략으로 전환한다. “LLM-인간 인지 구조의 질적 차이 증거”로 프레이밍하여 CogSci 또는 ACL Findings에 투고. Scaling data (1B/3B/8B)를 포함하면 “어느 규모에서도 수렴하지 않음”이라는 더 강한 주장이 가능.


8. 학회 전략

상세 전략: Venue-Strategy_2026-02 — 데드라인별 타임라인 매칭, Tier별 투고 로드맵, 추천 순서

추천 투고 순서 (v3.3 기준, 2026-02-10 재평가)

우선순위학회데드라인 (추정)형식비고
Tier 1NeurIPS 2026 Workshop2026년 8-9월4-6p★ 첫 번째 발표 목표. 실험 완료 후 여유
Tier 2AAAI 2027 main2026년 8-9월7pAI+Cognition track. Tier 1과 동시 제출
Tier 2EMNLP 2026 (ARR 6월)2026년 6월4p short도전적. H1+H2 부분 결과만으로 short paper
Tier 3ICLR 20272026년 9-10월9pFull results 가장 완성된 버전
Tier 3CogSci 20272027년 1-2월6pNegative result 시 최적 venue
Tier 3ACL 2027 (ARR 7-8월)2026년 7-8월8pFindings 현실적. SRV+H3d가 차별화 핵심

Negative result 시: CogSci 2027 (최적) > AAAI AI+Cognition > ACL Findings 순

핵심: 이미 마감된 CogSci 2026, ICML 2026, CoNLL 2026은 투고 불가. NeurIPS 2026 main은 Phase 3까지만 가능하여 리스크 높음.


9. 다이어그램 (v3.0)

9.1 Main Experiment Process

flowchart LR
    subgraph BASE["Base Model"]
        Tiny["Qwen-2.5-1.5B\n(Pilot)"]
        Q3B["Qwen-2.5-3B\n(Scaling)"]
        LLaMA["LLaMA-3.1-8B\n(Primary)"]
        Qwen["Qwen-2.5-7B\n(Validation)"]
    end

    subgraph SFT["PEFT (LoRA r=16)"]
        S1["SRP SFT\n(SCG)"]
        S2["ToM SFT\n(ExploreToM)"]
        S3["Logic SFT\n(MathQA/LogicQA)"]
        S4["Sentiment SFT\n(SST-2/IMDB)"]
        S5["Factual QA SFT\n(TriviaQA)"]
        S6["Narrative SFT\n(Control 4)"]
    end

    subgraph EVAL_B["Behavioral (H1)"]
        E1["Cross-task\nTransfer Matrix"]
        E2["차별적 향상\nPermutation Test"]
        E3["Mediation\nAnalysis"]
    end

    subgraph EVAL_R["Representation (H2, H2c) ★ Primary"]
        R1["CKA"]
        R2["RSA +\nMantel Test"]
        R3["Cross-task\nProbing"]
        R4["Layer-wise\nAnalysis"]
        R5["SRV 방향\n수렴 분석"]
    end

    subgraph EVAL_P["Parameter (H2b) ○ + Causal (H3d) ★"]
        P1["B-matrix\nCosine Sim"]
        P2["Excess Overlap\n(vs Random)"]
        P3["Rank\nAblation"]
        P4["SRV-Parameter\nKnockout (H3d)"]
    end

    BASE --> SFT
    SFT --> EVAL_B
    SFT --> EVAL_R
    SFT --> EVAL_P

9.2 Cross-Task Transfer Design (6-way)

flowchart TD
    subgraph TRAIN["SFT Training (6 conditions)"]
        T_SRP["SRP SFT"]
        T_TOM["ToM SFT"]
        T_LOG["Logic SFT"]
        T_SENT["Sentiment SFT"]
        T_FACT["Factual QA SFT"]
        T_NARR["Narrative SFT\n(Control 4)"]
    end

    subgraph EVAL["Cross-Task Evaluation"]
        E_SRP["SRP Bench\n(Calibration-Tuning + SAD + ECE)"]
        E_TOM["ToM Bench\n(MindGames + FanToM)"]
        E_GEN["General\n(MMLU/ARC)"]
    end

    T_SRP -->|"H1b: SRP→ToM"| E_TOM
    T_TOM -->|"H1: ToM→SRP ★"| E_SRP
    T_LOG -->|"Control 1"| E_SRP
    T_LOG -->|"Control 1"| E_TOM
    T_SENT -->|"Control 2"| E_SRP
    T_SENT -->|"Control 2"| E_TOM
    T_FACT -->|"Control 3"| E_SRP
    T_FACT -->|"Control 3"| E_TOM
    T_NARR -->|"Control 4 ★"| E_SRP
    T_NARR -->|"Control 4 ★"| E_TOM
    T_SRP --> E_GEN
    T_TOM --> E_GEN
    T_LOG --> E_GEN
    T_SENT --> E_GEN
    T_FACT --> E_GEN
    T_NARR --> E_GEN

    style T_SRP fill:#e1f5fe
    style T_TOM fill:#e1f5fe
    style T_LOG fill:#f5f5f5
    style T_SENT fill:#f5f5f5
    style T_FACT fill:#f5f5f5
    style T_NARR fill:#fff3e0

핵심 비교: ToM→SRP transfer가 Logic/Sentiment/FactualQA/Narrative→SRP transfer보다 차별적으로 높아야 H1 지지.
Narrative SFT (v3.0): 표면적으로 ToM 데이터와 가장 유사하면서 mental state reasoning만 제거 — “서사 이해”와 “ToM” 분리의 최적 control.

9.3 Dataset Plan (v3.1 — Pilot 확정 반영)

v3.1 변경 (2026-02-10): TOMBENCH/OpenToM train 사용 불가 확인 → ExploreToM 교체. MindGames/Calibration-Tuning 추가. 상세: Pilot-Dataset-Selection

flowchart TD
    subgraph TRAIN["Dataset — Training (~5K each)"]
        D_SRP["SRP Train\n• SCG (11K, 10 concepts)\n  testing_set 4:1 split\n• SelfAware train (보조)"]
        D_TOM["ToM Train\n• ExploreToM (13.3K)\n  CC-BY-NC-4.0\n  SFT 검증됨"]
        D_LOG["Logic Train\n• MathQA / LogicQA"]
        D_SENT["Sentiment Train\n• SST-2 / IMDB"]
        D_FACT["Factual QA Train\n• TriviaQA subset"]
    end

    subgraph EVAL["Dataset — Evaluation"]
        E_SRP["SRP Eval\n• Calibration-Tuning (val 2K)\n• SAD (13K+, ⚠ eval only)\n• ECE (calculated)\n• SelfAware test"]
        E_TOM["ToM Eval\n• MindGames test (3.7K)\n  Epistemic NLI (OOD)\n• FanToM (보조 OOD)"]
        E_GEN["General Eval\n• MMLU (5-shot)\n• ARC-Challenge (25-shot)\n• HellaSwag (10-shot)"]
    end

    subgraph CTRL["Baselines"]
        NARR["Narrative SFT\n(mental state 질문 제거)\n→ ToM 잔류 < 5%"]
        RAND["Random Pair\n• Sentiment + Translation\n→ low-rank artifact 통제"]
    end

    D_SRP --> E_SRP
    D_TOM --> E_TOM
    TRAIN --> E_GEN
    NARR -.->|"Surface control"| EVAL
    RAND -.->|"Artifact baseline"| EVAL

9.4 Benchmark Preparation & Data Leakage 방지

flowchart TD
    subgraph PHASE1["Phase 1: 데이터 준비"]
        A["Train/Eval 분리"] --> B["n-gram overlap 체크"]
        B --> C["BERT embedding\n유사도 체크"]
        C --> D{"Overlap\n> threshold?"}
        D -->|"Yes"| E["해당 샘플 제거"]
        D -->|"No"| F["통과"]
    end

    subgraph PHASE2["Phase 2: Construct Contamination 검증 ★ New"]
        F --> G["BERTScore/BLEURT\nToM-SRP 데이터 간\nsemantic overlap 측정\n(목표: < 0.3)"]
        G --> H["전문가 3-5인\nAnnotation\n(Krippendorff α ≥ 0.7)"]
        H --> I["Construct Separation Index\n• only-ToM\n• only-SRP\n• both\n• neither"]
        I --> J{"'both' 비율\n> 10%?"}
        J -->|"Yes"| K["'both' 항목 제거\n→ Purified Subset"]
        J -->|"No"| L["원본 사용"]
    end

    subgraph PHASE3["Phase 3: 추가 검증"]
        K --> M["Narrative SFT\nToM 잔류 검증\n(classifier < 5%)"]
        L --> M
        M --> N["Min-K% Prob\npre-training\ncontamination 체크"]
        N --> O["최종 데이터셋 확정"]
    end

9.5 Analysis Hierarchy (우선순위 — v3.0)

flowchart TD
    subgraph PRIMARY["★ Primary Analysis (H2, H2c)"]
        direction TB
        CKA["CKA\n(Centered Kernel Alignment)\nHidden state 구조적 유사도"]
        RSA["RSA\n(Representational Similarity)\nRDM 간 Spearman + Mantel test"]
        PROBE["Cross-task Probing\nToM probe → SRP data 적용\n10-fold CV"]
        SRV["SRV 방향 수렴 (H2c)\n2-track 프로토콜\nToM-SRP > baselines"]
        LAYER["Layer-wise Analysis\n깊은 layer(25-32)에서\n유사도 집중 예상"]
    end

    subgraph AUXILIARY["○ Auxiliary Analysis (H2b)"]
        direction TB
        BMAT["B-matrix-only\nCosine Similarity\n(A matrix artifact 배제)"]
        EXCESS["Excess Overlap\nToM-SRP − Random pair\n순수 공유 추정"]
        RANK["Rank Ablation\nr=4,8,16,32\nexcess overlap 변화"]
    end

    subgraph CAUSAL["★ Causal Analysis (H3d)"]
        direction TB
        KNOCK["SRV-Parameter Knockout\n공유 param ablation\n→ SRV 재추출\n→ 기능 붕괴 확인"]
        CTRL_ABL["Control: Random\nparam ablation\n→ 특이성 확인"]
    end

    subgraph EXPLORATORY["△ Exploratory"]
        direction TB
        ARITH["Task Arithmetic\nSRP_LoRA − ToM_LoRA\n⚠ 비선형성 caveat"]
        STEER["Activation Steering\nSRP vector injection\n→ ToM 변화 관찰"]
    end

    PRIMARY -->|"충분한 증거 시"| AUXILIARY
    AUXILIARY -->|"인과 검증"| CAUSAL
    CAUSAL -->|"보완적 탐색"| EXPLORATORY

    style PRIMARY fill:#e8f5e9,stroke:#2e7d32
    style AUXILIARY fill:#fff3e0,stroke:#ef6c00
    style CAUSAL fill:#e1f5fe,stroke:#1565c0
    style EXPLORATORY fill:#fce4ec,stroke:#c62828

9.6 SRV-Parameter Knockout (v3.0 — H3d Confirmatory)

flowchart LR
    subgraph INPUT["Fine-tuned Models"]
        SRP_L["SRP LoRA\n(ΔW₁)"]
        TOM_L["ToM LoRA\n(ΔW₂)"]
    end

    subgraph KNOCKOUT["H3d: SRV-Parameter Knockout ★"]
        direction TB
        K1["Hessian top-k\n공유 params 식별\n(k=0.01%)"]
        K2["Shared param\nablation"]
        K3["SRV 재추출\n(ablated model)"]
        K4["Control: Random\nparam ablation\n+ SRV 재추출"]
        K1 --> K2 --> K3
        K1 --> K4
    end

    subgraph RESULT["Expected Outcomes"]
        R1["SRV 수렴 붕괴\n(shared > random 감소)\n→ 구조-기능 인과 증거\n→ 뇌 MPFC 손상과 유사"]
        R2["SRV 유지\n→ 공유 params ≠ 기능 기반\n→ 다른 경로 존재"]
        R3["부분적 감소\n→ 부분적 인과 관계"]
    end

    subgraph EXPLORATORY_M["Exploratory (보조)"]
        M1["Task Arithmetic\nΔW₁ − ΔW₂\n⚠ 비선형성"]
        M2["Activation Steering\nSRP vector inject"]
    end

    INPUT --> KNOCKOUT
    K3 --> R1
    K3 --> R2
    K4 --> R3
    INPUT --> EXPLORATORY_M

    style KNOCKOUT fill:#e1f5fe,stroke:#1565c0
    style EXPLORATORY_M fill:#fce4ec,stroke:#c62828

v3.0 핵심 변경: 기존 Ablation(탐색적)이 SRV-Parameter Knockout(확인적)으로 격상.
“구조(shared params) 제거 → 기능(SRV convergence) 붕괴” = 가장 강한 causal 증거.
뇌에서 MPFC 손상 시 ToM과 SRP가 함께 무너지는 것(Lombardo et al., 2010)의 LLM 대응.

9.7 Full Experiment Pipeline (v3.0)

flowchart TD
    subgraph P0["Phase 0: Pilot (2주)"]
        P0A["1B + 3B 모델\n1K data each\nLoRA r=8, 1-2 seeds"]
        P0B{"⚑ CP0: CKA에서\nToM-SRP > ToM-Logic\n경향 확인?"}
        P0A --> P0B
        P0B -->|"No"| P0C["실험 재설계\n또는 중단"]
        P0B -->|"Yes"| P1A
    end

    subgraph P1["Phase 1: 데이터 준비 (3주)"]
        P1A["벤치마크 확보\n(ExploreToM/SCG/MindGames/\nCalibration-Tuning)\n+ 6-way SFT 데이터 구축"]
        P1B["Construct Contamination\n검증"]
        P1C["Purified Subset\n+ Narrative 잔류 검증"]
        P1D{"⚑ CP1: 구성물\n검증 통과?"}
        P1A --> P1B --> P1C --> P1D
    end

    subgraph P2["Phase 2: SFT 학습 (3주)"]
        P2A["100+ Core runs\n(6조건 × 3모델 × 10seeds)\n+ 20 Random baseline"]
        P2B["수렴 확인\n+ Delta W 추출"]
        P2C{"⚑ CP2: Target\n+5% 이상?"}
        P1D -->|"Yes"| P2A --> P2B --> P2C
    end

    subgraph P3["Phase 3: 행동 평가 — H1 (2주)"]
        P3A["Cross-task\nTransfer Matrix"]
        P3B["Within-SRP Transfer\n+ 차별적 향상"]
        P3C["Mediation\nAnalysis"]
        P3D{"⚑ CP3: 최소\n1방향 p<0.1?"}
        P2C -->|"Yes"| P3A --> P3B --> P3C --> P3D
        P3D -->|"No"| NEG["Negative Result\n전략 전환\n→ CogSci"]
    end

    subgraph P4["Phase 4: Representation — H2, H2c ★ (3주)"]
        P4A["Hidden State 추출"]
        P4B["CKA + RSA"]
        P4C["Cross-task Probing"]
        P4D["SRV 추출 +\n방향 수렴 (H2c)"]
        P4E["Layer-wise\nAnalysis"]
        P2C -->|"Yes"| P4A --> P4B & P4C & P4D
        P4B --> P4E
        P4C --> P4E
        P4D --> P4E
    end

    subgraph P5["Phase 5: Parameter + Causal — H2b, H3d (2주)"]
        P5A["B-matrix Cosine Sim\n+ Excess Overlap"]
        P5B["Rank Ablation\nr=4,8,16,32"]
        P5C["Hessian Jaccard"]
        P5D["SRV-Parameter\nKnockout (H3d) ★"]
        P2C -->|"Yes"| P5A --> P5B --> P5C --> P5D
    end

    subgraph P6["Phase 6: 논문 작성 (2주)"]
        P6A["결과 통합\n+ 논문 초안"]
        P3C --> P6A
        P4E --> P6A
        P5D --> P6A
    end

    style P0 fill:#fff9c4
    style P4 fill:#e8f5e9,stroke:#2e7d32
    style P5 fill:#e1f5fe,stroke:#1565c0
    style NEG fill:#fce4ec,stroke:#c62828

10. 핵심 참고문헌

신경과학 및 이론 프레임워크

  • Saxe et al. (2006). Overlapping and non-overlapping brain regions for ToM and self-reflection. Social Cognitive and Affective Neuroscience
  • Lombardo et al. (2010). Shared neural circuits for mentalizing about the self and others. JOCN
  • Mitchell et al. (2006). Dissociable medial prefrontal contributions to judgments of similar and dissimilar others. Neuron
  • Spreng et al. (2009). The common neural basis of autobiographical memory, prospection, navigation, ToM, and the default mode. JOCN
  • Dehaene et al. (2017). What is consciousness, and could machines have it? Science ← v3.0 추가: C0-C1-C2 이론 프레임워크

LLM Self-Referential Processing / Metacognition

  • Chen et al. (2025). From Imitation to Introspection: Probing Self-Consciousness in Language Models. ACL Findings
  • Laine et al. (2024). SAD: Situational Awareness Dataset. NeurIPS
  • Ji-An et al. (2025). Language Models Are Capable of Metacognitive Monitoring. NeurIPS
  • Lindsey et al. (2025). Emergent Introspective Awareness in LLMs. Anthropic
  • Zhu et al. (2026). From Emergence to Control: Probing and Modulating Self-Reflection in Language Models. arXiv:2506.12217 ← v3.0 추가: SRV 방법론
  • Steyvers et al. (2025). Improving Metacognition and Uncertainty Communication in LMs. arXiv:2510.05126 ← v3.0 추가: within-metacognition transfer 제한

LLM ToM

  • Chen et al. (2024). TOMBENCH: Benchmarking Theory of Mind in LLMs. ACL
  • Wu et al. (2025). How LLMs Encode Theory of Mind. Nature
  • ICML 2025 Position Paper. Theory of Mind Benchmarks are Broken for LLMs.

LoRA / Parameter Analysis

  • Ban & Ji (2025). Rethinking Parameter Sharing for LLM Fine-Tuning with Multiple LoRAs. arXiv:2509.25414
  • Arturi et al. (2025). Shared Parameter Subspaces and Cross-Task Linearity. NeurIPS Workshop
  • Dymkiewicz et al. (2025). Donors and Recipients: Asymmetric Transfer with PEFT. arXiv:2511.13368

대안 설명

  • Goldman (2006). Simulating Minds. Oxford University Press (Simulation Theory)
  • Gopnik & Wellman (1992). Why the Child’s Theory of Mind Really Is a Theory. (Theory-Theory)
  • Wu et al. (2025). ToM as emergent property of general language understanding. npj AI