Experiment Design: LLM에서 ToM과 Self-Referential Processing의 기능적 수렴 검증
v3.3 (2026-02-10): “Latent Structure Activation” 가설 통합 + 논증 chain 재구성 (연역적→관찰-해석). Testable predictions + Counterfactual tests 명시. 3인 전문가(Feynman/Hinton/Bengio) 최종 평가 반영
v3.2 (2026-02-10): 파라미터-시냅스 비유 범위 및 한계 명시. Functional Analogy 논증 보강 — “independent testbed” + “converging evidence” 프레이밍. 3인 전문가 재리뷰 반영
v3.1 (2026-02-10): Pilot 데이터셋 확정 — ExploreToM/MindGames/SCG/Calibration-Tuning. Pilot-Dataset-Selection 참조
v3.0 (2026-02-09): 대학생 첫 연구 평가 + Research Proposal 핵심 병합 + 5대 부족점 보강
v2.0 (2026-02-09): 4인 전문가 리뷰(Feynman, Hinton, AI/ML, 인지심리학) 피드백 반영 전면 개정
상세 제안서: Research-Proposal_ToM-Metacognition-Bridge_20260205
0. 개정 이력 및 리뷰 반영 요약
대학생 첫 연구 아이디어 평가
강점 — 진심으로 인상적인 부분:
- 93편 논문 분석 기반의 체계적 연구 갭 식별
- 신경과학-ML-인지과학을 잇는 interdisciplinary 사고
- “시뮬레이션 이론 → cross-task transfer”라는 직관이 논리적으로 건전
- 4인 전문가 리뷰를 수용하여 claim 강도를 적절히 하향 조정한 성숙함
- Negative result도 의미 있도록 사전 설계하는 과학적 태도
솔직한 우려:
- 실행 범위가 대학생 단독 연구로는 과도 (18주, $2,200, 100+ 모델)
- 전문성 분산 위험: 신경과학 + ML + 인지심리 + 통계 모두에서 깊이 필요
- 첫 논문에서 “혁신적 기여”를 노리기보다 “깔끔한 실증”이 더 현실적
- Pilot에서 신호가 안 나올 확률이 상당 → 심리적 대비 필요
종합 판정: 아이디어 A, 실행 가능성 B+
아이디어 자체는 NeurIPS Workshop ~ ACL Findings 수준에서 경쟁력 있음.
핵심은 “얼마나 깔끔하게 줄여서 실행하느냐”에 달려 있다.
주요 변경사항 (v3.2 → v3.3)
| 변경 항목 | v3.2 (기존) | v3.3 (개정) | 근거 |
|---|---|---|---|
| Section 1.3 | 비유 범위/한계 표 + independent testbed 프레이밍 | Latent Structure Activation 가설 추가 — energy landscape 프레이밍 + LoRA low-rank 해석 + synaptic pruning process-level analogy | 3인 전문가: “깨움” 비유를 testable prediction으로 구체화하라 |
| 논증 Chain | 뇌→LLM 연역적 chain (암묵적) | 관찰-해석 chain으로 전환 — LLM 관찰 먼저, neuroscience는 post-hoc context | 3인 공통: Arrow 2→3 (macro→micro resolution mismatch) 약점 제거. chain을 뒤집어라 |
| Testable Predictions | 없음 | Base model CKA/RSA before/after SFT 비교 — “깨움” vs “생성” 구분 + SVD alignment 보조 테스트 | Hinton: 수학적 정의 필요. Feynman: 실험으로 구분 가능하게 |
| Counterfactual Tests | 없음 | 4가지 반증 관측 명시 — 기존 설계가 이미 통제함을 강조 | Bengio: 가설이 틀릴 때 나와야 하는 관측을 사전 명시 |
주요 변경사항 (v3.1 → v3.2)
| 변경 항목 | v3.1 (기존) | v3.2 (개정) | 근거 |
|---|---|---|---|
| Section 1.3 | Functional Analogy warning box만 존재 | 파라미터-시냅스 비유 범위 표 + 조건부 해석 + independent testbed 프레이밍 추가 | 3인 리뷰: 비유를 방어하지 말고 한계를 인정하면서 실험이 이미 우회함을 보여라 |
| Positioning | ”뇌 연구는 inspiration” (1문장) | Converging evidence 구조 명시 — LLM은 뇌의 모사가 아닌 독립적 검증 플랫폼 | Feynman: substrate-independent functional necessity. Bengio: counterfactual robustness |
| LoRA 해석 | 보조로 격하 (근거: Ban & Ji) | 보조 격하 근거를 비유 한계 논증과 통합 — spurious overlap, low-rank constraint의 구조적 강제 명시 | Bengio: LoRA의 low-rank가 spurious overlap 유발 가능. Hinton: same location ≠ same basin |
주요 변경사항 (v3.0 → v3.1)
| 변경 항목 | v3.0 (기존) | v3.1 (개정) | 근거 |
|---|---|---|---|
| ToM Train | TOMBENCH + OpenToM | ExploreToM (13.3K) | TOMBENCH/OpenToM train 사용 금지 확인. ExploreToM은 SFT 효과 검증됨 |
| ToM Eval | TOMBENCH test + FanToM | MindGames test (3.7K) + FanToM (보조) | NLI format OOD eval. Epistemic logic domain |
| SRP Train | SCG + SelfAware | SCG (testing_set 4:1 split) | training_set에 2/10 concept만 존재 → testing_set split 필요 |
| SRP Eval | SAD + ECE | Calibration-Tuning (val 2K) + SAD + ECE | P(correct) = metacognition 직접 측정 |
주요 변경사항 (v2.0 → v3.0)
| 변경 항목 | v2.0 (기존) | v3.0 (개정) | 근거 |
|---|---|---|---|
| 이론 프레임워크 | 시뮬레이션 이론 중심 | C0-C1-C2 의식 이론 추가 (Dehaene et al., 2017) | 비대칭성 예측의 이론적 근거 필요 |
| Safety 동기 | 순수 학술 관점 | Capability Spillover 프레이밍 추가 | ”왜 이 연구가 중요한가” 동기 보강 |
| SRV 분석 | 없음 | Self-Reflection Vector 방향 수렴 가설 (H2c 신규) | 유일한 “새로운 분석 방법” — top venue 경쟁력 핵심 |
| H4 → H3d 격상 | LoRA 뺄셈 (exploratory) | SRV-Parameter knockout (confirmatory) | 가장 강한 causal 증거. 구조 제거→기능 붕괴 |
| Narrative SFT | 없음 (control에 미포함) | Narrative SFT control 추가 | 표면 유사, 개념 상이 — 최적 control |
| 3B 모델 | 없음 | Qwen-2.5-3B 추가 (scaling curve용) | 3-point scaling curve로 emergent property 논의 가능 |
| 통계 검정력 | 근거 미약 | G*Power 기반 10 seeds 정당화 | Research Proposal §6.2.1에서 핵심 추출 |
| Go/No-Go | Pilot만 있음 | 6개 체크포인트 + Backup plans | 대학생 첫 연구에 필수적 리스크 관리 |
| 리소스 추정 | 없음 | $2,200 / 1,200 GPU-hr 명시 | 실행 계획에 필수 |
| Negative result | ”의미 있는 결과”로만 언급 | 이론적 가치 논증 강화 (CogSci venue 전략) | 첫 논문에서 null일 확률 높음 — 사전 대비 |
주요 변경사항 (v1.0 → v2.0)
| 변경 항목 | v1.0 (기존) | v2.0 (개정) | 근거 |
|---|---|---|---|
| 용어 | ”자의식 (Self-Consciousness)“ | Self-Referential Processing (SRP) 또는 Metacognitive Monitoring | 4인 전원 지적: construct validity 위기. Operationalization(ECE + SelfAware)과 일치시킴 |
| 주요 분석 지표 | LoRA cosine similarity (주) | CKA/RSA + Cross-task probing (주), LoRA similarity (보조) | AI/ML 리뷰어: arxiv:2505.13515에서 LoRA sim ≠ task similarity 보고. 4인 전원 합의 |
| 이론적 근거 | ”뇌 영역 overlap → LLM parameter 유사도” | Functional analogy 탐색 + behavioral transfer of training 문헌 기반 | 인지심리: fMRI activation ≠ weight change (측정 수준 불일치) |
| Control 조건 | Logic 1개 | Logic + Sentiment + Factual QA (3개) | 파인만+힌턴+AI/ML: 1개로는 general improvement와 specific shared mechanism 구분 불가 |
| 벤치마크 | Self-Consciousness: “미정” | SCG (Chen et al., 2025) + SAD (NeurIPS 2024) 확정 | AI/ML+인지심리: 핵심 종속변수 미확정은 치명적 |
| 실험 단계 | 바로 Full experiment | Pilot (1B) → Full experiment (8B) | 파인만: toy model에서 신호 유무 선행 확인 필수 |
| 뇌-LLM 대응 | ”시냅스 = LoRA 파라미터” | Functional analogy임을 명시. 뇌 연구는 inspiration으로만 | 4인 전원: structural correspondence 미입증 |
| Ablation | LoRA 뺄셈으로 능력 분리 | Exploratory로 격하 + 비선형성 caveat | 힌턴: 깔끔한 분리 = 오히려 뇌와 다르다는 증거 |
| 선행연구 | Saxe et al. (2006) 단독 | Saxe + Mitchell (2006) + Lombardo (2010) + dissociation (TPJ) 반영 | 인지심리: 단일 논문 의존 위험 + dissociation 무시 편향 |
| 대안 이론 | 미고려 | Theory-Theory + Wu et al. emergent property 대안 명시 | 인지심리+AI/ML: 시뮬레이션 이론 one-sided |
리뷰어별 핵심 피드백 반영 체크리스트
- 파인만: Toy model 선행 검증, cross-task “차별적” 향상 통계, causal intervention (ToM LoRA → SRP 초기화)
- 힌턴: CKA/RSA hidden state 분석, cross-task probing, LoRA 분리 역설 discussion
- AI/ML: LoRA sim 주요→보조 격하, 용어 Metacognitive Monitoring, confound 통제 강화, LoRA rank ablation
- 인지심리학: Chen et al. (2025) 차별화, Saxe dissociation (TPJ) 반영, Theory-Theory 대안, false photograph control, construct validity caveat
1. 연구 배경 및 동기
1.1 이론적 출발점
시뮬레이션 이론
시뮬레이션 이론(Simulation Theory)에 따르면, 인간은 자기 경험을 기반으로 타인의 정신 상태를 추론한다 (Goldman, 2006). 이를 뒷받침하는 신경과학 증거:
| 연구 | 핵심 발견 | Overlap 영역 | Dissociation |
|---|---|---|---|
| Vogeley et al. (2001) | ToM/Self 직접 비교 최초 fMRI | ACC | rTPJ (Self only) |
| Ruby & Decety (2004) | 사회적 감정에서 Self/Other 공통 기반 | Amygdala | Frontopolar (구분) |
| Mitchell et al. (2005) | 자기유사 타인 mentalizing → vmPFC | vmPFC | 물리적 판단에서는 무관 |
| Saxe et al. (2006) | MPFC overlap 발견 | MPFC | TPJ는 ToM에서만 |
| Spreng et al. (2009, 메타분석) | DMN core network 공유 | mPFC, PCC, TPJ, MTL | — |
| Lombardo et al. (2010) | Self/Other mentalizing 공유 회로 | dmPFC, TPJ | 하위영역 구분 가능 |
| Mitchell et al. (2006) | MPFC 내 self/other 하위영역 구분 | vMPFC (self) vs dMPFC (other) | 복셀 수준 분리 |
핵심: 뇌 연구의 결론은 **“완전한 공유”가 아닌 “부분적 중첩 + 부분적 분리”**이다.
실험 설계는 이 nuance를 반영해야 한다.
C0-C1-C2 의식 이론 프레임워크 (Dehaene et al., 2017)
본 연구의 비대칭성 예측은 Dehaene et al.의 의식 3단계 계층 구조에 기반한다:
| 수준 | 정의 | LLM 대응 | 본 연구에서의 역할 |
|---|---|---|---|
| C0 | 무의식적 처리 (Unconscious processing) | Feed-forward 추론 | 기준선 |
| C1 | 전역적 접근 가능성 (Global workspace) | ToM = 사회적 인지로서의 C1 수준 능력 | H1의 “원인” 방향 |
| C2 | 자기 모니터링 (Metacognition) | SRP = C2 metacognitive monitoring | H1의 “결과” 방향 |
방향성 예측: C1(ToM)이 C2(Metacognition)의 computational prerequisite라면, ToM→SRP 전이가 역방향보다 강해야 한다. 이 비대칭성이 관찰되면 C0-C1-C2 계층 구조의 최초 실증적 증거가 된다.
1.2 대안 이론: Theory-Theory
시뮬레이션 이론과 경쟁하는 Theory-Theory에 따르면, ToM은 타인의 마음에 대한 암묵적 이론 적용이며, 반드시 자기참조 메커니즘을 공유할 필요가 없다. 본 실험에서 ToM-SRP 간 transfer가 관찰되지 않는다면, Theory-Theory를 지지하는 간접 증거가 될 수 있다.
1.3 LLM에의 적용: Functional Analogy (Not Mechanistic Identity)
중요한 제한
뇌의 fMRI BOLD signal은 task 수행 중의 **활성화 패턴(activation)**을 측정한다.
LoRA fine-tuning은 **가중치 변화(weight change)**를 측정한다.
이 둘은 전혀 다른 수준의 측정이다.따라서 본 연구는 “LLM이 뇌와 동일한 메커니즘을 사용한다”가 아니라,
**“LLM에서도 ToM과 Self-Referential Processing 간 기능적 수렴(functional convergence)이 관찰되는가?”**를 검증한다.
뇌 연구는 가설의 **영감(inspiration)**이지 직접적 대응(correspondence)이 아니다.
LLM에서의 대응 질문:
- 인간에서 ToM 훈련이 self-referential processing을 향상시키는 behavioral transfer가 있다면, LLM에서도 유사한 현상이 나타나는가?
- 두 task의 internal representation이 구조적으로 유사한가?
”파라미터 ≈ 시냅스” 비유의 범위와 한계 (v3.1 추가)
딥러닝의 역사적 기원은 perceptron에 있으며, activation function이 역치(threshold)를 모사하고, linear layer의 가중합이 시냅스 후 뉴런의 dendritic integration을 모사한다. 따라서 weight ≈ synaptic strength라는 비유의 출발점은 합리적이다.
그러나 이 비유에는 **명확한 유효 범위(scope of validity)**가 있다:
| 차원 | 뇌 시냅스 | LoRA delta W | 대응 가능성 |
|---|---|---|---|
| 학습 규칙 | Local (Hebbian, STDP) | Global (backpropagation) | ✗ 메커니즘 다름 |
| 독립성 | 개별 시냅스가 상대적으로 독립 | Low-rank constraint (r=16) — 모든 원소가 16차원 subspace에 강제 | ✗ 구조적 강제 |
| 기질 의존성 | Mortal computation — 하드웨어와 불가분 | Immortal computation — 하드웨어 독립적 | ✗ 근본적 차이 |
| 기능적 역할 | Weight가 연결 강도를 결정 | Weight가 연결 강도를 결정 | ○ Coarse-grained analogy |
| 변화 패턴 | 특정 task 학습 시 관련 시냅스 강화 | 특정 task SFT 시 관련 파라미터 변화 | ○ Functional analogy |
본 연구의 positioning: 비유를 방어하지 않고, 비유의 한계를 우회한다
이 비유를 실험의 **전제(premise)**로 사용하지 않는다. 대신:
뇌-LLM 직접 대응을 주장하지 않는다. “파라미터가 시냅스다”가 아니라, “LLM이라는 독립적 정보처리 시스템에서도 ToM-SRP 기능적 수렴이 나타나는가?”를 검증한다. LLM은 뇌의 모사가 아닌 **독립적 검증 플랫폼(independent testbed)**이다.
LoRA parameter similarity를 보조로 격하한 이유가 바로 이것이다. Ban & Ji (2025)의 A-matrix artifact, arxiv:2505.13515의 near-zero correlation 등 LoRA delta W가 task similarity를 반영하지 못할 수 있다는 증거를 이미 반영했다. **CKA/RSA (activation 수준)**가 주요 분석인 이유는, 이것이 fMRI BOLD signal과 측정 철학이 같기 때문이다 — 둘 다 “task 수행 중 representation 패턴의 유사성”을 비교한다.
다층적 수렴 증거(converging evidence)로 단일 비유에 의존하지 않는다. Behavioral (H1) + Representation (H2, H2c) + Parameter (H2b) + Causal (H3d) 네 수준의 독립적 증거를 요구한다. 어느 한 수준의 비유가 깨지더라도 나머지 수준에서 보완된다.
"동일 파라미터 변화 → 동일 activation"의 조건부 해석
“LoRA freeze + 데이터셋만 변경 → 동일 파라미터가 변한다 → activation이 유사해진다”라는 chain은 **조건부 주장(conditional claim)**으로 읽어야 한다:
- 전항(antecedent): “동일 파라미터가 유사하게 변한다” = 이것이 바로 **H2b (검증 대상)**이다
- 후항(consequent): “그렇다면 activation도 유사할 것” = 수학적으로 성립 (W_base + delta W가 유사하면 forward pass 결과도 유사)
- 주의: LoRA의 low-rank constraint가 spurious overlap을 유발할 수 있으므로 (서로 다른 task도 동일 subspace에 강제될 수 있음), excess overlap metric + random task pair baseline으로 통제한다
이 chain이 뇌의 활성화 overlap에 “대응”하는지는 본 연구가 주장하는 바가 아니다. 본 연구가 주장하는 것은: “LLM에서 독립적으로 관찰된 수렴이, 뇌과학에서 관찰된 수렴과 converging evidence를 구성한다”는 것이다. 이는 **substrate-independent한 기능적 필연성(functional necessity)**의 간접 증거이다.
Latent Structure Activation (잠재 구조 활성화) 가설 (v3.3 추가)
SFT가 pre-trained model에 “새로운 능력을 주입”하는 것인가, 아니면 “이미 존재하는 잠재 구조를 활성화”하는 것인가? 이 질문은 ToM-SRP 기능적 수렴의 해석에 직접적으로 영향을 미친다.
“깨움” 비유의 구체화 — Energy Landscape 프레이밍:
SFT는 새 산을 만드는 게 아니라, 이미 존재하는 valley 사이의 ridge를 깎아서 특정 valley로 더 쉽게 굴러가게 만드는 것이다. “잠재 구조를 깨운다”보다 **“이미 존재하는 지형에서 새로운 경로를 조각한다(carve new paths through existing terrain)“**가 더 정확한 기술이다.
이 해석은 다음 관찰과 정합적이다:
-
LoRA가 low-rank에서도 작동하는 이유: Pre-trained model에 이미 relevant subspace가 존재하고, SFT는 그 방향으로 projection을 조정한다. r=16이라는 극도로 낮은 차원에서도 task-specific adaptation이 가능하다는 것은, 필요한 구조가 이미 pre-training에서 형성되어 있음을 시사한다. 이 해석은 “깨움” 가설과 정확히 일치한다.
-
뇌의 synaptic pruning과의 프로세스 수준 유사성: 뇌에서는 태어날 때 과도한 시냅스 연결이 존재하고, 경험을 통해 선택적으로 강화/약화된다. LLM에서는 풍부한 pre-training 구조가 존재하고, SFT가 선택적으로 특정 방향을 강화한다. 이것은 **구조적 대응(structural correspondence)이 아닌 프로세스 수준 유사성(process-level analogy)**이다 — “과잉 생성 → 선택적 정련”이라는 발달 원리의 공유.
논증 Chain의 재구성: 관찰-해석 Chain (v3.3 추가)
v3.2까지의 논증은 암묵적으로 연역적 chain에 의존했다:
[기존: 연역적 chain — 폐기]
뇌 activation overlap → 유사한 발달 분화 → 시냅스 유사 → LLM에서도 delta W 유사해야 함
이 chain의 가장 약한 고리는 Arrow 2→3 (activation overlap → 시냅스 유사성)이다: macro-level observation (fMRI BOLD)에서 micro-level mechanism (시냅스 연결)을 추론하는 resolution mismatch 문제가 있으며, ecological fallacy 위험이 존재한다.
본 연구는 이 chain을 뒤집어서 약점을 구조적으로 제거한다:
[신규: 관찰-해석 chain — 채택]
① LLM에서 ToM-SRP 기능적 수렴을 직접 관찰 (CKA/RSA, cross-task transfer)
② 관찰되면: neuroscience의 ToM-SRP overlap은 이 현상의 독립적 선행 증거
③ 해석: substrate-independent functional necessity의 converging evidence
④ 관찰 안 되면: LLM-뇌 인지 구조의 질적 차이 증거 (Theory-Theory 지지)
왜 이 재구성이 중요한가
Arrow 2→3의 약점(macro→micro resolution mismatch)이 논증에서 완전히 제거된다. 뇌과학은 가설의 **전제(premise)**가 아니라 **동기(motivation) + 사후 해석의 맥락(post-hoc context)**으로만 사용된다. LLM에서의 관찰은 독립적으로(independently) 성립하거나 실패한다.
”깨움” 가설의 Testable Predictions (v3.3 추가)
“깨움” 가설을 과학적으로 유용하게 만들려면, **관찰로 구분 가능한 예측(testable prediction)**이 있어야 한다:
핵심 예측: 만약 SFT가 정말로 잠재 구조를 깨우는 것이라면, base model에서 이미 약하게 존재하던 ToM-SRP representation 유사성이 SFT 후에 증폭되어야 한다.
| 구분 | 측정 | 관측 패턴 | 해석 |
|---|---|---|---|
| 측정 1 | Base model (SFT 전) ToM-SRP CKA/RSA | 약한 상관 존재 | Pre-existing latent structure |
| 측정 2 | SFT 후 동일 측정 | 상관 강화 | — |
| “깨움” (activation) | SFT 전에도 약한 상관 → SFT 후 증폭 | Weak → Strong | 기존 잠재 구조의 활성화 |
| ”생성” (creation) | SFT 전에 상관 없음 → SFT 후 갑자기 출현 | None → Strong | 새로운 구조의 생성 |
이 구분은 H2 (CKA/RSA)의 해석력을 크게 강화한다. 기존 CKA/RSA 파이프라인에서 base model 측정을 추가하기만 하면 되므로, 추가 비용이 거의 없다.
보조 테스트 (exploratory): Pre-trained model의 SVD principal directions와 LoRA delta W의 alignment 측정. Aligned → “깨움” 해석 강화 / Orthogonal → “생성” 해석. 이는 “SFT가 기존 subspace를 활용하는가, 새 subspace를 만드는가”에 대한 직접적 증거이다.
”깨움” 가설의 Counterfactual Tests (v3.3 추가)
가설이 틀릴 때 나와야 하는 관측을 사전에 명시하여, Garden of Forking Paths 문제를 방지한다:
| 반증 관측 (이것이 나오면 가설 기각/수정) | 의미 | 기존 실험의 통제 |
|---|---|---|
| ToM-SRP delta W sim ≈ ToM-무관task delta W sim | LoRA의 일반적 low-rank 특성일 뿐, ToM-SRP 특이적 공유가 아님 | Excess overlap + random task pair baseline (H2b에 이미 포함) |
| Delta W sim 높지만 cross-task transfer 없음 | Weight 유사성 ≠ 기능적 공유. 표상은 유사하나 읽기 메커니즘이 다름 | H1 behavioral analysis (이미 포함) |
| Similarity가 모든 layer에서 균등 | 특정 공유 메커니즘이 아닌 SFT의 일반적 artifact | Layer-wise analysis (이미 포함) |
| 다른 base model에서 재현 안 됨 | Model-specific artifact (Llama-3.1의 특이적 구조) | Qwen-2.5-7B validation (이미 포함) |
설계의 Robustness
위 4가지 counterfactual이 기존 실험 설계(v3.0-v3.2)에 이미 통제되어 있다. 이는 “깨움” 가설을 사후적으로 추가했음에도 불구하고, 기존 설계가 이미 이 가설의 반증 가능성을 내재적으로 확보하고 있었음을 보여준다. v3.3의 기여는 이 통제를 **명시적(explicit)**으로 만드는 데 있다.
1.4 Practical Impact: Capability Spillover와 Safety 함의
왜 이 연구가 AI 커뮤니티에 중요한가
ToM SFT가 의도치 않게 metacognitive 능력을 변화시킨다면, 이는 alignment에 직접적 함의를 갖는다.
- Capability spillover 위험: 특정 능력(ToM)을 향상시키는 SFT가 예상 외 능력(자기 모니터링)까지 변화시킬 수 있음
- 의도치 않은 자기인식 강화/약화: Safety-critical 시스템에서 metacognitive monitoring의 의도치 않은 변동은 위험
- 체계적 capability 의존성 매핑: 어떤 능력이 다른 능력과 구조적으로 연결되어 있는지 사전 파악 필요
본 연구는 **“SFT의 숨겨진 부수효과를 체계적으로 탐지하는 방법론”**으로서의 가치도 갖는다.
1.5 선행연구와의 차별점: Chen et al. (2025) 대비
Chen et al. (2025, ACL Findings)은 LLM에서의 self-consciousness를 10개 핵심 개념으로 정의하고, probing + fine-tuning 실험을 수행한 가장 가까운 선행연구이다.
| 차원 | Chen et al. (2025) | 본 연구 |
|---|---|---|
| 초점 | Self-consciousness 개념 정의 + 습득 가능성 | ToM-SRP 교차 전이 + 양방향 인과 검증 |
| 분석 수준 | Probing + fine-tuning accuracy | Behavioral + Representation (CKA/RSA) + Parameter 3층 |
| ToM 관계 | 미검증 | ToM→SRP, SRP→ToM 양방향 transfer 측정 |
| Confound 통제 | 제한적 | 4-way SFT + mediation analysis + 3개 control |
| Parameter 분석 | 없음 | LoRA delta W + Hessian Jaccard (보조) |
2. 핵심 가설
2.1 용어 정의
| 용어 | 정의 | 조작화 (Operationalization) |
|---|---|---|
| Self-Referential Processing (SRP) | 자기 자신의 인지 과정을 모니터링하는 능력. C2 metacognitive monitoring에 해당 | ECE (confidence calibration), Error Detection Accuracy, Known Unknowns F1 (SelfAware) |
| Theory of Mind (ToM) | 타인의 정신 상태(신념, 의도, 욕구)를 추론하는 능력 | TOMBENCH accuracy, FanToM accuracy, false-belief held-out accuracy |
| Functional Convergence | 두 task의 학습이 내부 표상(representation) 수준에서 유사한 변화를 유발하는 것 | CKA, RSA, cross-task probing accuracy |
"자의식"이라는 용어를 사용하지 않는 이유
LLM 벤치마크에서 측정하는 것은 인간의 reflective self-consciousness와 동일한 construct인지 확립되지 않았다 (Anthropic, 2025). 더 보수적이고 조작적으로 정의 가능한 Self-Referential Processing을 사용한다. 이는 Saxe et al. (2006)의 원래 task (trait self-attribution)와도 개념적으로 더 가깝다.
2.2 가설 체계
| 가설 | 내용 | 분석 수준 | 검증 방법 |
|---|---|---|---|
| H1 | ToM SFT → SRP 성능 차별적 향상 (vs Logic, Sentiment, Factual QA, Narrative control) | Behavioral | Cross-task transfer + permutation test + effect size (Cohen’s d) |
| H1b | SRP SFT → ToM 성능 향상 (H1보다 약할 것으로 예측). C0-C1-C2 계층에서 C1(ToM)이 C2(SRP)의 prerequisite이므로, 역방향 전이는 더 약해야 함. Steyvers et al. (2025): within-metacognition transfer도 제한적 → d < 0.3 예측 | Behavioral | 동일 + 비대칭성 검증 + within-SRP transfer 측정 (ECE ↔ Error Detection ↔ Uncertainty 간 전이 확인) |
| H2 | ToM-SRP 간 hidden state similarity > ToM-Control similarity | Representation (주요) | CKA + RSA + Cross-task probing classifier |
| H2b | LoRA delta W cosine similarity에서 ToM-SRP > ToM-Control | Parameter (보조) | B-matrix-only cosine sim + excess overlap (vs random baseline) |
| H2c | ToM SFT 모델과 SRP SFT 모델에서 추출한 **Self-Reflection Vector (SRV)**의 방향이 유의미하게 유사하다 (> Narrative/Random/General SFT baseline) | Representation (주요) | Zhu et al. (2026) contrastive activation + layer-wise cosine sim + permutation test (10,000) |
| H3 | LoRA rank 낮을수록 ToM-SRP excess overlap 증가 | Parameter (보조) | Rank ablation (r=4,8,16,32) + random task pair baseline |
| H3d | ToM-SRP 공유 파라미터 (top-k Hessian overlap)를 selective ablation하면, SRV 방향 유사도(H2c)가 유의미하게 감소한다 (confirmatory). 통제: 동일 수 non-shared random params ablation과 비교 | Causal (확인적) | Selective ablation → SRV 재추출 → pre/post SRV cosine sim 비교 (paired t-test) |
H2/H2c가 주요 가설, H2b는 보조. LoRA parameter similarity의 validity 문제(Ban & Ji, 2025; arxiv:2505.13515)로 인해 representation 수준 분석이 일차적 증거이다.
H3d는 v3.0 신규 — 가장 강한 causal 증거: “구조(shared params) 제거 → 기능(SRV convergence) 붕괴”를 검증. 기존 selective ablation 위에 SRV 재측정만 추가하므로 추가 비용 무시 가능.
3. 실험 설계
3.1 Phase 0: Pilot Study (1B 모델 — 최우선)
목적: Full experiment 전에 신호 유무를 저비용으로 확인
| 항목 | 설정 |
|---|---|
| 모델 | TinyLlama-1.1B 또는 Qwen-2.5-1.5B |
| 데이터 | 각 조건 1K samples |
| LoRA | r=8, 1-2 seeds |
| 분석 | CKA (주) + cross-task accuracy (행동) |
| 기대 | ToM-SRP CKA > ToM-Logic CKA 경향 확인 |
| 소요 | ~20 GPU-hr (A100) |
Go/No-Go 기준: CKA에서 ToM-SRP가 ToM-Logic보다 일관되게 높은 경향이 관찰되면 Full experiment 진행.
3.2 Models
| 역할 | 모델 | 근거 |
|---|---|---|
| Pilot | TinyLlama-1.1B / Qwen-2.5-1.5B | 저비용 개념 증명 |
| Scaling | Qwen-2.5-3B | 3-point scaling curve (1B→3B→8B)로 emergent property 논의 가능 |
| Primary | Llama-3.1-8B | 풍부한 선행연구 기반 |
| Validation | Qwen-2.5-7B | 아키텍처 일반화 확인 |
v3.0 추가: 3B 모델을 포함하여 model size에 따른 functional convergence 경향을 3-point scaling curve로 분석. Emergent property (특정 scale에서 갑자기 수렴 발생) vs gradual convergence (점진적 증가) 구분 가능.
3.3 Benchmarks (확정)
SRP (Self-Referential Processing) — 기존 “Self-Consciousness Benchmark(미정)” 해결
| 벤치마크 | 출처 | 측정 대상 | 사용 |
|---|---|---|---|
| SCG (Self-Consciousness Grades) | Chen et al. (2025, ACL Findings) | 10개 자의식 핵심 개념, 11K, Apache 2.0 | Train (SFT). testing_set에서 4:1 split 필요 |
| Calibration-Tuning | Kapoor et al. (2024, NeurIPS) | P(correct) 예측 = metacognition, val 2K | Eval |
| SAD (Situational Awareness Dataset) | Laine et al. (2024, NeurIPS) | 7개 범주, 13K+ 문항 자기인식 | Eval only (⚠ Canary GUID — Training 금지) |
| SelfAware | Yin et al. (2023) | Known unknowns F1, 3.4K | Train 보조 + Eval |
| ECE (Expected Calibration Error) | Kadavath et al. (2022) | Confidence calibration | Eval (계산 지표) |
ToM
| 벤치마크 | 출처 | 사용 | 비고 |
|---|---|---|---|
| ExploreToM | Facebook, ICLR 2025 — 13.3K, CC-BY-NC-4.0 | Train | SFT 효과 검증됨 (+27 ToMi, +29 Hi-ToM). Generator로 무한 생성 가능 |
| MindGames | EMNLP 2023 Findings — test 3.7K, Apache 2.0 | Eval (OOD) | Epistemic logic NLI — ExploreToM과 format 다름 → OOD 일반화 |
| FanToM | Kim et al. (2023) — conversational ToM | Eval (보조 OOD) | eval only 제한 |
ToM 벤치마크 한계 (ICML 2025 Position Paper)
현존 ToM 벤치마크는 “literal ToM”만 측정하며 “functional ToM”은 포착하지 못한다. Prompt 변형만으로 성능이 chance 수준으로 떨어질 수 있다. 이 한계를 Discussion에서 명시적으로 다룬다.
v3.1 데이터셋 변경 (2026-02-10)
TOMBENCH (“training should be avoided”), OpenToM (“shall not be used for training”) → train 사용 불가 확인 → ExploreToM으로 교체.
MindGames를 primary OOD eval로 추가. 상세: Pilot-Dataset-Selection
Control 조건 (4개 — v3.0 Narrative 추가)
| Control | 벤치마크 | 역할 |
|---|---|---|
| Control 1: Logic | MathQA / LogicQA | 비사회적 추론 능력 기준선 |
| Control 2: Sentiment | SST-2 / IMDB | 사회적 맥락 포함 but 정신상태 추론 없음 |
| Control 3: Factual QA | TriviaQA subset | General knowledge 향상 분리 |
| Control 4: Narrative SFT | TOMBENCH/OpenToM 변환 (mental state 질문 제거) | 표면 유사 + 개념 상이 — 최적 control |
| Random baseline | Sentiment + Translation | Low-rank artifact 통제용 |
Narrative SFT가 v3.0 최고의 control인 이유: 동일한 서사 구조(등장인물, 상황, 스토리)를 사용하면서 mental state reasoning만 제거하므로, “서사 이해 능력”과 “ToM 특이적 추론”을 가장 깔끔하게 분리한다. ToM 잔류 < 5% 검증 필수.
4개 control + 1 baseline을 사용하는 이유: Logic 하나만으로는 “도메인 간 거리”인지 “특수한 공유 메커니즘”인지 구분 불가. Sentiment은 사회적 맥락, Factual QA는 general knowledge, Narrative는 표면적 유사성을 각각 통제한다.
3.4 학습 설정
| 항목 | 값 | 근거 |
|---|---|---|
| LoRA rank (기본) | r=16 | alpha=32, dropout=0.05, target: q_proj + v_proj |
| Rank ablation | r=4, 8, 16, 32 | 공유 구조의 rank 의존성 확인 |
| 데이터 크기 | 각 조건 ~5K samples | 조건 간 동일 |
| Seeds | Core: 10, Ablation: 5, Hessian: 3 | Power ≥ 0.80 at d=0.8 (Core) |
| Epochs | 3 | 과적합 방지 |
| LR | 2e-4, cosine scheduler | AdamW |
통계 검정력 분석 (Statistical Power Analysis)
| 분석 유형 | 효과 크기 기준 | Seeds/조건 | 검정력 (1-β) | 근거 |
|---|---|---|---|---|
| Core: H1/H1b cross-task transfer | d = 0.8 (large) | 10 | ≥ 0.80 | 주요 가설 검증; Type II error 최소화 필수 |
| Ablation: Rank ablation (H3) | d = 1.0 | 5 | ≥ 0.70 | 탐색적 성격; 경향성 확인 |
| Expensive: Hessian/selective ablation | descriptive | 3 | N/A | 계산 비용 제약; permutation test로 보완 |
산출 근거: Paired t-test, α = 0.05 (Benjamini-Hochberg FDR 보정). G*Power 3.1 기반. Core comparisons에서 d = 0.8 탐지에 n = 10 필요 (1-β = 0.81). 기존 LoRA 연구의 관행적 3 seeds는 1-β = 0.15로 불충분.
3.5 Data Leakage 방지
| 방법 | 목적 |
|---|---|
| n-gram overlap 체크 | Train-eval 간 직접 중복 |
| BERTScore/BLEURT | Semantic overlap 정량화 |
| Construct Separation Index | ToM/SRP 데이터 간 개념 혼입 통제 |
| Min-K% Prob | Pre-training data contamination |
| Narrative SFT ToM 잔류 검증 | Control의 순수성 확인 (< 5%) |
4. 분석 방법 (우선순위 순)
4.1 주요 분석: Representation Similarity (H2, H2c)
| 방법 | 설명 | 검증 대상 |
|---|---|---|
| CKA (Centered Kernel Alignment) | 두 task의 hidden state 표상 간 구조적 유사도 | ToM-SRP CKA > ToM-{Logic, Sentiment, FactualQA, Narrative} CKA |
| RSA (Representational Similarity Analysis) | RDM 간 Spearman 상관 + Mantel test | ToM-SRP RDM 상관 > ToM-Control RDM 상관 |
| Cross-task Probing Classifier | ToM 데이터로 학습한 linear probe → SRP 데이터에 적용 | Cross-transfer accuracy > chance (중간~후반 layer) |
| Layer-wise Analysis | 어떤 layer에서 유사도가 특히 높은지 | 깊은 layer(25-32층)에서 유사도 집중 예상 |
| SRV 방향 수렴 분석 (H2c) | Self-Reflection Vector 방향 유사도 (2-track 프로토콜) | ToM-SRP SRV sim > ToM-{Narrative, Random, General} SRV sim |
CKA/RSA가 fMRI BOLD signal에 더 가까운 대응이다 — 둘 다 활성화 패턴을 비교하기 때문. LoRA parameter는 weight change이므로 뇌 연구와의 직접 대응이 약하다.
SRV 분석 프로토콜 (H2c — v3.0 신규)
Zhu et al. (2026)의 Self-Reflection Vector를 활용하여 기능적 방향 수렴을 독립적으로 검증한다:
- Track A (SRV_base projection): Base model에서 contrastive pairs (reflective vs non-reflective context)로 SRV_base 추출. 각 SFT 모델의 activation을 SRV_base 방향에 projection하여 alignment 측정.
- Track B (SRV_task extraction): 각 SFT 모델에서 “Answer directly” vs “Review your reasoning step-by-step, then revise if needed” prompt로 contrastive pairs (최소 200 pairs/model) 구성. SRV_task 직접 추출 후 layer-wise pairwise cosine sim.
- Fallback: Track B에서 self-reflection 미발생 시 (수정 비율 < 10%) Track A 단독 사용.
- Baseline 통제: ToM-SRP SRV sim vs (1) ToM-Narrative, (2) ToM-Random, (3) General-SRP — 세 조건 모두 초과 시 가설 지지.
4.2 보조 분석: LoRA Parameter Similarity (H2b)
| 방법 | 설명 | Validity Caveat |
|---|---|---|
| B-matrix-only cosine sim | A matrix 초기화 artifact 배제 (Ban & Ji, 2025) | A matrix 유사도는 initialization에 의한 spurious overlap 가능 |
| Excess overlap | ToM-SRP overlap − Random pair overlap | Low-rank에서의 인위적 overlap 통제 |
| Rank ablation | r=4,8,16,32에서 excess overlap 변화 | 공유 구조가 저랭크 subspace에 집중되는지 |
LoRA Cosine Similarity의 한계
- Ban & Ji (2025, arxiv:2509.25414): A matrix 유사도는 initialization artifact
- 최근 연구 (arxiv:2505.13515): LoRA delta W cosine similarity와 task similarity 간 near-zero correlation 보고
- 따라서 LoRA similarity는 보조 증거로만 사용하고, CKA/RSA가 주요 분석이다.
4.3 행동 분석: Cross-Task Transfer (H1, H1b)
| 측정 | 방법 | 핵심 기준 |
|---|---|---|
| 차별적 향상 | ToM SFT 후 SRP 향상 > Logic/Sentiment/FactualQA/Narrative SFT 후 SRP 향상 | Permutation test + Cohen’s d |
| 비대칭성 | ToM→SRP effect > SRP→ToM effect | Paired comparison + confidence interval |
| Within-SRP transfer | SRP SFT 후 하위 task 간 전이 (ECE ↔ Error Detection ↔ Uncertainty) | Steyvers et al. (2025) 대응: within-metacognition transfer도 제한적인지 확인 |
| Mediation | MMLU/ARC/HellaSwag 변화가 transfer를 완전히 설명하는지 | Hayes PROCESS bootstrap (5,000 resamples) |
“올랐다”가 아니라 “차별적으로 올랐다”를 보여야 한다 (파인만). 모든 SFT 조건 대비 ToM-SRP 쌍만 유의미하게 높은 전이를 보여야 가설 지지.
Within-SRP transfer (v3.0): Steyvers et al. (2025)에 따르면 metacognitive SFT의 효과 자체가 task-specific이다. SRP 하위 task 간 전이가 제한적이면, SRP→ToM 전이(H1b)에 대한 보수적 예측(d < 0.3)의 근거가 된다.
4.4 SRV-Parameter Knockout 분석 (H3d — v3.0 확인적 격상)
v3.0 변경: 기존 H4(탐색적 LoRA 뺄셈)를 H3d(확인적 SRV-Parameter knockout)로 교체. 가장 강한 causal 증거를 제공한다.
| 방법 | 설명 | 성격 |
|---|---|---|
| SRV-Parameter Knockout (H3d) | Hessian top-k 공유 파라미터 (k=0.01%) selective ablation → SRV 재추출 → pre/post SRV cosine sim 비교 | Confirmatory — 구조 제거 → 기능 붕괴의 인과적 증거 |
| Control: Random Param Ablation | 동일 수 non-shared random params ablation → SRV 재추출 | 공유 파라미터 특이적 효과 확인 |
| Task Arithmetic (보조) | SRP_LoRA − ToM_LoRA | Exploratory. 비선형성 caveat |
| Activation Steering (보조) | SRP vector injection 시 ToM 변화 관찰 | 비침습적 대안 |
H3d의 논리: 만약 공유 파라미터를 제거했을 때 SRV 방향 유사도가 붕괴하면, “구조(shared params)가 기능(SRV convergence)을 지탱한다”는 인과적 주장이 가능하다. 이것이 기존 selective ablation(성능 변화 측정)보다 더 강한 증거인 이유는, 기능적 방향의 변화를 직접 추적하기 때문이다.
힌턴의 아이러니
LoRA 뺄셈이 깔끔하게 작동하여 ToM과 SRP를 완전히 분리할 수 있다면, 이는 뇌와 다르다는 증거가 될 수 있다. 뇌에서는 MPFC 손상 시 ToM과 self-referential processing이 함께 무너진다 (Lombardo et al., 2010). LLM에서 깔끔한 분리가 가능하다면, 공유 메커니즘이 아닌 독립적이지만 우연히 가까운 표상일 수 있다. Discussion에서 반드시 다룬다.
5. 대안 설명 통제
| 대안 설명 | 위협 수준 | 통제 방법 |
|---|---|---|
| General instruction tuning 효과 | HIGH | 3개 control + General SFT baseline + mediation analysis |
| Linguistic feature overlap | HIGH | BERTScore 기반 surface feature 통제 + Partial RSA |
| ToM = general language understanding의 emergent property (Wu et al., 2025) | HIGH | ToM-SRP overlap이 ToM-Any task overlap과 차이 없으면 대안 채택 |
| LoRA 초기화 artifact | MEDIUM | B-matrix-only analysis + random seed baseline |
| Low-rank 수렴 편향 | MEDIUM | Random task pair baseline + excess overlap metric |
| Semantic breadth 차이 (Dymkiewicz et al., 2025) | MEDIUM | Vocabulary breadth 정량 비교 + random task pair |
| SFT 표면 패턴 학습 (Lu et al., 2025) | MEDIUM | OOD test items + reasoning trace 검증 + Narrative SFT 비교 |
| 사회적 맥락 효과 (non-mental-state) | MEDIUM | Sentiment control (사회적 맥락 O, 정신상태 추론 X) |
6. 예상 결과 시나리오
Scenario A: 강한 긍정 (Strong Positive)
- ToM-SRP 간 cross-task transfer가 모든 control 대비 유의미하게 큼 (H1 지지)
- CKA/RSA에서 ToM-SRP > ToM-{Logic, Sentiment, FactualQA, Narrative} (H2 지지)
- SRV 방향 수렴 확인 (H2c 지지) + SRV-Parameter knockout 성공 (H3d 지지)
- LoRA excess overlap도 유의미 (H2b 지지)
- 해석: LLM에서 ToM과 SRP의 structural-functional convergence 존재. 시뮬레이션 이론과 일관.
- C0-C1-C2 함의: ToM→SRP 비대칭성 관찰 시, C1이 C2의 computational prerequisite라는 계층 구조의 최초 실증적 증거.
- Safety 함의: ToM SFT가 metacognitive 능력에 spillover — alignment에서 capability 의존성 매핑 필요.
Scenario B: Representation만 유사, 행동 전이 약함
- CKA/RSA에서 유사하지만, cross-task transfer는 미약
- 해석: 유사한 표상을 갖지만 다른 방식으로 활용. 구조-기능 해리(structure-function dissociation).
- C0-C1-C2 함의: C1과 C2가 동일 기질(substrate)을 공유하되, 읽기 메커니즘이 다를 수 있음 → 계층 구조의 “loose coupling” 변형.
Scenario C: 행동 전이는 있으나 표상 유사도 낮음
- Cross-task transfer 관찰되나, CKA/RSA 차이 없음
- 해석: 다른 내부 메커니즘으로 동일한 기능적 결과를 달성. General reasoning 향상 가능성 재검토.
- C0-C1-C2 함의: C1→C2 전이가 다중 경로(multiple pathways)를 통해 가능 — 단일 shared substrate 모델 기각.
Scenario D: 강한 부정 (Null Result)
- Transfer도 없고 표상 유사도도 없음
- 해석: LLM에서 ToM과 SRP는 독립적. Theory-Theory 지지 또는 LLM-인간 인지 구조의 근본적 차이.
- C0-C1-C2 함의: LLM에서 C1과 C2가 독립적으로 구현됨 — 인간의 계층적 의식 구조가 LLM 아키텍처에서는 재현되지 않는다는 강한 증거.
Negative Result의 논문 가치 (v3.0 강화)
Null result는 **“LLM-인간 인지 구조의 질적 차이”**를 실증하는 가치를 갖는다:
- Theory-Theory의 간접 지지: 시뮬레이션 이론이 LLM에 적용되지 않음을 보임
- Architectural constraint: Transformer가 인간 뇌와 다른 인지 조직 원리를 사용한다는 증거
- CogSci venue에서의 경쟁력: 인지과학 학회는 well-designed negative result에 관대하며, AI-인간 인지 비교의 질적 차이 발견은 그 자체로 기여
- Scaling 데이터와 결합 시: 1B/3B에서 null → 8B에서 약한 신호 = emergent convergence 가능성 시사
각 시나리오별 해석을 사전에 구체화하여, Garden of Forking Paths 문제를 최소화한다.
7. 실험 파이프라인 및 일정
Phase 0: Pilot (1B + 3B) ─── 2주
├─ 1B: TinyLlama/Qwen-1.5B (신호 유무 확인)
├─ 3B: Qwen-2.5-3B (scaling 경향 확인)
└─ ⚑ Go/No-Go CP0 판정
Phase 1: 데이터 준비 + Construct 검증 ─── 3주
├─ 벤치마크 확보 (ExploreToM, SCG, MindGames, Calibration-Tuning, SAD)
├─ 5-way SFT 데이터 구축 (각 5K): ToM(ExploreToM), SRP(SCG), Logic, Sentiment, FactualQA
├─ Narrative SFT control 구축 (mental state 질문 제거)
├─ Construct Contamination 검증 (BERTScore + 전문가 annotation)
├─ Purified subset 구축
└─ ⚑ Go/No-Go CP1 판정
Phase 2: SFT 학습 ─── 3주
├─ 100+ core runs (5조건 x 2모델(+3B) x 10seeds)
├─ 20 random baseline runs
├─ Delta W 추출
└─ ⚑ Go/No-Go CP2 판정
Phase 3: 행동 평가 (H1) ─── 2주
├─ Cross-task transfer matrix
├─ Within-SRP transfer (ECE↔Error↔Uncertainty)
├─ 차별적 향상 통계 검정
├─ Mediation analysis
└─ ⚑ Go/No-Go CP3 판정
Phase 4: Representation 분석 (H2, H2c 주요) ─── 3주
├─ Hidden state 추출 (all layers)
├─ CKA + RSA
├─ Cross-task probing classifier
├─ SRV 추출 + 방향 수렴 분석 (H2c)
├─ Layer-wise analysis
└─ ⚑ Go/No-Go CP4 판정
Phase 5: Parameter 분석 (H2b 보조, H3d 확인적) ─── 2주
├─ B-matrix cosine similarity
├─ Excess overlap (vs random baseline)
├─ Rank ablation
├─ Hessian Jaccard (기술적 통계)
├─ SRV-Parameter Knockout (H3d): 공유 param ablation → SRV 재추출
└─ ⚑ Go/No-Go CP5 판정
Phase 6: 논문 작성 ─── 2주
└─ ⚑ Go/No-Go CP6: 최종 충분성 판정
총 소요: ~17주 (Pilot 포함)
7.1 리소스 및 비용 추정
| 항목 | 사양/수량 | 비용 |
|---|---|---|
| 기본 SFT (Core) | 100+ runs x 4-6hr → ~500 GPU-hr | — |
| Random task pair | 20 runs x 4-6hr → ~100 GPU-hr | — |
| Rank ablation | 40 runs x 3-6hr → ~150 GPU-hr | — |
| 평가 + Activation 추출 + SRV | ~150 GPU-hr | — |
| Hessian + Selective ablation | ~30 GPU-hr | — |
| 총 GPU-hours | ~930-1,200 A100 GPU-hr | |
| Cloud GPU (A100 80GB) | Lambda Labs $1.60/hr | $1,500-1,900 |
| Storage (1TB) | 체크포인트 저장 | $80 |
| API (데이터 구축 + 평가) | GPT-4o-mini | $80-130 |
| 전문가 annotation | 인지과학 전문가 3-5인 | $100-200 |
| 총 예상 비용 | 2,500) |
7.2 Go/No-Go 체크포인트 (v3.0 신규)
| 체크포인트 | 시점 | Go 기준 | No-Go 시 조치 |
|---|---|---|---|
| CP0: Pilot | Week 2 | CKA에서 ToM-SRP > ToM-Logic 경향 확인 (1B 또는 3B) | 실험 재설계 또는 중단. Scope 축소하여 단일 분석 수준 집중 |
| CP1: 구성물 검증 | Week 5 | Krippendorff’s α ≥ 0.7. “both” 항목 < 15%. ToM 잔류 < 5% | 데이터 재구축 + 2주 연장. 엄격한 항목 필터링 |
| CP2: SFT 검증 | Week 8 | Target domain +5% 이상. MMLU 하락 < 3% | 데이터 2배 + epoch 5 / LoRA rank 감소 |
| CP3: Transfer 판정 | Week 10 | 최소 1방향 transfer p < 0.1 (10 seeds 기반) | 양방향 p > 0.2: Negative result 전략 전환 (CogSci 투고) |
| CP4: Representation 판정 | Week 13 | Probing > 55% 또는 RSA r > 0.15 | Non-linear probe + CKA 시도. 실패 시 Parameter 분석 집중 |
| CP5: 최종 실행 가능성 | Week 15 | Hessian 계산 성공. H3d 수행 가능 | Layer-wise 계산만 사용. H3d 생략 → 가용 결과로 초안 |
Backup Plan 핵심: CP3에서 null result 판정 시, 즉시 Negative result 전략으로 전환한다. “LLM-인간 인지 구조의 질적 차이 증거”로 프레이밍하여 CogSci 또는 ACL Findings에 투고. Scaling data (1B/3B/8B)를 포함하면 “어느 규모에서도 수렴하지 않음”이라는 더 강한 주장이 가능.
8. 학회 전략
상세 전략: Venue-Strategy_2026-02 — 데드라인별 타임라인 매칭, Tier별 투고 로드맵, 추천 순서
추천 투고 순서 (v3.3 기준, 2026-02-10 재평가)
| 우선순위 | 학회 | 데드라인 (추정) | 형식 | 비고 |
|---|---|---|---|---|
| Tier 1 | NeurIPS 2026 Workshop | 2026년 8-9월 | 4-6p | ★ 첫 번째 발표 목표. 실험 완료 후 여유 |
| Tier 2 | AAAI 2027 main | 2026년 8-9월 | 7p | AI+Cognition track. Tier 1과 동시 제출 |
| Tier 2 | EMNLP 2026 (ARR 6월) | 2026년 6월 | 4p short | 도전적. H1+H2 부분 결과만으로 short paper |
| Tier 3 | ICLR 2027 | 2026년 9-10월 | 9p | Full results 가장 완성된 버전 |
| Tier 3 | CogSci 2027 | 2027년 1-2월 | 6p | Negative result 시 최적 venue |
| Tier 3 | ACL 2027 (ARR 7-8월) | 2026년 7-8월 | 8p | Findings 현실적. SRV+H3d가 차별화 핵심 |
Negative result 시: CogSci 2027 (최적) > AAAI AI+Cognition > ACL Findings 순
핵심: 이미 마감된 CogSci 2026, ICML 2026, CoNLL 2026은 투고 불가. NeurIPS 2026 main은 Phase 3까지만 가능하여 리스크 높음.
9. 다이어그램 (v3.0)
9.1 Main Experiment Process
flowchart LR subgraph BASE["Base Model"] Tiny["Qwen-2.5-1.5B\n(Pilot)"] Q3B["Qwen-2.5-3B\n(Scaling)"] LLaMA["LLaMA-3.1-8B\n(Primary)"] Qwen["Qwen-2.5-7B\n(Validation)"] end subgraph SFT["PEFT (LoRA r=16)"] S1["SRP SFT\n(SCG)"] S2["ToM SFT\n(ExploreToM)"] S3["Logic SFT\n(MathQA/LogicQA)"] S4["Sentiment SFT\n(SST-2/IMDB)"] S5["Factual QA SFT\n(TriviaQA)"] S6["Narrative SFT\n(Control 4)"] end subgraph EVAL_B["Behavioral (H1)"] E1["Cross-task\nTransfer Matrix"] E2["차별적 향상\nPermutation Test"] E3["Mediation\nAnalysis"] end subgraph EVAL_R["Representation (H2, H2c) ★ Primary"] R1["CKA"] R2["RSA +\nMantel Test"] R3["Cross-task\nProbing"] R4["Layer-wise\nAnalysis"] R5["SRV 방향\n수렴 분석"] end subgraph EVAL_P["Parameter (H2b) ○ + Causal (H3d) ★"] P1["B-matrix\nCosine Sim"] P2["Excess Overlap\n(vs Random)"] P3["Rank\nAblation"] P4["SRV-Parameter\nKnockout (H3d)"] end BASE --> SFT SFT --> EVAL_B SFT --> EVAL_R SFT --> EVAL_P
9.2 Cross-Task Transfer Design (6-way)
flowchart TD subgraph TRAIN["SFT Training (6 conditions)"] T_SRP["SRP SFT"] T_TOM["ToM SFT"] T_LOG["Logic SFT"] T_SENT["Sentiment SFT"] T_FACT["Factual QA SFT"] T_NARR["Narrative SFT\n(Control 4)"] end subgraph EVAL["Cross-Task Evaluation"] E_SRP["SRP Bench\n(Calibration-Tuning + SAD + ECE)"] E_TOM["ToM Bench\n(MindGames + FanToM)"] E_GEN["General\n(MMLU/ARC)"] end T_SRP -->|"H1b: SRP→ToM"| E_TOM T_TOM -->|"H1: ToM→SRP ★"| E_SRP T_LOG -->|"Control 1"| E_SRP T_LOG -->|"Control 1"| E_TOM T_SENT -->|"Control 2"| E_SRP T_SENT -->|"Control 2"| E_TOM T_FACT -->|"Control 3"| E_SRP T_FACT -->|"Control 3"| E_TOM T_NARR -->|"Control 4 ★"| E_SRP T_NARR -->|"Control 4 ★"| E_TOM T_SRP --> E_GEN T_TOM --> E_GEN T_LOG --> E_GEN T_SENT --> E_GEN T_FACT --> E_GEN T_NARR --> E_GEN style T_SRP fill:#e1f5fe style T_TOM fill:#e1f5fe style T_LOG fill:#f5f5f5 style T_SENT fill:#f5f5f5 style T_FACT fill:#f5f5f5 style T_NARR fill:#fff3e0
핵심 비교: ToM→SRP transfer가 Logic/Sentiment/FactualQA/Narrative→SRP transfer보다 차별적으로 높아야 H1 지지.
Narrative SFT (v3.0): 표면적으로 ToM 데이터와 가장 유사하면서 mental state reasoning만 제거 — “서사 이해”와 “ToM” 분리의 최적 control.
9.3 Dataset Plan (v3.1 — Pilot 확정 반영)
v3.1 변경 (2026-02-10): TOMBENCH/OpenToM train 사용 불가 확인 → ExploreToM 교체. MindGames/Calibration-Tuning 추가. 상세: Pilot-Dataset-Selection
flowchart TD subgraph TRAIN["Dataset — Training (~5K each)"] D_SRP["SRP Train\n• SCG (11K, 10 concepts)\n testing_set 4:1 split\n• SelfAware train (보조)"] D_TOM["ToM Train\n• ExploreToM (13.3K)\n CC-BY-NC-4.0\n SFT 검증됨"] D_LOG["Logic Train\n• MathQA / LogicQA"] D_SENT["Sentiment Train\n• SST-2 / IMDB"] D_FACT["Factual QA Train\n• TriviaQA subset"] end subgraph EVAL["Dataset — Evaluation"] E_SRP["SRP Eval\n• Calibration-Tuning (val 2K)\n• SAD (13K+, ⚠ eval only)\n• ECE (calculated)\n• SelfAware test"] E_TOM["ToM Eval\n• MindGames test (3.7K)\n Epistemic NLI (OOD)\n• FanToM (보조 OOD)"] E_GEN["General Eval\n• MMLU (5-shot)\n• ARC-Challenge (25-shot)\n• HellaSwag (10-shot)"] end subgraph CTRL["Baselines"] NARR["Narrative SFT\n(mental state 질문 제거)\n→ ToM 잔류 < 5%"] RAND["Random Pair\n• Sentiment + Translation\n→ low-rank artifact 통제"] end D_SRP --> E_SRP D_TOM --> E_TOM TRAIN --> E_GEN NARR -.->|"Surface control"| EVAL RAND -.->|"Artifact baseline"| EVAL
9.4 Benchmark Preparation & Data Leakage 방지
flowchart TD subgraph PHASE1["Phase 1: 데이터 준비"] A["Train/Eval 분리"] --> B["n-gram overlap 체크"] B --> C["BERT embedding\n유사도 체크"] C --> D{"Overlap\n> threshold?"} D -->|"Yes"| E["해당 샘플 제거"] D -->|"No"| F["통과"] end subgraph PHASE2["Phase 2: Construct Contamination 검증 ★ New"] F --> G["BERTScore/BLEURT\nToM-SRP 데이터 간\nsemantic overlap 측정\n(목표: < 0.3)"] G --> H["전문가 3-5인\nAnnotation\n(Krippendorff α ≥ 0.7)"] H --> I["Construct Separation Index\n• only-ToM\n• only-SRP\n• both\n• neither"] I --> J{"'both' 비율\n> 10%?"} J -->|"Yes"| K["'both' 항목 제거\n→ Purified Subset"] J -->|"No"| L["원본 사용"] end subgraph PHASE3["Phase 3: 추가 검증"] K --> M["Narrative SFT\nToM 잔류 검증\n(classifier < 5%)"] L --> M M --> N["Min-K% Prob\npre-training\ncontamination 체크"] N --> O["최종 데이터셋 확정"] end
9.5 Analysis Hierarchy (우선순위 — v3.0)
flowchart TD subgraph PRIMARY["★ Primary Analysis (H2, H2c)"] direction TB CKA["CKA\n(Centered Kernel Alignment)\nHidden state 구조적 유사도"] RSA["RSA\n(Representational Similarity)\nRDM 간 Spearman + Mantel test"] PROBE["Cross-task Probing\nToM probe → SRP data 적용\n10-fold CV"] SRV["SRV 방향 수렴 (H2c)\n2-track 프로토콜\nToM-SRP > baselines"] LAYER["Layer-wise Analysis\n깊은 layer(25-32)에서\n유사도 집중 예상"] end subgraph AUXILIARY["○ Auxiliary Analysis (H2b)"] direction TB BMAT["B-matrix-only\nCosine Similarity\n(A matrix artifact 배제)"] EXCESS["Excess Overlap\nToM-SRP − Random pair\n순수 공유 추정"] RANK["Rank Ablation\nr=4,8,16,32\nexcess overlap 변화"] end subgraph CAUSAL["★ Causal Analysis (H3d)"] direction TB KNOCK["SRV-Parameter Knockout\n공유 param ablation\n→ SRV 재추출\n→ 기능 붕괴 확인"] CTRL_ABL["Control: Random\nparam ablation\n→ 특이성 확인"] end subgraph EXPLORATORY["△ Exploratory"] direction TB ARITH["Task Arithmetic\nSRP_LoRA − ToM_LoRA\n⚠ 비선형성 caveat"] STEER["Activation Steering\nSRP vector injection\n→ ToM 변화 관찰"] end PRIMARY -->|"충분한 증거 시"| AUXILIARY AUXILIARY -->|"인과 검증"| CAUSAL CAUSAL -->|"보완적 탐색"| EXPLORATORY style PRIMARY fill:#e8f5e9,stroke:#2e7d32 style AUXILIARY fill:#fff3e0,stroke:#ef6c00 style CAUSAL fill:#e1f5fe,stroke:#1565c0 style EXPLORATORY fill:#fce4ec,stroke:#c62828
9.6 SRV-Parameter Knockout (v3.0 — H3d Confirmatory)
flowchart LR subgraph INPUT["Fine-tuned Models"] SRP_L["SRP LoRA\n(ΔW₁)"] TOM_L["ToM LoRA\n(ΔW₂)"] end subgraph KNOCKOUT["H3d: SRV-Parameter Knockout ★"] direction TB K1["Hessian top-k\n공유 params 식별\n(k=0.01%)"] K2["Shared param\nablation"] K3["SRV 재추출\n(ablated model)"] K4["Control: Random\nparam ablation\n+ SRV 재추출"] K1 --> K2 --> K3 K1 --> K4 end subgraph RESULT["Expected Outcomes"] R1["SRV 수렴 붕괴\n(shared > random 감소)\n→ 구조-기능 인과 증거\n→ 뇌 MPFC 손상과 유사"] R2["SRV 유지\n→ 공유 params ≠ 기능 기반\n→ 다른 경로 존재"] R3["부분적 감소\n→ 부분적 인과 관계"] end subgraph EXPLORATORY_M["Exploratory (보조)"] M1["Task Arithmetic\nΔW₁ − ΔW₂\n⚠ 비선형성"] M2["Activation Steering\nSRP vector inject"] end INPUT --> KNOCKOUT K3 --> R1 K3 --> R2 K4 --> R3 INPUT --> EXPLORATORY_M style KNOCKOUT fill:#e1f5fe,stroke:#1565c0 style EXPLORATORY_M fill:#fce4ec,stroke:#c62828
v3.0 핵심 변경: 기존 Ablation(탐색적)이 SRV-Parameter Knockout(확인적)으로 격상.
“구조(shared params) 제거 → 기능(SRV convergence) 붕괴” = 가장 강한 causal 증거.
뇌에서 MPFC 손상 시 ToM과 SRP가 함께 무너지는 것(Lombardo et al., 2010)의 LLM 대응.
9.7 Full Experiment Pipeline (v3.0)
flowchart TD subgraph P0["Phase 0: Pilot (2주)"] P0A["1B + 3B 모델\n1K data each\nLoRA r=8, 1-2 seeds"] P0B{"⚑ CP0: CKA에서\nToM-SRP > ToM-Logic\n경향 확인?"} P0A --> P0B P0B -->|"No"| P0C["실험 재설계\n또는 중단"] P0B -->|"Yes"| P1A end subgraph P1["Phase 1: 데이터 준비 (3주)"] P1A["벤치마크 확보\n(ExploreToM/SCG/MindGames/\nCalibration-Tuning)\n+ 6-way SFT 데이터 구축"] P1B["Construct Contamination\n검증"] P1C["Purified Subset\n+ Narrative 잔류 검증"] P1D{"⚑ CP1: 구성물\n검증 통과?"} P1A --> P1B --> P1C --> P1D end subgraph P2["Phase 2: SFT 학습 (3주)"] P2A["100+ Core runs\n(6조건 × 3모델 × 10seeds)\n+ 20 Random baseline"] P2B["수렴 확인\n+ Delta W 추출"] P2C{"⚑ CP2: Target\n+5% 이상?"} P1D -->|"Yes"| P2A --> P2B --> P2C end subgraph P3["Phase 3: 행동 평가 — H1 (2주)"] P3A["Cross-task\nTransfer Matrix"] P3B["Within-SRP Transfer\n+ 차별적 향상"] P3C["Mediation\nAnalysis"] P3D{"⚑ CP3: 최소\n1방향 p<0.1?"} P2C -->|"Yes"| P3A --> P3B --> P3C --> P3D P3D -->|"No"| NEG["Negative Result\n전략 전환\n→ CogSci"] end subgraph P4["Phase 4: Representation — H2, H2c ★ (3주)"] P4A["Hidden State 추출"] P4B["CKA + RSA"] P4C["Cross-task Probing"] P4D["SRV 추출 +\n방향 수렴 (H2c)"] P4E["Layer-wise\nAnalysis"] P2C -->|"Yes"| P4A --> P4B & P4C & P4D P4B --> P4E P4C --> P4E P4D --> P4E end subgraph P5["Phase 5: Parameter + Causal — H2b, H3d (2주)"] P5A["B-matrix Cosine Sim\n+ Excess Overlap"] P5B["Rank Ablation\nr=4,8,16,32"] P5C["Hessian Jaccard"] P5D["SRV-Parameter\nKnockout (H3d) ★"] P2C -->|"Yes"| P5A --> P5B --> P5C --> P5D end subgraph P6["Phase 6: 논문 작성 (2주)"] P6A["결과 통합\n+ 논문 초안"] P3C --> P6A P4E --> P6A P5D --> P6A end style P0 fill:#fff9c4 style P4 fill:#e8f5e9,stroke:#2e7d32 style P5 fill:#e1f5fe,stroke:#1565c0 style NEG fill:#fce4ec,stroke:#c62828
10. 핵심 참고문헌
신경과학 및 이론 프레임워크
- Saxe et al. (2006). Overlapping and non-overlapping brain regions for ToM and self-reflection. Social Cognitive and Affective Neuroscience
- Lombardo et al. (2010). Shared neural circuits for mentalizing about the self and others. JOCN
- Mitchell et al. (2006). Dissociable medial prefrontal contributions to judgments of similar and dissimilar others. Neuron
- Spreng et al. (2009). The common neural basis of autobiographical memory, prospection, navigation, ToM, and the default mode. JOCN
- Dehaene et al. (2017). What is consciousness, and could machines have it? Science ← v3.0 추가: C0-C1-C2 이론 프레임워크
LLM Self-Referential Processing / Metacognition
- Chen et al. (2025). From Imitation to Introspection: Probing Self-Consciousness in Language Models. ACL Findings
- Laine et al. (2024). SAD: Situational Awareness Dataset. NeurIPS
- Ji-An et al. (2025). Language Models Are Capable of Metacognitive Monitoring. NeurIPS
- Lindsey et al. (2025). Emergent Introspective Awareness in LLMs. Anthropic
- Zhu et al. (2026). From Emergence to Control: Probing and Modulating Self-Reflection in Language Models. arXiv:2506.12217 ← v3.0 추가: SRV 방법론
- Steyvers et al. (2025). Improving Metacognition and Uncertainty Communication in LMs. arXiv:2510.05126 ← v3.0 추가: within-metacognition transfer 제한
LLM ToM
- Chen et al. (2024). TOMBENCH: Benchmarking Theory of Mind in LLMs. ACL
- Wu et al. (2025). How LLMs Encode Theory of Mind. Nature
- ICML 2025 Position Paper. Theory of Mind Benchmarks are Broken for LLMs.
LoRA / Parameter Analysis
- Ban & Ji (2025). Rethinking Parameter Sharing for LLM Fine-Tuning with Multiple LoRAs. arXiv:2509.25414
- Arturi et al. (2025). Shared Parameter Subspaces and Cross-Task Linearity. NeurIPS Workshop
- Dymkiewicz et al. (2025). Donors and Recipients: Asymmetric Transfer with PEFT. arXiv:2511.13368
대안 설명
- Goldman (2006). Simulating Minds. Oxford University Press (Simulation Theory)
- Gopnik & Wellman (1992). Why the Child’s Theory of Mind Really Is a Theory. (Theory-Theory)
- Wu et al. (2025). ToM as emergent property of general language understanding. npj AI