LLM에서 Theory of Mind과 Metacognitive Monitoring의 구조-기능적 수렴: Cross-Task Transfer, Parameter-Level Overlap, 그리고 Self-Reflection Vector 분석

연구 분야: AI (NLP, LLM, Cognitive AI, Mechanistic Interpretability)
키워드: Theory of Mind, Metacognition, Cross-Task Transfer, LoRA Parameter Overlap, LLM Interpretability
작성일: 2026-02-05
비평 점수: 라운드 5: 7.9/10 → 라운드 6: Ban & Ji 반영 완료 (실험 시작 권고)

1. 연구 개요 (Executive Summary)

연구 개요

인간 신경과학에서 Theory of Mind(ToM) 관련 뇌 영역(dmPFC, TPJ, DMN)과 metacognition/self-awareness 관련 영역이 상당 부분 중첩된다. 본 연구는 이 현상이 LLM의 내부 표상(parameter space, activation space) 수준에서도 재현되는지를 최초로 체계적으로 검증한다. 4-way SFT 설계(ToM/Metacognition/Narrative-only/General control)와 다층적 분석(행동/표상/파라미터)을 통해, ToM과 metacognitive monitoring(C2)이 “shared representational substrate”를 공유하는지, 아니면 general language understanding의 독립적 부산물인지를 판별한다.

연구 동기: Wu et al. (Nature 2025)은 LLM에서 0.001% 수준의 극히 희소한 파라미터가 ToM에 결정적 역할을 함을 발견했고, Ji-An et al. (NeurIPS 2025)은 LLM의 metacognitive monitoring 공간이 매우 저차원임을 보였다. 그러나 이 두 능력 간의 구조적 연결은 직접 검증된 바 없다.
핵심 아이디어: ToM task로 fine-tuning하면 metacognitive monitoring(C2) 성능이 함께 향상되는가? 두 task의 LoRA delta W가 구조적으로 중첩되는가? 이를 통해 LLM이 인간과 유사한 인지 구조를 가지고 있는지에 대한 간접적 증거를 제시한다.
예상 기여: (1) ToM-Metacognition 구조-기능적 수렴(structural-functional convergence)의 최초 체계적 실증, (2) LoRA delta W cross-task overlap 분석 방법론, (3) Self-reflection vector 기반 기능적 방향 수렴 검증, (4) C0-C1-C2 이론의 LLM 적용 검증
주요 연구 질문: ToM SFT가 metacognitive monitoring을 향상시키는가? 두 task의 내부 표상과 파라미터 변화가 구조적으로 중첩되는가? 나아가, self-reflection vector의 기능적 방향까지 수렴하는가?

2. 연구 배경 (Background)

2.1 문제 정의

LLM에서 Theory of Mind과 metacognition/self-consciousness는 최근 독립적으로 활발히 연구되고 있다. ToM 측면에서 Wu et al. (Nature 2025)은 0.001% 수준의 극히 희소한 파라미터가 ToM에 결정적 역할을 하며 RoPE와 연결됨을 발견했다. Metacognition 측면에서 Ji-An et al. (NeurIPS 2025)은 LLM의 metacognitive space가 전체 neural space보다 훨씬 낮은 차원임을 보였고, Binder et al. (ICLR 2025)은 LLM introspection의 증거를 제시했다.

그러나 이 두 능력 간의 직접적 관계는 검증된 바 없다. 인간 신경과학에서 dmPFC, TPJ, DMN이 ToM과 self-awareness 모두에서 활성화된다는 보고(Lombardo et al., 2010)가 있지만, LLM에서 이러한 구조적 연결이 존재하는지는 미지의 영역이다.

2.2 핵심 개념

Theory of Mind (ToM): 타인의 마음(신념, 의도, 욕구 등)을 추론하고 이해할 수 있는 능력. False-belief task가 대표적 평가 방법이며, 인간에서는 4-5세에 발달한다.
Metacognitive Monitoring (C2): Dehaene et al.의 C0-C1-C2 의식 이론에서 C2 수준에 해당하는 자기 인지 과정의 모니터링 능력. 본 연구에서는 confidence calibration, error detection, uncertainty estimation으로 조작화한다.
C0-C1-C2 이론: C0(무의식적 처리), C1(전역적 접근 가능성/Global workspace), C2(자기 모니터링/Metacognition)의 계층 구조. ToM은 C1 수준의 사회적 인지로, C2의 computational prerequisite가 될 수 있다.
Self-Reflection Vector (SRV)와 Metacognitive Monitoring의 관계: Zhu et al. (arXiv:2506.12217, 2026)의 “self-reflection”은 모델이 자기 추론 과정을 재평가하여 오류를 탐지·수정하는 과정으로, metacognitive monitoring의 핵심 하위 과정인 error detection → correction에 해당한다. SRV가 활성화되면 모델이 자기 추론을 재평가하므로, C2 metacognitive monitoring의 **기능적 프록시(functional proxy)**로 사용할 수 있다. 단, SRV ≠ metacognition 전체: SRV는 metacognitive monitoring의 activation-level 간접 지표로 한정되며, metacognitive regulation이나 metacognitive knowledge는 포착하지 않는다. 본 연구에서 SRV는 “ToM과 Metacognition이 기능적 방향에서도 수렴하는가?”를 검증하는 도구로, 구조적 overlap(파라미터/활성화 공유)을 보완하는 기능적 차원의 증거를 제공한다.

2.3 기존 접근법의 한계

개별 연구의 단절: ToM과 metacognition이 각각 독립적으로 연구되며, 양자 간 관계를 직접 검증한 연구가 없다.
파라미터 수준 연결성 분석 부재: Activation-level 분석은 다수 존재하지만, 두 task의 학습 시 파라미터 변화 방향의 구조적 중첩도를 분석한 연구가 없다.
인과성 검증 부재: 상관적 증거(공유 뇌 영역 활성화)는 있으나, 한 능력을 강화했을 때 다른 능력이 향상되는지에 대한 양방향 인과 검증이 없다.
Confound 통제 부족: 기존 cross-task 연구들이 general reasoning 향상에 의한 confounding을 충분히 통제하지 않는다.

3. 선행 연구 분석 (Prior Research)

3.1 핵심 선행 연구

#	논문	핵심 기여	본 연구와의 관계
1	Wu et al. (Nature 2025). “How LLMs encode ToM”	0.001% ToM-민감 파라미터; RoPE 연결; ToM이 emergent property일 수 있음 시사	직접적 방법론 기반: Hessian 기반 sensitivity 분석을 metacognition에 확장; 대안 설명 배제 대상
2	Chen et al. (ACL 2025 Findings). “From Imitation to Introspection”	10개 자의식 개념 정의; SCG 기반 4단계 실험; fine-tuning으로 습득 가능	Metacognition 평가 프레임워크: C2 subset (known unknowns) 활용
3	Ji-An et al. (NeurIPS 2025). “LM Metacognitive Monitoring”	Neurofeedback 패러다임; metacognitive space의 저차원성	Metacognition 측정법: 보조 분석에서 neurofeedback 활용
4	MetaMind / Cui et al. (NeurIPS 2025 Spotlight)	인간 수준 ToM; metacognitive 원리 적용	ToM-Metacognition 통합 사례: metacognitive 원리가 ToM을 향상시킨 실증
5	Binder et al. (ICLR 2025). “Looking Inward”	M1이 자기 행동 예측에서 M2보다 우수; introspection 증거	Introspection 측정 참조
6	Lindsey (Anthropic 2025). “Emergent Introspective Awareness”	Concept injection; ~20% 확률로 주입된 개념을 정확히 명명	자기 인식 평가 기준
7	Zhu et al. (arXiv:2506.12217, 2026). “From Emergence to Control”	Self-Reflection Vector; contrastive activation으로 자기성찰 방향 추출; 빈도 0.6%→18.6%, 추론 최대 12% 향상. Self-reflection = metacognitive monitoring의 error detection→correction 하위 과정	H2d/H3d 핵심 방법론: SRV를 C2 metacognitive monitoring의 기능적 프록시(activation-level 간접 지표)로 활용. ToM/Meta SFT 모델 간 기능적 방향 수렴 분석(H2d) + 구조 제거 시 기능 붕괴 인과 검증(H3d). 구조적 overlap(H3a-c)에 기능적 차원 추가
8	Chen et al. (ACL 2024). “TOMBENCH”	8 tasks, 31 abilities, 2,860 MCQ	주요 ToM 벤치마크
9	Xu et al. (ACL 2024). “OpenToM”	696 서사, 16K 질문; 심리적 정신 상태 분리	ToM 학습 데이터 소스
10	Kadavath et al. (2022). “Language Models Know What They Know”	Calibration 연구; 모델의 자기 지식 인식	Confidence calibration benchmark
11	Yin et al. (2023). “Do LLMs Know What They Don’t Know?”	SelfAware dataset; unanswerable question detection	Uncertainty estimation benchmark
12	Lombardo et al. (2010). “Shared Neural Circuits”	dmPFC, TPJ가 ToM과 self-awareness 모두에서 활성화	신경과학적 근거
13	Dehaene et al. (2017). C0-C1-C2 이론	의식의 3단계 계층 구조	이론 프레임워크
14	Arturi et al. (NeurIPS 2025 Workshop). “Shared Parameter Subspaces and Cross-Task Linearity.” arXiv:2511.02022	LoRA delta W cosine similarity로 cross-task parameter 수렴 정량화; 다양한 task 간 공유 저차원 subspace 발견	RQ3 직접 방법론 선행: delta W cosine sim 분석의 직접적 precedent. 본 연구의 방법론적 기반이자 차별점 (misalignment → cognitive tasks 확장)
15	Steyvers et al. (2025). “Improving Metacognition and Uncertainty Communication in LMs.” arXiv:2510.05126	Metacognitive SFT 효과가 task-specific이며 metacognition task 유형 간 전이 제한적. Multitask training 시에만 일반화	H1b 위험 요소: Meta 내부에서도 transfer 제한적 → Meta→ToM 전이에 대한 보수적 예측 근거. Within-metacognition transfer 추가 측정 동기
16	Dymkiewicz et al. (2025). “Donors and Recipients: Asymmetric Transfer with PEFT.” arXiv:2511.13368	LoRA cross-task transfer 비대칭성이 semantic breadth에 의해 결정됨; 인지적 계층 구조와 무관할 수 있음	H1a 대안 설명: 비대칭성이 C0-C1-C2 계층이 아닌 task semantic breadth 차이에서 기인할 가능성. Random task pair baseline 도입 동기
17	Lu et al. (2025). “Do ToM Benchmarks Need Explicit Human-like Reasoning?” arXiv:2504.01698	SFT로 높은 ToM 점수 달성 가능하나 genuine ToM 없이도 가능; ≤3B 모델에서 “reasoning collapse”	A3/A7 위협: SFT가 진정한 ToM이 아닌 표면 패턴 학습일 가능성. OOD test + reasoning trace 검증 동기
18	Kryvosheieva et al. (2025). “Different types of syntactic agreement recruit the same units within large language models.” arXiv:2512.03676	Functional localization으로 67개 구문 현상이 동일 LLM 유닛을 공유함을 발견; 교차언어적으로도 유사 구조의 언어가 더 많은 유닛 공유	Shared functional units 선행: LLM 내부에서 서로 다른 언어 현상이 동일 유닛을 공유한다는 실증. 본 연구의 “ToM-Meta shared substrate” 가설에 대한 방법론적 근거 (구문→인지 task로 확장)
19	Du et al. (2026). “From Latent Signals to Reflection Behavior: Tracing Meta-Cognitive Activation Trajectory in R1-Style LLMs.” arXiv:2602.01999	Logit lens로 R1-style LLM의 self-reflection 과정을 layer-wise 추적; latent-control → semantic-pivot → behavior-overt 3단계 meta-cognitive trajectory 발견	SRV layer-wise 분석 직접 선행: 자기성찰의 layer-wise activation trajectory 분석 방법론. 본 연구의 DV9 layer-wise SRV 분석에 대한 직접적 근거. Meta-cognitive monitoring의 layer 분포 이해에 기여
20	Hazimeh et al. (2025). “Task Addition and Weight Disentanglement in Closed-Vocabulary Models.” arXiv:2511.14569	Weight disentanglement가 pre-training의 일반적 결과임을 실증; task arithmetic으로 효율적 multi-task 배포 가능	H3 대안 설명: Weight disentanglement에 의해 서로 다른 task의 delta W가 자연히 분리될 수 있으므로, ToM-Meta overlap이 의미 있는 공유인지 disentanglement 실패인지 구분 필요. Random task pair baseline 비교의 추가 동기
21	Ban & Ji (2025). “Rethinking Parameter Sharing for LLM Fine-Tuning with Multiple LoRAs.” arXiv:2509.25414	LoRA A matrix similarity는 initialization artifact; B matrix가 실질적 지식 전달 담당. ALoRA 제안 (multiple A + shared B)	DV6 artifact 위험: Delta W cosine similarity에서 A matrix 유사성이 초기화에 의한 spurious overlap일 수 있음. 통제: DV6 보조 분석으로 B-matrix-only cosine similarity 추가 보고하여 A matrix artifact 배제

3.2 연구 갭 분석

#	연구 갭	현황	본 연구의 대응
1	ToM과 Metacognition의 직접적 인과 관계 미검증	개별 연구만 존재; 양자 간 교차 효과 실험 부재	RQ1: 4-way SFT + mediation analysis
2	파라미터 수준의 구조적 연결성 분석 부재	Activation 분석만 존재; delta W overlap 미측정	RQ3: LoRA delta W cosine sim + Hessian Jaccard
3	양방향 인과성 미검증	단방향 연구만 존재	H1a/H1b: 비대칭성 예측 및 검증
4	LoRA 기반 cross-task 분석 부재	LoRA가 task-specific 분석에 활용되지 않음	RQ3: Rank ablation study
5	Confound 통제 불충분	General reasoning 향상 효과 미분리	Narrative-only SFT + General SFT + mediation analysis
6	SFT 데이터 구성물 오염 (Construct Contamination) 미검증	ToM 데이터에 metacognitive 요소, Meta 데이터에 ToM 요소가 혼입될 가능성에 대한 체계적 검증 부재	Phase 1에서 BERTScore/BLEURT overlap 측정 + 전문가 annotation (Krippendorff’s alpha ≥ 0.7) + Construct Separation Index + purified subset 민감도 분석
7	LoRA cross-task 분석의 low-rank artifact 미통제	저랭크에서 모든 task pair의 overlap이 인위적으로 증가하는 artifact 가능성 (Arturi et al., 2025)	Random task pair baseline (sentiment + translation)을 동일 rank에서 비교; “excess overlap” metric 정의
8	구조적 overlap과 기능적 방향 수렴의 미분리	파라미터가 공유되더라도 기능적으로 다른 방향으로 활용될 수 있음. 구조-기능 해리 가능성 미검증	Self-reflection vector (Zhu et al., 2026)를 ToM/Meta SFT 모델에서 추출하여 기능적 방향 수렴을 독립적으로 검증

3.3 본 연구의 차별점

기존 연구와의 핵심적 차이는 세 가지이다:

양방향 인과 관계 직접 검증: ToM→Meta와 Meta→ToM 양방향의 교차 전이를 정량적으로 측정하고, C0-C1-C2 이론에 기반한 비대칭성 예측을 사전 등록한다.
다층적 분석 (행동 + 표상 + 파라미터): Behavioral transfer, activation overlap (probing + RSA), parameter overlap (delta W + Hessian)의 세 수준에서 triangulation한다.
체계적 confound 통제: 4-way SFT 설계와 mediation analysis로 general reasoning confound를 분리한다.
SFT 데이터의 구성물 순수성 검증: Dymkiewicz et al. (2025)의 semantic breadth 효과와 Lu et al. (2025)의 SFT 표면 패턴 학습 경고를 고려하여, 4-way SFT 데이터셋의 construct contamination을 다중 방법 (BERTScore/BLEURT + 전문가 annotation + Construct Separation Index + purified subset)으로 통제한다.
Low-rank artifact 통제: Arturi et al. (2025)의 방법론을 직접 확장하되, random task pair baseline으로 저랭크에서의 인위적 overlap을 체계적으로 배제한다.
구조-기능 수렴 검증 (Structural-Functional Convergence): 기존 연구가 구조적 overlap (파라미터/활성화 공유)만 측정하는 데 비해, Zhu et al. (2026)의 self-reflection vector를 활용하여 ToM/Meta SFT 모델이 기능적 방향(자기성찰 벡터)에서도 수렴하는지를 추가 검증한다. 이를 통해 “같은 구조를 공유할 뿐 아니라 같은 기능적 방향으로 활용한다”는 더 강력한 주장이 가능해진다.

4. 연구 질문 및 가설 (Research Questions & Hypotheses)

4.1 연구 질문

RQ	질문	유형
RQ1	ToM SFT가 metacognitive monitoring(C2)을 향상시키는가? 역방향(metacognition SFT → ToM)도 성립하는가?	확인적/비교
RQ2	ToM task와 metacognitive monitoring task 수행 시 internal representation이 task-specific 수준에서 유사한가?	탐색적
RQ3	ToM SFT와 metacognitive monitoring SFT의 LoRA delta W가 구조적으로 중첩되는가?	확인적

4.2 가설

가설	내용	대응 RQ	검증 방법
H1a	ToM SFT는 metacognitive monitoring(C2) 성능을 유의미하게 향상시킨다. 비대칭 예측: ToM→Meta 전이가 역방향보다 더 강하다. 단, Dymkiewicz et al. (2025)의 semantic breadth 대안 설명을 통제하기 위해 random task pair baseline (sentiment analysis, translation SFT)과 비교한다.	RQ1	Cross-task performance, paired t-test, Cohen’s d, random task pair baseline 비교
H1b	Metacognitive monitoring SFT는 ToM 성능을 향상시키지만, H1a보다 전이 효과가 약하다. 보수적 예측: Steyvers et al. (2025)에 따르면 metacognitive SFT 효과 자체가 task-specific하여 within-metacognition 전이도 제한적이므로, Meta→ToM 전이 효과 크기는 d < 0.3 (small)으로 예상한다.	RQ1	동일, 효과 크기 비교. Within-metacognition transfer (ECE↔Error Detection↔Uncertainty) 추가 측정
H1c	Narrative-only SFT (mental state reasoning 미포함)는 ToM과 metacognition 모두에서 유의미한 향상을 보이지 않는다.	RQ1	Negative control 비교
H1d	ToM/Metacognition SFT 후 MMLU/ARC/HellaSwag 변화가 cross-task transfer를 완전히 설명하지 못한다 (mediation analysis에서 direct effect 유의미).	RQ1	Hayes PROCESS bootstrap mediation (5,000 resamples) 주분석 + Baron & Kenny 보조 보고
H2a	Task-specific probing classifier가 높은 cross-task transfer accuracy를 보인다 (중간~후반 layer).	RQ2	Linear probing, 10-fold CV
H2b	RSA에서 ToM-Meta RDM 상관이 ToM-Narrative control보다 유의미하게 높다.	RQ2	Spearman correlation, Mantel test
H2c	Surface feature 통제 후에도 H2a, H2b가 유지된다.	RQ2	Partial RSA, lexical/length/complexity 통제
H2d	ToM SFT 모델과 Meta SFT 모델에서 추출한 self-reflection vector (SRV)의 방향이 유의미하게 유사하다. 다중 baseline 통제: (1) ToM-Meta SRV sim > ToM-Narrative SRV sim, (2) ToM-Meta SRV sim > ToM-Random SRV sim (random task pair SFT 모델), (3) ToM-Meta SRV sim > General-Meta SRV sim. 세 조건 모두 충족 시 가설 지지.	RQ2	Zhu et al. (2026) contrastive activation extraction + layer-wise cosine similarity + permutation test (10,000). Random task pair 및 General SFT 모델의 SRV도 동일 방법으로 추출하여 비교
H3a	ToM LoRA delta W와 Meta LoRA delta W의 cosine similarity가 Narrative-only delta W와의 similarity보다 유의미하게 높다.	RQ3	Layer-wise cosine similarity, permutation test
H3b	Wu et al. Hessian 기반 ToM-sensitive parameter와 Meta-sensitive parameter의 Jaccard index가 chance level보다 유의미하게 높다.	RQ3	Hessian sensitivity, Jaccard index
H3c	LoRA rank가 낮을수록 (rank 2-4) ToM-Meta overlap이 증가한다 (공유 구조가 저랭크 subspace에 집중). 통제: Random task pair baseline (sentiment + translation LoRA)의 동일 rank overlap과 비교하여 저랭크 인위적 overlap artifact를 배제한다. ToM-Meta “excess overlap” (random pair 대비 초과분)이 저랭크에서 증가해야 가설 지지.	RQ3	Rank ablation (r=2,4,8,16,32,64) + random task pair 동일 rank 비교
H3d	ToM-Meta 공유 파라미터 (top-k Hessian overlap, k = 0.01%)를 selective ablation하면, ToM-Meta SRV 방향 유사도(DV9)가 유의미하게 감소한다. 통제 조건: 동일 수의 non-shared random parameters를 ablation한 control과 비교하여, SRV 감소가 공유 파라미터 특이적임을 확인. 인과적 증거: 구조(shared params) 제거 → 기능(SRV convergence) 붕괴. 기존 selective ablation (DV8) 위에 SRV 재측정만 추가하므로 추가 비용 무시 가능.	RQ3	Selective ablation (H3b와 동일 모델): (1) 공유 파라미터 ablation → SRV 재추출, (2) Control: 동일 수 non-shared random params ablation → SRV 재추출. Pre/post ablation SRV cosine sim 비교 (paired t-test). 공유 ablation의 SRV 감소 > random ablation의 SRV 감소 시 가설 지지

4.3 핵심 가정 (Assumptions)

#	가정	근거	위반 시 영향
A1	Metacognition을 C2 metacognitive monitoring (confidence calibration, error detection, uncertainty estimation)으로 한정하여 조작적으로 정의할 수 있다	Kadavath et al. (2022), Yin et al. (2023), Reflection-Bench (2025) 등 독립적 benchmark 존재	조작적 정의가 너무 협소하면 metacognition 전체에 대한 일반화 불가
A2	ToM과 metacognition은 개념적으로 구분 가능하며 각각 독립적으로 평가 가능하다	TOMBENCH (8 tasks, 31 abilities), ECE, SelfAware 등 별도 benchmark 체계	두 task의 구분이 모호하면 transfer 측정 자체가 무의미
A3	SFT가 해당 능력을 실질적으로 향상시킨다	Chen et al. ACL 2025의 acquisition 실험; Wu et al.의 ToM parameter 발견	SFT 효과 없으면 cross-transfer 측정 불가
A4	Wu et al.의 “ToM = emergent property of general language understanding” 가설을 배제 대상으로 설정	ToM-Meta overlap이 ToM-Any task overlap과 차이 없으면 대안 설명 채택	대안 설명이 맞으면 “구조적 연결” 가설 기각 — 이것 자체도 의미 있는 결과
A5	LoRA fine-tuning이 task-specific adaptation을 충분히 포착한다	LoRA가 low-rank adaptation을 통해 task-specific delta를 효율적으로 학습	Rank가 너무 낮으면 정보 손실; rank ablation으로 통제
A6	H1a의 비대칭성이 C0-C1-C2 계층 구조를 반영한다	C0-C1-C2 이론에 기반한 방향성 예측. 단, Dymkiewicz et al. (2025)의 semantic breadth 대안 설명을 random task pair baseline으로 통제 비교	대안 설명이 성립하면 비대칭성의 인지적 해석 약화 — 그러나 공유 구조 자체의 발견(H3a/H3b)은 유효
A7	SFT가 genuine ToM/metacognition을 학습한다 (표면 패턴 모방이 아닌)	Lu et al. (2025)의 “reasoning collapse” 경고를 인지. 7-8B 모델은 ≤3B 모델보다 robust할 것으로 예상. OOD test items + reasoning trace 검증으로 통제	표면 패턴만 학습 시 cross-task transfer가 linguistic pattern transfer로 환원됨 — Construct Separation Index와 Narrative SFT 비교로 판별

5. 학술적 기여 (Academic Contribution)

5.1 기여 유형 및 수준

#	기여	유형	수준	설명
1	ToM-Metacognition 구조-기능적 수렴(structural-functional convergence)에 대한 최초의 체계적 실증 검증	이론적	혁신적	Lombardo et al. (2010)의 공유 neural substrate 발견이 LLM의 parameter/activation space에서 재현되는지를 최초로 직접 검증. Self-reflection vector (Zhu et al., 2026)를 통한 기능적 방향 수렴까지 이중 검증. C0-C1-C2 의식 이론의 실증적 검증 사례
2	양방향 cross-task transfer의 인과적 비대칭성 검증	실증적	혁신적	4-way SFT + mediation analysis로 양방향 인과성과 비대칭성을 정량화. C0-C1-C2 기반 directional prediction 사전 등록
3	LoRA delta W cross-task overlap 분석 방법론	방법론적	상당한	Activation-level 분석을 parameter-level로 확장. Wu et al.의 sparse parameter와의 Jaccard overlap + rank ablation 프레임워크
4	Task-specific representation overlap의 다층적 검증 체계	방법론적	상당한	Probing classifier + RSA + surface feature 통제의 3중 검증으로 activation similarity의 해석 한계 극복
5	Wu et al. 대안 설명의 체계적 배제	실증적	상당한	Hessian Jaccard, Selective Ablation, Non-RoPE 모델 대조의 3중 배제 실험 설계
6	C0-C1-C2 의식 이론의 LLM 적용 실증 검증	이론적	상당한	비대칭성 관찰 시 C2가 C1 위에 구축된다는 계층 구조의 최초 실증적 증거
7	Negative result의 이론적 가치 확보 설계	이론적	증분적	모든 시나리오에서 해석 가능하도록 구조화 — null result은 인간-LLM 인지 구조 차이의 증거
8	2-model cross-validation	실증적	증분적	Llama-3.1-8B + Qwen-2.5-7B로 결과의 아키텍처 일반화 가능성 확보

5.2 기대 학술 영향

직접적 영향:
- LLM Interpretability: ToM과 metacognition이 공유하는 파라미터/표상 구조를 밝힘으로써 LLM 내부의 고차 인지 능력 조직화에 대한 이해 심화
- AI Consciousness 연구: C0-C1-C2 이론의 LLM 적용 검증을 통해 이론과 실증을 연결하는 다리 역할
- Cognitive Science - AI 연결: 인간 뇌의 공유 회로(dmPFC, TPJ)가 Transformer에서도 재현되는지 검증
- LLM Alignment / Safety: 능력 간 상호의존성 발견 시, 의도하지 않은 능력 변화 방지에 활용
간접적 영향:
- LoRA 기반 multi-task learning 연구 프레임워크 제공
- SFT 기반 capability spillover에 대한 체계적 연구 방법론
- Developmental AI에서 ToM-metacognition 공발달 패턴의 LLM 재현 여부
- LLM을 computational model로 활용한 neuroscience 가설 생성
예상 대상 학회/저널:
1. NeurIPS — Ji-An et al., MetaMind 등 직접 관련 선행 연구가 발표된 venue; interpretability + 인지 능력 교차점
2. ICLR — Binder et al., Zhu et al. 등 선행 연구; representation learning + parameter analysis
3. ACL — TOMBENCH, OpenToM, Chen et al. 등 NLP 기반 ToM/metacognition 연구의 핵심 venue
4. CogSci — C0-C1-C2 이론 검증; negative result에도 강한 venue
5. Nature Machine Intelligence — Wu et al. 직접 후속; Best case + 추가 실험 시

5.3 한계 및 범위

모델 규모 제한: 7-8B 수준 모델에 한정. 70B+ 대형 모델에서의 scaling 일반화는 미검증.
Metacognition 정의 한정: C2 metacognitive monitoring의 일부(confidence, error detection, uncertainty)만 포함. Metacognitive regulation/knowledge는 미포함.
ToM task 범위: False-belief 중심. Faux pas, irony detection, second-order belief 등 복잡한 ToM은 미포함.
인과성 주장 강도: “Shared representational substrate”로 하향 조정. 완전한 인과 메커니즘 규명은 아님.
LoRA 구조적 제약: Low-rank approximation에 의한 인위적 overlap 가능성. Rank ablation + random task pair baseline으로 통제. “Excess overlap” (ToM-Meta overlap - random pair overlap)으로 순수 공유 구조 추정.
5.5. RoPE 아키텍처 의존성: Wu et al.의 ToM-sensitive parameter가 RoPE에 연결되어 있어, Non-RoPE 모델(ALiBi 기반 MPT 등)에서 ToM parameter 분포가 상이할 수 있다. 배제실험 실패 시 본 연구 결론은 RoPE 기반 Transformer에 한정된다.
철학적 논의 배제: “진정한” 의식/주관적 경험에 대한 질문에는 답하지 않음. Computational/functional level 발견에 한정.

6. 실험 설계 (Experiment Design)

6.1 설계 개요

설계 유형: Mixed design (Between-subjects x Within-subjects)
- Between-subjects 요인: SFT 조건 (4수준: ToM SFT, Metacognition SFT, Narrative SFT, General SFT)
- Within-subjects 요인: 평가 벤치마크 유형, 모델 아키텍처, LoRA rank
주요 비교:
1. RQ1 Cross-task Transfer: ToM SFT 모델의 Metacognition 성능 vs. Metacognition SFT 모델의 ToM 성능 (비대칭성 검증)
2. RQ2 Representation Overlap: Probing classifier cross-transfer 정확도 및 RSA 상관
3. RQ3 Parameter Overlap: LoRA delta W cosine similarity 및 Hessian 기반 Jaccard index

6.2 변수 통제표

독립 변수 (조작 변수)

변수명	설명	조작 수준	측정/조작 방법
SFT 조건 (IV1)	Fine-tuning에 사용되는 데이터셋 유형	4수준: (1) ToM SFT, (2) Meta SFT, (3) Narrative SFT (control), (4) General SFT (control)	각 조건당 약 5K samples로 LoRA fine-tuning. 동일 hyperparameter 적용
모델 아키텍처 (IV2)	Base model 선택	2수준: Llama-3.1-8B, Qwen-2.5-7B	HuggingFace 공식 weights. LoRA (r=16, alpha=32, target: q_proj, v_proj)
LoRA Rank (IV3)	LoRA의 rank 파라미터	6수준: 2, 4, 8, 16, 32, 64	Rank ablation 실험에서 조작. 나머지 hyperparameter 고정
분석 Layer (IV4)	Activation 추출 대상 layer	연속: Layer 0 - 31	모든 layer에서 hidden state 추출 후 layer-wise 분석

종속 변수 (결과 변수)

변수명	설명	측정 지표	측정 도구/방법
ToM 성능 (DV1)	ToM 벤치마크 정확도	TOMBENCH test accuracy, FanToM accuracy, Wu et al. false-belief held-out accuracy	lm-evaluation-harness / 자체 평가 스크립트
Metacognition 성능 (DV2)	Metacognitive monitoring 능력	ECE (verbalized confidence), Error Detection Accuracy (Reflection-Bench), Known Unknowns F1 (SelfAware)	Verbalized confidence + ECE; 공식 평가 도구
General 성능 (DV3)	일반 언어 능력 (confound 통제)	MMLU (5-shot), ARC-Challenge (25-shot), HellaSwag (10-shot)	lm-evaluation-harness 표준 설정
Probing Cross-Transfer (DV4)	Cross-task probing 정확도	교차 정확도 (%), AUC-ROC	sklearn LogisticRegression, 10-fold CV
RSA 상관 (DV5)	ToM RDM - Meta RDM 유사도	Spearman correlation	Mantel test (10,000 permutations)
Delta W Cosine Similarity (DV6)	LoRA weight 변화 방향 유사도	Layer-wise cosine similarity	torch cosine_similarity on flattened delta W. 보조 분석: Ban & Ji (2025)의 A matrix initialization artifact 가능성을 통제하기 위해 B-matrix-only cosine similarity도 추가 보고
Parameter Jaccard Index (DV7)	Sensitive parameter overlap	Top-k Jaccard (k = 0.001%, 0.01%, 0.1%)	Wu et al. Hessian method + 이진 마스크 Jaccard
Selective Ablation Impact (DV8)	Cross-task ablation 효과	성능 변화율 (%)	Wu et al. perturbation method
SRV Direction Similarity (DV9)	Self-reflection vector 방향 유사도	SFT 모델 간 SRV cosine similarity	2-track SRV 추출 프로토콜: Track A (SRV_base projection): Zhu et al. (2026) 방법으로 base model에서 SRV_base 추출 (reflective vs non-reflective context contrastive pairs). 각 SFT 모델의 activation을 SRV_base 방향에 project하여 alignment 측정. Track B (SRV_task extraction): 각 SFT 모델에서 동일 문제에 대해 “표준 응답” vs “자기 검토 후 수정 응답”으로 contrastive pair 구성 (prompt template: “Answer directly” vs “Review your reasoning step-by-step, then revise if needed”; 최소 200 pairs per model). SRV_task 직접 추출. 중간~후반 layer에서 layer-wise pairwise cosine sim. Fallback: Self-reflection 미발생 시 (수정 비율 < 10%) Track A 단독 사용으로 전환하고 Track B 실패를 투명하게 보고

통제 변수 (고정 변수)

변수명	고정값	고정 이유
SFT 데이터 크기	각 조건당 ~5,000 samples	데이터 양 차이에 의한 confounding 배제
LoRA Hyperparameters (기본)	r=16, alpha=32, dropout=0.05, target=q_proj+v_proj	조건 간 학습 용량 동일화
Learning rate	2e-4 (cosine scheduler, warmup 10%)	AdamW optimizer
Training epochs	3 epochs	과적합 방지 + 충분한 학습
Batch size	8 (gradient accumulation 4, effective 32)	GPU 메모리 최적화
Max sequence length	2048 tokens	입력 길이 표준화
Precision	bfloat16	메모리 효율 + 수치 안정성
Random seeds	계층화 전략: Core comparisons (H1a/H1b) 10 seeds {42, 123, 456, 789, 1024, 2048, 3141, 4096, 5555, 7777}, ablations/controls 5 seeds, Hessian/selective ablation 3 seeds per condition	재현성 + 충분한 통계 검정력 (power ≥ 0.80 at d=0.8 for core)
Evaluation temperature	0.0 (greedy)	확률적 변동 제거

6.2.1 통계 검정력 분석 (Statistical Power Analysis)

분석 유형	비교 수	효과 크기 기준	Seeds/조건	검정력 (1-β)	근거
Core: H1a/H1b cross-task transfer	4 (2 방향 x 2 모델)	d = 0.8 (large)	10	≥ 0.80	주요 가설 검증; Type II error 최소화 필수
Core: H1c/H1d control 비교	4	d = 0.8	10	≥ 0.80	Confound 배제의 신뢰성 확보
Ablation: Rank ablation (H3c)	6 ranks x 2	d = 1.0	5	≥ 0.70	탐색적 성격; 경향성 확인 목적
Ablation: Random task pair baseline	2	d = 1.0	5	≥ 0.70	대안 설명 배제
Expensive: Hessian/selective ablation (H3b)	2	descriptive	3	N/A (descriptive)	계산 비용 제약; Jaccard index + permutation test로 보완

검정력 산출 근거

Paired t-test, α = 0.05 (Benjamini-Hochberg FDR 보정 후 유효 alpha 반영). G*Power 3.1 기반 사전 계산. Core comparisons에서 d = 0.8 탐지에 n = 10 필요 (1-β = 0.81). 기존 n = 3은 동일 조건에서 1-β = 0.15로 불충분. LoRA SFT 연구에서 3 seeds가 관행적이나 (LoRA-FAIR, ICCV 2025), cross-task transfer 검증에는 higher power가 필수적이다.

외생 변수 (잠재적 혼동 변수)

변수명	잠재적 영향	완화 전략
데이터 오염	평가 데이터가 pre-training에 포함 가능	Base model zero-shot baseline 측정; Min-K% Prob 검사
SFT 데이터 표면적 특성 차이	어휘/길이/복잡도 차이가 전이 효과에 혼동	Narrative SFT를 surface-level control로 사용; RSA에서 surface feature RDM 통제
모델 아키텍처 차이	Llama/Qwen의 tokenizer, attention 차이	2개 모델 독립 실험 + 결과 일관성 확인
Verbalized confidence 편향	Verbalized vs. internal confidence 괴리	두 방법 병행 측정 + ECE 비교
RoPE 의존성	ToM-sensitive parameter가 RoPE에 연결	Non-RoPE 모델(Jamba/MPT) 배제실험
SFT 데이터 구성물 오염 (Construct Contamination)	ToM 데이터에 metacognitive 요소 혼입, Meta 데이터에 ToM 요소 혼입 시 transfer 효과 부풀림	(1) BERTScore/BLEURT semantic overlap 측정 (ToM-Meta 데이터 간 overlap < 0.3 목표), (2) 인지과학 전문가 3-5인 annotation (Krippendorff’s alpha ≥ 0.7), (3) Construct Separation Index (only-ToM / only-Meta / both / neither 비율 보고), (4) “both” 항목 제거 후 purified subset 민감도 분석
SFT 표면 패턴 학습	SFT가 genuine 능력이 아닌 벤치마크 표면 패턴만 학습할 위험 (Lu et al., 2025)	Out-of-distribution ToM/Meta test items 포함; SFT 후 reasoning trace quality 검증; Narrative SFT와의 성능 차이가 표면 패턴으로 설명되지 않음을 확인
Semantic breadth confound	Task semantic breadth 차이가 transfer 비대칭성을 설명할 가능성 (Dymkiewicz et al., 2025)	Random task pair baseline (sentiment analysis, translation) 동일 조건 비교; ToM/Meta 데이터 vocabulary breadth 정량 비교

6.3 실험 파이프라인

flowchart TD
    subgraph Phase1["Phase 1: 데이터 준비 + 구성물 검증 (Week 1-3)"]
        A1["TOMBENCH + OpenToM train 확보"] --> A5["4개 SFT 데이터셋 구축<br/>(각 ~5K samples)"]
        A2["Wu et al. false-belief 확보"] --> A5
        A3["Metacognition 데이터 구축<br/>(Confidence + Error + Uncertainty)"] --> A5
        A5 --> A6["Narrative SFT 구축<br/>(mental state 질문 제거)"]
        A5 --> A7["General SFT 구축<br/>(Alpaca/FLAN subset)"]
        A5 --> A7b["Random Task Pair 구축<br/>(Sentiment + Translation)"]
        A6 --> A8["데이터 품질 검증"]
        A7 --> A8
        A8 --> A9["Construct Contamination 검증<br/>(BERTScore/BLEURT overlap +<br/>전문가 3-5인 annotation +<br/>Construct Separation Index)"]
        A9 --> A10["Purified Subset 구축<br/>(both 항목 제거)"]
        A10 --> A11["Narrative SFT ToM 잔류 검증<br/>(ToM classifier check < 5%)"]
    end

    subgraph Phase2["Phase 2: SFT 학습 (Week 4-7)"]
        A11 --> B1["80 LoRA SFT runs<br/>(4 조건 x 2 모델 x 10 seeds)"]
        A7b --> B1b["20 Random Task Pair runs<br/>(2 tasks x 2 모델 x 5 seeds)"]
        B1 --> B2{"수렴 확인"}
        B2 -->|Yes| B3["체크포인트 + Delta W 추출"]
        B2 -->|No| B4["Hyperparameter 조정"]
        B4 --> B1
    end

    subgraph Phase3["Phase 3: RQ1 행동 평가 (Week 7-9)"]
        B3 --> C1["ToM / Meta / General 벤치마크 평가"]
        C1 --> C1b["Within-Meta Transfer 측정<br/>(ECE↔Error Detection↔Uncertainty)"]
        C1 --> C2["Cross-task Transfer Matrix"]
        C2 --> C3["Hayes PROCESS Mediation"]
    end

    subgraph Phase4["Phase 4: RQ2 Activation 분석 (Week 9-11)"]
        B3 --> D1["Hidden state 추출"]
        D1 --> D2["Probing + Cross-transfer"]
        D1 --> D3["RSA + Surface 통제"]
        D1 --> D4["Self-Reflection Vector 추출<br/>(Zhu et al. contrastive method)"]
        D4 --> D5["SRV 방향 유사도 분석<br/>(ToM-Meta vs ToM-Narrative<br/>+ Random/General SRV baseline 비교)"]
    end

    subgraph Phase5["Phase 5: RQ3 Parameter 분석 (Week 11-13)"]
        B3 --> E1["Delta W Cosine Sim + Jaccard"]
        B1b --> E1b["Random Pair Overlap 비교<br/>(Excess Overlap 산출)"]
        B3 --> E2["Rank Ablation (40 runs)<br/>+ Random Pair 동일 rank"]
        B3 --> E3["Hessian 계산 + Selective Ablation"]
        E3 --> E4["SRV 재추출 (ablated model)<br/>→ DV9 재측정 (H3d)"]
    end

    subgraph Phase6["Phase 6: 배제실험 (Week 13-14)"]
        E3 --> F1["Non-RoPE 모델 대조"]
    end

    subgraph Phase7["Phase 7: 논문 작성 (Week 15-16)"]
        C3 --> G1["결과 통합 + 논문 초안"]
        D2 --> G1
        D3 --> G1
        D5 --> G1
        E1 --> G1
        E1b --> G1
        E2 --> G1
        E4 --> G1
        F1 --> G1
    end

    Phase1 --> Phase2
    Phase2 --> Phase3 & Phase4 & Phase5
    Phase5 --> Phase6
    Phase6 --> Phase7

6.4 데이터 및 리소스

데이터

항목	상세	확보 방법
TOMBENCH	2,860 MCQ (8 tasks, 31 abilities)	공식 GitHub (Chen et al., ACL 2024). Train ~1.5K
OpenToM	Entity/social tracking QA ~3K	공식 HuggingFace (Long et al., 2024)
Wu et al. False-Belief	~500 samples, held-out 100	공식 OSF + GitHub
FanToM	Conversational ToM ~10K QA	공식 GitHub (Kim et al., 2023)
Confidence Calibration QA	Q + confidence label ~2K	TriviaQA/NQ subset, 자체 구축
Error Detection	추론 chain 오류 식별 ~1.5K	Reflection-Bench train split + augmentation
Uncertainty Estimation	”I don’t know” QA ~1.5K	SelfAware (Yin et al., 2023) train split
Narrative SFT (Control)	동일 스토리, 사실적 질문 ~5K	TOMBENCH/OpenToM에서 변환 (GPT-4 + 수동 검수). ToM 잔류 검증: ToM-specific classifier로 ToM 요소 잔류 < 5% 확인
Random Task Pair (Baseline)	Sentiment analysis ~2.5K + Translation ~2.5K	SST-2/IMDB subset + WMT subset. H3c low-rank artifact 통제용
General SFT (Control)	Instruction-following QA ~5K	Alpaca-cleaned + FLAN subset

컴퓨팅 리소스

항목	사양/수량	근거
GPU	A100 80GB x 1 (per run)	7-8B LoRA SFT: ~20GB VRAM
기본 SFT (Core)	80 runs, 각 4-6hr → 320-480 GPU-hr	4 조건 x 2 모델 x 10 seeds
Random task pair baseline	20 runs, 각 4-6hr → 80-120 GPU-hr	2 tasks (sentiment, translation) x 2 모델 x 5 seeds
Rank ablation	40 runs, 각 3-6hr → 120-240 GPU-hr	6 ranks x 2 tasks x 2 models x ~2 seeds + random pair
배제실험	6 runs, 각 6hr → 36 GPU-hr	Non-RoPE 모델 + 추가 통제
평가 (추론)	~100-150 GPU-hr	증가된 모델 수 x 모든 벤치마크
Activation 추출	~30-50 GPU-hr	Layer-wise hidden state + SRV contrastive extraction (추가 비용 무시 가능)
Hessian 계산	~16-32 GPU-hr	Empirical Fisher diagonal (3 seeds)
총 GPU-hours	~700-1,100 A100 GPU-hr	여유분 포함 1,200 GPU-hr 권장

비용 추정

항목	예상 비용	산출 근거
Cloud GPU (A100 80GB)	$1,120-1,600	Lambda Labs $1.60/ h r x 700 - 1, 000 h r (또는 Va s t . ai$ 0.80-1.20/hr)
Storage	$80	1TB x $0.10/GB/month (증가된 체크포인트)
API (데이터 구축)	$50-80	GPT-4o-mini ~8K calls (construct 검증 포함)
API (평가 검수)	$30-50	GPT-4o annotation 검수 + ToM classifier
전문가 annotation 비용	$100-200	인지과학 전문가 3-5인 x construct annotation
총 예상 비용	$1,380-2,010	여유분 포함 $2,200 권장

7. 실험 일정 (Schedule)

7.1 Gantt 차트

gantt
    title 연구 일정 (16주, 수정 v3)
    dateFormat YYYY-MM-DD
    axisFormat %Y-%m-%d

    section Phase 1: 데이터 준비 + 구성물 검증
        TOMBENCH_OpenToM_확보       :data1, 2026-02-10, 3d
        Wu_false_belief_확보        :data2, 2026-02-10, 3d
        Meta_데이터_구축            :data3, 2026-02-10, 7d
        Narrative_SFT_구축          :data4, after data1, 5d
        General_SFT_샘플링          :data5, 2026-02-10, 2d
        데이터_품질검증              :data6, after data4, 3d
        Construct_검증_annotation    :data7, after data6, 5d
        Purified_subset_구축         :data8, after data7, 2d
        Narrative_ToM잔류검증        :data9, after data8, 2d
        데이터_준비_완료             :milestone, after data9, 0d

    section Phase 2: SFT 학습
        LoRA_SFT_80runs             :sft1, after data9, 18d
        Random_task_pair_SFT        :sft_rtp, after data9, 8d
        수렴확인_체크포인트          :sft2, after sft1, 2d
        Delta_W_추출                :sft3, after sft2, 1d
        SFT_완료                    :milestone, after sft3, 0d

    section Phase 3: RQ1 행동 평가
        ToM_벤치마크_평가           :eval1, after sft3, 5d
        Meta_벤치마크_평가          :eval2, after sft3, 5d
        General_벤치마크_평가       :eval3, after sft3, 3d
        Within_meta_transfer        :eval3b, after eval2, 2d
        Cross_task_분석             :eval4, after eval1, 3d
        Mediation_Analysis_PROCESS  :eval5, after eval4, 3d
        RQ1_완료                    :milestone, after eval5, 0d

    section Phase 4: RQ2 Activation 분석
        Hidden_state_추출           :act1, after sft3, 5d
        SRV_추출_방향비교           :act1b, after act1, 3d
        Linear_probing              :act2, after act1, 4d
        Cross_task_probe            :act3, after act2, 3d
        RDM_RSA                     :act4, after act1, 5d
        Surface_통제_RSA            :act5, after act4, 3d
        RQ2_완료                    :milestone, after act5, 0d

    section Phase 5: RQ3 Parameter 분석
        Delta_W_cosine_sim          :par1, after sft3, 3d
        Random_pair_overlap_비교    :par1b, after par1, 2d
        Top_k_Jaccard               :par2, after par1b, 2d
        Rank_ablation_40runs        :crit, par3, after par1b, 12d
        Hessian_계산                :par4, after sft3, 8d
        Sensitive_Jaccard           :par5, after par4, 3d
        Selective_ablation          :par6, after par5, 4d
        RQ3_완료                    :milestone, after par6, 0d

    section Phase 6: 배제실험
        Non_RoPE_SFT                :exc1, after par6, 5d
        Non_RoPE_transfer           :exc2, after exc1, 3d
        RoPE_의존성_분석            :exc3, after exc2, 2d
        배제실험_완료               :milestone, after exc3, 0d

    section Phase 7: 논문 작성
        결과_통합_시각화            :write1, after exc3, 4d
        논문_초안_작성              :write2, after write1, 7d
        투고_목표                   :milestone, after write2, 0d

7.2 마일스톤

#	마일스톤	예상 날짜	성공 기준
M1	데이터 준비 완료	2026-02-24	4개 SFT 데이터셋 각 5K samples 확보. Narrative-ToM surface similarity > 0.8 (BERTScore)
M1.5	Construct Contamination 검증 완료	2026-03-05	BERTScore ToM-Meta overlap < 0.3. 전문가 Krippendorff’s alpha ≥ 0.7. Construct Separation Index: “both” 항목 < 15%. Purified subset 구축 완료. Narrative SFT ToM 잔류 < 5%
M2	SFT 학습 완료	2026-03-26	100개 모델 (80 core + 20 random pair) 수렴. Target domain 성능 base 대비 +5% 이상
M3	RQ1 행동 평가 완료	2026-04-09	Cross-task transfer matrix 완성. 10 seeds 기반 통계적 유의성 판정 완료. Within-metacognition transfer 추가 보고
M4	RQ2 Activation 분석 완료	2026-04-19	Probing + RSA + surface 통제 + SRV 방향 유사도 분석 결과 보고
M5	RQ3 Parameter 분석 완료	2026-05-03	Cosine sim heatmap + Jaccard + rank ablation + selective ablation + random pair baseline 비교 결과
M6	배제실험 완료	2026-05-13	Non-RoPE 모델 cross-transfer 결과. RoPE 의존성 판정
M7	논문 초안 완료	2026-05-24	전체 Figure/Table 완성. Introduction~Discussion 초안

8. 예상 결과 및 분석 (Expected Results)

8.1 시나리오별 예상 결과

시나리오	조건	예상 결과	의미	후속 방향
Best Case	H1a-d, H2a-d, H3a-d 대부분 지지. SRV 방향 수렴 + H3d 인과 검증 성공 (ablation→SRV 붕괴). 2개 모델 일관	ToM→Meta 전이 존재 (d > 0.5), 비대칭성 확인, Delta W cosine sim 유의미, Hessian Jaccard 유의미, SRV 방향 일치, 공유 파라미터 제거 시 SRV 수렴 붕괴	”Structural-functional convergence” 발견. 구조적 overlap + 기능적 방향 수렴의 이중 증거 + 인과적 증거 (knockout). C0-C1-C2 계층 구조 일치	NeurIPS/ICLR/Nature MI 투고. 대형 모델 scaling, 다른 인지 능력 쌍 확장, 인간 fMRI 비교
Mixed Case	Transfer 존재하나 효과 작음 (d 0.2-0.5). Parameter/activation overlap 중 하나만 유의미. SRV 부분 수렴	ToM-Meta 간 약한 구조적 연결 + 기능적 방향 해리. 구조는 공유하나 기능적 활용이 다름	부분적 공유 메커니즘. 구조-기능 해리 자체가 중요 발견	ACL/EMNLP/AAAI 투고. 구조-기능 해리 메커니즘 규명
Worst Case	Cross-task transfer가 control과 무차별. Overlap이 random baseline 수준. SRV 방향 무관련	ToM과 metacognition이 LLM에서 구조적으로 독립적. Wu et al.의 “emergent property” 가설 지지	인간 뇌와 질적으로 다른 조직 원리. AI consciousness에서 인간-AI 유비 추론의 한계	CogSci/ACL에 negative result 논문. 아키텍처적 원인 분석, 대형 모델 emergence 탐색

8.2 분석 방법

통계 분석:

Paired t-test / Wilcoxon: SFT 전후 성능 비교 (Core: 10 seeds, Ablation: 5 seeds). Benjamini-Hochberg FDR correction (12 comparisons, q = 0.05)
Mediation Analysis: Hayes PROCESS bootstrap mediation (5,000 resamples, Hayes, 2017) 주분석. Baron & Kenny + Sobel test 보조 보고
Permutation test: RSA correlation + Jaccard index 유의성 (10,000 permutations)
Effect size: Cohen’s d + 95% CI 모든 비교에 보고
Two-way ANOVA: 4 (SFT) x 2 (model) + Tukey HSD 사후검정
Correlation: Layer-wise cosine sim과 probing accuracy 간 관계
Composite Metacognition Score: ECE (역변환), Error Detection Accuracy, Known Unknowns F1의 z-score 표준화 후 equal-weight 평균. 하위 지표 간 Cronbach’s alpha 보고 (alpha ≥ 0.6 기준). 개별 지표 결과도 supplementary에 전체 보고
Random Task Pair Baseline 비교: ToM-Meta overlap과 random pair (sentiment-translation) overlap의 차이에 대한 permutation test. “Excess overlap” = ToM-Meta overlap - random pair overlap으로 정의
Self-Reflection Vector (SRV) 2-Track 분석: Track A (SRV_base projection): Base model에서 Zhu et al. (2026) contrastive method로 SRV_base 추출. 각 SFT 모델의 activation을 SRV_base 방향에 projection하여 alignment score 산출. Track B (SRV_task extraction): 각 SFT 모델에서 task-specific contrastive pairs (“표준 응답” vs “자기 검토 후 수정 응답”)로 SRV_task 직접 추출 (중간~후반 layer). 두 track 모두에서 ToM-Meta SRV cosine similarity vs ToM-Narrative/Random/General SRV cosine similarity에 대한 permutation test (10,000). Track 일관성 보고: Track A와 Track B 결과의 concordance (Kendall’s W 또는 Spearman correlation) 보고. Layer-wise SRV 방향 수렴 패턴 분석. SRV 방향과 delta W principal component 방향 간 alignment 보조 분석. H3d 전용: Selective ablation 후 ablated model에서 SRV 재추출 → pre/post ablation SRV cosine sim 비교

시각화:

Cross-task Transfer Heatmap (4 SFT x 6+ eval, color-coded + 95% CI)
Layer-wise Analysis Plots (probing accuracy, cosine sim, RSA correlation)
RDM 시각화 (ToM/Meta/Surface RDM + RSA scatter)
LoRA Rank Ablation Curve (log scale x축, transfer magnitude y축)
Sensitive Parameter Overlap Venn Diagram
Selective Ablation Impact Bar Chart
Non-RoPE vs. RoPE Comparison
Self-Reflection Vector Direction Map (ToM/Meta/Narrative/Random/General SRV의 layer-wise cosine sim heatmap + PCA 2D projection)
SRV-Parameter Coupling Knockout Plot (H3d: pre/post ablation SRV cosine sim 변화. Shared param ablation vs random param ablation 대조)

9. 대비 계획 (Backup Plans)

9.1 위험 요소 및 대응

#	위험 요소	발생 확률	영향도	Plan B	전환 기준
R1	ToM SFT 데이터 부족	중 (30%)	높음	OpenToM 비중 증가 + GPT-4 augmentation + HiToM/FANToM 추가	TOMBENCH train < 1K
R2	Meta SFT 데이터 품질 불량	중 (40%)	높음	Human-annotated confidence + Teacher model filtering + CalibratedMath 활용	SFT 후 Meta 향상 < 2%
R3	Cross-task transfer 효과 없음	중-높 (40%)	매우 높음	데이터 10K 증가 + Full FT 시도 + Negative result 논문화 (RQ2/RQ3 가치 강조)	모든 cross-domain p > 0.1
R4	Hessian 계산 OOM	중 (35%)	중간	Layer-wise 계산 + K-FAC 근사 + Fisher diagonal	A100 80GB에서 OOM
R5	Rank ablation 일관 패턴 없음	낮-중 (25%)	중간	Alpha scaling 변경 + Target module ablation 대체	6 rank 간 차이 모두 2% 이내
R6	Non-RoPE 모델 접근 불가	중 (30%)	중간	ALiBi 기반 BLOOM 사용 + RoPE ablation + “future work” 처리	Jamba/MPT SFT 수렴 실패
R7	GPU 리소스 부족	중 (30%)	높음	다른 cloud 서비스 (Vast.ai, Thunder Compute) + Core 5 seeds / Ablation 3 seeds로 축소 + 단일 모델 집중. 최소 n=5 유지 원칙	예산 소진 / 1주+ 확보 불가
R8	Probing classifier chance 수준	낮-중 (20%)	중간	Non-linear probe (MLP) + CKA/SVCCA + sequence-level probing	모든 layer < 55%
R9	일정 지연	중 (35%)	낮	배제실험 축소 + Workshop paper 선 발표	Week 16 시 배제실험 미완료
R10	Construct contamination 검증 실패	중 (30%)	높음	데이터셋 재구축 (더 엄격한 항목 필터링) + 전문가 annotation 반복. Timeline 2주 연장	Krippendorff’s alpha < 0.6 또는 “both” 항목 > 30%
R11	Random task pair baseline에서도 높은 overlap	낮-중 (20%)	매우 높음	Low-rank artifact 가설 지지 → H3c 재해석. ToM-Meta overlap의 “excess overlap” (random pair 대비 초과분)으로 metric 재정의. Negative result 논문화 전략	Random pair cosine sim > ToM-Meta의 50%

9.2 Go/No-Go 기준

체크포인트	시점	Go 기준	No-Go 시 조치
CP0: 구성물 검증	Week 3 (M1.5)	Krippendorff’s alpha ≥ 0.7. “both” 항목 < 15%. BERTScore ToM-Meta overlap < 0.3	R10 Plan B 시행. 데이터 재구축 + 2주 연장
CP1: 데이터 준비	Week 3 (M1)	4개 데이터셋 각 4K+ samples. Narrative-ToM BERTScore > 0.75. ToM 잔류 < 5%	R1/R2 Plan B 시행. 1주 추가 시 전체 일정 후방 이동
CP2: SFT 검증	Week 7 (M2)	Target domain +5% 이상. MMLU 하락 < 3%	데이터 2배 + epoch 5 / LoRA rank 감소
CP3: Transfer 1차 판정	Week 9	최소 1방향 transfer p < 0.1 (10 seeds 기반)	양방향 p > 0.2: Negative result 전략 전환
CP4: Activation 1차	Week 11	Probing > 55% 또는 RSA r > 0.15	Non-linear probe + CKA 시도 → 실패 시 RQ3 집중
CP5: Parameter 실행 가능성	Week 12	Hessian 계산 성공. Random task pair baseline 완료	Layer-wise 계산 → 실패 시 delta W + rank ablation만
CP6: 최종 충분성	Week 15	RQ1-3 중 2개+ 명확 결론	배제실험 생략. 가용 결과로 초안 작성

10. 비평 및 개선 이력 (Review History)

비평 라운드 요약

라운드	총점	논리	신규성	방법론	영향력	실현성	판정
1	16/25	3/5	4/5	2/5	4/5	3/5	수정 후 재평가
2	20/25	4/5	4/5	4/5	4/5	4/5	통과
3	22/25	4/5	4/5	4.5/5	4/5	4.5/5	통과 (7.8/10)
4	19.6/25	4/5	4/5	3.8/5	4/5	3.8/5	통과 (7.8/10)
5	20.5/25	4.2/5	4/5	4.3/5	4/5	4/5	통과 (7.9/10) — 8.0 도달 위해 Ban & Ji (2025) 반영
6	—	—	—	—	—	—	수정 완료 (Ban & Ji 반영; 재평가 대기)

라운드 1 → 2 상세

치명적 약점과 수정:

Metacognition benchmark construct validity 부재 → 수정: C2 metacognitive monitoring으로 한정 (confidence calibration, error detection, uncertainty estimation). Chen et al. 10 concepts 중 C2 subset만 선별. Ji-An et al. neurofeedback는 보조 분석으로 한정.
General reasoning confound 통제 부족 → 수정: 4-way SFT 설계 (Narrative-only SFT + General SFT 이중 control). Mediation analysis (Baron & Kenny + Sobel test). MMLU/ARC/HellaSwag 동시 측정.
Activation similarity → functional equivalence 추론 비약 → 수정: Probing classifier cross-transfer + RSA + surface feature 통제 (lexical overlap, length, complexity). 단순 cosine similarity 대신 task-specific information 분리.

Reviewer 2 핵심 질문 및 대응:

Q: “Metacognition의 조작적 정의가 benchmark 선택과 일치하는가?”
→ A: C2 monitoring의 3개 하위 construct를 명시적으로 한정하고, 각각에 독립 benchmark (ECE/Reflection-Bench/SelfAware) 선정. Chen et al.의 broader concepts (deception, harm)은 명시적으로 제외.
Q: “Null result 시 benchmark 문제 vs. 실제 독립성을 어떻게 구분?”
→ A: Within-task improvement check, positive control, effect size gradient, 3개 독립 benchmark, RQ2/RQ3 triangulation의 5중 전략.
Q: “Wu et al.의 ‘emergent property’ 해석과 본 연구의 양립 가능성?”
→ A: 3가지 시나리오 구분 설계: (A) 완전한 emergent property, (B) Partially shared substrate (가장 가능성 높음), (C) Distinct dedicated system.

최종 비평 의견 (라운드 2 minor):

Claim을 “shared representational substrate”로 하향 조정 — 반영 완료
Benchmark 정규화 (Cohen’s d 또는 percent improvement) — 반영 완료
Core vs Supplementary experiments 명시적 분리 — 반영 완료 (Core: RQ1-3, Supplementary: 배제실험)
Effect size 사전 기준 명시 (pre-registration) — 반영 완료 (d > 0.2 small, 0.5 medium 기준)
Non-RoPE 모델에 ALiBi 기반(MPT) 추가 고려 — 반영 완료 (R6 Plan B에 포함)

라운드 2 → 3 상세

외부 평가 (ruthless-paper-reviewer, 6.8/10) 기반 치명적 약점과 수정:

C1. 통계 검정력 부족 (n=3 seeds, power ~0.15 at d=0.8) → 수정: 계층화 seeding 전략 도입. Core comparisons (H1a/H1b) 10 seeds (power ≥ 0.80 at d=0.8), ablations/controls 5 seeds, Hessian/selective ablation 3 seeds. 6.2.1 Statistical Power Analysis 신규 섹션 추가. G*Power 사전 계산 근거 명시. 리소스 및 일정 전면 재산정 (500 GPU-hr → 1,200 GPU-hr, 14주 → 16주).
C2. SFT 데이터 구성물 오염 (Construct Contamination) 미통제 → 수정: Phase 1에 4단계 구성물 순수성 검증 추가: (1) BERTScore/BLEURT 의미 overlap 측정, (2) 인지과학 전문가 3-5인 annotation (Krippendorff’s alpha ≥ 0.7), (3) Construct Separation Index (only-ToM / only-Meta / both / neither 비율) 보고, (4) “both” 항목 제거 purified subset 민감도 분석. 외생 변수 표에 3개 신규 항목 추가.

주요 약점과 수정:

M1. 핵심 선행 연구 4편 누락 → 수정: 선행 연구 표 14-17 및 참고 문헌 18-22 추가. Arturi et al. (2025, RQ3 delta W cosine sim 방법론 precedent), Steyvers et al. (2025, H1b 보수적 예측 근거 — metacognitive SFT의 within-metacognition transfer 제한), Dymkiewicz et al. (2025, H1a 비대칭성의 semantic breadth 대안 설명), Lu et al. (2025, A3 위협 — SFT의 표면 패턴 학습 + reasoning collapse).
M2. H1a 비대칭성 예측에 대안 설명 미고려 → 수정: H1a에 Dymkiewicz et al. semantic breadth 대안 통제 추가. A6 가정 신규 추가. Random task pair baseline (sentiment analysis, translation SFT) 도입으로 비대칭성의 인지적 해석과 semantic breadth 해석을 분리.
M3. H3c에 random task pair baseline 부재 (low-rank artifact 위험) → 수정: Sentiment analysis + translation SFT를 동일 rank 조건에서 비교하는 baseline 추가. Low-rank에서의 인위적 overlap 가능성 배제.
M4. H1b 예측이 Steyvers et al. (2025) 미반영 → 수정: H1b 예측을 보수적으로 수정 (d < 0.3 small). Within-metacognition transfer (ECE→Error Detection 등) 추가 측정으로 meta 내부 전이 제한성 확인.
M5. Narrative SFT 구성물 타당성 미검증 → 수정: ToM-specific classifier check + 전문가 annotation으로 ToM 요소 잔류 < 5% 검증 절차 추가.

경미한 수정:

m1. Mediation analysis: Baron & Kenny → Hayes PROCESS bootstrap (5,000 resamples) 주분석으로 변경.
m2. Non-RoPE 모델 위험: 한계 섹션에 RoPE 아키텍처 의존성 명시적 인정 추가.
m3. 일정 조정: 14주 → 16주. Gantt 차트 및 마일스톤 전면 재산정.
m4. 다중 비교 보정: Bonferroni → Benjamini-Hochberg FDR (12 comparisons에서 보수적 Bonferroni 대신 FDR 0.05).
m5. Composite metacognition score: z-score 표준화 + equal-weight 평균. Cronbach’s alpha ≥ 0.6 기준. 개별 지표도 전체 보고.

라운드 3 → 4 → 5 상세

외부 평가 (ruthless-paper-reviewer 라운드 4, 7.6/10) 6개 이슈와 수정:

N1. SRV–Metacognition 개념적 다리 부재 → 수정: 2.2 핵심 개념에 “SRV = C2 metacognitive monitoring의 기능적 프록시” 개념적 정당화 추가. Zhu et al.의 self-reflection이 metacognitive monitoring의 error detection→correction 하위 과정임을 명시. SRV ≠ metacognition 전체임을 인정하고, activation-level 간접 지표로 한정.
N2. SRV 추출 프로토콜 미정의 → 수정: DV9에 2-track SRV 추출 프로토콜 구체화. Track A: Base model SRV (SRV_base) 추출 후 SFT 모델 activation을 SRV_base 방향에 projection. Track B: 각 SFT 모델에서 task-specific SRV (SRV_task) 직접 추출. 분석 방법 9에 두 track 결과 일관성 보고 추가.
N3. SRV confound 통제 부재 → 수정: H2d에 Random task pair SFT 모델과 General SFT 모델의 SRV를 비교 대상에 추가. “ToM-Meta SRV sim > ToM-Random sim AND ToM-Meta SRV sim > General-Meta SRV sim” 조건 명시. Phase 4 mermaid에 baseline 비교 반영.
N4. “Coupling” 용어 과도 (인과적 함의) → 수정: 전체 문서에서 “structural-functional coupling”을 “structural-functional convergence”로 변경 (4곳). 관찰적 수렴을 기술하는 용어로 톤 다운.
N5. Zhu et al. venue 부정확 → 수정: “ICLR 2026 Sub.”을 “arXiv:2506.12217”로 수정 (선행연구 표 + 참고문헌).
N6. LLM shared functional units 관련 선행연구 누락 → 수정: Kryvosheieva et al. (2025) “Different types of syntactic agreement recruit the same units within large language models” (arXiv:2512.03676) 추가. LLM 내부에서 서로 다른 구문 현상이 동일 유닛을 공유한다는 functional localization 증거로, 본 연구의 “shared substrate” 가설에 대한 방법론적 선행.

Novelty Boost: SRV-Parameter Coupling Experiment (H3d 신규):

H3d 신규 가설 추가: “ToM-Meta 공유 파라미터 (top-k Hessian overlap)를 selective ablation하면, SRV 방향 유사도(DV9)가 유의미하게 감소한다.” — 구조(shared params) 제거 → 기능(SRV convergence) 붕괴의 인과적 증거.
기존 selective ablation (DV8) 위에 SRV 재측정만 추가하므로 추가 비용 무시 가능.
Phase 5 mermaid에 “SRV 재추출 (ablated model)” 노드 추가.

라운드 5 → 6 상세

외부 평가 (ruthless-paper-reviewer 라운드 5, 7.8/10) 잔여 이슈와 수정:

제목 불일치: “Structural Coupling” → “Structural-Functional Convergence”로 제목 수정. 본문과 일관성 확보.
H3d control ablation 미명시 → 수정: H3d 가설 statement에 “동일 수 non-shared random parameters ablation” control 조건 명시. k = 0.01% 구체화.
Track B fallback plan 부재 → 수정: DV9에 prompting template (“Answer directly” vs “Review your reasoning step-by-step, then revise if needed”), 최소 pair 수 (200 pairs/model), fallback 전략 (수정 비율 < 10% 시 Track A 단독 사용) 명시.
Du et al. (2026) 인용 누락 → 수정: 선행연구 #19 + 참고문헌 #24 추가. Self-reflection의 layer-wise meta-cognitive trajectory 분석 — DV9 layer-wise SRV 분석의 직접 선행.
Hazimeh et al. (2025) 인용 누락 → 수정: 선행연구 #20 + 참고문헌 #25 추가. Weight disentanglement 대안 설명 — random task pair baseline 비교의 추가 동기.
Ban & Ji (2025) 인용 누락 (LoRA A matrix artifact) → 수정: 선행연구 #21 + 참고문헌 #26 추가. A matrix similarity가 initialization artifact일 가능성 → DV6 보조 분석에 B-matrix-only cosine similarity 추가.

11. 참고 문헌 (References)

핵심 참고 문헌

Wu et al. (2025). “How large language models encode theory-of-mind: a study on sparse parameter patterns.” Nature Machine Intelligence.
Chen et al. (2025). “From Imitation to Introspection: Probing Self-Consciousness in Language Models.” ACL 2025 Findings.
Ji-An et al. (2025). “Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations.” NeurIPS 2025.
Cui et al. (2025). “MetaMind: Modeling Human Social Thoughts with Metacognitive Multi-Agent Systems.” NeurIPS 2025 Spotlight.
Binder et al. (2025). “Looking Inward: Language Models Can Learn About Themselves by Introspection.” ICLR 2025.
Lindsey et al. (2025). “Emergent Introspective Awareness in Large Language Models.” Anthropic.
Zhu et al. (2026). “From Emergence to Control: Probing and Modulating Self-Reflection in Language Models.” arXiv:2506.12217.
Chen et al. (2024). “TOM BENCH: Benchmarking Theory of Mind in Large Language Models.” ACL 2024.
Xu et al. (2024). “OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning.” ACL 2024.
Kadavath et al. (2022). “Language Models (Mostly) Know What They Know.” arXiv.
Yin et al. (2023). “Do Large Language Models Know What They Don’t Know?” ACL Findings.
Lombardo et al. (2010). “Shared Neural Circuits for Mentalizing about the Self and Others.” Journal of Cognitive Neuroscience.
Dehaene et al. (2017). “What is consciousness, and could machines have it?” Science.

방법론 참고 문헌

Hu et al. (2021). “LoRA: Low-Rank Adaptation of Large Language Models.” ICLR 2022.
Baron & Kenny (1986). “The Moderator-Mediator Variable Distinction in Social Psychological Research.” JSPSP.
Preacher & Hayes (2008). “Asymptotic and resampling strategies for assessing and comparing indirect effects in multiple mediator models.” Behavior Research Methods.
Kriegeskorte et al. (2008). “Representational Similarity Analysis.” Frontiers in Systems Neuroscience.
Arturi et al. (2025). “Shared Parameter Subspaces and Cross-Task Linearity in Emergently Misaligned Behavior.” NeurIPS 2025 Mechanistic Interpretability Workshop. arXiv:2511.02022.
Steyvers et al. (2025). “Improving Metacognition and Uncertainty Communication in Language Models.” arXiv:2510.05126.
Dymkiewicz et al. (2025). “Donors and Recipients: On Asymmetric Transfer Across Tasks and Languages with Parameter-Efficient Fine-Tuning.” arXiv:2511.13368.
Lu et al. (2025). “Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models?” arXiv:2504.01698.
Hayes, A. F. (2017). “Introduction to Mediation, Moderation, and Conditional Process Analysis.” Guilford Press.
Kryvosheieva, D., de Varda, A., Fedorenko, E., & Tuckute, G. (2025). “Different types of syntactic agreement recruit the same units within large language models.” arXiv:2512.03676.
Du, Y., Gao, Y., Zhao, S., Li, J., Wang, H., Lin, Q., He, K., Qin, B., & Feng, M. (2026). “From Latent Signals to Reflection Behavior: Tracing Meta-Cognitive Activation Trajectory in R1-Style LLMs.” arXiv:2602.01999.
Hazimeh, A., Favero, A., & Frossard, P. (2025). “Task Addition and Weight Disentanglement in Closed-Vocabulary Models.” arXiv:2511.14569.
Ban, H., & Ji, K. (2025). “Rethinking Parameter Sharing for LLM Fine-Tuning with Multiple LoRAs.” arXiv:2509.25414.

Research-Proposal_ToM-Metacognition-Bridge_20260205

LLM에서 Theory of Mind과 Metacognitive Monitoring의 구조-기능적 수렴: Cross-Task Transfer, Parameter-Level Overlap, 그리고 Self-Reflection Vector 분석

1. 연구 개요 (Executive Summary)

2. 연구 배경 (Background)

2.1 문제 정의

2.2 핵심 개념

2.3 기존 접근법의 한계

3. 선행 연구 분석 (Prior Research)

3.1 핵심 선행 연구

3.2 연구 갭 분석

3.3 본 연구의 차별점

4. 연구 질문 및 가설 (Research Questions & Hypotheses)

4.1 연구 질문

4.2 가설

4.3 핵심 가정 (Assumptions)

5. 학술적 기여 (Academic Contribution)

5.1 기여 유형 및 수준

5.2 기대 학술 영향

5.3 한계 및 범위

6. 실험 설계 (Experiment Design)

6.1 설계 개요

6.2 변수 통제표

독립 변수 (조작 변수)

종속 변수 (결과 변수)

통제 변수 (고정 변수)

6.2.1 통계 검정력 분석 (Statistical Power Analysis)

외생 변수 (잠재적 혼동 변수)

6.3 실험 파이프라인

6.4 데이터 및 리소스

데이터

컴퓨팅 리소스

비용 추정

7. 실험 일정 (Schedule)

7.1 Gantt 차트

7.2 마일스톤

8. 예상 결과 및 분석 (Expected Results)

8.1 시나리오별 예상 결과

8.2 분석 방법

9. 대비 계획 (Backup Plans)

9.1 위험 요소 및 대응

9.2 Go/No-Go 기준

10. 비평 및 개선 이력 (Review History)

비평 라운드 요약

라운드 1 → 2 상세

라운드 2 → 3 상세

라운드 3 → 4 → 5 상세

라운드 5 → 6 상세

11. 참고 문헌 (References)

핵심 참고 문헌

방법론 참고 문헌

그래프 뷰

목차

Properties

백링크