LLM에서 Theory of Mind과 Metacognitive Monitoring의 구조-기능적 수렴: Cross-Task Transfer, Parameter-Level Overlap, 그리고 Self-Reflection Vector 분석

연구 분야: AI (NLP, LLM, Cognitive AI, Mechanistic Interpretability)
키워드: Theory of Mind, Metacognition, Cross-Task Transfer, LoRA Parameter Overlap, LLM Interpretability
작성일: 2026-02-05
비평 점수: 라운드 5: 7.9/10 → 라운드 6: Ban & Ji 반영 완료 (실험 시작 권고)


1. 연구 개요 (Executive Summary)

연구 개요

인간 신경과학에서 Theory of Mind(ToM) 관련 뇌 영역(dmPFC, TPJ, DMN)과 metacognition/self-awareness 관련 영역이 상당 부분 중첩된다. 본 연구는 이 현상이 LLM의 내부 표상(parameter space, activation space) 수준에서도 재현되는지를 최초로 체계적으로 검증한다. 4-way SFT 설계(ToM/Metacognition/Narrative-only/General control)와 다층적 분석(행동/표상/파라미터)을 통해, ToM과 metacognitive monitoring(C2)이 “shared representational substrate”를 공유하는지, 아니면 general language understanding의 독립적 부산물인지를 판별한다.

  • 연구 동기: Wu et al. (Nature 2025)은 LLM에서 0.001% 수준의 극히 희소한 파라미터가 ToM에 결정적 역할을 함을 발견했고, Ji-An et al. (NeurIPS 2025)은 LLM의 metacognitive monitoring 공간이 매우 저차원임을 보였다. 그러나 이 두 능력 간의 구조적 연결은 직접 검증된 바 없다.
  • 핵심 아이디어: ToM task로 fine-tuning하면 metacognitive monitoring(C2) 성능이 함께 향상되는가? 두 task의 LoRA delta W가 구조적으로 중첩되는가? 이를 통해 LLM이 인간과 유사한 인지 구조를 가지고 있는지에 대한 간접적 증거를 제시한다.
  • 예상 기여: (1) ToM-Metacognition 구조-기능적 수렴(structural-functional convergence)의 최초 체계적 실증, (2) LoRA delta W cross-task overlap 분석 방법론, (3) Self-reflection vector 기반 기능적 방향 수렴 검증, (4) C0-C1-C2 이론의 LLM 적용 검증
  • 주요 연구 질문: ToM SFT가 metacognitive monitoring을 향상시키는가? 두 task의 내부 표상과 파라미터 변화가 구조적으로 중첩되는가? 나아가, self-reflection vector의 기능적 방향까지 수렴하는가?

2. 연구 배경 (Background)

2.1 문제 정의

LLM에서 Theory of Mind과 metacognition/self-consciousness는 최근 독립적으로 활발히 연구되고 있다. ToM 측면에서 Wu et al. (Nature 2025)은 0.001% 수준의 극히 희소한 파라미터가 ToM에 결정적 역할을 하며 RoPE와 연결됨을 발견했다. Metacognition 측면에서 Ji-An et al. (NeurIPS 2025)은 LLM의 metacognitive space가 전체 neural space보다 훨씬 낮은 차원임을 보였고, Binder et al. (ICLR 2025)은 LLM introspection의 증거를 제시했다.

그러나 이 두 능력 간의 직접적 관계는 검증된 바 없다. 인간 신경과학에서 dmPFC, TPJ, DMN이 ToM과 self-awareness 모두에서 활성화된다는 보고(Lombardo et al., 2010)가 있지만, LLM에서 이러한 구조적 연결이 존재하는지는 미지의 영역이다.

2.2 핵심 개념

  • Theory of Mind (ToM): 타인의 마음(신념, 의도, 욕구 등)을 추론하고 이해할 수 있는 능력. False-belief task가 대표적 평가 방법이며, 인간에서는 4-5세에 발달한다.
  • Metacognitive Monitoring (C2): Dehaene et al.의 C0-C1-C2 의식 이론에서 C2 수준에 해당하는 자기 인지 과정의 모니터링 능력. 본 연구에서는 confidence calibration, error detection, uncertainty estimation으로 조작화한다.
  • C0-C1-C2 이론: C0(무의식적 처리), C1(전역적 접근 가능성/Global workspace), C2(자기 모니터링/Metacognition)의 계층 구조. ToM은 C1 수준의 사회적 인지로, C2의 computational prerequisite가 될 수 있다.
  • Self-Reflection Vector (SRV)와 Metacognitive Monitoring의 관계: Zhu et al. (arXiv:2506.12217, 2026)의 “self-reflection”은 모델이 자기 추론 과정을 재평가하여 오류를 탐지·수정하는 과정으로, metacognitive monitoring의 핵심 하위 과정인 error detection → correction에 해당한다. SRV가 활성화되면 모델이 자기 추론을 재평가하므로, C2 metacognitive monitoring의 **기능적 프록시(functional proxy)**로 사용할 수 있다. 단, SRV ≠ metacognition 전체: SRV는 metacognitive monitoring의 activation-level 간접 지표로 한정되며, metacognitive regulation이나 metacognitive knowledge는 포착하지 않는다. 본 연구에서 SRV는 “ToM과 Metacognition이 기능적 방향에서도 수렴하는가?”를 검증하는 도구로, 구조적 overlap(파라미터/활성화 공유)을 보완하는 기능적 차원의 증거를 제공한다.

2.3 기존 접근법의 한계

  1. 개별 연구의 단절: ToM과 metacognition이 각각 독립적으로 연구되며, 양자 간 관계를 직접 검증한 연구가 없다.
  2. 파라미터 수준 연결성 분석 부재: Activation-level 분석은 다수 존재하지만, 두 task의 학습 시 파라미터 변화 방향의 구조적 중첩도를 분석한 연구가 없다.
  3. 인과성 검증 부재: 상관적 증거(공유 뇌 영역 활성화)는 있으나, 한 능력을 강화했을 때 다른 능력이 향상되는지에 대한 양방향 인과 검증이 없다.
  4. Confound 통제 부족: 기존 cross-task 연구들이 general reasoning 향상에 의한 confounding을 충분히 통제하지 않는다.

3. 선행 연구 분석 (Prior Research)

3.1 핵심 선행 연구

#논문핵심 기여본 연구와의 관계
1Wu et al. (Nature 2025). “How LLMs encode ToM”0.001% ToM-민감 파라미터; RoPE 연결; ToM이 emergent property일 수 있음 시사직접적 방법론 기반: Hessian 기반 sensitivity 분석을 metacognition에 확장; 대안 설명 배제 대상
2Chen et al. (ACL 2025 Findings). “From Imitation to Introspection”10개 자의식 개념 정의; SCG 기반 4단계 실험; fine-tuning으로 습득 가능Metacognition 평가 프레임워크: C2 subset (known unknowns) 활용
3Ji-An et al. (NeurIPS 2025). “LM Metacognitive Monitoring”Neurofeedback 패러다임; metacognitive space의 저차원성Metacognition 측정법: 보조 분석에서 neurofeedback 활용
4MetaMind / Cui et al. (NeurIPS 2025 Spotlight)인간 수준 ToM; metacognitive 원리 적용ToM-Metacognition 통합 사례: metacognitive 원리가 ToM을 향상시킨 실증
5Binder et al. (ICLR 2025). “Looking Inward”M1이 자기 행동 예측에서 M2보다 우수; introspection 증거Introspection 측정 참조
6Lindsey (Anthropic 2025). “Emergent Introspective Awareness”Concept injection; ~20% 확률로 주입된 개념을 정확히 명명자기 인식 평가 기준
7Zhu et al. (arXiv:2506.12217, 2026). “From Emergence to Control”Self-Reflection Vector; contrastive activation으로 자기성찰 방향 추출; 빈도 0.6%→18.6%, 추론 최대 12% 향상. Self-reflection = metacognitive monitoring의 error detection→correction 하위 과정H2d/H3d 핵심 방법론: SRV를 C2 metacognitive monitoring의 기능적 프록시(activation-level 간접 지표)로 활용. ToM/Meta SFT 모델 간 기능적 방향 수렴 분석(H2d) + 구조 제거 시 기능 붕괴 인과 검증(H3d). 구조적 overlap(H3a-c)에 기능적 차원 추가
8Chen et al. (ACL 2024). “TOMBENCH”8 tasks, 31 abilities, 2,860 MCQ주요 ToM 벤치마크
9Xu et al. (ACL 2024). “OpenToM”696 서사, 16K 질문; 심리적 정신 상태 분리ToM 학습 데이터 소스
10Kadavath et al. (2022). “Language Models Know What They Know”Calibration 연구; 모델의 자기 지식 인식Confidence calibration benchmark
11Yin et al. (2023). “Do LLMs Know What They Don’t Know?”SelfAware dataset; unanswerable question detectionUncertainty estimation benchmark
12Lombardo et al. (2010). “Shared Neural Circuits”dmPFC, TPJ가 ToM과 self-awareness 모두에서 활성화신경과학적 근거
13Dehaene et al. (2017). C0-C1-C2 이론의식의 3단계 계층 구조이론 프레임워크
14Arturi et al. (NeurIPS 2025 Workshop). “Shared Parameter Subspaces and Cross-Task Linearity.” arXiv:2511.02022LoRA delta W cosine similarity로 cross-task parameter 수렴 정량화; 다양한 task 간 공유 저차원 subspace 발견RQ3 직접 방법론 선행: delta W cosine sim 분석의 직접적 precedent. 본 연구의 방법론적 기반이자 차별점 (misalignment → cognitive tasks 확장)
15Steyvers et al. (2025). “Improving Metacognition and Uncertainty Communication in LMs.” arXiv:2510.05126Metacognitive SFT 효과가 task-specific이며 metacognition task 유형 간 전이 제한적. Multitask training 시에만 일반화H1b 위험 요소: Meta 내부에서도 transfer 제한적 → Meta→ToM 전이에 대한 보수적 예측 근거. Within-metacognition transfer 추가 측정 동기
16Dymkiewicz et al. (2025). “Donors and Recipients: Asymmetric Transfer with PEFT.” arXiv:2511.13368LoRA cross-task transfer 비대칭성이 semantic breadth에 의해 결정됨; 인지적 계층 구조와 무관할 수 있음H1a 대안 설명: 비대칭성이 C0-C1-C2 계층이 아닌 task semantic breadth 차이에서 기인할 가능성. Random task pair baseline 도입 동기
17Lu et al. (2025). “Do ToM Benchmarks Need Explicit Human-like Reasoning?” arXiv:2504.01698SFT로 높은 ToM 점수 달성 가능하나 genuine ToM 없이도 가능; ≤3B 모델에서 “reasoning collapse”A3/A7 위협: SFT가 진정한 ToM이 아닌 표면 패턴 학습일 가능성. OOD test + reasoning trace 검증 동기
18Kryvosheieva et al. (2025). “Different types of syntactic agreement recruit the same units within large language models.” arXiv:2512.03676Functional localization으로 67개 구문 현상이 동일 LLM 유닛을 공유함을 발견; 교차언어적으로도 유사 구조의 언어가 더 많은 유닛 공유Shared functional units 선행: LLM 내부에서 서로 다른 언어 현상이 동일 유닛을 공유한다는 실증. 본 연구의 “ToM-Meta shared substrate” 가설에 대한 방법론적 근거 (구문→인지 task로 확장)
19Du et al. (2026). “From Latent Signals to Reflection Behavior: Tracing Meta-Cognitive Activation Trajectory in R1-Style LLMs.” arXiv:2602.01999Logit lens로 R1-style LLM의 self-reflection 과정을 layer-wise 추적; latent-control → semantic-pivot → behavior-overt 3단계 meta-cognitive trajectory 발견SRV layer-wise 분석 직접 선행: 자기성찰의 layer-wise activation trajectory 분석 방법론. 본 연구의 DV9 layer-wise SRV 분석에 대한 직접적 근거. Meta-cognitive monitoring의 layer 분포 이해에 기여
20Hazimeh et al. (2025). “Task Addition and Weight Disentanglement in Closed-Vocabulary Models.” arXiv:2511.14569Weight disentanglement가 pre-training의 일반적 결과임을 실증; task arithmetic으로 효율적 multi-task 배포 가능H3 대안 설명: Weight disentanglement에 의해 서로 다른 task의 delta W가 자연히 분리될 수 있으므로, ToM-Meta overlap이 의미 있는 공유인지 disentanglement 실패인지 구분 필요. Random task pair baseline 비교의 추가 동기
21Ban & Ji (2025). “Rethinking Parameter Sharing for LLM Fine-Tuning with Multiple LoRAs.” arXiv:2509.25414LoRA A matrix similarity는 initialization artifact; B matrix가 실질적 지식 전달 담당. ALoRA 제안 (multiple A + shared B)DV6 artifact 위험: Delta W cosine similarity에서 A matrix 유사성이 초기화에 의한 spurious overlap일 수 있음. 통제: DV6 보조 분석으로 B-matrix-only cosine similarity 추가 보고하여 A matrix artifact 배제

3.2 연구 갭 분석

#연구 갭현황본 연구의 대응
1ToM과 Metacognition의 직접적 인과 관계 미검증개별 연구만 존재; 양자 간 교차 효과 실험 부재RQ1: 4-way SFT + mediation analysis
2파라미터 수준의 구조적 연결성 분석 부재Activation 분석만 존재; delta W overlap 미측정RQ3: LoRA delta W cosine sim + Hessian Jaccard
3양방향 인과성 미검증단방향 연구만 존재H1a/H1b: 비대칭성 예측 및 검증
4LoRA 기반 cross-task 분석 부재LoRA가 task-specific 분석에 활용되지 않음RQ3: Rank ablation study
5Confound 통제 불충분General reasoning 향상 효과 미분리Narrative-only SFT + General SFT + mediation analysis
6SFT 데이터 구성물 오염 (Construct Contamination) 미검증ToM 데이터에 metacognitive 요소, Meta 데이터에 ToM 요소가 혼입될 가능성에 대한 체계적 검증 부재Phase 1에서 BERTScore/BLEURT overlap 측정 + 전문가 annotation (Krippendorff’s alpha ≥ 0.7) + Construct Separation Index + purified subset 민감도 분석
7LoRA cross-task 분석의 low-rank artifact 미통제저랭크에서 모든 task pair의 overlap이 인위적으로 증가하는 artifact 가능성 (Arturi et al., 2025)Random task pair baseline (sentiment + translation)을 동일 rank에서 비교; “excess overlap” metric 정의
8구조적 overlap과 기능적 방향 수렴의 미분리파라미터가 공유되더라도 기능적으로 다른 방향으로 활용될 수 있음. 구조-기능 해리 가능성 미검증Self-reflection vector (Zhu et al., 2026)를 ToM/Meta SFT 모델에서 추출하여 기능적 방향 수렴을 독립적으로 검증

3.3 본 연구의 차별점

기존 연구와의 핵심적 차이는 세 가지이다:

  1. 양방향 인과 관계 직접 검증: ToM→Meta와 Meta→ToM 양방향의 교차 전이를 정량적으로 측정하고, C0-C1-C2 이론에 기반한 비대칭성 예측을 사전 등록한다.
  2. 다층적 분석 (행동 + 표상 + 파라미터): Behavioral transfer, activation overlap (probing + RSA), parameter overlap (delta W + Hessian)의 세 수준에서 triangulation한다.
  3. 체계적 confound 통제: 4-way SFT 설계와 mediation analysis로 general reasoning confound를 분리한다.
  4. SFT 데이터의 구성물 순수성 검증: Dymkiewicz et al. (2025)의 semantic breadth 효과와 Lu et al. (2025)의 SFT 표면 패턴 학습 경고를 고려하여, 4-way SFT 데이터셋의 construct contamination을 다중 방법 (BERTScore/BLEURT + 전문가 annotation + Construct Separation Index + purified subset)으로 통제한다.
  5. Low-rank artifact 통제: Arturi et al. (2025)의 방법론을 직접 확장하되, random task pair baseline으로 저랭크에서의 인위적 overlap을 체계적으로 배제한다.
  6. 구조-기능 수렴 검증 (Structural-Functional Convergence): 기존 연구가 구조적 overlap (파라미터/활성화 공유)만 측정하는 데 비해, Zhu et al. (2026)의 self-reflection vector를 활용하여 ToM/Meta SFT 모델이 기능적 방향(자기성찰 벡터)에서도 수렴하는지를 추가 검증한다. 이를 통해 “같은 구조를 공유할 뿐 아니라 같은 기능적 방향으로 활용한다”는 더 강력한 주장이 가능해진다.

4. 연구 질문 및 가설 (Research Questions & Hypotheses)

4.1 연구 질문

RQ질문유형
RQ1ToM SFT가 metacognitive monitoring(C2)을 향상시키는가? 역방향(metacognition SFT → ToM)도 성립하는가?확인적/비교
RQ2ToM task와 metacognitive monitoring task 수행 시 internal representation이 task-specific 수준에서 유사한가?탐색적
RQ3ToM SFT와 metacognitive monitoring SFT의 LoRA delta W가 구조적으로 중첩되는가?확인적

4.2 가설

가설내용대응 RQ검증 방법
H1aToM SFT는 metacognitive monitoring(C2) 성능을 유의미하게 향상시킨다. 비대칭 예측: ToM→Meta 전이가 역방향보다 더 강하다. 단, Dymkiewicz et al. (2025)의 semantic breadth 대안 설명을 통제하기 위해 random task pair baseline (sentiment analysis, translation SFT)과 비교한다.RQ1Cross-task performance, paired t-test, Cohen’s d, random task pair baseline 비교
H1bMetacognitive monitoring SFT는 ToM 성능을 향상시키지만, H1a보다 전이 효과가 약하다. 보수적 예측: Steyvers et al. (2025)에 따르면 metacognitive SFT 효과 자체가 task-specific하여 within-metacognition 전이도 제한적이므로, Meta→ToM 전이 효과 크기는 d < 0.3 (small)으로 예상한다.RQ1동일, 효과 크기 비교. Within-metacognition transfer (ECE↔Error Detection↔Uncertainty) 추가 측정
H1cNarrative-only SFT (mental state reasoning 미포함)는 ToM과 metacognition 모두에서 유의미한 향상을 보이지 않는다.RQ1Negative control 비교
H1dToM/Metacognition SFT 후 MMLU/ARC/HellaSwag 변화가 cross-task transfer를 완전히 설명하지 못한다 (mediation analysis에서 direct effect 유의미).RQ1Hayes PROCESS bootstrap mediation (5,000 resamples) 주분석 + Baron & Kenny 보조 보고
H2aTask-specific probing classifier가 높은 cross-task transfer accuracy를 보인다 (중간~후반 layer).RQ2Linear probing, 10-fold CV
H2bRSA에서 ToM-Meta RDM 상관이 ToM-Narrative control보다 유의미하게 높다.RQ2Spearman correlation, Mantel test
H2cSurface feature 통제 후에도 H2a, H2b가 유지된다.RQ2Partial RSA, lexical/length/complexity 통제
H2dToM SFT 모델과 Meta SFT 모델에서 추출한 **self-reflection vector (SRV)**의 방향이 유의미하게 유사하다. 다중 baseline 통제: (1) ToM-Meta SRV sim > ToM-Narrative SRV sim, (2) ToM-Meta SRV sim > ToM-Random SRV sim (random task pair SFT 모델), (3) ToM-Meta SRV sim > General-Meta SRV sim. 세 조건 모두 충족 시 가설 지지.RQ2Zhu et al. (2026) contrastive activation extraction + layer-wise cosine similarity + permutation test (10,000). Random task pair 및 General SFT 모델의 SRV도 동일 방법으로 추출하여 비교
H3aToM LoRA delta W와 Meta LoRA delta W의 cosine similarity가 Narrative-only delta W와의 similarity보다 유의미하게 높다.RQ3Layer-wise cosine similarity, permutation test
H3bWu et al. Hessian 기반 ToM-sensitive parameter와 Meta-sensitive parameter의 Jaccard index가 chance level보다 유의미하게 높다.RQ3Hessian sensitivity, Jaccard index
H3cLoRA rank가 낮을수록 (rank 2-4) ToM-Meta overlap이 증가한다 (공유 구조가 저랭크 subspace에 집중). 통제: Random task pair baseline (sentiment + translation LoRA)의 동일 rank overlap과 비교하여 저랭크 인위적 overlap artifact를 배제한다. ToM-Meta “excess overlap” (random pair 대비 초과분)이 저랭크에서 증가해야 가설 지지.RQ3Rank ablation (r=2,4,8,16,32,64) + random task pair 동일 rank 비교
H3dToM-Meta 공유 파라미터 (top-k Hessian overlap, k = 0.01%)를 selective ablation하면, ToM-Meta SRV 방향 유사도(DV9)가 유의미하게 감소한다. 통제 조건: 동일 수의 non-shared random parameters를 ablation한 control과 비교하여, SRV 감소가 공유 파라미터 특이적임을 확인. 인과적 증거: 구조(shared params) 제거 → 기능(SRV convergence) 붕괴. 기존 selective ablation (DV8) 위에 SRV 재측정만 추가하므로 추가 비용 무시 가능.RQ3Selective ablation (H3b와 동일 모델): (1) 공유 파라미터 ablation → SRV 재추출, (2) Control: 동일 수 non-shared random params ablation → SRV 재추출. Pre/post ablation SRV cosine sim 비교 (paired t-test). 공유 ablation의 SRV 감소 > random ablation의 SRV 감소 시 가설 지지

4.3 핵심 가정 (Assumptions)

#가정근거위반 시 영향
A1Metacognition을 C2 metacognitive monitoring (confidence calibration, error detection, uncertainty estimation)으로 한정하여 조작적으로 정의할 수 있다Kadavath et al. (2022), Yin et al. (2023), Reflection-Bench (2025) 등 독립적 benchmark 존재조작적 정의가 너무 협소하면 metacognition 전체에 대한 일반화 불가
A2ToM과 metacognition은 개념적으로 구분 가능하며 각각 독립적으로 평가 가능하다TOMBENCH (8 tasks, 31 abilities), ECE, SelfAware 등 별도 benchmark 체계두 task의 구분이 모호하면 transfer 측정 자체가 무의미
A3SFT가 해당 능력을 실질적으로 향상시킨다Chen et al. ACL 2025의 acquisition 실험; Wu et al.의 ToM parameter 발견SFT 효과 없으면 cross-transfer 측정 불가
A4Wu et al.의 “ToM = emergent property of general language understanding” 가설을 배제 대상으로 설정ToM-Meta overlap이 ToM-Any task overlap과 차이 없으면 대안 설명 채택대안 설명이 맞으면 “구조적 연결” 가설 기각 — 이것 자체도 의미 있는 결과
A5LoRA fine-tuning이 task-specific adaptation을 충분히 포착한다LoRA가 low-rank adaptation을 통해 task-specific delta를 효율적으로 학습Rank가 너무 낮으면 정보 손실; rank ablation으로 통제
A6H1a의 비대칭성이 C0-C1-C2 계층 구조를 반영한다C0-C1-C2 이론에 기반한 방향성 예측. 단, Dymkiewicz et al. (2025)의 semantic breadth 대안 설명을 random task pair baseline으로 통제 비교대안 설명이 성립하면 비대칭성의 인지적 해석 약화 — 그러나 공유 구조 자체의 발견(H3a/H3b)은 유효
A7SFT가 genuine ToM/metacognition을 학습한다 (표면 패턴 모방이 아닌)Lu et al. (2025)의 “reasoning collapse” 경고를 인지. 7-8B 모델은 ≤3B 모델보다 robust할 것으로 예상. OOD test items + reasoning trace 검증으로 통제표면 패턴만 학습 시 cross-task transfer가 linguistic pattern transfer로 환원됨 — Construct Separation Index와 Narrative SFT 비교로 판별

5. 학술적 기여 (Academic Contribution)

5.1 기여 유형 및 수준

#기여유형수준설명
1ToM-Metacognition **구조-기능적 수렴(structural-functional convergence)**에 대한 최초의 체계적 실증 검증이론적혁신적Lombardo et al. (2010)의 공유 neural substrate 발견이 LLM의 parameter/activation space에서 재현되는지를 최초로 직접 검증. Self-reflection vector (Zhu et al., 2026)를 통한 기능적 방향 수렴까지 이중 검증. C0-C1-C2 의식 이론의 실증적 검증 사례
2양방향 cross-task transfer의 인과적 비대칭성 검증실증적혁신적4-way SFT + mediation analysis로 양방향 인과성과 비대칭성을 정량화. C0-C1-C2 기반 directional prediction 사전 등록
3LoRA delta W cross-task overlap 분석 방법론방법론적상당한Activation-level 분석을 parameter-level로 확장. Wu et al.의 sparse parameter와의 Jaccard overlap + rank ablation 프레임워크
4Task-specific representation overlap의 다층적 검증 체계방법론적상당한Probing classifier + RSA + surface feature 통제의 3중 검증으로 activation similarity의 해석 한계 극복
5Wu et al. 대안 설명의 체계적 배제실증적상당한Hessian Jaccard, Selective Ablation, Non-RoPE 모델 대조의 3중 배제 실험 설계
6C0-C1-C2 의식 이론의 LLM 적용 실증 검증이론적상당한비대칭성 관찰 시 C2가 C1 위에 구축된다는 계층 구조의 최초 실증적 증거
7Negative result의 이론적 가치 확보 설계이론적증분적모든 시나리오에서 해석 가능하도록 구조화 — null result은 인간-LLM 인지 구조 차이의 증거
82-model cross-validation실증적증분적Llama-3.1-8B + Qwen-2.5-7B로 결과의 아키텍처 일반화 가능성 확보

5.2 기대 학술 영향

  • 직접적 영향:

    • LLM Interpretability: ToM과 metacognition이 공유하는 파라미터/표상 구조를 밝힘으로써 LLM 내부의 고차 인지 능력 조직화에 대한 이해 심화
    • AI Consciousness 연구: C0-C1-C2 이론의 LLM 적용 검증을 통해 이론과 실증을 연결하는 다리 역할
    • Cognitive Science - AI 연결: 인간 뇌의 공유 회로(dmPFC, TPJ)가 Transformer에서도 재현되는지 검증
    • LLM Alignment / Safety: 능력 간 상호의존성 발견 시, 의도하지 않은 능력 변화 방지에 활용
  • 간접적 영향:

    • LoRA 기반 multi-task learning 연구 프레임워크 제공
    • SFT 기반 capability spillover에 대한 체계적 연구 방법론
    • Developmental AI에서 ToM-metacognition 공발달 패턴의 LLM 재현 여부
    • LLM을 computational model로 활용한 neuroscience 가설 생성
  • 예상 대상 학회/저널:

    1. NeurIPS — Ji-An et al., MetaMind 등 직접 관련 선행 연구가 발표된 venue; interpretability + 인지 능력 교차점
    2. ICLR — Binder et al., Zhu et al. 등 선행 연구; representation learning + parameter analysis
    3. ACL — TOMBENCH, OpenToM, Chen et al. 등 NLP 기반 ToM/metacognition 연구의 핵심 venue
    4. CogSci — C0-C1-C2 이론 검증; negative result에도 강한 venue
    5. Nature Machine Intelligence — Wu et al. 직접 후속; Best case + 추가 실험 시

5.3 한계 및 범위

  1. 모델 규모 제한: 7-8B 수준 모델에 한정. 70B+ 대형 모델에서의 scaling 일반화는 미검증.
  2. Metacognition 정의 한정: C2 metacognitive monitoring의 일부(confidence, error detection, uncertainty)만 포함. Metacognitive regulation/knowledge는 미포함.
  3. ToM task 범위: False-belief 중심. Faux pas, irony detection, second-order belief 등 복잡한 ToM은 미포함.
  4. 인과성 주장 강도: “Shared representational substrate”로 하향 조정. 완전한 인과 메커니즘 규명은 아님.
  5. LoRA 구조적 제약: Low-rank approximation에 의한 인위적 overlap 가능성. Rank ablation + random task pair baseline으로 통제. “Excess overlap” (ToM-Meta overlap - random pair overlap)으로 순수 공유 구조 추정.
    5.5. RoPE 아키텍처 의존성: Wu et al.의 ToM-sensitive parameter가 RoPE에 연결되어 있어, Non-RoPE 모델(ALiBi 기반 MPT 등)에서 ToM parameter 분포가 상이할 수 있다. 배제실험 실패 시 본 연구 결론은 RoPE 기반 Transformer에 한정된다.
  6. 철학적 논의 배제: “진정한” 의식/주관적 경험에 대한 질문에는 답하지 않음. Computational/functional level 발견에 한정.

6. 실험 설계 (Experiment Design)

6.1 설계 개요

  • 설계 유형: Mixed design (Between-subjects x Within-subjects)
    • Between-subjects 요인: SFT 조건 (4수준: ToM SFT, Metacognition SFT, Narrative SFT, General SFT)
    • Within-subjects 요인: 평가 벤치마크 유형, 모델 아키텍처, LoRA rank
  • 주요 비교:
    1. RQ1 Cross-task Transfer: ToM SFT 모델의 Metacognition 성능 vs. Metacognition SFT 모델의 ToM 성능 (비대칭성 검증)
    2. RQ2 Representation Overlap: Probing classifier cross-transfer 정확도 및 RSA 상관
    3. RQ3 Parameter Overlap: LoRA delta W cosine similarity 및 Hessian 기반 Jaccard index

6.2 변수 통제표

독립 변수 (조작 변수)

변수명설명조작 수준측정/조작 방법
SFT 조건 (IV1)Fine-tuning에 사용되는 데이터셋 유형4수준: (1) ToM SFT, (2) Meta SFT, (3) Narrative SFT (control), (4) General SFT (control)각 조건당 약 5K samples로 LoRA fine-tuning. 동일 hyperparameter 적용
모델 아키텍처 (IV2)Base model 선택2수준: Llama-3.1-8B, Qwen-2.5-7BHuggingFace 공식 weights. LoRA (r=16, alpha=32, target: q_proj, v_proj)
LoRA Rank (IV3)LoRA의 rank 파라미터6수준: 2, 4, 8, 16, 32, 64Rank ablation 실험에서 조작. 나머지 hyperparameter 고정
분석 Layer (IV4)Activation 추출 대상 layer연속: Layer 0 - 31모든 layer에서 hidden state 추출 후 layer-wise 분석

종속 변수 (결과 변수)

변수명설명측정 지표측정 도구/방법
ToM 성능 (DV1)ToM 벤치마크 정확도TOMBENCH test accuracy, FanToM accuracy, Wu et al. false-belief held-out accuracylm-evaluation-harness / 자체 평가 스크립트
Metacognition 성능 (DV2)Metacognitive monitoring 능력ECE (verbalized confidence), Error Detection Accuracy (Reflection-Bench), Known Unknowns F1 (SelfAware)Verbalized confidence + ECE; 공식 평가 도구
General 성능 (DV3)일반 언어 능력 (confound 통제)MMLU (5-shot), ARC-Challenge (25-shot), HellaSwag (10-shot)lm-evaluation-harness 표준 설정
Probing Cross-Transfer (DV4)Cross-task probing 정확도교차 정확도 (%), AUC-ROCsklearn LogisticRegression, 10-fold CV
RSA 상관 (DV5)ToM RDM - Meta RDM 유사도Spearman correlationMantel test (10,000 permutations)
Delta W Cosine Similarity (DV6)LoRA weight 변화 방향 유사도Layer-wise cosine similaritytorch cosine_similarity on flattened delta W. 보조 분석: Ban & Ji (2025)의 A matrix initialization artifact 가능성을 통제하기 위해 B-matrix-only cosine similarity도 추가 보고
Parameter Jaccard Index (DV7)Sensitive parameter overlapTop-k Jaccard (k = 0.001%, 0.01%, 0.1%)Wu et al. Hessian method + 이진 마스크 Jaccard
Selective Ablation Impact (DV8)Cross-task ablation 효과성능 변화율 (%)Wu et al. perturbation method
SRV Direction Similarity (DV9)Self-reflection vector 방향 유사도SFT 모델 간 SRV cosine similarity2-track SRV 추출 프로토콜: Track A (SRV_base projection): Zhu et al. (2026) 방법으로 base model에서 SRV_base 추출 (reflective vs non-reflective context contrastive pairs). 각 SFT 모델의 activation을 SRV_base 방향에 project하여 alignment 측정. Track B (SRV_task extraction): 각 SFT 모델에서 동일 문제에 대해 “표준 응답” vs “자기 검토 후 수정 응답”으로 contrastive pair 구성 (prompt template: “Answer directly” vs “Review your reasoning step-by-step, then revise if needed”; 최소 200 pairs per model). SRV_task 직접 추출. 중간~후반 layer에서 layer-wise pairwise cosine sim. Fallback: Self-reflection 미발생 시 (수정 비율 < 10%) Track A 단독 사용으로 전환하고 Track B 실패를 투명하게 보고

통제 변수 (고정 변수)

변수명고정값고정 이유
SFT 데이터 크기각 조건당 ~5,000 samples데이터 양 차이에 의한 confounding 배제
LoRA Hyperparameters (기본)r=16, alpha=32, dropout=0.05, target=q_proj+v_proj조건 간 학습 용량 동일화
Learning rate2e-4 (cosine scheduler, warmup 10%)AdamW optimizer
Training epochs3 epochs과적합 방지 + 충분한 학습
Batch size8 (gradient accumulation 4, effective 32)GPU 메모리 최적화
Max sequence length2048 tokens입력 길이 표준화
Precisionbfloat16메모리 효율 + 수치 안정성
Random seeds계층화 전략: Core comparisons (H1a/H1b) 10 seeds {42, 123, 456, 789, 1024, 2048, 3141, 4096, 5555, 7777}, ablations/controls 5 seeds, Hessian/selective ablation 3 seeds per condition재현성 + 충분한 통계 검정력 (power ≥ 0.80 at d=0.8 for core)
Evaluation temperature0.0 (greedy)확률적 변동 제거

6.2.1 통계 검정력 분석 (Statistical Power Analysis)

분석 유형비교 수효과 크기 기준Seeds/조건검정력 (1-β)근거
Core: H1a/H1b cross-task transfer4 (2 방향 x 2 모델)d = 0.8 (large)10≥ 0.80주요 가설 검증; Type II error 최소화 필수
Core: H1c/H1d control 비교4d = 0.810≥ 0.80Confound 배제의 신뢰성 확보
Ablation: Rank ablation (H3c)6 ranks x 2d = 1.05≥ 0.70탐색적 성격; 경향성 확인 목적
Ablation: Random task pair baseline2d = 1.05≥ 0.70대안 설명 배제
Expensive: Hessian/selective ablation (H3b)2descriptive3N/A (descriptive)계산 비용 제약; Jaccard index + permutation test로 보완

검정력 산출 근거

Paired t-test, α = 0.05 (Benjamini-Hochberg FDR 보정 후 유효 alpha 반영). G*Power 3.1 기반 사전 계산. Core comparisons에서 d = 0.8 탐지에 n = 10 필요 (1-β = 0.81). 기존 n = 3은 동일 조건에서 1-β = 0.15로 불충분. LoRA SFT 연구에서 3 seeds가 관행적이나 (LoRA-FAIR, ICCV 2025), cross-task transfer 검증에는 higher power가 필수적이다.

외생 변수 (잠재적 혼동 변수)

변수명잠재적 영향완화 전략
데이터 오염평가 데이터가 pre-training에 포함 가능Base model zero-shot baseline 측정; Min-K% Prob 검사
SFT 데이터 표면적 특성 차이어휘/길이/복잡도 차이가 전이 효과에 혼동Narrative SFT를 surface-level control로 사용; RSA에서 surface feature RDM 통제
모델 아키텍처 차이Llama/Qwen의 tokenizer, attention 차이2개 모델 독립 실험 + 결과 일관성 확인
Verbalized confidence 편향Verbalized vs. internal confidence 괴리두 방법 병행 측정 + ECE 비교
RoPE 의존성ToM-sensitive parameter가 RoPE에 연결Non-RoPE 모델(Jamba/MPT) 배제실험
SFT 데이터 구성물 오염 (Construct Contamination)ToM 데이터에 metacognitive 요소 혼입, Meta 데이터에 ToM 요소 혼입 시 transfer 효과 부풀림(1) BERTScore/BLEURT semantic overlap 측정 (ToM-Meta 데이터 간 overlap < 0.3 목표), (2) 인지과학 전문가 3-5인 annotation (Krippendorff’s alpha ≥ 0.7), (3) Construct Separation Index (only-ToM / only-Meta / both / neither 비율 보고), (4) “both” 항목 제거 후 purified subset 민감도 분석
SFT 표면 패턴 학습SFT가 genuine 능력이 아닌 벤치마크 표면 패턴만 학습할 위험 (Lu et al., 2025)Out-of-distribution ToM/Meta test items 포함; SFT 후 reasoning trace quality 검증; Narrative SFT와의 성능 차이가 표면 패턴으로 설명되지 않음을 확인
Semantic breadth confoundTask semantic breadth 차이가 transfer 비대칭성을 설명할 가능성 (Dymkiewicz et al., 2025)Random task pair baseline (sentiment analysis, translation) 동일 조건 비교; ToM/Meta 데이터 vocabulary breadth 정량 비교

6.3 실험 파이프라인

flowchart TD
    subgraph Phase1["Phase 1: 데이터 준비 + 구성물 검증 (Week 1-3)"]
        A1["TOMBENCH + OpenToM train 확보"] --> A5["4개 SFT 데이터셋 구축<br/>(각 ~5K samples)"]
        A2["Wu et al. false-belief 확보"] --> A5
        A3["Metacognition 데이터 구축<br/>(Confidence + Error + Uncertainty)"] --> A5
        A5 --> A6["Narrative SFT 구축<br/>(mental state 질문 제거)"]
        A5 --> A7["General SFT 구축<br/>(Alpaca/FLAN subset)"]
        A5 --> A7b["Random Task Pair 구축<br/>(Sentiment + Translation)"]
        A6 --> A8["데이터 품질 검증"]
        A7 --> A8
        A8 --> A9["Construct Contamination 검증<br/>(BERTScore/BLEURT overlap +<br/>전문가 3-5인 annotation +<br/>Construct Separation Index)"]
        A9 --> A10["Purified Subset 구축<br/>(both 항목 제거)"]
        A10 --> A11["Narrative SFT ToM 잔류 검증<br/>(ToM classifier check < 5%)"]
    end

    subgraph Phase2["Phase 2: SFT 학습 (Week 4-7)"]
        A11 --> B1["80 LoRA SFT runs<br/>(4 조건 x 2 모델 x 10 seeds)"]
        A7b --> B1b["20 Random Task Pair runs<br/>(2 tasks x 2 모델 x 5 seeds)"]
        B1 --> B2{"수렴 확인"}
        B2 -->|Yes| B3["체크포인트 + Delta W 추출"]
        B2 -->|No| B4["Hyperparameter 조정"]
        B4 --> B1
    end

    subgraph Phase3["Phase 3: RQ1 행동 평가 (Week 7-9)"]
        B3 --> C1["ToM / Meta / General 벤치마크 평가"]
        C1 --> C1b["Within-Meta Transfer 측정<br/>(ECE↔Error Detection↔Uncertainty)"]
        C1 --> C2["Cross-task Transfer Matrix"]
        C2 --> C3["Hayes PROCESS Mediation"]
    end

    subgraph Phase4["Phase 4: RQ2 Activation 분석 (Week 9-11)"]
        B3 --> D1["Hidden state 추출"]
        D1 --> D2["Probing + Cross-transfer"]
        D1 --> D3["RSA + Surface 통제"]
        D1 --> D4["Self-Reflection Vector 추출<br/>(Zhu et al. contrastive method)"]
        D4 --> D5["SRV 방향 유사도 분석<br/>(ToM-Meta vs ToM-Narrative<br/>+ Random/General SRV baseline 비교)"]
    end

    subgraph Phase5["Phase 5: RQ3 Parameter 분석 (Week 11-13)"]
        B3 --> E1["Delta W Cosine Sim + Jaccard"]
        B1b --> E1b["Random Pair Overlap 비교<br/>(Excess Overlap 산출)"]
        B3 --> E2["Rank Ablation (40 runs)<br/>+ Random Pair 동일 rank"]
        B3 --> E3["Hessian 계산 + Selective Ablation"]
        E3 --> E4["SRV 재추출 (ablated model)<br/>→ DV9 재측정 (H3d)"]
    end

    subgraph Phase6["Phase 6: 배제실험 (Week 13-14)"]
        E3 --> F1["Non-RoPE 모델 대조"]
    end

    subgraph Phase7["Phase 7: 논문 작성 (Week 15-16)"]
        C3 --> G1["결과 통합 + 논문 초안"]
        D2 --> G1
        D3 --> G1
        D5 --> G1
        E1 --> G1
        E1b --> G1
        E2 --> G1
        E4 --> G1
        F1 --> G1
    end

    Phase1 --> Phase2
    Phase2 --> Phase3 & Phase4 & Phase5
    Phase5 --> Phase6
    Phase6 --> Phase7

6.4 데이터 및 리소스

데이터

항목상세확보 방법
TOMBENCH2,860 MCQ (8 tasks, 31 abilities)공식 GitHub (Chen et al., ACL 2024). Train ~1.5K
OpenToMEntity/social tracking QA ~3K공식 HuggingFace (Long et al., 2024)
Wu et al. False-Belief~500 samples, held-out 100공식 OSF + GitHub
FanToMConversational ToM ~10K QA공식 GitHub (Kim et al., 2023)
Confidence Calibration QAQ + confidence label ~2KTriviaQA/NQ subset, 자체 구축
Error Detection추론 chain 오류 식별 ~1.5KReflection-Bench train split + augmentation
Uncertainty Estimation”I don’t know” QA ~1.5KSelfAware (Yin et al., 2023) train split
Narrative SFT (Control)동일 스토리, 사실적 질문 ~5KTOMBENCH/OpenToM에서 변환 (GPT-4 + 수동 검수). ToM 잔류 검증: ToM-specific classifier로 ToM 요소 잔류 < 5% 확인
Random Task Pair (Baseline)Sentiment analysis ~2.5K + Translation ~2.5KSST-2/IMDB subset + WMT subset. H3c low-rank artifact 통제용
General SFT (Control)Instruction-following QA ~5KAlpaca-cleaned + FLAN subset

컴퓨팅 리소스

항목사양/수량근거
GPUA100 80GB x 1 (per run)7-8B LoRA SFT: ~20GB VRAM
기본 SFT (Core)80 runs, 각 4-6hr → 320-480 GPU-hr4 조건 x 2 모델 x 10 seeds
Random task pair baseline20 runs, 각 4-6hr → 80-120 GPU-hr2 tasks (sentiment, translation) x 2 모델 x 5 seeds
Rank ablation40 runs, 각 3-6hr → 120-240 GPU-hr6 ranks x 2 tasks x 2 models x ~2 seeds + random pair
배제실험6 runs, 각 6hr → 36 GPU-hrNon-RoPE 모델 + 추가 통제
평가 (추론)~100-150 GPU-hr증가된 모델 수 x 모든 벤치마크
Activation 추출~30-50 GPU-hrLayer-wise hidden state + SRV contrastive extraction (추가 비용 무시 가능)
Hessian 계산~16-32 GPU-hrEmpirical Fisher diagonal (3 seeds)
총 GPU-hours~700-1,100 A100 GPU-hr여유분 포함 1,200 GPU-hr 권장

비용 추정

항목예상 비용산출 근거
Cloud GPU (A100 80GB)$1,120-1,600Lambda Labs 0.80-1.20/hr)
Storage$801TB x $0.10/GB/month (증가된 체크포인트)
API (데이터 구축)$50-80GPT-4o-mini ~8K calls (construct 검증 포함)
API (평가 검수)$30-50GPT-4o annotation 검수 + ToM classifier
전문가 annotation 비용$100-200인지과학 전문가 3-5인 x construct annotation
총 예상 비용$1,380-2,010여유분 포함 $2,200 권장

7. 실험 일정 (Schedule)

7.1 Gantt 차트

gantt
    title 연구 일정 (16주, 수정 v3)
    dateFormat YYYY-MM-DD
    axisFormat %Y-%m-%d

    section Phase 1: 데이터 준비 + 구성물 검증
        TOMBENCH_OpenToM_확보       :data1, 2026-02-10, 3d
        Wu_false_belief_확보        :data2, 2026-02-10, 3d
        Meta_데이터_구축            :data3, 2026-02-10, 7d
        Narrative_SFT_구축          :data4, after data1, 5d
        General_SFT_샘플링          :data5, 2026-02-10, 2d
        데이터_품질검증              :data6, after data4, 3d
        Construct_검증_annotation    :data7, after data6, 5d
        Purified_subset_구축         :data8, after data7, 2d
        Narrative_ToM잔류검증        :data9, after data8, 2d
        데이터_준비_완료             :milestone, after data9, 0d

    section Phase 2: SFT 학습
        LoRA_SFT_80runs             :sft1, after data9, 18d
        Random_task_pair_SFT        :sft_rtp, after data9, 8d
        수렴확인_체크포인트          :sft2, after sft1, 2d
        Delta_W_추출                :sft3, after sft2, 1d
        SFT_완료                    :milestone, after sft3, 0d

    section Phase 3: RQ1 행동 평가
        ToM_벤치마크_평가           :eval1, after sft3, 5d
        Meta_벤치마크_평가          :eval2, after sft3, 5d
        General_벤치마크_평가       :eval3, after sft3, 3d
        Within_meta_transfer        :eval3b, after eval2, 2d
        Cross_task_분석             :eval4, after eval1, 3d
        Mediation_Analysis_PROCESS  :eval5, after eval4, 3d
        RQ1_완료                    :milestone, after eval5, 0d

    section Phase 4: RQ2 Activation 분석
        Hidden_state_추출           :act1, after sft3, 5d
        SRV_추출_방향비교           :act1b, after act1, 3d
        Linear_probing              :act2, after act1, 4d
        Cross_task_probe            :act3, after act2, 3d
        RDM_RSA                     :act4, after act1, 5d
        Surface_통제_RSA            :act5, after act4, 3d
        RQ2_완료                    :milestone, after act5, 0d

    section Phase 5: RQ3 Parameter 분석
        Delta_W_cosine_sim          :par1, after sft3, 3d
        Random_pair_overlap_비교    :par1b, after par1, 2d
        Top_k_Jaccard               :par2, after par1b, 2d
        Rank_ablation_40runs        :crit, par3, after par1b, 12d
        Hessian_계산                :par4, after sft3, 8d
        Sensitive_Jaccard           :par5, after par4, 3d
        Selective_ablation          :par6, after par5, 4d
        RQ3_완료                    :milestone, after par6, 0d

    section Phase 6: 배제실험
        Non_RoPE_SFT                :exc1, after par6, 5d
        Non_RoPE_transfer           :exc2, after exc1, 3d
        RoPE_의존성_분석            :exc3, after exc2, 2d
        배제실험_완료               :milestone, after exc3, 0d

    section Phase 7: 논문 작성
        결과_통합_시각화            :write1, after exc3, 4d
        논문_초안_작성              :write2, after write1, 7d
        투고_목표                   :milestone, after write2, 0d

7.2 마일스톤

#마일스톤예상 날짜성공 기준
M1데이터 준비 완료2026-02-244개 SFT 데이터셋 각 5K samples 확보. Narrative-ToM surface similarity > 0.8 (BERTScore)
M1.5Construct Contamination 검증 완료2026-03-05BERTScore ToM-Meta overlap < 0.3. 전문가 Krippendorff’s alpha ≥ 0.7. Construct Separation Index: “both” 항목 < 15%. Purified subset 구축 완료. Narrative SFT ToM 잔류 < 5%
M2SFT 학습 완료2026-03-26100개 모델 (80 core + 20 random pair) 수렴. Target domain 성능 base 대비 +5% 이상
M3RQ1 행동 평가 완료2026-04-09Cross-task transfer matrix 완성. 10 seeds 기반 통계적 유의성 판정 완료. Within-metacognition transfer 추가 보고
M4RQ2 Activation 분석 완료2026-04-19Probing + RSA + surface 통제 + SRV 방향 유사도 분석 결과 보고
M5RQ3 Parameter 분석 완료2026-05-03Cosine sim heatmap + Jaccard + rank ablation + selective ablation + random pair baseline 비교 결과
M6배제실험 완료2026-05-13Non-RoPE 모델 cross-transfer 결과. RoPE 의존성 판정
M7논문 초안 완료2026-05-24전체 Figure/Table 완성. Introduction~Discussion 초안

8. 예상 결과 및 분석 (Expected Results)

8.1 시나리오별 예상 결과

시나리오조건예상 결과의미후속 방향
Best CaseH1a-d, H2a-d, H3a-d 대부분 지지. SRV 방향 수렴 + H3d 인과 검증 성공 (ablation→SRV 붕괴). 2개 모델 일관ToM→Meta 전이 존재 (d > 0.5), 비대칭성 확인, Delta W cosine sim 유의미, Hessian Jaccard 유의미, SRV 방향 일치, 공유 파라미터 제거 시 SRV 수렴 붕괴”Structural-functional convergence” 발견. 구조적 overlap + 기능적 방향 수렴의 이중 증거 + 인과적 증거 (knockout). C0-C1-C2 계층 구조 일치NeurIPS/ICLR/Nature MI 투고. 대형 모델 scaling, 다른 인지 능력 쌍 확장, 인간 fMRI 비교
Mixed CaseTransfer 존재하나 효과 작음 (d 0.2-0.5). Parameter/activation overlap 중 하나만 유의미. SRV 부분 수렴ToM-Meta 간 약한 구조적 연결 + 기능적 방향 해리. 구조는 공유하나 기능적 활용이 다름부분적 공유 메커니즘. 구조-기능 해리 자체가 중요 발견ACL/EMNLP/AAAI 투고. 구조-기능 해리 메커니즘 규명
Worst CaseCross-task transfer가 control과 무차별. Overlap이 random baseline 수준. SRV 방향 무관련ToM과 metacognition이 LLM에서 구조적으로 독립적. Wu et al.의 “emergent property” 가설 지지인간 뇌와 질적으로 다른 조직 원리. AI consciousness에서 인간-AI 유비 추론의 한계CogSci/ACL에 negative result 논문. 아키텍처적 원인 분석, 대형 모델 emergence 탐색

8.2 분석 방법

통계 분석:

  1. Paired t-test / Wilcoxon: SFT 전후 성능 비교 (Core: 10 seeds, Ablation: 5 seeds). Benjamini-Hochberg FDR correction (12 comparisons, q = 0.05)
  2. Mediation Analysis: Hayes PROCESS bootstrap mediation (5,000 resamples, Hayes, 2017) 주분석. Baron & Kenny + Sobel test 보조 보고
  3. Permutation test: RSA correlation + Jaccard index 유의성 (10,000 permutations)
  4. Effect size: Cohen’s d + 95% CI 모든 비교에 보고
  5. Two-way ANOVA: 4 (SFT) x 2 (model) + Tukey HSD 사후검정
  6. Correlation: Layer-wise cosine sim과 probing accuracy 간 관계
  7. Composite Metacognition Score: ECE (역변환), Error Detection Accuracy, Known Unknowns F1의 z-score 표준화 후 equal-weight 평균. 하위 지표 간 Cronbach’s alpha 보고 (alpha ≥ 0.6 기준). 개별 지표 결과도 supplementary에 전체 보고
  8. Random Task Pair Baseline 비교: ToM-Meta overlap과 random pair (sentiment-translation) overlap의 차이에 대한 permutation test. “Excess overlap” = ToM-Meta overlap - random pair overlap으로 정의
  9. Self-Reflection Vector (SRV) 2-Track 분석: Track A (SRV_base projection): Base model에서 Zhu et al. (2026) contrastive method로 SRV_base 추출. 각 SFT 모델의 activation을 SRV_base 방향에 projection하여 alignment score 산출. Track B (SRV_task extraction): 각 SFT 모델에서 task-specific contrastive pairs (“표준 응답” vs “자기 검토 후 수정 응답”)로 SRV_task 직접 추출 (중간~후반 layer). 두 track 모두에서 ToM-Meta SRV cosine similarity vs ToM-Narrative/Random/General SRV cosine similarity에 대한 permutation test (10,000). Track 일관성 보고: Track A와 Track B 결과의 concordance (Kendall’s W 또는 Spearman correlation) 보고. Layer-wise SRV 방향 수렴 패턴 분석. SRV 방향과 delta W principal component 방향 간 alignment 보조 분석. H3d 전용: Selective ablation 후 ablated model에서 SRV 재추출 → pre/post ablation SRV cosine sim 비교

시각화:

  1. Cross-task Transfer Heatmap (4 SFT x 6+ eval, color-coded + 95% CI)
  2. Layer-wise Analysis Plots (probing accuracy, cosine sim, RSA correlation)
  3. RDM 시각화 (ToM/Meta/Surface RDM + RSA scatter)
  4. LoRA Rank Ablation Curve (log scale x축, transfer magnitude y축)
  5. Sensitive Parameter Overlap Venn Diagram
  6. Selective Ablation Impact Bar Chart
  7. Non-RoPE vs. RoPE Comparison
  8. Self-Reflection Vector Direction Map (ToM/Meta/Narrative/Random/General SRV의 layer-wise cosine sim heatmap + PCA 2D projection)
  9. SRV-Parameter Coupling Knockout Plot (H3d: pre/post ablation SRV cosine sim 변화. Shared param ablation vs random param ablation 대조)

9. 대비 계획 (Backup Plans)

9.1 위험 요소 및 대응

#위험 요소발생 확률영향도Plan B전환 기준
R1ToM SFT 데이터 부족중 (30%)높음OpenToM 비중 증가 + GPT-4 augmentation + HiToM/FANToM 추가TOMBENCH train < 1K
R2Meta SFT 데이터 품질 불량중 (40%)높음Human-annotated confidence + Teacher model filtering + CalibratedMath 활용SFT 후 Meta 향상 < 2%
R3Cross-task transfer 효과 없음중-높 (40%)매우 높음데이터 10K 증가 + Full FT 시도 + Negative result 논문화 (RQ2/RQ3 가치 강조)모든 cross-domain p > 0.1
R4Hessian 계산 OOM중 (35%)중간Layer-wise 계산 + K-FAC 근사 + Fisher diagonalA100 80GB에서 OOM
R5Rank ablation 일관 패턴 없음낮-중 (25%)중간Alpha scaling 변경 + Target module ablation 대체6 rank 간 차이 모두 2% 이내
R6Non-RoPE 모델 접근 불가중 (30%)중간ALiBi 기반 BLOOM 사용 + RoPE ablation + “future work” 처리Jamba/MPT SFT 수렴 실패
R7GPU 리소스 부족중 (30%)높음다른 cloud 서비스 (Vast.ai, Thunder Compute) + Core 5 seeds / Ablation 3 seeds로 축소 + 단일 모델 집중. 최소 n=5 유지 원칙예산 소진 / 1주+ 확보 불가
R8Probing classifier chance 수준낮-중 (20%)중간Non-linear probe (MLP) + CKA/SVCCA + sequence-level probing모든 layer < 55%
R9일정 지연중 (35%)배제실험 축소 + Workshop paper 선 발표Week 16 시 배제실험 미완료
R10Construct contamination 검증 실패중 (30%)높음데이터셋 재구축 (더 엄격한 항목 필터링) + 전문가 annotation 반복. Timeline 2주 연장Krippendorff’s alpha < 0.6 또는 “both” 항목 > 30%
R11Random task pair baseline에서도 높은 overlap낮-중 (20%)매우 높음Low-rank artifact 가설 지지 → H3c 재해석. ToM-Meta overlap의 “excess overlap” (random pair 대비 초과분)으로 metric 재정의. Negative result 논문화 전략Random pair cosine sim > ToM-Meta의 50%

9.2 Go/No-Go 기준

체크포인트시점Go 기준No-Go 시 조치
CP0: 구성물 검증Week 3 (M1.5)Krippendorff’s alpha ≥ 0.7. “both” 항목 < 15%. BERTScore ToM-Meta overlap < 0.3R10 Plan B 시행. 데이터 재구축 + 2주 연장
CP1: 데이터 준비Week 3 (M1)4개 데이터셋 각 4K+ samples. Narrative-ToM BERTScore > 0.75. ToM 잔류 < 5%R1/R2 Plan B 시행. 1주 추가 시 전체 일정 후방 이동
CP2: SFT 검증Week 7 (M2)Target domain +5% 이상. MMLU 하락 < 3%데이터 2배 + epoch 5 / LoRA rank 감소
CP3: Transfer 1차 판정Week 9최소 1방향 transfer p < 0.1 (10 seeds 기반)양방향 p > 0.2: Negative result 전략 전환
CP4: Activation 1차Week 11Probing > 55% 또는 RSA r > 0.15Non-linear probe + CKA 시도 → 실패 시 RQ3 집중
CP5: Parameter 실행 가능성Week 12Hessian 계산 성공. Random task pair baseline 완료Layer-wise 계산 → 실패 시 delta W + rank ablation만
CP6: 최종 충분성Week 15RQ1-3 중 2개+ 명확 결론배제실험 생략. 가용 결과로 초안 작성

10. 비평 및 개선 이력 (Review History)

비평 라운드 요약

라운드총점논리신규성방법론영향력실현성판정
116/253/54/52/54/53/5수정 후 재평가
220/254/54/54/54/54/5통과
322/254/54/54.5/54/54.5/5통과 (7.8/10)
419.6/254/54/53.8/54/53.8/5통과 (7.8/10)
520.5/254.2/54/54.3/54/54/5통과 (7.9/10) — 8.0 도달 위해 Ban & Ji (2025) 반영
6수정 완료 (Ban & Ji 반영; 재평가 대기)

라운드 1 → 2 상세

치명적 약점과 수정:

  1. Metacognition benchmark construct validity 부재수정: C2 metacognitive monitoring으로 한정 (confidence calibration, error detection, uncertainty estimation). Chen et al. 10 concepts 중 C2 subset만 선별. Ji-An et al. neurofeedback는 보조 분석으로 한정.

  2. General reasoning confound 통제 부족수정: 4-way SFT 설계 (Narrative-only SFT + General SFT 이중 control). Mediation analysis (Baron & Kenny + Sobel test). MMLU/ARC/HellaSwag 동시 측정.

  3. Activation similarity → functional equivalence 추론 비약수정: Probing classifier cross-transfer + RSA + surface feature 통제 (lexical overlap, length, complexity). 단순 cosine similarity 대신 task-specific information 분리.

Reviewer 2 핵심 질문 및 대응:

  • Q: “Metacognition의 조작적 정의가 benchmark 선택과 일치하는가?”
    → A: C2 monitoring의 3개 하위 construct를 명시적으로 한정하고, 각각에 독립 benchmark (ECE/Reflection-Bench/SelfAware) 선정. Chen et al.의 broader concepts (deception, harm)은 명시적으로 제외.

  • Q: “Null result 시 benchmark 문제 vs. 실제 독립성을 어떻게 구분?”
    → A: Within-task improvement check, positive control, effect size gradient, 3개 독립 benchmark, RQ2/RQ3 triangulation의 5중 전략.

  • Q: “Wu et al.의 ‘emergent property’ 해석과 본 연구의 양립 가능성?”
    → A: 3가지 시나리오 구분 설계: (A) 완전한 emergent property, (B) Partially shared substrate (가장 가능성 높음), (C) Distinct dedicated system.

최종 비평 의견 (라운드 2 minor):

  1. Claim을 “shared representational substrate”로 하향 조정 — 반영 완료
  2. Benchmark 정규화 (Cohen’s d 또는 percent improvement) — 반영 완료
  3. Core vs Supplementary experiments 명시적 분리 — 반영 완료 (Core: RQ1-3, Supplementary: 배제실험)
  4. Effect size 사전 기준 명시 (pre-registration) — 반영 완료 (d > 0.2 small, 0.5 medium 기준)
  5. Non-RoPE 모델에 ALiBi 기반(MPT) 추가 고려 — 반영 완료 (R6 Plan B에 포함)

라운드 2 → 3 상세

외부 평가 (ruthless-paper-reviewer, 6.8/10) 기반 치명적 약점과 수정:

  1. C1. 통계 검정력 부족 (n=3 seeds, power ~0.15 at d=0.8)수정: 계층화 seeding 전략 도입. Core comparisons (H1a/H1b) 10 seeds (power ≥ 0.80 at d=0.8), ablations/controls 5 seeds, Hessian/selective ablation 3 seeds. 6.2.1 Statistical Power Analysis 신규 섹션 추가. G*Power 사전 계산 근거 명시. 리소스 및 일정 전면 재산정 (500 GPU-hr → 1,200 GPU-hr, 14주 → 16주).

  2. C2. SFT 데이터 구성물 오염 (Construct Contamination) 미통제수정: Phase 1에 4단계 구성물 순수성 검증 추가: (1) BERTScore/BLEURT 의미 overlap 측정, (2) 인지과학 전문가 3-5인 annotation (Krippendorff’s alpha ≥ 0.7), (3) Construct Separation Index (only-ToM / only-Meta / both / neither 비율) 보고, (4) “both” 항목 제거 purified subset 민감도 분석. 외생 변수 표에 3개 신규 항목 추가.

주요 약점과 수정:

  1. M1. 핵심 선행 연구 4편 누락수정: 선행 연구 표 14-17 및 참고 문헌 18-22 추가. Arturi et al. (2025, RQ3 delta W cosine sim 방법론 precedent), Steyvers et al. (2025, H1b 보수적 예측 근거 — metacognitive SFT의 within-metacognition transfer 제한), Dymkiewicz et al. (2025, H1a 비대칭성의 semantic breadth 대안 설명), Lu et al. (2025, A3 위협 — SFT의 표면 패턴 학습 + reasoning collapse).

  2. M2. H1a 비대칭성 예측에 대안 설명 미고려수정: H1a에 Dymkiewicz et al. semantic breadth 대안 통제 추가. A6 가정 신규 추가. Random task pair baseline (sentiment analysis, translation SFT) 도입으로 비대칭성의 인지적 해석과 semantic breadth 해석을 분리.

  3. M3. H3c에 random task pair baseline 부재 (low-rank artifact 위험)수정: Sentiment analysis + translation SFT를 동일 rank 조건에서 비교하는 baseline 추가. Low-rank에서의 인위적 overlap 가능성 배제.

  4. M4. H1b 예측이 Steyvers et al. (2025) 미반영수정: H1b 예측을 보수적으로 수정 (d < 0.3 small). Within-metacognition transfer (ECE→Error Detection 등) 추가 측정으로 meta 내부 전이 제한성 확인.

  5. M5. Narrative SFT 구성물 타당성 미검증수정: ToM-specific classifier check + 전문가 annotation으로 ToM 요소 잔류 < 5% 검증 절차 추가.

경미한 수정:

  1. m1. Mediation analysis: Baron & Kenny → Hayes PROCESS bootstrap (5,000 resamples) 주분석으로 변경.
  2. m2. Non-RoPE 모델 위험: 한계 섹션에 RoPE 아키텍처 의존성 명시적 인정 추가.
  3. m3. 일정 조정: 14주 → 16주. Gantt 차트 및 마일스톤 전면 재산정.
  4. m4. 다중 비교 보정: Bonferroni → Benjamini-Hochberg FDR (12 comparisons에서 보수적 Bonferroni 대신 FDR 0.05).
  5. m5. Composite metacognition score: z-score 표준화 + equal-weight 평균. Cronbach’s alpha ≥ 0.6 기준. 개별 지표도 전체 보고.

라운드 3 → 4 → 5 상세

외부 평가 (ruthless-paper-reviewer 라운드 4, 7.6/10) 6개 이슈와 수정:

  1. N1. SRV–Metacognition 개념적 다리 부재수정: 2.2 핵심 개념에 “SRV = C2 metacognitive monitoring의 기능적 프록시” 개념적 정당화 추가. Zhu et al.의 self-reflection이 metacognitive monitoring의 error detection→correction 하위 과정임을 명시. SRV ≠ metacognition 전체임을 인정하고, activation-level 간접 지표로 한정.

  2. N2. SRV 추출 프로토콜 미정의수정: DV9에 2-track SRV 추출 프로토콜 구체화. Track A: Base model SRV (SRV_base) 추출 후 SFT 모델 activation을 SRV_base 방향에 projection. Track B: 각 SFT 모델에서 task-specific SRV (SRV_task) 직접 추출. 분석 방법 9에 두 track 결과 일관성 보고 추가.

  3. N3. SRV confound 통제 부재수정: H2d에 Random task pair SFT 모델과 General SFT 모델의 SRV를 비교 대상에 추가. “ToM-Meta SRV sim > ToM-Random sim AND ToM-Meta SRV sim > General-Meta SRV sim” 조건 명시. Phase 4 mermaid에 baseline 비교 반영.

  4. N4. “Coupling” 용어 과도 (인과적 함의)수정: 전체 문서에서 “structural-functional coupling”을 “structural-functional convergence”로 변경 (4곳). 관찰적 수렴을 기술하는 용어로 톤 다운.

  5. N5. Zhu et al. venue 부정확수정: “ICLR 2026 Sub.”을 “arXiv:2506.12217”로 수정 (선행연구 표 + 참고문헌).

  6. N6. LLM shared functional units 관련 선행연구 누락수정: Kryvosheieva et al. (2025) “Different types of syntactic agreement recruit the same units within large language models” (arXiv:2512.03676) 추가. LLM 내부에서 서로 다른 구문 현상이 동일 유닛을 공유한다는 functional localization 증거로, 본 연구의 “shared substrate” 가설에 대한 방법론적 선행.

Novelty Boost: SRV-Parameter Coupling Experiment (H3d 신규):

  • H3d 신규 가설 추가: “ToM-Meta 공유 파라미터 (top-k Hessian overlap)를 selective ablation하면, SRV 방향 유사도(DV9)가 유의미하게 감소한다.” — 구조(shared params) 제거 → 기능(SRV convergence) 붕괴의 인과적 증거.
  • 기존 selective ablation (DV8) 위에 SRV 재측정만 추가하므로 추가 비용 무시 가능.
  • Phase 5 mermaid에 “SRV 재추출 (ablated model)” 노드 추가.

라운드 5 → 6 상세

외부 평가 (ruthless-paper-reviewer 라운드 5, 7.8/10) 잔여 이슈와 수정:

  1. 제목 불일치: “Structural Coupling” → “Structural-Functional Convergence”로 제목 수정. 본문과 일관성 확보.

  2. H3d control ablation 미명시수정: H3d 가설 statement에 “동일 수 non-shared random parameters ablation” control 조건 명시. k = 0.01% 구체화.

  3. Track B fallback plan 부재수정: DV9에 prompting template (“Answer directly” vs “Review your reasoning step-by-step, then revise if needed”), 최소 pair 수 (200 pairs/model), fallback 전략 (수정 비율 < 10% 시 Track A 단독 사용) 명시.

  4. Du et al. (2026) 인용 누락수정: 선행연구 #19 + 참고문헌 #24 추가. Self-reflection의 layer-wise meta-cognitive trajectory 분석 — DV9 layer-wise SRV 분석의 직접 선행.

  5. Hazimeh et al. (2025) 인용 누락수정: 선행연구 #20 + 참고문헌 #25 추가. Weight disentanglement 대안 설명 — random task pair baseline 비교의 추가 동기.

  6. Ban & Ji (2025) 인용 누락 (LoRA A matrix artifact)수정: 선행연구 #21 + 참고문헌 #26 추가. A matrix similarity가 initialization artifact일 가능성 → DV6 보조 분석에 B-matrix-only cosine similarity 추가.


11. 참고 문헌 (References)

핵심 참고 문헌

  1. Wu et al. (2025). “How large language models encode theory-of-mind: a study on sparse parameter patterns.” Nature Machine Intelligence.
  2. Chen et al. (2025). “From Imitation to Introspection: Probing Self-Consciousness in Language Models.” ACL 2025 Findings.
  3. Ji-An et al. (2025). “Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations.” NeurIPS 2025.
  4. Cui et al. (2025). “MetaMind: Modeling Human Social Thoughts with Metacognitive Multi-Agent Systems.” NeurIPS 2025 Spotlight.
  5. Binder et al. (2025). “Looking Inward: Language Models Can Learn About Themselves by Introspection.” ICLR 2025.
  6. Lindsey et al. (2025). “Emergent Introspective Awareness in Large Language Models.” Anthropic.
  7. Zhu et al. (2026). “From Emergence to Control: Probing and Modulating Self-Reflection in Language Models.” arXiv:2506.12217.
  8. Chen et al. (2024). “TOM BENCH: Benchmarking Theory of Mind in Large Language Models.” ACL 2024.
  9. Xu et al. (2024). “OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning.” ACL 2024.
  10. Kadavath et al. (2022). “Language Models (Mostly) Know What They Know.” arXiv.
  11. Yin et al. (2023). “Do Large Language Models Know What They Don’t Know?” ACL Findings.
  12. Lombardo et al. (2010). “Shared Neural Circuits for Mentalizing about the Self and Others.” Journal of Cognitive Neuroscience.
  13. Dehaene et al. (2017). “What is consciousness, and could machines have it?” Science.

방법론 참고 문헌

  1. Hu et al. (2021). “LoRA: Low-Rank Adaptation of Large Language Models.” ICLR 2022.
  2. Baron & Kenny (1986). “The Moderator-Mediator Variable Distinction in Social Psychological Research.” JSPSP.
  3. Preacher & Hayes (2008). “Asymptotic and resampling strategies for assessing and comparing indirect effects in multiple mediator models.” Behavior Research Methods.
  4. Kriegeskorte et al. (2008). “Representational Similarity Analysis.” Frontiers in Systems Neuroscience.
  5. Arturi et al. (2025). “Shared Parameter Subspaces and Cross-Task Linearity in Emergently Misaligned Behavior.” NeurIPS 2025 Mechanistic Interpretability Workshop. arXiv:2511.02022.
  6. Steyvers et al. (2025). “Improving Metacognition and Uncertainty Communication in Language Models.” arXiv:2510.05126.
  7. Dymkiewicz et al. (2025). “Donors and Recipients: On Asymmetric Transfer Across Tasks and Languages with Parameter-Efficient Fine-Tuning.” arXiv:2511.13368.
  8. Lu et al. (2025). “Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models?” arXiv:2504.01698.
  9. Hayes, A. F. (2017). “Introduction to Mediation, Moderation, and Conditional Process Analysis.” Guilford Press.
  10. Kryvosheieva, D., de Varda, A., Fedorenko, E., & Tuckute, G. (2025). “Different types of syntactic agreement recruit the same units within large language models.” arXiv:2512.03676.
  11. Du, Y., Gao, Y., Zhao, S., Li, J., Wang, H., Lin, Q., He, K., Qin, B., & Feng, M. (2026). “From Latent Signals to Reflection Behavior: Tracing Meta-Cognitive Activation Trajectory in R1-Style LLMs.” arXiv:2602.01999.
  12. Hazimeh, A., Favero, A., & Frossard, P. (2025). “Task Addition and Weight Disentanglement in Closed-Vocabulary Models.” arXiv:2511.14569.
  13. Ban, H., & Ji, K. (2025). “Rethinking Parameter Sharing for LLM Fine-Tuning with Multiple LoRAs.” arXiv:2509.25414.