LLM에서 Theory of Mind과 Metacognitive Monitoring의 구조-기능적 수렴: Cross-Task Transfer, Parameter-Level Overlap, 그리고 Self-Reflection Vector 분석
연구 분야: AI (NLP, LLM, Cognitive AI, Mechanistic Interpretability)
키워드: Theory of Mind, Metacognition, Cross-Task Transfer, LoRA Parameter Overlap, LLM Interpretability
작성일: 2026-02-05
비평 점수: 라운드 5: 7.9/10 → 라운드 6: Ban & Ji 반영 완료 (실험 시작 권고)
1. 연구 개요 (Executive Summary)
연구 개요
인간 신경과학에서 Theory of Mind(ToM) 관련 뇌 영역(dmPFC, TPJ, DMN)과 metacognition/self-awareness 관련 영역이 상당 부분 중첩된다. 본 연구는 이 현상이 LLM의 내부 표상(parameter space, activation space) 수준에서도 재현되는지를 최초로 체계적으로 검증한다. 4-way SFT 설계(ToM/Metacognition/Narrative-only/General control)와 다층적 분석(행동/표상/파라미터)을 통해, ToM과 metacognitive monitoring(C2)이 “shared representational substrate”를 공유하는지, 아니면 general language understanding의 독립적 부산물인지를 판별한다.
- 연구 동기: Wu et al. (Nature 2025)은 LLM에서 0.001% 수준의 극히 희소한 파라미터가 ToM에 결정적 역할을 함을 발견했고, Ji-An et al. (NeurIPS 2025)은 LLM의 metacognitive monitoring 공간이 매우 저차원임을 보였다. 그러나 이 두 능력 간의 구조적 연결은 직접 검증된 바 없다.
- 핵심 아이디어: ToM task로 fine-tuning하면 metacognitive monitoring(C2) 성능이 함께 향상되는가? 두 task의 LoRA delta W가 구조적으로 중첩되는가? 이를 통해 LLM이 인간과 유사한 인지 구조를 가지고 있는지에 대한 간접적 증거를 제시한다.
- 예상 기여: (1) ToM-Metacognition 구조-기능적 수렴(structural-functional convergence)의 최초 체계적 실증, (2) LoRA delta W cross-task overlap 분석 방법론, (3) Self-reflection vector 기반 기능적 방향 수렴 검증, (4) C0-C1-C2 이론의 LLM 적용 검증
- 주요 연구 질문: ToM SFT가 metacognitive monitoring을 향상시키는가? 두 task의 내부 표상과 파라미터 변화가 구조적으로 중첩되는가? 나아가, self-reflection vector의 기능적 방향까지 수렴하는가?
2. 연구 배경 (Background)
2.1 문제 정의
LLM에서 Theory of Mind과 metacognition/self-consciousness는 최근 독립적으로 활발히 연구되고 있다. ToM 측면에서 Wu et al. (Nature 2025)은 0.001% 수준의 극히 희소한 파라미터가 ToM에 결정적 역할을 하며 RoPE와 연결됨을 발견했다. Metacognition 측면에서 Ji-An et al. (NeurIPS 2025)은 LLM의 metacognitive space가 전체 neural space보다 훨씬 낮은 차원임을 보였고, Binder et al. (ICLR 2025)은 LLM introspection의 증거를 제시했다.
그러나 이 두 능력 간의 직접적 관계는 검증된 바 없다. 인간 신경과학에서 dmPFC, TPJ, DMN이 ToM과 self-awareness 모두에서 활성화된다는 보고(Lombardo et al., 2010)가 있지만, LLM에서 이러한 구조적 연결이 존재하는지는 미지의 영역이다.
2.2 핵심 개념
- Theory of Mind (ToM): 타인의 마음(신념, 의도, 욕구 등)을 추론하고 이해할 수 있는 능력. False-belief task가 대표적 평가 방법이며, 인간에서는 4-5세에 발달한다.
- Metacognitive Monitoring (C2): Dehaene et al.의 C0-C1-C2 의식 이론에서 C2 수준에 해당하는 자기 인지 과정의 모니터링 능력. 본 연구에서는 confidence calibration, error detection, uncertainty estimation으로 조작화한다.
- C0-C1-C2 이론: C0(무의식적 처리), C1(전역적 접근 가능성/Global workspace), C2(자기 모니터링/Metacognition)의 계층 구조. ToM은 C1 수준의 사회적 인지로, C2의 computational prerequisite가 될 수 있다.
- Self-Reflection Vector (SRV)와 Metacognitive Monitoring의 관계: Zhu et al. (arXiv:2506.12217, 2026)의 “self-reflection”은 모델이 자기 추론 과정을 재평가하여 오류를 탐지·수정하는 과정으로, metacognitive monitoring의 핵심 하위 과정인 error detection → correction에 해당한다. SRV가 활성화되면 모델이 자기 추론을 재평가하므로, C2 metacognitive monitoring의 **기능적 프록시(functional proxy)**로 사용할 수 있다. 단, SRV ≠ metacognition 전체: SRV는 metacognitive monitoring의 activation-level 간접 지표로 한정되며, metacognitive regulation이나 metacognitive knowledge는 포착하지 않는다. 본 연구에서 SRV는 “ToM과 Metacognition이 기능적 방향에서도 수렴하는가?”를 검증하는 도구로, 구조적 overlap(파라미터/활성화 공유)을 보완하는 기능적 차원의 증거를 제공한다.
2.3 기존 접근법의 한계
- 개별 연구의 단절: ToM과 metacognition이 각각 독립적으로 연구되며, 양자 간 관계를 직접 검증한 연구가 없다.
- 파라미터 수준 연결성 분석 부재: Activation-level 분석은 다수 존재하지만, 두 task의 학습 시 파라미터 변화 방향의 구조적 중첩도를 분석한 연구가 없다.
- 인과성 검증 부재: 상관적 증거(공유 뇌 영역 활성화)는 있으나, 한 능력을 강화했을 때 다른 능력이 향상되는지에 대한 양방향 인과 검증이 없다.
- Confound 통제 부족: 기존 cross-task 연구들이 general reasoning 향상에 의한 confounding을 충분히 통제하지 않는다.
3. 선행 연구 분석 (Prior Research)
3.1 핵심 선행 연구
| # | 논문 | 핵심 기여 | 본 연구와의 관계 |
|---|---|---|---|
| 1 | Wu et al. (Nature 2025). “How LLMs encode ToM” | 0.001% ToM-민감 파라미터; RoPE 연결; ToM이 emergent property일 수 있음 시사 | 직접적 방법론 기반: Hessian 기반 sensitivity 분석을 metacognition에 확장; 대안 설명 배제 대상 |
| 2 | Chen et al. (ACL 2025 Findings). “From Imitation to Introspection” | 10개 자의식 개념 정의; SCG 기반 4단계 실험; fine-tuning으로 습득 가능 | Metacognition 평가 프레임워크: C2 subset (known unknowns) 활용 |
| 3 | Ji-An et al. (NeurIPS 2025). “LM Metacognitive Monitoring” | Neurofeedback 패러다임; metacognitive space의 저차원성 | Metacognition 측정법: 보조 분석에서 neurofeedback 활용 |
| 4 | MetaMind / Cui et al. (NeurIPS 2025 Spotlight) | 인간 수준 ToM; metacognitive 원리 적용 | ToM-Metacognition 통합 사례: metacognitive 원리가 ToM을 향상시킨 실증 |
| 5 | Binder et al. (ICLR 2025). “Looking Inward” | M1이 자기 행동 예측에서 M2보다 우수; introspection 증거 | Introspection 측정 참조 |
| 6 | Lindsey (Anthropic 2025). “Emergent Introspective Awareness” | Concept injection; ~20% 확률로 주입된 개념을 정확히 명명 | 자기 인식 평가 기준 |
| 7 | Zhu et al. (arXiv:2506.12217, 2026). “From Emergence to Control” | Self-Reflection Vector; contrastive activation으로 자기성찰 방향 추출; 빈도 0.6%→18.6%, 추론 최대 12% 향상. Self-reflection = metacognitive monitoring의 error detection→correction 하위 과정 | H2d/H3d 핵심 방법론: SRV를 C2 metacognitive monitoring의 기능적 프록시(activation-level 간접 지표)로 활용. ToM/Meta SFT 모델 간 기능적 방향 수렴 분석(H2d) + 구조 제거 시 기능 붕괴 인과 검증(H3d). 구조적 overlap(H3a-c)에 기능적 차원 추가 |
| 8 | Chen et al. (ACL 2024). “TOMBENCH” | 8 tasks, 31 abilities, 2,860 MCQ | 주요 ToM 벤치마크 |
| 9 | Xu et al. (ACL 2024). “OpenToM” | 696 서사, 16K 질문; 심리적 정신 상태 분리 | ToM 학습 데이터 소스 |
| 10 | Kadavath et al. (2022). “Language Models Know What They Know” | Calibration 연구; 모델의 자기 지식 인식 | Confidence calibration benchmark |
| 11 | Yin et al. (2023). “Do LLMs Know What They Don’t Know?” | SelfAware dataset; unanswerable question detection | Uncertainty estimation benchmark |
| 12 | Lombardo et al. (2010). “Shared Neural Circuits” | dmPFC, TPJ가 ToM과 self-awareness 모두에서 활성화 | 신경과학적 근거 |
| 13 | Dehaene et al. (2017). C0-C1-C2 이론 | 의식의 3단계 계층 구조 | 이론 프레임워크 |
| 14 | Arturi et al. (NeurIPS 2025 Workshop). “Shared Parameter Subspaces and Cross-Task Linearity.” arXiv:2511.02022 | LoRA delta W cosine similarity로 cross-task parameter 수렴 정량화; 다양한 task 간 공유 저차원 subspace 발견 | RQ3 직접 방법론 선행: delta W cosine sim 분석의 직접적 precedent. 본 연구의 방법론적 기반이자 차별점 (misalignment → cognitive tasks 확장) |
| 15 | Steyvers et al. (2025). “Improving Metacognition and Uncertainty Communication in LMs.” arXiv:2510.05126 | Metacognitive SFT 효과가 task-specific이며 metacognition task 유형 간 전이 제한적. Multitask training 시에만 일반화 | H1b 위험 요소: Meta 내부에서도 transfer 제한적 → Meta→ToM 전이에 대한 보수적 예측 근거. Within-metacognition transfer 추가 측정 동기 |
| 16 | Dymkiewicz et al. (2025). “Donors and Recipients: Asymmetric Transfer with PEFT.” arXiv:2511.13368 | LoRA cross-task transfer 비대칭성이 semantic breadth에 의해 결정됨; 인지적 계층 구조와 무관할 수 있음 | H1a 대안 설명: 비대칭성이 C0-C1-C2 계층이 아닌 task semantic breadth 차이에서 기인할 가능성. Random task pair baseline 도입 동기 |
| 17 | Lu et al. (2025). “Do ToM Benchmarks Need Explicit Human-like Reasoning?” arXiv:2504.01698 | SFT로 높은 ToM 점수 달성 가능하나 genuine ToM 없이도 가능; ≤3B 모델에서 “reasoning collapse” | A3/A7 위협: SFT가 진정한 ToM이 아닌 표면 패턴 학습일 가능성. OOD test + reasoning trace 검증 동기 |
| 18 | Kryvosheieva et al. (2025). “Different types of syntactic agreement recruit the same units within large language models.” arXiv:2512.03676 | Functional localization으로 67개 구문 현상이 동일 LLM 유닛을 공유함을 발견; 교차언어적으로도 유사 구조의 언어가 더 많은 유닛 공유 | Shared functional units 선행: LLM 내부에서 서로 다른 언어 현상이 동일 유닛을 공유한다는 실증. 본 연구의 “ToM-Meta shared substrate” 가설에 대한 방법론적 근거 (구문→인지 task로 확장) |
| 19 | Du et al. (2026). “From Latent Signals to Reflection Behavior: Tracing Meta-Cognitive Activation Trajectory in R1-Style LLMs.” arXiv:2602.01999 | Logit lens로 R1-style LLM의 self-reflection 과정을 layer-wise 추적; latent-control → semantic-pivot → behavior-overt 3단계 meta-cognitive trajectory 발견 | SRV layer-wise 분석 직접 선행: 자기성찰의 layer-wise activation trajectory 분석 방법론. 본 연구의 DV9 layer-wise SRV 분석에 대한 직접적 근거. Meta-cognitive monitoring의 layer 분포 이해에 기여 |
| 20 | Hazimeh et al. (2025). “Task Addition and Weight Disentanglement in Closed-Vocabulary Models.” arXiv:2511.14569 | Weight disentanglement가 pre-training의 일반적 결과임을 실증; task arithmetic으로 효율적 multi-task 배포 가능 | H3 대안 설명: Weight disentanglement에 의해 서로 다른 task의 delta W가 자연히 분리될 수 있으므로, ToM-Meta overlap이 의미 있는 공유인지 disentanglement 실패인지 구분 필요. Random task pair baseline 비교의 추가 동기 |
| 21 | Ban & Ji (2025). “Rethinking Parameter Sharing for LLM Fine-Tuning with Multiple LoRAs.” arXiv:2509.25414 | LoRA A matrix similarity는 initialization artifact; B matrix가 실질적 지식 전달 담당. ALoRA 제안 (multiple A + shared B) | DV6 artifact 위험: Delta W cosine similarity에서 A matrix 유사성이 초기화에 의한 spurious overlap일 수 있음. 통제: DV6 보조 분석으로 B-matrix-only cosine similarity 추가 보고하여 A matrix artifact 배제 |
3.2 연구 갭 분석
| # | 연구 갭 | 현황 | 본 연구의 대응 |
|---|---|---|---|
| 1 | ToM과 Metacognition의 직접적 인과 관계 미검증 | 개별 연구만 존재; 양자 간 교차 효과 실험 부재 | RQ1: 4-way SFT + mediation analysis |
| 2 | 파라미터 수준의 구조적 연결성 분석 부재 | Activation 분석만 존재; delta W overlap 미측정 | RQ3: LoRA delta W cosine sim + Hessian Jaccard |
| 3 | 양방향 인과성 미검증 | 단방향 연구만 존재 | H1a/H1b: 비대칭성 예측 및 검증 |
| 4 | LoRA 기반 cross-task 분석 부재 | LoRA가 task-specific 분석에 활용되지 않음 | RQ3: Rank ablation study |
| 5 | Confound 통제 불충분 | General reasoning 향상 효과 미분리 | Narrative-only SFT + General SFT + mediation analysis |
| 6 | SFT 데이터 구성물 오염 (Construct Contamination) 미검증 | ToM 데이터에 metacognitive 요소, Meta 데이터에 ToM 요소가 혼입될 가능성에 대한 체계적 검증 부재 | Phase 1에서 BERTScore/BLEURT overlap 측정 + 전문가 annotation (Krippendorff’s alpha ≥ 0.7) + Construct Separation Index + purified subset 민감도 분석 |
| 7 | LoRA cross-task 분석의 low-rank artifact 미통제 | 저랭크에서 모든 task pair의 overlap이 인위적으로 증가하는 artifact 가능성 (Arturi et al., 2025) | Random task pair baseline (sentiment + translation)을 동일 rank에서 비교; “excess overlap” metric 정의 |
| 8 | 구조적 overlap과 기능적 방향 수렴의 미분리 | 파라미터가 공유되더라도 기능적으로 다른 방향으로 활용될 수 있음. 구조-기능 해리 가능성 미검증 | Self-reflection vector (Zhu et al., 2026)를 ToM/Meta SFT 모델에서 추출하여 기능적 방향 수렴을 독립적으로 검증 |
3.3 본 연구의 차별점
기존 연구와의 핵심적 차이는 세 가지이다:
- 양방향 인과 관계 직접 검증: ToM→Meta와 Meta→ToM 양방향의 교차 전이를 정량적으로 측정하고, C0-C1-C2 이론에 기반한 비대칭성 예측을 사전 등록한다.
- 다층적 분석 (행동 + 표상 + 파라미터): Behavioral transfer, activation overlap (probing + RSA), parameter overlap (delta W + Hessian)의 세 수준에서 triangulation한다.
- 체계적 confound 통제: 4-way SFT 설계와 mediation analysis로 general reasoning confound를 분리한다.
- SFT 데이터의 구성물 순수성 검증: Dymkiewicz et al. (2025)의 semantic breadth 효과와 Lu et al. (2025)의 SFT 표면 패턴 학습 경고를 고려하여, 4-way SFT 데이터셋의 construct contamination을 다중 방법 (BERTScore/BLEURT + 전문가 annotation + Construct Separation Index + purified subset)으로 통제한다.
- Low-rank artifact 통제: Arturi et al. (2025)의 방법론을 직접 확장하되, random task pair baseline으로 저랭크에서의 인위적 overlap을 체계적으로 배제한다.
- 구조-기능 수렴 검증 (Structural-Functional Convergence): 기존 연구가 구조적 overlap (파라미터/활성화 공유)만 측정하는 데 비해, Zhu et al. (2026)의 self-reflection vector를 활용하여 ToM/Meta SFT 모델이 기능적 방향(자기성찰 벡터)에서도 수렴하는지를 추가 검증한다. 이를 통해 “같은 구조를 공유할 뿐 아니라 같은 기능적 방향으로 활용한다”는 더 강력한 주장이 가능해진다.
4. 연구 질문 및 가설 (Research Questions & Hypotheses)
4.1 연구 질문
| RQ | 질문 | 유형 |
|---|---|---|
| RQ1 | ToM SFT가 metacognitive monitoring(C2)을 향상시키는가? 역방향(metacognition SFT → ToM)도 성립하는가? | 확인적/비교 |
| RQ2 | ToM task와 metacognitive monitoring task 수행 시 internal representation이 task-specific 수준에서 유사한가? | 탐색적 |
| RQ3 | ToM SFT와 metacognitive monitoring SFT의 LoRA delta W가 구조적으로 중첩되는가? | 확인적 |
4.2 가설
| 가설 | 내용 | 대응 RQ | 검증 방법 |
|---|---|---|---|
| H1a | ToM SFT는 metacognitive monitoring(C2) 성능을 유의미하게 향상시킨다. 비대칭 예측: ToM→Meta 전이가 역방향보다 더 강하다. 단, Dymkiewicz et al. (2025)의 semantic breadth 대안 설명을 통제하기 위해 random task pair baseline (sentiment analysis, translation SFT)과 비교한다. | RQ1 | Cross-task performance, paired t-test, Cohen’s d, random task pair baseline 비교 |
| H1b | Metacognitive monitoring SFT는 ToM 성능을 향상시키지만, H1a보다 전이 효과가 약하다. 보수적 예측: Steyvers et al. (2025)에 따르면 metacognitive SFT 효과 자체가 task-specific하여 within-metacognition 전이도 제한적이므로, Meta→ToM 전이 효과 크기는 d < 0.3 (small)으로 예상한다. | RQ1 | 동일, 효과 크기 비교. Within-metacognition transfer (ECE↔Error Detection↔Uncertainty) 추가 측정 |
| H1c | Narrative-only SFT (mental state reasoning 미포함)는 ToM과 metacognition 모두에서 유의미한 향상을 보이지 않는다. | RQ1 | Negative control 비교 |
| H1d | ToM/Metacognition SFT 후 MMLU/ARC/HellaSwag 변화가 cross-task transfer를 완전히 설명하지 못한다 (mediation analysis에서 direct effect 유의미). | RQ1 | Hayes PROCESS bootstrap mediation (5,000 resamples) 주분석 + Baron & Kenny 보조 보고 |
| H2a | Task-specific probing classifier가 높은 cross-task transfer accuracy를 보인다 (중간~후반 layer). | RQ2 | Linear probing, 10-fold CV |
| H2b | RSA에서 ToM-Meta RDM 상관이 ToM-Narrative control보다 유의미하게 높다. | RQ2 | Spearman correlation, Mantel test |
| H2c | Surface feature 통제 후에도 H2a, H2b가 유지된다. | RQ2 | Partial RSA, lexical/length/complexity 통제 |
| H2d | ToM SFT 모델과 Meta SFT 모델에서 추출한 **self-reflection vector (SRV)**의 방향이 유의미하게 유사하다. 다중 baseline 통제: (1) ToM-Meta SRV sim > ToM-Narrative SRV sim, (2) ToM-Meta SRV sim > ToM-Random SRV sim (random task pair SFT 모델), (3) ToM-Meta SRV sim > General-Meta SRV sim. 세 조건 모두 충족 시 가설 지지. | RQ2 | Zhu et al. (2026) contrastive activation extraction + layer-wise cosine similarity + permutation test (10,000). Random task pair 및 General SFT 모델의 SRV도 동일 방법으로 추출하여 비교 |
| H3a | ToM LoRA delta W와 Meta LoRA delta W의 cosine similarity가 Narrative-only delta W와의 similarity보다 유의미하게 높다. | RQ3 | Layer-wise cosine similarity, permutation test |
| H3b | Wu et al. Hessian 기반 ToM-sensitive parameter와 Meta-sensitive parameter의 Jaccard index가 chance level보다 유의미하게 높다. | RQ3 | Hessian sensitivity, Jaccard index |
| H3c | LoRA rank가 낮을수록 (rank 2-4) ToM-Meta overlap이 증가한다 (공유 구조가 저랭크 subspace에 집중). 통제: Random task pair baseline (sentiment + translation LoRA)의 동일 rank overlap과 비교하여 저랭크 인위적 overlap artifact를 배제한다. ToM-Meta “excess overlap” (random pair 대비 초과분)이 저랭크에서 증가해야 가설 지지. | RQ3 | Rank ablation (r=2,4,8,16,32,64) + random task pair 동일 rank 비교 |
| H3d | ToM-Meta 공유 파라미터 (top-k Hessian overlap, k = 0.01%)를 selective ablation하면, ToM-Meta SRV 방향 유사도(DV9)가 유의미하게 감소한다. 통제 조건: 동일 수의 non-shared random parameters를 ablation한 control과 비교하여, SRV 감소가 공유 파라미터 특이적임을 확인. 인과적 증거: 구조(shared params) 제거 → 기능(SRV convergence) 붕괴. 기존 selective ablation (DV8) 위에 SRV 재측정만 추가하므로 추가 비용 무시 가능. | RQ3 | Selective ablation (H3b와 동일 모델): (1) 공유 파라미터 ablation → SRV 재추출, (2) Control: 동일 수 non-shared random params ablation → SRV 재추출. Pre/post ablation SRV cosine sim 비교 (paired t-test). 공유 ablation의 SRV 감소 > random ablation의 SRV 감소 시 가설 지지 |
4.3 핵심 가정 (Assumptions)
| # | 가정 | 근거 | 위반 시 영향 |
|---|---|---|---|
| A1 | Metacognition을 C2 metacognitive monitoring (confidence calibration, error detection, uncertainty estimation)으로 한정하여 조작적으로 정의할 수 있다 | Kadavath et al. (2022), Yin et al. (2023), Reflection-Bench (2025) 등 독립적 benchmark 존재 | 조작적 정의가 너무 협소하면 metacognition 전체에 대한 일반화 불가 |
| A2 | ToM과 metacognition은 개념적으로 구분 가능하며 각각 독립적으로 평가 가능하다 | TOMBENCH (8 tasks, 31 abilities), ECE, SelfAware 등 별도 benchmark 체계 | 두 task의 구분이 모호하면 transfer 측정 자체가 무의미 |
| A3 | SFT가 해당 능력을 실질적으로 향상시킨다 | Chen et al. ACL 2025의 acquisition 실험; Wu et al.의 ToM parameter 발견 | SFT 효과 없으면 cross-transfer 측정 불가 |
| A4 | Wu et al.의 “ToM = emergent property of general language understanding” 가설을 배제 대상으로 설정 | ToM-Meta overlap이 ToM-Any task overlap과 차이 없으면 대안 설명 채택 | 대안 설명이 맞으면 “구조적 연결” 가설 기각 — 이것 자체도 의미 있는 결과 |
| A5 | LoRA fine-tuning이 task-specific adaptation을 충분히 포착한다 | LoRA가 low-rank adaptation을 통해 task-specific delta를 효율적으로 학습 | Rank가 너무 낮으면 정보 손실; rank ablation으로 통제 |
| A6 | H1a의 비대칭성이 C0-C1-C2 계층 구조를 반영한다 | C0-C1-C2 이론에 기반한 방향성 예측. 단, Dymkiewicz et al. (2025)의 semantic breadth 대안 설명을 random task pair baseline으로 통제 비교 | 대안 설명이 성립하면 비대칭성의 인지적 해석 약화 — 그러나 공유 구조 자체의 발견(H3a/H3b)은 유효 |
| A7 | SFT가 genuine ToM/metacognition을 학습한다 (표면 패턴 모방이 아닌) | Lu et al. (2025)의 “reasoning collapse” 경고를 인지. 7-8B 모델은 ≤3B 모델보다 robust할 것으로 예상. OOD test items + reasoning trace 검증으로 통제 | 표면 패턴만 학습 시 cross-task transfer가 linguistic pattern transfer로 환원됨 — Construct Separation Index와 Narrative SFT 비교로 판별 |
5. 학술적 기여 (Academic Contribution)
5.1 기여 유형 및 수준
| # | 기여 | 유형 | 수준 | 설명 |
|---|---|---|---|---|
| 1 | ToM-Metacognition **구조-기능적 수렴(structural-functional convergence)**에 대한 최초의 체계적 실증 검증 | 이론적 | 혁신적 | Lombardo et al. (2010)의 공유 neural substrate 발견이 LLM의 parameter/activation space에서 재현되는지를 최초로 직접 검증. Self-reflection vector (Zhu et al., 2026)를 통한 기능적 방향 수렴까지 이중 검증. C0-C1-C2 의식 이론의 실증적 검증 사례 |
| 2 | 양방향 cross-task transfer의 인과적 비대칭성 검증 | 실증적 | 혁신적 | 4-way SFT + mediation analysis로 양방향 인과성과 비대칭성을 정량화. C0-C1-C2 기반 directional prediction 사전 등록 |
| 3 | LoRA delta W cross-task overlap 분석 방법론 | 방법론적 | 상당한 | Activation-level 분석을 parameter-level로 확장. Wu et al.의 sparse parameter와의 Jaccard overlap + rank ablation 프레임워크 |
| 4 | Task-specific representation overlap의 다층적 검증 체계 | 방법론적 | 상당한 | Probing classifier + RSA + surface feature 통제의 3중 검증으로 activation similarity의 해석 한계 극복 |
| 5 | Wu et al. 대안 설명의 체계적 배제 | 실증적 | 상당한 | Hessian Jaccard, Selective Ablation, Non-RoPE 모델 대조의 3중 배제 실험 설계 |
| 6 | C0-C1-C2 의식 이론의 LLM 적용 실증 검증 | 이론적 | 상당한 | 비대칭성 관찰 시 C2가 C1 위에 구축된다는 계층 구조의 최초 실증적 증거 |
| 7 | Negative result의 이론적 가치 확보 설계 | 이론적 | 증분적 | 모든 시나리오에서 해석 가능하도록 구조화 — null result은 인간-LLM 인지 구조 차이의 증거 |
| 8 | 2-model cross-validation | 실증적 | 증분적 | Llama-3.1-8B + Qwen-2.5-7B로 결과의 아키텍처 일반화 가능성 확보 |
5.2 기대 학술 영향
-
직접적 영향:
- LLM Interpretability: ToM과 metacognition이 공유하는 파라미터/표상 구조를 밝힘으로써 LLM 내부의 고차 인지 능력 조직화에 대한 이해 심화
- AI Consciousness 연구: C0-C1-C2 이론의 LLM 적용 검증을 통해 이론과 실증을 연결하는 다리 역할
- Cognitive Science - AI 연결: 인간 뇌의 공유 회로(dmPFC, TPJ)가 Transformer에서도 재현되는지 검증
- LLM Alignment / Safety: 능력 간 상호의존성 발견 시, 의도하지 않은 능력 변화 방지에 활용
-
간접적 영향:
- LoRA 기반 multi-task learning 연구 프레임워크 제공
- SFT 기반 capability spillover에 대한 체계적 연구 방법론
- Developmental AI에서 ToM-metacognition 공발달 패턴의 LLM 재현 여부
- LLM을 computational model로 활용한 neuroscience 가설 생성
-
예상 대상 학회/저널:
- NeurIPS — Ji-An et al., MetaMind 등 직접 관련 선행 연구가 발표된 venue; interpretability + 인지 능력 교차점
- ICLR — Binder et al., Zhu et al. 등 선행 연구; representation learning + parameter analysis
- ACL — TOMBENCH, OpenToM, Chen et al. 등 NLP 기반 ToM/metacognition 연구의 핵심 venue
- CogSci — C0-C1-C2 이론 검증; negative result에도 강한 venue
- Nature Machine Intelligence — Wu et al. 직접 후속; Best case + 추가 실험 시
5.3 한계 및 범위
- 모델 규모 제한: 7-8B 수준 모델에 한정. 70B+ 대형 모델에서의 scaling 일반화는 미검증.
- Metacognition 정의 한정: C2 metacognitive monitoring의 일부(confidence, error detection, uncertainty)만 포함. Metacognitive regulation/knowledge는 미포함.
- ToM task 범위: False-belief 중심. Faux pas, irony detection, second-order belief 등 복잡한 ToM은 미포함.
- 인과성 주장 강도: “Shared representational substrate”로 하향 조정. 완전한 인과 메커니즘 규명은 아님.
- LoRA 구조적 제약: Low-rank approximation에 의한 인위적 overlap 가능성. Rank ablation + random task pair baseline으로 통제. “Excess overlap” (ToM-Meta overlap - random pair overlap)으로 순수 공유 구조 추정.
5.5. RoPE 아키텍처 의존성: Wu et al.의 ToM-sensitive parameter가 RoPE에 연결되어 있어, Non-RoPE 모델(ALiBi 기반 MPT 등)에서 ToM parameter 분포가 상이할 수 있다. 배제실험 실패 시 본 연구 결론은 RoPE 기반 Transformer에 한정된다. - 철학적 논의 배제: “진정한” 의식/주관적 경험에 대한 질문에는 답하지 않음. Computational/functional level 발견에 한정.
6. 실험 설계 (Experiment Design)
6.1 설계 개요
- 설계 유형: Mixed design (Between-subjects x Within-subjects)
- Between-subjects 요인: SFT 조건 (4수준: ToM SFT, Metacognition SFT, Narrative SFT, General SFT)
- Within-subjects 요인: 평가 벤치마크 유형, 모델 아키텍처, LoRA rank
- 주요 비교:
- RQ1 Cross-task Transfer: ToM SFT 모델의 Metacognition 성능 vs. Metacognition SFT 모델의 ToM 성능 (비대칭성 검증)
- RQ2 Representation Overlap: Probing classifier cross-transfer 정확도 및 RSA 상관
- RQ3 Parameter Overlap: LoRA delta W cosine similarity 및 Hessian 기반 Jaccard index
6.2 변수 통제표
독립 변수 (조작 변수)
| 변수명 | 설명 | 조작 수준 | 측정/조작 방법 |
|---|---|---|---|
| SFT 조건 (IV1) | Fine-tuning에 사용되는 데이터셋 유형 | 4수준: (1) ToM SFT, (2) Meta SFT, (3) Narrative SFT (control), (4) General SFT (control) | 각 조건당 약 5K samples로 LoRA fine-tuning. 동일 hyperparameter 적용 |
| 모델 아키텍처 (IV2) | Base model 선택 | 2수준: Llama-3.1-8B, Qwen-2.5-7B | HuggingFace 공식 weights. LoRA (r=16, alpha=32, target: q_proj, v_proj) |
| LoRA Rank (IV3) | LoRA의 rank 파라미터 | 6수준: 2, 4, 8, 16, 32, 64 | Rank ablation 실험에서 조작. 나머지 hyperparameter 고정 |
| 분석 Layer (IV4) | Activation 추출 대상 layer | 연속: Layer 0 - 31 | 모든 layer에서 hidden state 추출 후 layer-wise 분석 |
종속 변수 (결과 변수)
| 변수명 | 설명 | 측정 지표 | 측정 도구/방법 |
|---|---|---|---|
| ToM 성능 (DV1) | ToM 벤치마크 정확도 | TOMBENCH test accuracy, FanToM accuracy, Wu et al. false-belief held-out accuracy | lm-evaluation-harness / 자체 평가 스크립트 |
| Metacognition 성능 (DV2) | Metacognitive monitoring 능력 | ECE (verbalized confidence), Error Detection Accuracy (Reflection-Bench), Known Unknowns F1 (SelfAware) | Verbalized confidence + ECE; 공식 평가 도구 |
| General 성능 (DV3) | 일반 언어 능력 (confound 통제) | MMLU (5-shot), ARC-Challenge (25-shot), HellaSwag (10-shot) | lm-evaluation-harness 표준 설정 |
| Probing Cross-Transfer (DV4) | Cross-task probing 정확도 | 교차 정확도 (%), AUC-ROC | sklearn LogisticRegression, 10-fold CV |
| RSA 상관 (DV5) | ToM RDM - Meta RDM 유사도 | Spearman correlation | Mantel test (10,000 permutations) |
| Delta W Cosine Similarity (DV6) | LoRA weight 변화 방향 유사도 | Layer-wise cosine similarity | torch cosine_similarity on flattened delta W. 보조 분석: Ban & Ji (2025)의 A matrix initialization artifact 가능성을 통제하기 위해 B-matrix-only cosine similarity도 추가 보고 |
| Parameter Jaccard Index (DV7) | Sensitive parameter overlap | Top-k Jaccard (k = 0.001%, 0.01%, 0.1%) | Wu et al. Hessian method + 이진 마스크 Jaccard |
| Selective Ablation Impact (DV8) | Cross-task ablation 효과 | 성능 변화율 (%) | Wu et al. perturbation method |
| SRV Direction Similarity (DV9) | Self-reflection vector 방향 유사도 | SFT 모델 간 SRV cosine similarity | 2-track SRV 추출 프로토콜: Track A (SRV_base projection): Zhu et al. (2026) 방법으로 base model에서 SRV_base 추출 (reflective vs non-reflective context contrastive pairs). 각 SFT 모델의 activation을 SRV_base 방향에 project하여 alignment 측정. Track B (SRV_task extraction): 각 SFT 모델에서 동일 문제에 대해 “표준 응답” vs “자기 검토 후 수정 응답”으로 contrastive pair 구성 (prompt template: “Answer directly” vs “Review your reasoning step-by-step, then revise if needed”; 최소 200 pairs per model). SRV_task 직접 추출. 중간~후반 layer에서 layer-wise pairwise cosine sim. Fallback: Self-reflection 미발생 시 (수정 비율 < 10%) Track A 단독 사용으로 전환하고 Track B 실패를 투명하게 보고 |
통제 변수 (고정 변수)
| 변수명 | 고정값 | 고정 이유 |
|---|---|---|
| SFT 데이터 크기 | 각 조건당 ~5,000 samples | 데이터 양 차이에 의한 confounding 배제 |
| LoRA Hyperparameters (기본) | r=16, alpha=32, dropout=0.05, target=q_proj+v_proj | 조건 간 학습 용량 동일화 |
| Learning rate | 2e-4 (cosine scheduler, warmup 10%) | AdamW optimizer |
| Training epochs | 3 epochs | 과적합 방지 + 충분한 학습 |
| Batch size | 8 (gradient accumulation 4, effective 32) | GPU 메모리 최적화 |
| Max sequence length | 2048 tokens | 입력 길이 표준화 |
| Precision | bfloat16 | 메모리 효율 + 수치 안정성 |
| Random seeds | 계층화 전략: Core comparisons (H1a/H1b) 10 seeds {42, 123, 456, 789, 1024, 2048, 3141, 4096, 5555, 7777}, ablations/controls 5 seeds, Hessian/selective ablation 3 seeds per condition | 재현성 + 충분한 통계 검정력 (power ≥ 0.80 at d=0.8 for core) |
| Evaluation temperature | 0.0 (greedy) | 확률적 변동 제거 |
6.2.1 통계 검정력 분석 (Statistical Power Analysis)
| 분석 유형 | 비교 수 | 효과 크기 기준 | Seeds/조건 | 검정력 (1-β) | 근거 |
|---|---|---|---|---|---|
| Core: H1a/H1b cross-task transfer | 4 (2 방향 x 2 모델) | d = 0.8 (large) | 10 | ≥ 0.80 | 주요 가설 검증; Type II error 최소화 필수 |
| Core: H1c/H1d control 비교 | 4 | d = 0.8 | 10 | ≥ 0.80 | Confound 배제의 신뢰성 확보 |
| Ablation: Rank ablation (H3c) | 6 ranks x 2 | d = 1.0 | 5 | ≥ 0.70 | 탐색적 성격; 경향성 확인 목적 |
| Ablation: Random task pair baseline | 2 | d = 1.0 | 5 | ≥ 0.70 | 대안 설명 배제 |
| Expensive: Hessian/selective ablation (H3b) | 2 | descriptive | 3 | N/A (descriptive) | 계산 비용 제약; Jaccard index + permutation test로 보완 |
검정력 산출 근거
Paired t-test, α = 0.05 (Benjamini-Hochberg FDR 보정 후 유효 alpha 반영). G*Power 3.1 기반 사전 계산. Core comparisons에서 d = 0.8 탐지에 n = 10 필요 (1-β = 0.81). 기존 n = 3은 동일 조건에서 1-β = 0.15로 불충분. LoRA SFT 연구에서 3 seeds가 관행적이나 (LoRA-FAIR, ICCV 2025), cross-task transfer 검증에는 higher power가 필수적이다.
외생 변수 (잠재적 혼동 변수)
| 변수명 | 잠재적 영향 | 완화 전략 |
|---|---|---|
| 데이터 오염 | 평가 데이터가 pre-training에 포함 가능 | Base model zero-shot baseline 측정; Min-K% Prob 검사 |
| SFT 데이터 표면적 특성 차이 | 어휘/길이/복잡도 차이가 전이 효과에 혼동 | Narrative SFT를 surface-level control로 사용; RSA에서 surface feature RDM 통제 |
| 모델 아키텍처 차이 | Llama/Qwen의 tokenizer, attention 차이 | 2개 모델 독립 실험 + 결과 일관성 확인 |
| Verbalized confidence 편향 | Verbalized vs. internal confidence 괴리 | 두 방법 병행 측정 + ECE 비교 |
| RoPE 의존성 | ToM-sensitive parameter가 RoPE에 연결 | Non-RoPE 모델(Jamba/MPT) 배제실험 |
| SFT 데이터 구성물 오염 (Construct Contamination) | ToM 데이터에 metacognitive 요소 혼입, Meta 데이터에 ToM 요소 혼입 시 transfer 효과 부풀림 | (1) BERTScore/BLEURT semantic overlap 측정 (ToM-Meta 데이터 간 overlap < 0.3 목표), (2) 인지과학 전문가 3-5인 annotation (Krippendorff’s alpha ≥ 0.7), (3) Construct Separation Index (only-ToM / only-Meta / both / neither 비율 보고), (4) “both” 항목 제거 후 purified subset 민감도 분석 |
| SFT 표면 패턴 학습 | SFT가 genuine 능력이 아닌 벤치마크 표면 패턴만 학습할 위험 (Lu et al., 2025) | Out-of-distribution ToM/Meta test items 포함; SFT 후 reasoning trace quality 검증; Narrative SFT와의 성능 차이가 표면 패턴으로 설명되지 않음을 확인 |
| Semantic breadth confound | Task semantic breadth 차이가 transfer 비대칭성을 설명할 가능성 (Dymkiewicz et al., 2025) | Random task pair baseline (sentiment analysis, translation) 동일 조건 비교; ToM/Meta 데이터 vocabulary breadth 정량 비교 |
6.3 실험 파이프라인
flowchart TD subgraph Phase1["Phase 1: 데이터 준비 + 구성물 검증 (Week 1-3)"] A1["TOMBENCH + OpenToM train 확보"] --> A5["4개 SFT 데이터셋 구축<br/>(각 ~5K samples)"] A2["Wu et al. false-belief 확보"] --> A5 A3["Metacognition 데이터 구축<br/>(Confidence + Error + Uncertainty)"] --> A5 A5 --> A6["Narrative SFT 구축<br/>(mental state 질문 제거)"] A5 --> A7["General SFT 구축<br/>(Alpaca/FLAN subset)"] A5 --> A7b["Random Task Pair 구축<br/>(Sentiment + Translation)"] A6 --> A8["데이터 품질 검증"] A7 --> A8 A8 --> A9["Construct Contamination 검증<br/>(BERTScore/BLEURT overlap +<br/>전문가 3-5인 annotation +<br/>Construct Separation Index)"] A9 --> A10["Purified Subset 구축<br/>(both 항목 제거)"] A10 --> A11["Narrative SFT ToM 잔류 검증<br/>(ToM classifier check < 5%)"] end subgraph Phase2["Phase 2: SFT 학습 (Week 4-7)"] A11 --> B1["80 LoRA SFT runs<br/>(4 조건 x 2 모델 x 10 seeds)"] A7b --> B1b["20 Random Task Pair runs<br/>(2 tasks x 2 모델 x 5 seeds)"] B1 --> B2{"수렴 확인"} B2 -->|Yes| B3["체크포인트 + Delta W 추출"] B2 -->|No| B4["Hyperparameter 조정"] B4 --> B1 end subgraph Phase3["Phase 3: RQ1 행동 평가 (Week 7-9)"] B3 --> C1["ToM / Meta / General 벤치마크 평가"] C1 --> C1b["Within-Meta Transfer 측정<br/>(ECE↔Error Detection↔Uncertainty)"] C1 --> C2["Cross-task Transfer Matrix"] C2 --> C3["Hayes PROCESS Mediation"] end subgraph Phase4["Phase 4: RQ2 Activation 분석 (Week 9-11)"] B3 --> D1["Hidden state 추출"] D1 --> D2["Probing + Cross-transfer"] D1 --> D3["RSA + Surface 통제"] D1 --> D4["Self-Reflection Vector 추출<br/>(Zhu et al. contrastive method)"] D4 --> D5["SRV 방향 유사도 분석<br/>(ToM-Meta vs ToM-Narrative<br/>+ Random/General SRV baseline 비교)"] end subgraph Phase5["Phase 5: RQ3 Parameter 분석 (Week 11-13)"] B3 --> E1["Delta W Cosine Sim + Jaccard"] B1b --> E1b["Random Pair Overlap 비교<br/>(Excess Overlap 산출)"] B3 --> E2["Rank Ablation (40 runs)<br/>+ Random Pair 동일 rank"] B3 --> E3["Hessian 계산 + Selective Ablation"] E3 --> E4["SRV 재추출 (ablated model)<br/>→ DV9 재측정 (H3d)"] end subgraph Phase6["Phase 6: 배제실험 (Week 13-14)"] E3 --> F1["Non-RoPE 모델 대조"] end subgraph Phase7["Phase 7: 논문 작성 (Week 15-16)"] C3 --> G1["결과 통합 + 논문 초안"] D2 --> G1 D3 --> G1 D5 --> G1 E1 --> G1 E1b --> G1 E2 --> G1 E4 --> G1 F1 --> G1 end Phase1 --> Phase2 Phase2 --> Phase3 & Phase4 & Phase5 Phase5 --> Phase6 Phase6 --> Phase7
6.4 데이터 및 리소스
데이터
| 항목 | 상세 | 확보 방법 |
|---|---|---|
| TOMBENCH | 2,860 MCQ (8 tasks, 31 abilities) | 공식 GitHub (Chen et al., ACL 2024). Train ~1.5K |
| OpenToM | Entity/social tracking QA ~3K | 공식 HuggingFace (Long et al., 2024) |
| Wu et al. False-Belief | ~500 samples, held-out 100 | 공식 OSF + GitHub |
| FanToM | Conversational ToM ~10K QA | 공식 GitHub (Kim et al., 2023) |
| Confidence Calibration QA | Q + confidence label ~2K | TriviaQA/NQ subset, 자체 구축 |
| Error Detection | 추론 chain 오류 식별 ~1.5K | Reflection-Bench train split + augmentation |
| Uncertainty Estimation | ”I don’t know” QA ~1.5K | SelfAware (Yin et al., 2023) train split |
| Narrative SFT (Control) | 동일 스토리, 사실적 질문 ~5K | TOMBENCH/OpenToM에서 변환 (GPT-4 + 수동 검수). ToM 잔류 검증: ToM-specific classifier로 ToM 요소 잔류 < 5% 확인 |
| Random Task Pair (Baseline) | Sentiment analysis ~2.5K + Translation ~2.5K | SST-2/IMDB subset + WMT subset. H3c low-rank artifact 통제용 |
| General SFT (Control) | Instruction-following QA ~5K | Alpaca-cleaned + FLAN subset |
컴퓨팅 리소스
| 항목 | 사양/수량 | 근거 |
|---|---|---|
| GPU | A100 80GB x 1 (per run) | 7-8B LoRA SFT: ~20GB VRAM |
| 기본 SFT (Core) | 80 runs, 각 4-6hr → 320-480 GPU-hr | 4 조건 x 2 모델 x 10 seeds |
| Random task pair baseline | 20 runs, 각 4-6hr → 80-120 GPU-hr | 2 tasks (sentiment, translation) x 2 모델 x 5 seeds |
| Rank ablation | 40 runs, 각 3-6hr → 120-240 GPU-hr | 6 ranks x 2 tasks x 2 models x ~2 seeds + random pair |
| 배제실험 | 6 runs, 각 6hr → 36 GPU-hr | Non-RoPE 모델 + 추가 통제 |
| 평가 (추론) | ~100-150 GPU-hr | 증가된 모델 수 x 모든 벤치마크 |
| Activation 추출 | ~30-50 GPU-hr | Layer-wise hidden state + SRV contrastive extraction (추가 비용 무시 가능) |
| Hessian 계산 | ~16-32 GPU-hr | Empirical Fisher diagonal (3 seeds) |
| 총 GPU-hours | ~700-1,100 A100 GPU-hr | 여유분 포함 1,200 GPU-hr 권장 |
비용 추정
| 항목 | 예상 비용 | 산출 근거 |
|---|---|---|
| Cloud GPU (A100 80GB) | $1,120-1,600 | Lambda Labs 0.80-1.20/hr) |
| Storage | $80 | 1TB x $0.10/GB/month (증가된 체크포인트) |
| API (데이터 구축) | $50-80 | GPT-4o-mini ~8K calls (construct 검증 포함) |
| API (평가 검수) | $30-50 | GPT-4o annotation 검수 + ToM classifier |
| 전문가 annotation 비용 | $100-200 | 인지과학 전문가 3-5인 x construct annotation |
| 총 예상 비용 | $1,380-2,010 | 여유분 포함 $2,200 권장 |
7. 실험 일정 (Schedule)
7.1 Gantt 차트
gantt title 연구 일정 (16주, 수정 v3) dateFormat YYYY-MM-DD axisFormat %Y-%m-%d section Phase 1: 데이터 준비 + 구성물 검증 TOMBENCH_OpenToM_확보 :data1, 2026-02-10, 3d Wu_false_belief_확보 :data2, 2026-02-10, 3d Meta_데이터_구축 :data3, 2026-02-10, 7d Narrative_SFT_구축 :data4, after data1, 5d General_SFT_샘플링 :data5, 2026-02-10, 2d 데이터_품질검증 :data6, after data4, 3d Construct_검증_annotation :data7, after data6, 5d Purified_subset_구축 :data8, after data7, 2d Narrative_ToM잔류검증 :data9, after data8, 2d 데이터_준비_완료 :milestone, after data9, 0d section Phase 2: SFT 학습 LoRA_SFT_80runs :sft1, after data9, 18d Random_task_pair_SFT :sft_rtp, after data9, 8d 수렴확인_체크포인트 :sft2, after sft1, 2d Delta_W_추출 :sft3, after sft2, 1d SFT_완료 :milestone, after sft3, 0d section Phase 3: RQ1 행동 평가 ToM_벤치마크_평가 :eval1, after sft3, 5d Meta_벤치마크_평가 :eval2, after sft3, 5d General_벤치마크_평가 :eval3, after sft3, 3d Within_meta_transfer :eval3b, after eval2, 2d Cross_task_분석 :eval4, after eval1, 3d Mediation_Analysis_PROCESS :eval5, after eval4, 3d RQ1_완료 :milestone, after eval5, 0d section Phase 4: RQ2 Activation 분석 Hidden_state_추출 :act1, after sft3, 5d SRV_추출_방향비교 :act1b, after act1, 3d Linear_probing :act2, after act1, 4d Cross_task_probe :act3, after act2, 3d RDM_RSA :act4, after act1, 5d Surface_통제_RSA :act5, after act4, 3d RQ2_완료 :milestone, after act5, 0d section Phase 5: RQ3 Parameter 분석 Delta_W_cosine_sim :par1, after sft3, 3d Random_pair_overlap_비교 :par1b, after par1, 2d Top_k_Jaccard :par2, after par1b, 2d Rank_ablation_40runs :crit, par3, after par1b, 12d Hessian_계산 :par4, after sft3, 8d Sensitive_Jaccard :par5, after par4, 3d Selective_ablation :par6, after par5, 4d RQ3_완료 :milestone, after par6, 0d section Phase 6: 배제실험 Non_RoPE_SFT :exc1, after par6, 5d Non_RoPE_transfer :exc2, after exc1, 3d RoPE_의존성_분석 :exc3, after exc2, 2d 배제실험_완료 :milestone, after exc3, 0d section Phase 7: 논문 작성 결과_통합_시각화 :write1, after exc3, 4d 논문_초안_작성 :write2, after write1, 7d 투고_목표 :milestone, after write2, 0d
7.2 마일스톤
| # | 마일스톤 | 예상 날짜 | 성공 기준 |
|---|---|---|---|
| M1 | 데이터 준비 완료 | 2026-02-24 | 4개 SFT 데이터셋 각 5K samples 확보. Narrative-ToM surface similarity > 0.8 (BERTScore) |
| M1.5 | Construct Contamination 검증 완료 | 2026-03-05 | BERTScore ToM-Meta overlap < 0.3. 전문가 Krippendorff’s alpha ≥ 0.7. Construct Separation Index: “both” 항목 < 15%. Purified subset 구축 완료. Narrative SFT ToM 잔류 < 5% |
| M2 | SFT 학습 완료 | 2026-03-26 | 100개 모델 (80 core + 20 random pair) 수렴. Target domain 성능 base 대비 +5% 이상 |
| M3 | RQ1 행동 평가 완료 | 2026-04-09 | Cross-task transfer matrix 완성. 10 seeds 기반 통계적 유의성 판정 완료. Within-metacognition transfer 추가 보고 |
| M4 | RQ2 Activation 분석 완료 | 2026-04-19 | Probing + RSA + surface 통제 + SRV 방향 유사도 분석 결과 보고 |
| M5 | RQ3 Parameter 분석 완료 | 2026-05-03 | Cosine sim heatmap + Jaccard + rank ablation + selective ablation + random pair baseline 비교 결과 |
| M6 | 배제실험 완료 | 2026-05-13 | Non-RoPE 모델 cross-transfer 결과. RoPE 의존성 판정 |
| M7 | 논문 초안 완료 | 2026-05-24 | 전체 Figure/Table 완성. Introduction~Discussion 초안 |
8. 예상 결과 및 분석 (Expected Results)
8.1 시나리오별 예상 결과
| 시나리오 | 조건 | 예상 결과 | 의미 | 후속 방향 |
|---|---|---|---|---|
| Best Case | H1a-d, H2a-d, H3a-d 대부분 지지. SRV 방향 수렴 + H3d 인과 검증 성공 (ablation→SRV 붕괴). 2개 모델 일관 | ToM→Meta 전이 존재 (d > 0.5), 비대칭성 확인, Delta W cosine sim 유의미, Hessian Jaccard 유의미, SRV 방향 일치, 공유 파라미터 제거 시 SRV 수렴 붕괴 | ”Structural-functional convergence” 발견. 구조적 overlap + 기능적 방향 수렴의 이중 증거 + 인과적 증거 (knockout). C0-C1-C2 계층 구조 일치 | NeurIPS/ICLR/Nature MI 투고. 대형 모델 scaling, 다른 인지 능력 쌍 확장, 인간 fMRI 비교 |
| Mixed Case | Transfer 존재하나 효과 작음 (d 0.2-0.5). Parameter/activation overlap 중 하나만 유의미. SRV 부분 수렴 | ToM-Meta 간 약한 구조적 연결 + 기능적 방향 해리. 구조는 공유하나 기능적 활용이 다름 | 부분적 공유 메커니즘. 구조-기능 해리 자체가 중요 발견 | ACL/EMNLP/AAAI 투고. 구조-기능 해리 메커니즘 규명 |
| Worst Case | Cross-task transfer가 control과 무차별. Overlap이 random baseline 수준. SRV 방향 무관련 | ToM과 metacognition이 LLM에서 구조적으로 독립적. Wu et al.의 “emergent property” 가설 지지 | 인간 뇌와 질적으로 다른 조직 원리. AI consciousness에서 인간-AI 유비 추론의 한계 | CogSci/ACL에 negative result 논문. 아키텍처적 원인 분석, 대형 모델 emergence 탐색 |
8.2 분석 방법
통계 분석:
- Paired t-test / Wilcoxon: SFT 전후 성능 비교 (Core: 10 seeds, Ablation: 5 seeds). Benjamini-Hochberg FDR correction (12 comparisons, q = 0.05)
- Mediation Analysis: Hayes PROCESS bootstrap mediation (5,000 resamples, Hayes, 2017) 주분석. Baron & Kenny + Sobel test 보조 보고
- Permutation test: RSA correlation + Jaccard index 유의성 (10,000 permutations)
- Effect size: Cohen’s d + 95% CI 모든 비교에 보고
- Two-way ANOVA: 4 (SFT) x 2 (model) + Tukey HSD 사후검정
- Correlation: Layer-wise cosine sim과 probing accuracy 간 관계
- Composite Metacognition Score: ECE (역변환), Error Detection Accuracy, Known Unknowns F1의 z-score 표준화 후 equal-weight 평균. 하위 지표 간 Cronbach’s alpha 보고 (alpha ≥ 0.6 기준). 개별 지표 결과도 supplementary에 전체 보고
- Random Task Pair Baseline 비교: ToM-Meta overlap과 random pair (sentiment-translation) overlap의 차이에 대한 permutation test. “Excess overlap” = ToM-Meta overlap - random pair overlap으로 정의
- Self-Reflection Vector (SRV) 2-Track 분석: Track A (SRV_base projection): Base model에서 Zhu et al. (2026) contrastive method로 SRV_base 추출. 각 SFT 모델의 activation을 SRV_base 방향에 projection하여 alignment score 산출. Track B (SRV_task extraction): 각 SFT 모델에서 task-specific contrastive pairs (“표준 응답” vs “자기 검토 후 수정 응답”)로 SRV_task 직접 추출 (중간~후반 layer). 두 track 모두에서 ToM-Meta SRV cosine similarity vs ToM-Narrative/Random/General SRV cosine similarity에 대한 permutation test (10,000). Track 일관성 보고: Track A와 Track B 결과의 concordance (Kendall’s W 또는 Spearman correlation) 보고. Layer-wise SRV 방향 수렴 패턴 분석. SRV 방향과 delta W principal component 방향 간 alignment 보조 분석. H3d 전용: Selective ablation 후 ablated model에서 SRV 재추출 → pre/post ablation SRV cosine sim 비교
시각화:
- Cross-task Transfer Heatmap (4 SFT x 6+ eval, color-coded + 95% CI)
- Layer-wise Analysis Plots (probing accuracy, cosine sim, RSA correlation)
- RDM 시각화 (ToM/Meta/Surface RDM + RSA scatter)
- LoRA Rank Ablation Curve (log scale x축, transfer magnitude y축)
- Sensitive Parameter Overlap Venn Diagram
- Selective Ablation Impact Bar Chart
- Non-RoPE vs. RoPE Comparison
- Self-Reflection Vector Direction Map (ToM/Meta/Narrative/Random/General SRV의 layer-wise cosine sim heatmap + PCA 2D projection)
- SRV-Parameter Coupling Knockout Plot (H3d: pre/post ablation SRV cosine sim 변화. Shared param ablation vs random param ablation 대조)
9. 대비 계획 (Backup Plans)
9.1 위험 요소 및 대응
| # | 위험 요소 | 발생 확률 | 영향도 | Plan B | 전환 기준 |
|---|---|---|---|---|---|
| R1 | ToM SFT 데이터 부족 | 중 (30%) | 높음 | OpenToM 비중 증가 + GPT-4 augmentation + HiToM/FANToM 추가 | TOMBENCH train < 1K |
| R2 | Meta SFT 데이터 품질 불량 | 중 (40%) | 높음 | Human-annotated confidence + Teacher model filtering + CalibratedMath 활용 | SFT 후 Meta 향상 < 2% |
| R3 | Cross-task transfer 효과 없음 | 중-높 (40%) | 매우 높음 | 데이터 10K 증가 + Full FT 시도 + Negative result 논문화 (RQ2/RQ3 가치 강조) | 모든 cross-domain p > 0.1 |
| R4 | Hessian 계산 OOM | 중 (35%) | 중간 | Layer-wise 계산 + K-FAC 근사 + Fisher diagonal | A100 80GB에서 OOM |
| R5 | Rank ablation 일관 패턴 없음 | 낮-중 (25%) | 중간 | Alpha scaling 변경 + Target module ablation 대체 | 6 rank 간 차이 모두 2% 이내 |
| R6 | Non-RoPE 모델 접근 불가 | 중 (30%) | 중간 | ALiBi 기반 BLOOM 사용 + RoPE ablation + “future work” 처리 | Jamba/MPT SFT 수렴 실패 |
| R7 | GPU 리소스 부족 | 중 (30%) | 높음 | 다른 cloud 서비스 (Vast.ai, Thunder Compute) + Core 5 seeds / Ablation 3 seeds로 축소 + 단일 모델 집중. 최소 n=5 유지 원칙 | 예산 소진 / 1주+ 확보 불가 |
| R8 | Probing classifier chance 수준 | 낮-중 (20%) | 중간 | Non-linear probe (MLP) + CKA/SVCCA + sequence-level probing | 모든 layer < 55% |
| R9 | 일정 지연 | 중 (35%) | 낮 | 배제실험 축소 + Workshop paper 선 발표 | Week 16 시 배제실험 미완료 |
| R10 | Construct contamination 검증 실패 | 중 (30%) | 높음 | 데이터셋 재구축 (더 엄격한 항목 필터링) + 전문가 annotation 반복. Timeline 2주 연장 | Krippendorff’s alpha < 0.6 또는 “both” 항목 > 30% |
| R11 | Random task pair baseline에서도 높은 overlap | 낮-중 (20%) | 매우 높음 | Low-rank artifact 가설 지지 → H3c 재해석. ToM-Meta overlap의 “excess overlap” (random pair 대비 초과분)으로 metric 재정의. Negative result 논문화 전략 | Random pair cosine sim > ToM-Meta의 50% |
9.2 Go/No-Go 기준
| 체크포인트 | 시점 | Go 기준 | No-Go 시 조치 |
|---|---|---|---|
| CP0: 구성물 검증 | Week 3 (M1.5) | Krippendorff’s alpha ≥ 0.7. “both” 항목 < 15%. BERTScore ToM-Meta overlap < 0.3 | R10 Plan B 시행. 데이터 재구축 + 2주 연장 |
| CP1: 데이터 준비 | Week 3 (M1) | 4개 데이터셋 각 4K+ samples. Narrative-ToM BERTScore > 0.75. ToM 잔류 < 5% | R1/R2 Plan B 시행. 1주 추가 시 전체 일정 후방 이동 |
| CP2: SFT 검증 | Week 7 (M2) | Target domain +5% 이상. MMLU 하락 < 3% | 데이터 2배 + epoch 5 / LoRA rank 감소 |
| CP3: Transfer 1차 판정 | Week 9 | 최소 1방향 transfer p < 0.1 (10 seeds 기반) | 양방향 p > 0.2: Negative result 전략 전환 |
| CP4: Activation 1차 | Week 11 | Probing > 55% 또는 RSA r > 0.15 | Non-linear probe + CKA 시도 → 실패 시 RQ3 집중 |
| CP5: Parameter 실행 가능성 | Week 12 | Hessian 계산 성공. Random task pair baseline 완료 | Layer-wise 계산 → 실패 시 delta W + rank ablation만 |
| CP6: 최종 충분성 | Week 15 | RQ1-3 중 2개+ 명확 결론 | 배제실험 생략. 가용 결과로 초안 작성 |
10. 비평 및 개선 이력 (Review History)
비평 라운드 요약
| 라운드 | 총점 | 논리 | 신규성 | 방법론 | 영향력 | 실현성 | 판정 |
|---|---|---|---|---|---|---|---|
| 1 | 16/25 | 3/5 | 4/5 | 2/5 | 4/5 | 3/5 | 수정 후 재평가 |
| 2 | 20/25 | 4/5 | 4/5 | 4/5 | 4/5 | 4/5 | 통과 |
| 3 | 22/25 | 4/5 | 4/5 | 4.5/5 | 4/5 | 4.5/5 | 통과 (7.8/10) |
| 4 | 19.6/25 | 4/5 | 4/5 | 3.8/5 | 4/5 | 3.8/5 | 통과 (7.8/10) |
| 5 | 20.5/25 | 4.2/5 | 4/5 | 4.3/5 | 4/5 | 4/5 | 통과 (7.9/10) — 8.0 도달 위해 Ban & Ji (2025) 반영 |
| 6 | — | — | — | — | — | — | 수정 완료 (Ban & Ji 반영; 재평가 대기) |
라운드 1 → 2 상세
치명적 약점과 수정:
-
Metacognition benchmark construct validity 부재 → 수정: C2 metacognitive monitoring으로 한정 (confidence calibration, error detection, uncertainty estimation). Chen et al. 10 concepts 중 C2 subset만 선별. Ji-An et al. neurofeedback는 보조 분석으로 한정.
-
General reasoning confound 통제 부족 → 수정: 4-way SFT 설계 (Narrative-only SFT + General SFT 이중 control). Mediation analysis (Baron & Kenny + Sobel test). MMLU/ARC/HellaSwag 동시 측정.
-
Activation similarity → functional equivalence 추론 비약 → 수정: Probing classifier cross-transfer + RSA + surface feature 통제 (lexical overlap, length, complexity). 단순 cosine similarity 대신 task-specific information 분리.
Reviewer 2 핵심 질문 및 대응:
-
Q: “Metacognition의 조작적 정의가 benchmark 선택과 일치하는가?”
→ A: C2 monitoring의 3개 하위 construct를 명시적으로 한정하고, 각각에 독립 benchmark (ECE/Reflection-Bench/SelfAware) 선정. Chen et al.의 broader concepts (deception, harm)은 명시적으로 제외. -
Q: “Null result 시 benchmark 문제 vs. 실제 독립성을 어떻게 구분?”
→ A: Within-task improvement check, positive control, effect size gradient, 3개 독립 benchmark, RQ2/RQ3 triangulation의 5중 전략. -
Q: “Wu et al.의 ‘emergent property’ 해석과 본 연구의 양립 가능성?”
→ A: 3가지 시나리오 구분 설계: (A) 완전한 emergent property, (B) Partially shared substrate (가장 가능성 높음), (C) Distinct dedicated system.
최종 비평 의견 (라운드 2 minor):
- Claim을 “shared representational substrate”로 하향 조정 — 반영 완료
- Benchmark 정규화 (Cohen’s d 또는 percent improvement) — 반영 완료
- Core vs Supplementary experiments 명시적 분리 — 반영 완료 (Core: RQ1-3, Supplementary: 배제실험)
- Effect size 사전 기준 명시 (pre-registration) — 반영 완료 (d > 0.2 small, 0.5 medium 기준)
- Non-RoPE 모델에 ALiBi 기반(MPT) 추가 고려 — 반영 완료 (R6 Plan B에 포함)
라운드 2 → 3 상세
외부 평가 (ruthless-paper-reviewer, 6.8/10) 기반 치명적 약점과 수정:
-
C1. 통계 검정력 부족 (n=3 seeds, power ~0.15 at d=0.8) → 수정: 계층화 seeding 전략 도입. Core comparisons (H1a/H1b) 10 seeds (power ≥ 0.80 at d=0.8), ablations/controls 5 seeds, Hessian/selective ablation 3 seeds. 6.2.1 Statistical Power Analysis 신규 섹션 추가. G*Power 사전 계산 근거 명시. 리소스 및 일정 전면 재산정 (500 GPU-hr → 1,200 GPU-hr, 14주 → 16주).
-
C2. SFT 데이터 구성물 오염 (Construct Contamination) 미통제 → 수정: Phase 1에 4단계 구성물 순수성 검증 추가: (1) BERTScore/BLEURT 의미 overlap 측정, (2) 인지과학 전문가 3-5인 annotation (Krippendorff’s alpha ≥ 0.7), (3) Construct Separation Index (only-ToM / only-Meta / both / neither 비율) 보고, (4) “both” 항목 제거 purified subset 민감도 분석. 외생 변수 표에 3개 신규 항목 추가.
주요 약점과 수정:
-
M1. 핵심 선행 연구 4편 누락 → 수정: 선행 연구 표 14-17 및 참고 문헌 18-22 추가. Arturi et al. (2025, RQ3 delta W cosine sim 방법론 precedent), Steyvers et al. (2025, H1b 보수적 예측 근거 — metacognitive SFT의 within-metacognition transfer 제한), Dymkiewicz et al. (2025, H1a 비대칭성의 semantic breadth 대안 설명), Lu et al. (2025, A3 위협 — SFT의 표면 패턴 학습 + reasoning collapse).
-
M2. H1a 비대칭성 예측에 대안 설명 미고려 → 수정: H1a에 Dymkiewicz et al. semantic breadth 대안 통제 추가. A6 가정 신규 추가. Random task pair baseline (sentiment analysis, translation SFT) 도입으로 비대칭성의 인지적 해석과 semantic breadth 해석을 분리.
-
M3. H3c에 random task pair baseline 부재 (low-rank artifact 위험) → 수정: Sentiment analysis + translation SFT를 동일 rank 조건에서 비교하는 baseline 추가. Low-rank에서의 인위적 overlap 가능성 배제.
-
M4. H1b 예측이 Steyvers et al. (2025) 미반영 → 수정: H1b 예측을 보수적으로 수정 (d < 0.3 small). Within-metacognition transfer (ECE→Error Detection 등) 추가 측정으로 meta 내부 전이 제한성 확인.
-
M5. Narrative SFT 구성물 타당성 미검증 → 수정: ToM-specific classifier check + 전문가 annotation으로 ToM 요소 잔류 < 5% 검증 절차 추가.
경미한 수정:
- m1. Mediation analysis: Baron & Kenny → Hayes PROCESS bootstrap (5,000 resamples) 주분석으로 변경.
- m2. Non-RoPE 모델 위험: 한계 섹션에 RoPE 아키텍처 의존성 명시적 인정 추가.
- m3. 일정 조정: 14주 → 16주. Gantt 차트 및 마일스톤 전면 재산정.
- m4. 다중 비교 보정: Bonferroni → Benjamini-Hochberg FDR (12 comparisons에서 보수적 Bonferroni 대신 FDR 0.05).
- m5. Composite metacognition score: z-score 표준화 + equal-weight 평균. Cronbach’s alpha ≥ 0.6 기준. 개별 지표도 전체 보고.
라운드 3 → 4 → 5 상세
외부 평가 (ruthless-paper-reviewer 라운드 4, 7.6/10) 6개 이슈와 수정:
-
N1. SRV–Metacognition 개념적 다리 부재 → 수정: 2.2 핵심 개념에 “SRV = C2 metacognitive monitoring의 기능적 프록시” 개념적 정당화 추가. Zhu et al.의 self-reflection이 metacognitive monitoring의 error detection→correction 하위 과정임을 명시. SRV ≠ metacognition 전체임을 인정하고, activation-level 간접 지표로 한정.
-
N2. SRV 추출 프로토콜 미정의 → 수정: DV9에 2-track SRV 추출 프로토콜 구체화. Track A: Base model SRV (SRV_base) 추출 후 SFT 모델 activation을 SRV_base 방향에 projection. Track B: 각 SFT 모델에서 task-specific SRV (SRV_task) 직접 추출. 분석 방법 9에 두 track 결과 일관성 보고 추가.
-
N3. SRV confound 통제 부재 → 수정: H2d에 Random task pair SFT 모델과 General SFT 모델의 SRV를 비교 대상에 추가. “ToM-Meta SRV sim > ToM-Random sim AND ToM-Meta SRV sim > General-Meta SRV sim” 조건 명시. Phase 4 mermaid에 baseline 비교 반영.
-
N4. “Coupling” 용어 과도 (인과적 함의) → 수정: 전체 문서에서 “structural-functional coupling”을 “structural-functional convergence”로 변경 (4곳). 관찰적 수렴을 기술하는 용어로 톤 다운.
-
N5. Zhu et al. venue 부정확 → 수정: “ICLR 2026 Sub.”을 “arXiv:2506.12217”로 수정 (선행연구 표 + 참고문헌).
-
N6. LLM shared functional units 관련 선행연구 누락 → 수정: Kryvosheieva et al. (2025) “Different types of syntactic agreement recruit the same units within large language models” (arXiv:2512.03676) 추가. LLM 내부에서 서로 다른 구문 현상이 동일 유닛을 공유한다는 functional localization 증거로, 본 연구의 “shared substrate” 가설에 대한 방법론적 선행.
Novelty Boost: SRV-Parameter Coupling Experiment (H3d 신규):
- H3d 신규 가설 추가: “ToM-Meta 공유 파라미터 (top-k Hessian overlap)를 selective ablation하면, SRV 방향 유사도(DV9)가 유의미하게 감소한다.” — 구조(shared params) 제거 → 기능(SRV convergence) 붕괴의 인과적 증거.
- 기존 selective ablation (DV8) 위에 SRV 재측정만 추가하므로 추가 비용 무시 가능.
- Phase 5 mermaid에 “SRV 재추출 (ablated model)” 노드 추가.
라운드 5 → 6 상세
외부 평가 (ruthless-paper-reviewer 라운드 5, 7.8/10) 잔여 이슈와 수정:
-
제목 불일치: “Structural Coupling” → “Structural-Functional Convergence”로 제목 수정. 본문과 일관성 확보.
-
H3d control ablation 미명시 → 수정: H3d 가설 statement에 “동일 수 non-shared random parameters ablation” control 조건 명시. k = 0.01% 구체화.
-
Track B fallback plan 부재 → 수정: DV9에 prompting template (“Answer directly” vs “Review your reasoning step-by-step, then revise if needed”), 최소 pair 수 (200 pairs/model), fallback 전략 (수정 비율 < 10% 시 Track A 단독 사용) 명시.
-
Du et al. (2026) 인용 누락 → 수정: 선행연구 #19 + 참고문헌 #24 추가. Self-reflection의 layer-wise meta-cognitive trajectory 분석 — DV9 layer-wise SRV 분석의 직접 선행.
-
Hazimeh et al. (2025) 인용 누락 → 수정: 선행연구 #20 + 참고문헌 #25 추가. Weight disentanglement 대안 설명 — random task pair baseline 비교의 추가 동기.
-
Ban & Ji (2025) 인용 누락 (LoRA A matrix artifact) → 수정: 선행연구 #21 + 참고문헌 #26 추가. A matrix similarity가 initialization artifact일 가능성 → DV6 보조 분석에 B-matrix-only cosine similarity 추가.
11. 참고 문헌 (References)
핵심 참고 문헌
- Wu et al. (2025). “How large language models encode theory-of-mind: a study on sparse parameter patterns.” Nature Machine Intelligence.
- Chen et al. (2025). “From Imitation to Introspection: Probing Self-Consciousness in Language Models.” ACL 2025 Findings.
- Ji-An et al. (2025). “Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations.” NeurIPS 2025.
- Cui et al. (2025). “MetaMind: Modeling Human Social Thoughts with Metacognitive Multi-Agent Systems.” NeurIPS 2025 Spotlight.
- Binder et al. (2025). “Looking Inward: Language Models Can Learn About Themselves by Introspection.” ICLR 2025.
- Lindsey et al. (2025). “Emergent Introspective Awareness in Large Language Models.” Anthropic.
- Zhu et al. (2026). “From Emergence to Control: Probing and Modulating Self-Reflection in Language Models.” arXiv:2506.12217.
- Chen et al. (2024). “TOM BENCH: Benchmarking Theory of Mind in Large Language Models.” ACL 2024.
- Xu et al. (2024). “OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning.” ACL 2024.
- Kadavath et al. (2022). “Language Models (Mostly) Know What They Know.” arXiv.
- Yin et al. (2023). “Do Large Language Models Know What They Don’t Know?” ACL Findings.
- Lombardo et al. (2010). “Shared Neural Circuits for Mentalizing about the Self and Others.” Journal of Cognitive Neuroscience.
- Dehaene et al. (2017). “What is consciousness, and could machines have it?” Science.
방법론 참고 문헌
- Hu et al. (2021). “LoRA: Low-Rank Adaptation of Large Language Models.” ICLR 2022.
- Baron & Kenny (1986). “The Moderator-Mediator Variable Distinction in Social Psychological Research.” JSPSP.
- Preacher & Hayes (2008). “Asymptotic and resampling strategies for assessing and comparing indirect effects in multiple mediator models.” Behavior Research Methods.
- Kriegeskorte et al. (2008). “Representational Similarity Analysis.” Frontiers in Systems Neuroscience.
- Arturi et al. (2025). “Shared Parameter Subspaces and Cross-Task Linearity in Emergently Misaligned Behavior.” NeurIPS 2025 Mechanistic Interpretability Workshop. arXiv:2511.02022.
- Steyvers et al. (2025). “Improving Metacognition and Uncertainty Communication in Language Models.” arXiv:2510.05126.
- Dymkiewicz et al. (2025). “Donors and Recipients: On Asymmetric Transfer Across Tasks and Languages with Parameter-Efficient Fine-Tuning.” arXiv:2511.13368.
- Lu et al. (2025). “Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models?” arXiv:2504.01698.
- Hayes, A. F. (2017). “Introduction to Mediation, Moderation, and Conditional Process Analysis.” Guilford Press.
- Kryvosheieva, D., de Varda, A., Fedorenko, E., & Tuckute, G. (2025). “Different types of syntactic agreement recruit the same units within large language models.” arXiv:2512.03676.
- Du, Y., Gao, Y., Zhao, S., Li, J., Wang, H., Lin, Q., He, K., Qin, B., & Feng, M. (2026). “From Latent Signals to Reflection Behavior: Tracing Meta-Cognitive Activation Trajectory in R1-Style LLMs.” arXiv:2602.01999.
- Hazimeh, A., Favero, A., & Frossard, P. (2025). “Task Addition and Weight Disentanglement in Closed-Vocabulary Models.” arXiv:2511.14569.
- Ban, H., & Ji, K. (2025). “Rethinking Parameter Sharing for LLM Fine-Tuning with Multiple LoRAs.” arXiv:2509.25414.