SC-TOM 종합 실험 보고서

Self-Consciousness and Theory of Mind: Neural Activation Overlap in LLMs
최종 업데이트: 2026-03-09


목차

  1. 프로젝트 개요
  2. 데이터셋
  3. 실험 설계
  4. Performance Analysis (Cross-Evaluation)
  5. Parameter-Level Similarity Analysis (Cosine Similarity)
  6. Conclusion

1. 프로젝트 개요

1.1 연구 가설

인간 뇌과학에서 Theory of Mind(ToM)과 Self-Awareness(Self)는 기본 모드 네트워크(default mode network)의 고차 영역에서 신경 활성화를 공유한다. 본 연구는 LLM에서도 ToM과 Self-Awareness 간에 유사한 표상 공유 패턴이 존재하는지 검증한다.

핵심 질문: ToM task(ExploreToM)와 Self-Awareness task(SelfAware)에 대해 각각 LoRA fine-tuning한 adapter의 weight delta가, 무관한 control task(GSM8K, MBPP 등)의 adapter 쌍보다 높은 cosine similarity를 보이는가?

1.2 방법론 요약

[Step 1] 데이터셋 준비
    - Treatment: ExploreToM (ToM), SelfAware (Self-Awareness)
    - Control: GSM8K (수학), TriviaQA (상식 QA), MBPP (코드 생성) 등

[Step 2] LoRA/QLoRA SFT
    - 동일 hyperparameter로 각 task별 독립 adapter 학습
    - 모델: Llama 3.2 1B/3B, Llama 3.1 8B (bf16 / 4-bit QLoRA)

[Step 3] Cross-Evaluation
    - 각 adapter를 모든 task에서 평가 → N×M accuracy matrix
    - In-domain 향상, cross-domain forgetting, 전이 패턴 분석

[Step 4] Cosine Similarity Analysis
    - LoRA fused delta (Δ_W = lora_a @ lora_b) layer별 cosine similarity
    - Permutation test (비모수 검정) + Cohen's d (효과 크기)
    - 4-pair (TriviaQA 제외, data leakage) / 5-pair (전체) 분석

1.3 실험 환경

항목
Primary backendMLX (Apple Silicon, M-series)
Secondary backendCUDA (PyTorch, RTX 3060 12GB)
Python3.12
프레임워크mlx-lm, transformers, bitsandbytes
실험 기간2026-02-18 ~ 2026-03-05 (11 sessions)
총 체크포인트35개 완료 + 4개 불완전

2. 데이터셋

2.1 Treatment 조건

ExploreToM (Theory of Mind)

항목
출처ExploreToM benchmark (ExploreToM.csv)
규모Train ~11,840 / Valid+Test 1,330
형식이야기 구조 + 질문 (belief tracking, false belief, location tracking)
질문 유형yes/no belief, 2nd-order knowledge, location belief, object belief 등
답변 형식짧은 명사구 (장소명, 용기명), yes/no, belief state 구문

샘플:

Story: “Sophia entered the kitchen. Sophia put the apple in the basket. Sophia exited the kitchen. James entered the kitchen. James moved the apple to the drawer.”
Q: “Where does Sophia think the apple is?”
A: “basket”

SelfAware (Self-Awareness)

항목
출처SelfAware Data.json
형식질문 + 답변 가능 여부 판별
핵심 능력”모르는 것을 모른다고 말하기” (IDK 판별)
답변 형식짧은 사실 응답 (90.1%가 1-3단어 명사/구) 또는 IDK

샘플:

Q: “What is the colored part of the eye called?”
A: “iris”

Q: “What is the cure for cancer?”
A: “I don’t know the answer to this question.”

2.2 Control 조건

데이터셋유형규모 (train)선정 이유
GSM8K수학 추론6,725ToM/Self와 무관한 수리 능력, chain-of-thought 추론
TriviaQA상식 QA6,300사실 지식 검색, 짧은 답변 형식
MBPP코드 생성877완전히 이질적인 출력 형식 (Python 코드)
CommonsenseQA상식 추론 (5지선다)~9,7001B/3B 추가 control (Session 11)
ARC과학 추론 (4지선다)~1,1001B 추가 control (Session 11)

추가 평가 전용 태스크 (학습 없이 cross-eval에만 사용)

태스크샘플 수유형
HumanEval+16코드 생성
MBPP+37코드 생성 (강화판)
BoolQ943Yes/No QA

2.3 SelfAware 데이터 버전 히스토리

SelfAware 데이터셋은 shortcut learning 문제를 해결하기 위해 4차례 개정되었다.

버전Train 크기IDK 비율주요 변경사용 세션
selfaware (v1, 원본)3,032~31.1% (944개)원본. 전체 IDK가 동일 문자열 "I don't know the answer to this question."Session 1, 2, 3, Run 4 (CUDA)
selfaware-edited (v2)2,198~5.0% (110개)IDK 비율 축소 (random subsample seed=42). Non-IDK 2,088개 전체 유지Session 4, 5, 6
selfaware-edited-2 (v3)~2,198~2.6%IDK 20개 변형 (다양한 거절 표현), GRPO reward function 설계Session 7, 8
selfaware-v4 (최종)최종 정제 버전Session 9, 10, 11

버전 변경 동기:

  • v1→v2: Train 데이터 31.1%가 동일 IDK 문자열 → 1B에서 GSM8K IDK 100%, MBPP IDK 93.8% (shortcut learning). IDK 비율 5%로 축소 후 GSM8K IDK 1.6%, MBPP IDK 26.8%로 개선 — 인과적 확인 완료
  • v2→v3: IDK 표현 다양화 (20개 변형), GRPO 학습 시도를 위한 reward function 설계
  • v3→v4: 최종 정제. Session 9~11에서 1B/3B/8B 전 모델에 적용

2.4 TriviaQA 데이터 버전

버전변경 내용사용 세션
TriviaQA (원본)원본 6,300건Session 1~5
TriviaQA-v2SelfAware와의 data leakage 49개 (exact duplicate 43+6개) 제거Session 11

2.5 Treatment vs Control 선정 근거

조건태스크이유
TreatmentExploreToMToM 능력 (belief tracking, false belief reasoning) 직접 측정
TreatmentSelfAwareSelf-Awareness 능력 (메타인지, IDK 판별) 직접 측정
ControlGSM8K수학적 추론 — ToM/Self와 무관한 인지 능력
ControlTriviaQA사실 지식 검색 — 추론보다 기억 의존
ControlMBPP코드 생성 — 완전히 이질적인 출력 형식
ConfoundTriviaQA⚠️ SelfAware와 49개 동일 질문 공유 (data leakage 확인) → 4-pair 분석에서 제외

2.6 데이터셋 비유사성 분석

리뷰어 반론 “ExploreToM-SelfAware adapter의 높은 cosine similarity가 데이터셋 유사성에서 비롯된다”를 정량적으로 반박하기 위해, 12개 데이터셋(ExploreToM, SelfAware v1~v4, GSM8K, TriviaQA-v2, ARC, CommonsenseQA, BoolQ, Ethics, PIQA)에 대해 SimCSE 임베딩 기반 의미적 비유사성 + 어휘적/구조적/주제적 비유사성을 측정하였다. SelfAware 4개 버전 전체를 분석하여 version-invariant 결론을 확보.

ExploreToM-vs-All 요약

PairCentroid Dist.Vocab Jaccard1-gram JSD2-gram JSDTopic JSD
ExploreToM ↔ SelfAware-v10.9450.0930.6230.7960.655
ExploreToM ↔ Ethics0.9380.1550.6000.7810.773
ExploreToM ↔ SelfAware-v20.9320.0950.6250.7970.658
ExploreToM ↔ SelfAware-v30.9320.0950.6250.7970.658
ExploreToM ↔ SelfAware-v40.9320.0950.6250.7970.658
ExploreToM ↔ ARC0.9210.1110.6060.7850.686
ExploreToM ↔ PIQA0.8420.1270.6220.7900.766
ExploreToM ↔ TriviaQA0.8370.0810.6300.7950.674
ExploreToM ↔ GSM8K0.8330.1150.6180.7910.730
ExploreToM ↔ CommonsenseQA0.8060.1100.6130.7920.642
ExploreToM ↔ BoolQ0.7310.1270.5830.7770.734

★ = 전체 #1 (가장 비유사)

SelfAware v1~v4-vs-ExploreToM 요약 (양방향 × version-invariant 검증)

기준Centroid Dist.1-gram JSD2-gram JSDTopic JSDExploreToM 순위
v1 기준0.945 ★0.623 ★0.796 ★0.655#1
v2 기준0.932 ★0.625 ★0.797 ★0.658#1
v3 기준0.932 ★0.625 ★0.797 ★0.658#1
v4 기준0.932 ★0.625 ★0.797 ★0.658#1

★ = 해당 버전 기준 전체 #1. 모든 버전에서 ExploreToM이 가장 비유사한 쌍.

핵심 발견:

  • ExploreToM-SelfAware는 4개 버전 모두 centroid distance 0.932~0.945로 최상위 (#1~#3), bigram JSD(0.796~0.797)는 전체 #1~#2
  • 어휘 중복(Jaccard 0.093~0.095)도 최하위 수준
  • 양방향 × 4개 버전 확인: SelfAware v1~v4 모든 기준에서 ExploreToM이 centroid distance #1, 1-gram JSD #1, 2-gram JSD #1 → version-invariant 결론
  • 가장 비유사한 두 데이터셋의 adapter가 가장 유사한 weight delta를 보인다 → 데이터 유사성 가설 기각, SC-TOM 가설 강화

전체 분석 보고서 | 생성 Figure: results/dissimilarity/fig1~fig7


3. 실험 설계

3.1 모델 구성

모델파라미터양자화LoRA 유형Backend사용 세션
Llama 3.2 1B Instruct1.2Bbf16LoRAMLXSession 2, 3, 4
Llama 3.2 1B Instruct1.2B4-bit (NF4)QLoRAMLXSession 9, 11
Llama 3.2 3B Instruct3.2Bbf16LoRAMLXSession 1
Llama 3.2 3B Instruct3.2B4-bit (NF4)QLoRAMLXSession 6, 9, 11
Llama 3.1 8B Instruct8.0B4-bit (NF4)QLoRAMLXSession 5, 7, 10
Llama 3.1 8B Instruct8.0Bbf16LoRA (r16)MLXSession 8
Llama 3.1 8B Instruct8.0B4-bit (NF4)QLoRACUDA (PyTorch)Run 4
DeepSeek-R1-Distill-Llama-8B8.0B4-bit (NF4)QLoRAMLXSession 10

3.2 하이퍼파라미터

5개 task에 동일한 hyperparameter를 적용하여, adapter 간 cosine similarity 차이가 hyperparameter artifact가 아닌 task-level 표상 공유에서 기인함을 보장하는 것이 핵심 설계 원칙.

HyperparameterJustification
Learning rate2e-4LoRA 표준 범위 중간값 (Raschka, 2023; Lightning AI, 2023)
LR scheduleCosine decay + 5% warmupLLM FT 표준 (Loshchilov & Hutter, 2017). 모든 task에 동일 학습 역학 부여
LoRA rank8Hu et al. (2021) 기본값. “ΔW has a very small intrinsic rank”
LoRA scale (α)1.0 (effective α=8)Conservative — cosine sim이 방향(direction)을 반영하도록 magnitude 억제
LoRA dropout0.05Mild regularization (Lin et al., 2024). Sparsity regularizer 역할
Target layersAll (-1)모든 linear layer에 적용 (Dettmers et al., 2023). 전층 분석에 필수
Epochs1 (SelfAware 1B만 3)Overfitting 방지; task 간 통일. 1B SelfAware만 소규모 데이터 보완
Effective batch16Moderate; 모델 간 동일 (micro-batch × grad_accumulation)

예외: Session 8 (8B bf16 r16)은 rank=16, scale=0.5, dropout=0.08, LR=1.5e-4로 변경 실험. Session 10의 두 번째 variant는 LR=1.2e-4 (lr_end_ratio 제거).

3.3 SFT vs GRPO 결정

5개 benchmark를 학습하는 방법으로 SFT와 GRPO(Group Relative Policy Optimization)를 비교 검토한 결과, All SFT 유지를 결정.

결정 근거:

  1. 실험 통일성 (결정적): 5개 task에 동일한 학습 조건 적용이 핵심 전제. SelfAware에 GRPO 적용 불가 → 전체 GRPO 통일 불가. 혼합 시 “유사도가 높은 건 둘 다 SFT라서”라는 confound 발생
  2. SelfAware의 GRPO 불가: “이 질문에 답할 수 있는가?”의 자동 reward function 정의가 구조적으로 불가
  3. 이미 충분한 결과: SFT로 global permutation test p < 0.001, 32/32 layers significant (8B), Cohen’s d > 1.0 (3B) 달성
  4. 실질적 제약: MLX에서 GRPO 미지원; 계산 비용 4~16× 증가 예상
BenchmarkGRPO 적합도이유
GSM8K★★★최종 숫자 exact match — canonical use case
MBPP★★★Test case pass/fail — binary reward
TriviaQA★★Answer match 가능하나 탐색 공간 좁음
ExploreToM다양한 answer format → reward 설계 복잡
SelfAware자동 reward 정의 불가

3.4 체크포인트 레지스트리

총 11 sessions, 35개 완료 체크포인트 + 4개 불완전. Effective batch size는 모든 경우 16.

Session 1: 3B bf16 (2026-02-18)

CheckpointBase ModelQuantRankLRDataDuration
mlx-lora-exploretom/20260218_104723Llama-3.2-3B-bf16bf1682e-4exploretom238min
mlx-lora-selfaware/20260218_155336Llama-3.2-3B-bf16bf1682e-4selfaware8min
mlx-lora-gsm8k/20260218_164927Llama-3.2-3B-bf16bf1682e-4gsm8k74min
mlx-lora-triviaqa/20260218_200753Llama-3.2-3B-bf16bf1682e-4triviaqa26min
mlx-lora-mbpp/20260218_222920Llama-3.2-3B-bf16bf1682e-4mbpp<1min

Session 2: 1B bf16 (2026-02-19 #1)

CheckpointBase ModelQuantRankLRDataDuration
mlx-lora-exploretom/20260219_001856Llama-3.2-1B-bf16bf1682e-4exploretom72min
mlx-lora-selfaware/20260219_001856Llama-3.2-1B-bf16bf1682e-4selfaware12min
mlx-lora-gsm8k/20260219_001856Llama-3.2-1B-bf16bf1682e-4gsm8k23min
mlx-lora-triviaqa/20260219_001856Llama-3.2-1B-bf16bf1682e-4triviaqa8min
mlx-lora-mbpp/20260219_001856Llama-3.2-1B-bf16bf1682e-4mbpp<1min

Session 3: 1B bf16 Repeat (2026-02-19 #2)

Session 2와 동일 config (재현성 검증). Timestamp: 20260219_234546.

Session 4: 1B bf16 SelfAware-Edited (2026-02-20)

CheckpointBase ModelQuantRankLRDataDuration
mlx-lora-selfaware-edited/20260220_221232Llama-3.2-1B-bf16bf1682e-4selfaware-v29min

Shortcut learning 인과 확인을 위한 단일 adapter 실험.

Session 5: 8B 4-bit QLoRA (2026-02-21)

CheckpointBase ModelQuantRankLRDataDuration
mlx-qlora-exploretom/20260221_002706Llama-3.1-8B-4bit4bit82e-4exploretom722min
mlx-qlora-selfaware-edited/20260221_002706Llama-3.1-8B-4bit4bit82e-4selfaware-v29min
mlx-qlora-gsm8k/20260221_002706Llama-3.1-8B-4bit4bit82e-4gsm8k228min
mlx-qlora-triviaqa/20260221_002706Llama-3.1-8B-4bit4bit82e-4triviaqa74min
mlx-qlora-mbpp/20260221_002706Llama-3.1-8B-4bit4bit82e-4mbpp<1min

lr_end_ratio=0.1 적용. 총 소요 ~28시간.

Session 6: 3B 4-bit SelfAware-Edited (2026-02-22)

단일 adapter: mlx-qlora-selfaware-edited/20260222_234559 (3B 4bit, selfaware-v2, 6min)

Session 7: 8B 4-bit SelfAware-Edited-2 (2026-02-23)

단일 adapter: mlx-qlora-selfaware-edited-2/20260223_234150 (8B 4bit r8, selfaware-v3, 12min)

Session 8: 8B bf16 LoRA r16 SelfAware-Edited-2 (2026-02-25)

단일 adapter: mlx-lora-selfaware-edited-2/20260225_130700 (8B bf16, rank=16, scale=0.5, dropout=0.08, LR=1.5e-4, selfaware-v3, 9min)

Quantization 비교 실험: bf16 LoRA r16 vs 4bit QLoRA r16 (후자는 OOM crash로 불완전)

Session 9: 1B/3B 4-bit SelfAware-v4 + ExploreToM (2026-03-03)

CheckpointBase ModelQuantRankLRDataDuration
mlx-qlora-selfaware-v4/20260303_163207Llama-3.2-1B-4bit4bit82e-4selfaware-v412min
mlx-qlora-selfaware-v4/20260303_170445Llama-3.2-3B-4bit4bit82e-4selfaware-v43min
mlx-qlora-exploretom/20260303_175328Llama-3.2-1B-4bit4bit82e-4exploretom105min

Session 10: 8B 4-bit SelfAware-v4 Variants (2026-03-04)

CheckpointBase ModelQuantRankLRDataDuration
mlx-qlora-selfaware-v4/20260304_111631Llama-3.1-8B-4bit4bit82e-4 (end=0.1)selfaware-v48min
mlx-qlora-selfaware-v4/20260304_134246Llama-3.1-8B-4bit4bit81.2e-4selfaware-v48min
mlx-qlora-selfaware-v4/20260304_205901DeepSeek-R1-Distill-8B-4bit4bit81.2e-4selfaware-v46min

Session 11: 1B/3B 4-bit Control Tasks (2026-03-05)

CheckpointBase ModelQuantRankLRDataDuration
mlx-qlora-triviaqa-v2/20260305_102156Llama-3.2-1B-4bit4bit82e-4triviaqa-v28min
mlx-qlora-commonsenseqa/20260305_105002Llama-3.2-1B-4bit4bit82e-4commonsenseqa14min
mlx-qlora-arc/20260305_112220Llama-3.2-1B-4bit4bit82e-4arc1min
mlx-qlora-triviaqa-v2/20260305_114137Llama-3.2-3B-4bit4bit82e-4triviaqa-v231min
mlx-qlora-commonsenseqa/20260305_133046Llama-3.2-3B-4bit4bit82e-4commonsenseqa47min

Run 4: 8B CUDA (2026-02-20, PyTorch)

CheckpointBase ModelQuantBackendLRData
20260220_124630 (5 adapters)Llama-3.1-8B4bit NF4CUDA (RTX 3060)2e-4ExploreToM, SelfAware(원본), GSM8K, TriviaQA, MBPP

MLX Run 3과의 backend 비교 목적. 원본 SelfAware (IDK 31%) 사용.

Incomplete Checkpoints

CheckpointNotes
mlx-qlora-commonsenseqa/20260305_125422Config 없음
mlx-qlora-exploretom/20260303_145327Config 없음
mlx-qlora-mbpp/20260223_105639Config 없음
mlx-qlora-selfaware-edited-2/20260225_152202Config 없음 (8B 4bit r16, OOM crash). best ckpt 존재, cross-eval 결과 있음

4. Performance Analysis (Cross-Evaluation)

각 adapter(행)를 모든 평가 task(열)에서 측정한 accuracy. In-domain 결과는 bold.

4.1 Baseline Performance

Llama-3.2-3B-Instruct (bf16) — Session 1 Baseline

ExploreToMSelfAwareGSM8KTriviaQA
32.4%27.9%†76.6%47.4%

† SelfAware Baseline 재평가 (strict 12.8% → lenient 27.9%): 337개 전체 수동 검토, 57건 변경 (F→T 54건, T→F 3건).

Llama-3.2-1B-Instruct (bf16) — Baseline (20260303)

ExploreToMSelfAwareGSM8KTriviaQAHumanEval+MBPP+
43.5%17.2%54.9%40.9%50.0%48.6%

Llama-3.2-1B-Instruct (4-bit) — Baseline (20260303)

ExploreToMSelfAwareGSM8KTriviaQAHumanEval+MBPP+
44.4%19.9%40.4%31.3%43.8%32.4%

Llama-3.2-3B-Instruct (4-bit) — Baseline (20260303)

ExploreToMSelfAwareGSM8KTriviaQAHumanEval+MBPP+
33.2%22.6%75.1%46.6%50.0%48.6%

Llama-3.1-8B-Instruct (4-bit) — Baseline (20260222)

ExploreToMSelfAwareGSM8KTriviaQAMBPP
35.5%17.2%66.6%61.9%60.8%

Llama-3.1-8B-Instruct (4-bit) — Extended Baseline (20260304)

ExploreToMSelfAwareGSM8KTriviaQAHumanEval+MBPP+ARCBoolQCSQA
34.1%24.9%77.0%59.4%62.5%70.3%9.3%65.3%21.5%

DeepSeek-R1-Distill-Llama-8B (4-bit) — Baseline (20260304)

ExploreToMSelfAwareGSM8KTriviaQAHumanEval+MBPP+ARCBoolQCSQA
24.6%32.0%13.0%14.4%0.0%16.2%0.8%1.4%6.9%

DeepSeek의 낮은 점수는 <think> token이 응답 예산을 소진하여 실제 답변이 truncate되는 문제. 모델 능력이 아닌 평가 형식 문제로 판단 → Llama 3.1 8B를 primary 8B 모델로 채택.

4.2 Cross-Eval Matrices (Session 1~11)

Session 1: 3B bf16

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAMBPP
exploretom88.6%9.8%8.3%45.0%
selfaware26.8%34.7%0.1%41.7%
gsm8k50.0%15.4%75.0%54.6%
triviaqa59.0%11.3%12.2%48.4%
mbpp45.9%13.4%36.8%†52.0%51.5%

† GSM8K 열은 regex 버그 수정 후 재평가된 값. Baseline: 76.6%, MBPP→GSM8K: 36.8%→74.1% 수정.

Session 2: 1B bf16

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAMBPP
exploretom84.3%5.3%2.5%24.9%25.8%
selfaware23.0%32.3%0.0%16.7%1.0%
gsm8k42.8%11.3%51.7%38.1%33.0%
triviaqa51.1%6.8%4.3%31.3%3.1%
mbpp30.3%11.0%33.2%36.7%36.1%

Session 3: 1B bf16 Repeat

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAMBPP
exploretom84.1%5.9%2.3%25.1%24.7%
selfaware25.1%32.0%0.0%16.7%0.0%
gsm8k40.6%11.3%50.8%37.9%33.0%
triviaqa44.6%6.5%3.7%31.3%6.2%
mbpp33.1%11.6%34.6%36.9%38.1%

Session 2와 높은 재현성 확인 (ExploreToM: 84.3% vs 84.1%, SelfAware: 32.3% vs 32.0%).

Session 4: 1B bf16 SelfAware-Edited (selfaware-v2)

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAMBPP
selfaware-edited26.8%25.2%2.9%19.4%0.0%

Session 5: 8B 4-bit QLoRA (Run 3)

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAMBPP
exploretom91.0%11.9%9.8%46.6%57.7%
selfaware-edited36.5%29.7%11.4%48.4%28.9%
gsm8k42.5%13.4%77.0%60.3%61.9%
triviaqa66.0%12.2%15.9%57.4%58.8%
mbpp40.9%12.8%29.9%60.3%51.5%

Session 6: 3B 4-bit SelfAware-Edited

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAMBPP
selfaware-edited30.7%29.7%3.2%37.1%40.2%

Session 7: 8B 4-bit SelfAware-Edited-2 (v3)

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAMBPPHumanEval
selfaware-edited-232.1%21.1%9.1%53.1%28.9%0.0%

Session 8: 8B bf16 LoRA r16 SelfAware-Edited-2

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAMBPPHumanEval
selfaware-edited-231.1%15.7%10.0%51.7%17.5%3.1%

Incomplete: 8B 4-bit r16 SelfAware-Edited-2

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAMBPPHumanEval
selfaware-edited-232.4%12.5%10.7%51.9%50.5%34.4%

Quantization 비교 (Session 8 vs Incomplete): bf16 r16은 MBPP 17.5%, HumanEval 3.1% → 코드 능력 심각 하락. 4bit r16은 MBPP 50.5%, HumanEval 34.4% → 코드 능력 대폭 보존. 4-bit QLoRA가 base model capability를 더 잘 보존.

Session 9: 1B/3B 4-bit SelfAware-v4 + ExploreToM

1B SelfAware-v4:

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAHumanEval+MBPP+
selfaware-v443.6%26.1%6.4%32.8%0.0%0.0%

3B SelfAware-v4:

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAHumanEval+MBPP+
selfaware-v462.8%30.3%32.7%48.9%0.0%0.0%

1B ExploreToM:

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAHumanEval+MBPP+
exploretom87.1%2.7%3.9%21.2%0.0%0.0%

Session 10: 8B 4-bit SelfAware-v4 Variants

Llama 8B, LR=2e-4, End LR=0.1:

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAHumanEval+MBPP+
selfaware-v448.8%35.6%18.7%56.1%0.0%0.0%

Llama 8B, LR=1.2e-4 (primary):

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAHumanEval+MBPP+ARCBoolQCSQA
selfaware-v458.9%34.4%33.7%55.8%0.0%0.0%6.6%12.8%20.8%

DeepSeek-R1-Distill 8B, LR=1.2e-4:

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAHumanEval+MBPP+ARCBoolQCSQA
selfaware-v466.2%14.5%6.2%33.4%0.0%0.0%5.4%71.3%13.8%

Session 11: 1B/3B 4-bit Control Tasks

1B TriviaQA-v2:

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAHumanEval+MBPP+ARCBoolQCSQA
triviaqa-v266.7%4.2%4.6%29.4%12.5%8.1%2.7%46.9%10.7%

1B CommonsenseQA:

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAHumanEval+MBPP+ARCBoolQCSQA
commonsenseqa28.9%2.4%2.3%20.0%0.0%0.0%2.7%3.0%17.5%

1B ARC:

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAHumanEval+MBPP+ARCBoolQCSQA
arc38.0%3.0%5.5%21.2%12.5%13.5%4.6%54.6%11.5%

3B TriviaQA-v2:

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAHumanEval+MBPP+ARCBoolQCSQA
triviaqa-v256.5%5.9%10.8%44.3%31.2%45.9%5.0%72.6%15.8%

3B CommonsenseQA:

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAHumanEval+MBPP+ARCBoolQCSQA
commonsenseqa45.8%4.2%4.8%33.5%0.0%0.0%3.5%62.0%24.5%

Run 4: 8B CUDA (PyTorch, 원본 SelfAware)

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAMBPP
Baseline33.8%16.6%59.8%⚠️60.6%59.8%
exploretom92.3%11.9%14.6%⚠️56.4%63.9%
selfaware28.4%39.8%0.0%⚠️51.1%43.3%
gsm8k45.5%14.5%**80.0%**⚠️59.4%68.0%
triviaqa66.3%13.4%16.3%⚠️57.4%57.7%
mbpp60.4%13.1%44.7%⚠️59.9%63.9%

⚠️ GSM8K 열은 regex 버그 수정 전 결과. Prediction 파일 미보유로 재평가 불가.
원본 SelfAware (IDK 31%) 사용. SelfAware→GSM8K=0.0%은 shortcut learning 증거.

4.3 분석: In-domain 향상과 Cross-domain Forgetting

In-domain 향상

대부분의 adapter가 자기 도메인에서 baseline 대비 향상을 보인다:

Task1B3B8B비고
ExploreToM0.840.890.91모든 크기에서 강한 향상
SelfAware (IDK F1)70.1%77.6%76.8%크기에 따라 F1 향상
GSM8K0.520.750.77Baseline 유지/향상

Cross-domain Catastrophic Forgetting

Adapter → Eval1B3B8B패턴
SelfAware → GSM8K0.0%0.13%11.4%소형 모델에서 완전 망각
SelfAware → HumanEval+0.0%0.0%0.0%전 크기 완전 소실
SelfAware → MBPP+1.0%0.0%0.0%전 크기 완전 소실
ExploreToM → GSM8K2.5%8.3%9.8%크기와 함께 소폭 완화

코드 생성 완전 소실: 1B/3B/8B 전 모델에서 SelfAware adapter 적용 시 HumanEvalPlus/MBPP+ 모두 0%. Adapter가 코드 대신 함수 기능에 대한 자연어 설명을 생성하는 catastrophic forgetting 패턴이 모든 모델 크기에서 동일하게 재현됨.

수학 추론 급락: GSM8K 정답률이 1B -34.0pp, 3B -42.4pp, 8B -43.2pp 하락. Chain-of-thought가 ~600자 → ~215자로 축소되며 단계적 추론 능력이 약화.


4.4 Shortcut Learning과 SelfAware 버전 개선

원본 SelfAware (v1, IDK 31.1%)의 Shortcut Learning

원본 SelfAware 데이터셋은 IDK 비율이 31.1% (3,032건 중 ~943건)로, adapter가 “무조건 IDK 출력” 전략을 학습하는 shortcut learning 문제를 야기했다.

증거 — GSM8K IDK 거부:

SelfAware 버전GSM8K에서 IDK 출력 수GSM8K IDK 출력 비율GSM8K 정답률
v1 (원본, IDK 31.1%)748/748100%0.0%
v2 (edited, IDK 5.0%)12/7481.6%11.4%

v1 adapter는 GSM8K 747문제 전부를 IDK로 거부 — 수학 문제를 풀 수 있음에도 “답할 수 없다”고 응답. 이는 IDK 패턴의 과잉 일반화(shortcut)의 극단적 증거.

인과 확인: v1→v2에서 IDK 비율만 변경(31.1%→5.0%)하고 나머지 데이터/하이퍼파라미터를 동일하게 유지했을 때, GSM8K IDK 거부가 100%→1.6%로 급감. 이는 shortcut learning의 원인이 IDK 데이터 비율에 있음을 인과적으로 확인.

SelfAware-v4의 IDK 거부율 비교

SelfAware-v4 (IDK 2.6%, 20종 IDK 변형 포함)로 학습한 adapter에서도 GSM8K IDK 거부가 잔존하지만 대폭 감소:

모델SelfAware-v4 → GSM8K IDK 거부율GSM8K 정답률
1B14.7% (103/699)6.4%
3B5.8% (29/503)32.7%
8B3.6% (18/495)33.7%

모델 크기가 클수록 IDK 과잉 일반화가 억제됨 (1B 14.7% → 8B 3.6%). 그러나 GSM8K 하락의 주 원인은 IDK 거부보다 chain-of-thought 축소 (~600자 → ~215자)에 의한 추론 능력 약화.


4.5 ExploreToM 전이 효과와 모델 크기

SelfAware-v4 adapter가 ExploreToM(ToM 태스크)에 미치는 전이 효과는 모델 크기에 따라 질적으로 다르다:

모델BaselineSelfAware-v4Δ해석
1B44.4%43.6%-0.8pp변화 없음 (유지)
3B33.2%62.8%+29.6pp극적 향상
8B34.1%58.9%+24.9pp강한 향상

핵심 발견: 1B에서는 관찰되지 않던 SelfAware→ExploreToM 전이가 3B/8B에서 극적으로 나타남. 이는 SC-TOM 가설(Self-Awareness와 ToM 간의 표상 공유)을 행동 수준에서 지지하는 핵심 증거.

용량 가설: 1B 모델은 제한된 파라미터 공간에서 SelfAware 학습의 긍정적 전이가 catastrophic forgetting에 의해 상쇄됨. 3B/8B에서는 충분한 파라미터 공간으로 “질문의 전제 확인 → 답변 가능성 판단” 패턴이 belief tracking에 긍정적으로 전이.

8B vs 3B: 8B Δ(+24.9pp)가 3B Δ(+29.6pp)보다 작은 것은 8B baseline(34.1%)이 3B baseline(33.2%)보다 이미 높아 추가 효과가 상대적으로 작기 때문일 수 있음 (ceiling effect).


4.6 IDK F1 / Confusion Matrix 비교 (1B/3B/8B)

SelfAware-v4 adapter의 IDK 탐지 능력을 모델 크기별로 비교한다.

IDK F1 종합표

지표1B QLoRA3B QLoRA8B QLoRA8B Baseline
IDK F170.1%77.6%76.8%50.0%
IDK Precision85.9%88.8%86.6%56.8%
IDK Recall59.2%68.9%68.9%44.7%
IDK 생성 수71808281
답변 가능 정답률11.5%13.2%19.2%16.2%

Confusion Matrix (IDK 분류)

분류1B3B8B
True Positive (정확한 IDK)617171
False Positive (오판 IDK)10911
False Negative (놓친 IDK)423232
True Negative (정확한 답변)224225223

패턴 분석:

  • Precision: 1B 85.9% → 3B 88.8% → 8B 86.6%. 3B가 가장 높은 precision을 보임
  • Recall: 1B 59.2% → 3B/8B 68.9%. 3B 이상에서 recall이 수렴
  • F1: 1B(70.1%) < 8B(76.8%) ≈ 3B(77.6%). 모델 크기에 따른 향상이 3B에서 포화
  • False Positive 억제: 3개 모델 모두 FP 9~11건으로 낮음 — IDK를 무분별하게 남발하지 않음
  • 답변 가능 정답률: 1B 11.5% → 3B 13.2% → 8B 19.2%. 큰 모델일수록 IDK 학습이 답변 능력을 덜 해침

4.7 응답 스타일 전이와 Goldilocks Zone

Style Transfer (응답 길이 수렴)

SelfAware-v4 adapter는 모든 태스크에서 응답 길이를 ~200–250자 범위로 수렴시키는 강한 style transfer를 보인다:

태스크1B Baseline→V43B Baseline→V48B Baseline→V4
GSM8K597→220 (×0.4)593→213 (×0.4)618→214 (×0.3)
HumanEval+1503→207 (×0.1)1329→219 (×0.2)1380→228 (×0.2)
MBPP+917→200 (×0.2)934→215 (×0.2)771→212 (×0.3)
TriviaQA140→214 (×1.5)134→216 (×1.6)140→218 (×1.6)
ExploreToM122→260 (×2.1)187→243 (×1.3)229→250 (×1.1)

코드/수학 태스크는 응답이 크게 단축되고, QA 태스크는 오히려 길어지며, 전체적으로 ~200–250자 범위로 수렴.

ExploreToM IDK Format Mismatch

ExploreToM adapter → SelfAware 평가에서, IDK-expected 질문에 대한 응답 패턴:

항목결과
IDK 기대 질문 수88/337
IDK 생성 수0 (Baseline: 3)
응답 형식짧은 명사구/단어 (평균 10자)

ExploreToM 학습 데이터에는 IDK 패턴이 없으므로, adapter가 모든 질문에 짧은 사실형 답변을 시도. 답할 수 없는 질문(“Why does every rule have exceptions?“)에도 “human nature”와 같은 1-2단어 응답을 생성.

비대칭 전이 (8B)

방향Adapter → Task점수Δ vs Baseline
Self → ToMSelfAware-ed → ExploreToM36.5%+3%
ToM → SelfExploreToM → SelfAware11.9%−31%

Self→ToM은 약한 양성 전이, ToM→Self는 강한 음성 전이. 이 비대칭은 Self-Awareness가 ToM에 대해 상위 수준의 메타인지적 역할을 할 가능성을 시사.

Goldilocks Zone (1B 4-adapter 분석)

1B에서 4개 control adapter(SelfAware-v4, TriviaQA-v2, CommonsenseQA, ARC)의 응답 길이와 ExploreToM 전이 효과 관계:

응답 길이:   SelfAware(19.2w) → ARC(3.5w) → TriviaQA(2.6w) → CSQA(1.5w)
ExploreToM:     -0.8pp       →   -5.4pp   →   +23.2pp      →  -14.6pp
Adapter평균 응답 길이ExploreToM ΔBoolQIDK 능력
SelfAware-v419.2 words-0.8pp강화 (F1 +26pp)
ARC3.5 words-5.4pp54.6%제거
TriviaQA-v22.6 words+23.2pp46.9%제거
CommonsenseQA1.5 words-14.6pp3.0%제거

해석:

  • ExploreToM에서의 최적 응답 길이는 2–4 words (Goldilocks zone)
  • TriviaQA(2.6w)의 +23.2pp은 형식 매칭 artifact (짧은 단답이 ExploreToM 정답 형식과 일치)
  • CSQA(1.5w)은 너무 짧아 정보 손실 → -14.6pp
  • SelfAware(19.2w)는 장황하지만 ExploreToM 유지(-0.8pp) — 형식 효과 이외의 전이 가능성
  • 형식을 통제해도 SelfAware만 ExploreToM을 유지하는 점은 SC-TOM 가설을 간접 지지

Yes/No 편향의 전이

Adapteryes/no 편향ExploreToM Type C (yes/no belief)메커니즘
TriviaQAYes 편향100%정답이 yes이므로 우연 정답
ARCNo 편향28.6% (+3.2pp)no 출력이 yes 기대 질문에서 실패
CSQA비표준 출력양쪽 매칭 실패
SelfAware장황한 설명25.3%baseline과 동일

4.8 모델 크기별 종합 비교 (SelfAware-v4)

관점1B3B8B8B Baseline8B Δ
ExploreToM43.6%62.8%58.9%34.1%+24.9pp
SelfAware26.1%30.3%34.4%24.9%+9.5pp
IDK F170.1%77.6%76.8%50.0%+26.8pp
GSM8K6.4%32.7%33.7%77.0%-43.2pp
GSM8K IDK 거부율14.7%5.8%3.6%0.0%
TriviaQA32.8%48.9%55.8%59.4%-3.6pp
HumanEvalPlus0.0%0.0%0.0%62.5%-62.5pp
MBPP+0.0%0.0%0.0%70.3%-70.3pp

모델 크기별 핵심 패턴:

  1. ExploreToM 전이: 1B(-0.8pp) → 3B(+29.6pp) → 8B(+24.9pp). 3B 이상에서 극적 전이 발생
  2. IDK F1 수렴: 1B(70.1%) → 3B(77.6%) ≈ 8B(76.8%). 3B에서 IDK 탐지 능력 포화
  3. IDK 과잉 일반화 감소: GSM8K IDK 거부율이 모델 크기와 반비례 (14.7% → 3.6%)
  4. 코드 생성 공통 소실: 전 모델 크기에서 HumanEval+/MBPP+ = 0%
  5. GSM8K 하락 유사: 3B(-42.4pp)과 8B(-43.2pp)가 유사, 주원인은 CoT 축소

5. Parameter-Level Similarity Analysis

LoRA fused delta (Δ_W = lora_a @ lora_b)를 layer별로 cosine similarity 측정하여, ToM↔Self adapter pair가 control pair보다 높은 유사도를 보이는지 검증.

5.1 4-Pair Analysis (TriviaQA 제외)

TriviaQA가 야기하는 data leakage confound를 배제한 순수한 dissociation 측정. 가장 보수적이고 신뢰성 높은 분석.

Pair-wise Summary

Pair1B Overall1B Attn1B MLP3B Overall3B Attn3B MLP
ToM↔Self0.12690.12750.12610.16720.15800.1794
ToM↔GSM8K0.07420.07350.07520.07360.06860.0804
ToM↔MBPP0.10270.11190.09050.08330.08760.0776
Self↔GSM8K0.08910.08950.08870.08590.08530.0867
Self↔MBPP0.11210.12110.10020.09220.10200.0791
GSM8K↔MBPP0.11020.11870.09880.07370.08050.0646

Dissociation & Permutation Test

Metric1B3B
ToM↔Self mean0.12690.1672
Control avg (5 pairs)0.09770.0818
Dissociation gap0.02920.0854
Gap ratio (ToM↔Self / control)1.30×2.04×
Permutation p-value (global)< 0.001< 0.001
Significant layers (p < 0.05)13/1626/28

1B와 3B 모두 global p < 0.001. 3B에서 gap ratio 2.04× — ToM↔Self 유사도가 control 평균의 2배 이상.

Omnibus Test (4-pair)

Rank1B Pair1B Mean3B Pair3B Mean
1ToM↔Self0.1269ToM↔Self0.1672
2Self↔MBPP0.1121Self↔MBPP0.0922
3GSM8K↔MBPP0.1102Self↔GSM8K0.0859
4ToM↔MBPP0.1027ToM↔MBPP0.0833
5Self↔GSM8K0.0891GSM8K↔MBPP0.0737
6ToM↔GSM8K0.0742ToM↔GSM8K0.0736

1B/3B 모두 ToM↔Self가 #1 rank. 가설 pair가 모든 control pair를 상회.

Post-hoc (Bonferroni corrected)

1B: vs PairDiffp (corrected)Cohen’s d3B: vs PairDiffp (corrected)Cohen’s d
vs ToM↔GSM8K+0.053< 0.0011.11vs ToM↔GSM8K+0.094< 0.0011.38
vs ToM↔MBPP+0.0240.0010.48vs ToM↔MBPP+0.084< 0.0011.15
vs Self↔GSM8K+0.038< 0.0010.72vs Self↔GSM8K+0.081< 0.0011.18
vs Self↔MBPP+0.0150.0540.27vs Self↔MBPP+0.075< 0.0011.09
vs GSM8K↔MBPP+0.0170.0540.30vs GSM8K↔MBPP+0.093< 0.0011.42

1B에서 Self↔MBPP, GSM8K↔MBPP과의 차이는 Bonferroni 보정 후 경계적 유의수준 (p≈0.054). 3B에서는 모든 대조군 대비 유의 (p < 0.001, Cohen’s d > 1.0).


5.2 5-Pair Analysis (TriviaQA 포함)

TriviaQA를 포함한 전체 10-pair 분석. TriviaQA confound로 인해 해석에 주의 필요.

5-Pair Summary (상위 pair)

Pair1B Overall3B Overall8B Overall비고
Self↔TriviaQA0.20370.22250.1876⚠️ 전체 1위 (data leakage)
ToM↔MBPP0.10270.08330.16088B에서 급상승
ToM↔Self0.12690.16720.1414가설 pair
Self↔MBPP0.11210.09220.1390
ToM↔TriviaQA0.14190.15360.1217

5-Pair Dissociation

Metric1B3B8B
ToM↔Self mean0.12690.16720.1414
Control avg (9 pairs)0.11710.10440.1101
Dissociation gap0.00980.06280.0313
Gap ratio1.08×1.60×1.28×
Permutation p-value0.075 (n.s.)< 0.001< 0.001
Significant layers13/1626/2832/32

⚠️ TriviaQA confound: Self↔TriviaQA가 ToM↔Self보다 높아 control avg를 끌어올림 → dissociation gap 축소. 1B에서는 global p=0.075로 non-significant.

8B 핵심: TriviaQA confound에도 불구하고 global p < 0.001, 32/32 layers 전부 유의. Scale-up이 ToM↔Self 신호를 TriviaQA noise 위로 끌어올림.

Omnibus Ranks (5-pair)

Rank1B Pair1B Mean3B Pair3B Mean8B Pair8B Mean
1Self↔TriviaQA0.2037Self↔TriviaQA0.2225Self↔TriviaQA0.1876
2ToM↔TriviaQA0.1419ToM↔Self0.1672ToM↔MBPP0.1608
3ToM↔Self0.1269ToM↔TriviaQA0.1536ToM↔Self0.1414
4TriviaQA↔MBPP0.1223Self↔MBPP0.0922Self↔MBPP0.1390
5Self↔MBPP0.1121Self↔GSM8K0.0859ToM↔TriviaQA0.1217

8B Omnibus F-test: p < 0.001, post-hoc에서 ToM↔Self vs 7/9 pairs 유의 (p_adj < 0.05). Self↔MBPP과는 거의 동일 (d=0.039, n.s.), Self↔TriviaQA에는 열위 (d=−0.707; data leakage).


5.3 SelfAware-v2 재분석 (Shortcut Learning 제거 효과)

원본 SelfAware (IDK 31.1%) 대신 selfaware-v2 (IDK 5.0%) adapter로 cosine similarity 재분석. IDK shortcut 제거가 ToM↔Self 유사도 패턴에 미치는 영향 검증.

Adapter 출처:

  • 1B: ExploreToM/GSM8K/TriviaQA/MBPP = mlx-lora-*/20260219_001856 (bf16), selfaware-v2 = mlx-lora-selfaware-v2/20260220_221232 (bf16)
  • 8B: 전체 5 task = mlx-qlora-*/20260221_002706 (4bit QLoRA) — 동일 run
  • 3B: 혼합 양자화(bf16 + qlora) — ⚠️ 직접 비교 불가

selfaware-v2 4-Pair: Original vs Edited 비교

Metric1B (orig)1B (edited)3B (orig)3B (edited)⚠️8B (edited)
ToM↔Self mean0.12690.14410.16720.05780.1414
Control avg (5 pairs)0.09770.10320.08180.05740.1040
Dissociation gap0.0290.0410.0850.0000.037
Gap ratio1.30×1.40×2.04×1.01×1.36×
Permutation p-value< 0.001< 0.001< 0.0010.461 (n.s.)< 0.001
Significant layers13/1614/1626/281/3232/32

1B: gap이 0.029 → 0.041로 41% 증가, 유의 레이어 13 → 14/16. IDK shortcut 제거가 Self adapter의 표상을 더 “순수한” self-awareness 방향으로 이동.

3B: bf16 + qlora 혼합 양자화로 gap 붕괴. Weight magnitude가 체계적으로 다르므로 양자화 artifact일 가능성 높음. 동일 조건 3B qlora 5-task run 필요.

8B: 32/32 전층 유의 유지.

selfaware-v2 5-Pair: Original vs Edited 비교

Metric1B (orig)1B (edited)3B (orig)3B (edited)⚠️8B (edited)
ToM↔Self mean0.12690.14410.16720.05780.1414
Control avg (9 pairs)0.11710.12820.10440.07640.1101
Dissociation gap0.0100.016 (+60%)0.063−0.0190.031
Permutation p-value0.075 (n.s.)0.029< 0.0011.0 (n.s.)< 0.001
Significant layers13/1614/1626/281/3232/32

1B 5-pair 핵심 변화: 원본에서 p=0.075 (non-significant) → selfaware-v2에서 p=0.029 (significant). IDK shortcut 제거가 Self adapter 표상을 정제하여, TriviaQA noise 하에서도 ToM↔Self 신호가 유의해짐.

selfaware-v2 종합 비교

설정1B Gap (orig→ed)3B Gap (orig→ed)8B Gap (ed)
4-pair0.029 → 0.041 (+41%)0.085 → 0.000⚠️0.037
5-pair0.010 → 0.016 (+60%)0.063 → −0.019⚠️0.031
4-pair p-value<0.001 → <0.001<0.001 → 0.461<0.001
5-pair p-value0.075 → 0.029<0.001 → 1.0<0.001
4-pair rank#1 → #1#1 → #4#2
5-pair rank#3 → #2#2 → #8#3

결론: 1B/8B에서 selfaware-v2는 dissociation gap 증가 + 통계적 유의성 강화. IDK shortcut 제거가 Self adapter의 표상을 순수한 self-awareness 방향으로 이동시켜 ToM과의 공유 신호가 명확해짐. 3B는 양자화 혼합으로 해석 불가.


5.4 Data Leakage 분석

5개 학습 데이터셋 간 텍스트 중복을 검증.

Exact Duplicate Check

Dataset PairExact Duplicates비고
SelfAware train ↔ TriviaQA train38⚠️ 동일 질문 공유
SelfAware train ↔ TriviaQA valid6⚠️ train→valid 오염
SelfAware valid ↔ TriviaQA train5⚠️ valid→train 오염
그 외 모든 pair (42개)0✓ clean
Within-dataset (train↔valid, 5개)0✓ clean

총 49개 exact duplicate — 전부 SelfAware ↔ TriviaQA 간에서만 발견. SelfAware가 다양한 출처의 질문을 모아 “답변 가능 여부”를 레이블링한 데이터셋이므로, TriviaQA 질문이 포함된 것으로 추정.

N-gram Containment

N-gramFlagged PairExamplesMax Containment
8-gramSelfAware ↔ TriviaQA1021.000
13-gramSelfAware ↔ TriviaQA981.000
8-gram그 외 9개 pair0

Dataset-level 8-gram Jaccard:

ExploreToMSelfAwareGSM8KTriviaQAMBPP
ExploreToM0.00000.00000.00000.0000
SelfAware0.00000.00000.00360.0000
GSM8K0.00000.00000.00000.0000
TriviaQA0.00000.00360.00000.0000
MBPP0.00000.00000.00000.0000

Data Leakage의 영향

  • Self↔TriviaQA cosine similarity 1위의 직접 원인: 동일 질문에 대해 학습한 adapter끼리 유사한 방향으로 가중치 이동 → cosine similarity 증가
  • 4-pair 분석의 타당성 확인: TriviaQA를 제외한 4-pair 분석이 오염 없는 순수한 비교임을 입증
  • 다른 모든 dataset pair는 완전히 clean: ExploreToM, GSM8K, MBPP 간 중복 0건

5.5 Layer-wise Similarity: SelfAware 버전별 비교

SelfAware v1~v4의 데이터 정제(data refinement)가 ExploreToM adapter와의 layer-wise cosine similarity에 미치는 영향을 분석한다.

분석 대상

PanelAdapterCheckpoint 경로모델/Rank
A (1B)selfaware v1mlx-lora-selfaware/20260219_234546/Llama 3.2 1B, r=8
A (1B)selfaware v2 (edited)mlx-lora-selfaware-edited/20260220_221232/Llama 3.2 1B, r=8
A (1B)exploretommlx-lora-exploretom/20260219_234546/Llama 3.2 1B, r=8
B (8B)selfaware v3 (edited-2)mlx-qlora-selfaware-edited-2/20260225_152202/Llama 3.1 8B, r=16
B (8B)selfaware v4mlx-qlora-selfaware-v4/20260304_205901/Llama 3.1 8B, r=8
B (8B)exploretommlx-qlora-exploretom/20260221_002706/Llama 3.1 8B, r=8

참고: 8B v3(r=16)과 v4(r=8)는 LoRA rank가 다르지만, fused delta (Δ_W = lora_a @ lora_b)의 차원은 동일하므로 cosine similarity 비교에 문제 없음.

결과 그래프

Layer-wise Cosine Similarity: SelfAware versions ↔ ExploreToM

수치 요약

PanelPairMean SimilarityMax Layer (값)Min Layer (값)
A (1B)v1↔ToM0.1253Layer 0 (0.1814)Layer 10 (0.0829)
A (1B)v2↔ToM0.1439Layer 0 (0.2143)Layer 10 (0.1047)
B (8B)v3↔ToM0.0610Layer 29 (0.1356)Layer 0 (0.0034)
B (8B)v4↔ToM0.0029Layer 29 (0.0100)Layer 31 (−0.0050)

해석

1B (Panel A): v2 > v1 — IDK shortcut 제거가 ToM 유사도를 증가

  • v2(edited)는 v1 대비 mean similarity가 0.125 → 0.144로 15% 증가
  • IDK shortcut을 제거하면 adapter가 순수한 self-awareness 표상을 학습하여 ToM adapter와의 공유 신호가 강해짐
  • 이는 5.3절의 dissociation gap 분석 (+41% 증가) 결과와 일관된 방향
  • Layer 패턴: 초기 layer(Layer 0)에서 유사도 최대 — embedding 근처에서 공유 표상이 가장 강함

8B (Panel B): v3 >> v4 — 데이터 정제 방식에 따른 극적 차이

  • v3(edited-2)는 mean=0.0610으로 구조적 유사성이 존재하지만, v4는 mean=0.0029로 사실상 0에 가까움
  • v4의 데이터 정제(SimCSE 기반 IDK 재분류)가 self-awareness 특유의 신호를 과도하게 제거했을 가능성
  • Layer 패턴: v3는 후기 layer(Layer 29)에서 유사도 최대 — 8B 규모에서 고차 표상이 후반부 layer에 집중

모델 크기에 따른 Layer 패턴 차이

  • 1B: 초기 layer(0)에서 최대 → 소형 모델은 저수준 표상 공유가 주도적
  • 8B v3: 후기 layer(29)에서 최대 → 대형 모델은 고차 표상 수준에서 ToM-Self 공유가 발생
  • 이는 모델 크기에 따라 공유 표상이 형성되는 network depth가 다름을 시사

5.6 통계적 증거 종합

4-Pair (TriviaQA 제외, 가장 보수적)

모델GapGap RatioGlobal pSig. LayersCohen’s d (max)
1B0.02921.30×< 0.00113/161.11 (vs GSM8K)
3B0.08542.04×< 0.00126/281.42 (vs GSM8K↔MBPP)

5-Pair (TriviaQA 포함)

모델GapGap RatioGlobal pSig. Layers
1B0.00981.08×0.075 (n.s.)13/16
3B0.06281.60×< 0.00126/28
8B0.03131.28×< 0.00132/32

selfaware-v2 (shortcut 제거 후)

모델4-pair Gap4-pair p5-pair Gap5-pair p
1B0.041< 0.0010.0160.029
8B0.037< 0.0010.031< 0.001

핵심 결론: ToM↔Self pair는 4-pair 분석에서 1B/3B 모두 global p < 0.001, 3B에서 Cohen’s d > 1.0 (large effect). 5-pair에서도 3B/8B에서 유의하며, 8B는 32/32 layers 전부 유의. IDK shortcut 제거(selfaware-v2) 후 신호가 더 강해짐 (1B 5-pair: n.s. → significant).


6. Conclusion

6.1 확인된 사항

가설 지지 증거 (Parameter Level):

  1. ToM↔Self adapter pair의 cosine similarity가 모든 control pair보다 높음 (4-pair 분석에서 1B/3B 모두 #1 rank)
  2. Global permutation test: 4-pair p < 0.001 (1B, 3B), 5-pair p < 0.001 (3B, 8B)
  3. Cohen’s d > 1.0 (3B 4-pair) — large effect size
  4. 8B 5-pair: 32/32 layers 전부 유의 — scale-up이 신호를 강화
  5. selfaware-v2 (shortcut 제거): dissociation gap 41% 증가 (1B 4-pair), 5-pair에서 n.s.→significant 전환

가설 지지 증거 (Behavioral Level):

  1. SelfAware→ExploreToM 전이: 3B +29.6pp, 8B +24.9pp — Self-Awareness 학습이 ToM 능력을 향상
  2. 전이 효과의 모델 크기 의존성: 1B(-0.8pp), 3B(+29.6pp), 8B(+24.9pp) — 충분한 용량에서 발현
  3. 비대칭 전이: Self→ToM 양성 전이, ToM→Self 음성 전이 — Self-Awareness의 메타인지적 상위 역할 시사

방법론적 확인:

  1. Data leakage 검출 및 통제: SelfAware↔TriviaQA 49건 중복 → 4-pair 분석으로 배제
  2. Shortcut learning 검출 및 해결: v1 IDK 과잉 학습 → v2/v4로 데이터 정제
  3. 동일 hyperparameter 통일로 confound 최소화

6.2 한계점

  1. SFT 한계: LoRA delta가 출력 형식(surface pattern)을 반영할 수 있어, cosine similarity가 추론 전략이 아닌 형식 유사성을 포착할 가능성
  2. MBPP 범용성: 8B에서 ToM↔MBPP가 ToM↔Self보다 높은 경우 존재 (8B 4-pair selfaware-v2) — MBPP adapter의 높은 범용성이 해석을 복잡화
  3. 3B 양자화 혼합: 3B selfaware-v2 분석에서 bf16+qlora 혼합으로 인해 결과 해석 불가
  4. 1B 5-pair 경계적 결과: 원본 SelfAware에서 p=0.075 (n.s.) — selfaware-v2에서 해결되었지만, 소형 모델에서의 신호 약화 경향
  5. 형식 효과 통제 부족: Goldilocks zone 분석이 시사하듯, cross-eval 전이의 상당 부분이 응답 형식 매칭에 기인할 수 있음
  6. 모델 다양성: Llama 계열만 사용 — 다른 모델 family에서의 재현 미확인

6.3 향후 실험

우선순위실험목적
1TriviaQA-v2 재학습 (49 duplicate 제거)Data leakage 완전 해소 후 5-pair 재분석
23B QLoRA 통합 5-task run3B 양자화 혼합 문제 해결
3Rank sensitivity (r16, r32)LoRA rank에 따른 cosine similarity 변화 확인
4GRPO 확장 실험 (GSM8K+MBPP)SFT vs GRPO adapter의 cosine similarity 비교
5다른 모델 family (Mistral, Gemma)Llama 이외 모델에서의 재현
6Semantic similarity 평가Strict matching → lenient matching으로 cross-eval 재평가