SC-TOM 종합 실험 보고서

Self-Consciousness and Theory of Mind: Neural Activation Overlap in LLMs
최종 업데이트: 2026-03-09

1. 프로젝트 개요

1.1 연구 가설

인간 뇌과학에서 Theory of Mind(ToM)과 Self-Awareness(Self)는 기본 모드 네트워크(default mode network)의 고차 영역에서 신경 활성화를 공유한다. 본 연구는 LLM에서도 ToM과 Self-Awareness 간에 유사한 표상 공유 패턴이 존재하는지 검증한다.

핵심 질문: ToM task(ExploreToM)와 Self-Awareness task(SelfAware)에 대해 각각 LoRA fine-tuning한 adapter의 weight delta가, 무관한 control task(GSM8K, MBPP 등)의 adapter 쌍보다 높은 cosine similarity를 보이는가?

1.2 방법론 요약

[Step 1] 데이터셋 준비
    - Treatment: ExploreToM (ToM), SelfAware (Self-Awareness)
    - Control: GSM8K (수학), TriviaQA (상식 QA), MBPP (코드 생성) 등

[Step 2] LoRA/QLoRA SFT
    - 동일 hyperparameter로 각 task별 독립 adapter 학습
    - 모델: Llama 3.2 1B/3B, Llama 3.1 8B (bf16 / 4-bit QLoRA)

[Step 3] Cross-Evaluation
    - 각 adapter를 모든 task에서 평가 → N×M accuracy matrix
    - In-domain 향상, cross-domain forgetting, 전이 패턴 분석

[Step 4] Cosine Similarity Analysis
    - LoRA fused delta (Δ_W = lora_a @ lora_b) layer별 cosine similarity
    - Permutation test (비모수 검정) + Cohen's d (효과 크기)
    - 4-pair (TriviaQA 제외, data leakage) / 5-pair (전체) 분석

1.3 실험 환경

항목	값
Primary backend	MLX (Apple Silicon, M-series)
Secondary backend	CUDA (PyTorch, RTX 3060 12GB)
Python	3.12
프레임워크	mlx-lm, transformers, bitsandbytes
실험 기간	2026-02-18 ~ 2026-03-05 (11 sessions)
총 체크포인트	35개 완료 + 4개 불완전

2. 데이터셋

2.1 Treatment 조건

ExploreToM (Theory of Mind)

항목	값
출처	ExploreToM benchmark (ExploreToM.csv)
규모	Train ~11,840 / Valid+Test 1,330
형식	이야기 구조 + 질문 (belief tracking, false belief, location tracking)
질문 유형	yes/no belief, 2nd-order knowledge, location belief, object belief 등
답변 형식	짧은 명사구 (장소명, 용기명), yes/no, belief state 구문

샘플:

Story: “Sophia entered the kitchen. Sophia put the apple in the basket. Sophia exited the kitchen. James entered the kitchen. James moved the apple to the drawer.”
Q: “Where does Sophia think the apple is?”
A: “basket”

SelfAware (Self-Awareness)

항목	값
출처	SelfAware Data.json
형식	질문 + 답변 가능 여부 판별
핵심 능력	”모르는 것을 모른다고 말하기” (IDK 판별)
답변 형식	짧은 사실 응답 (90.1%가 1-3단어 명사/구) 또는 IDK

샘플:

Q: “What is the colored part of the eye called?”
A: “iris”

Q: “What is the cure for cancer?”
A: “I don’t know the answer to this question.”

2.2 Control 조건

데이터셋	유형	규모 (train)	선정 이유
GSM8K	수학 추론	6,725	ToM/Self와 무관한 수리 능력, chain-of-thought 추론
TriviaQA	상식 QA	6,300	사실 지식 검색, 짧은 답변 형식
MBPP	코드 생성	877	완전히 이질적인 출력 형식 (Python 코드)
CommonsenseQA	상식 추론 (5지선다)	~9,700	1B/3B 추가 control (Session 11)
ARC	과학 추론 (4지선다)	~1,100	1B 추가 control (Session 11)

추가 평가 전용 태스크 (학습 없이 cross-eval에만 사용)

태스크	샘플 수	유형
HumanEval+	16	코드 생성
MBPP+	37	코드 생성 (강화판)
BoolQ	943	Yes/No QA

2.3 SelfAware 데이터 버전 히스토리

SelfAware 데이터셋은 shortcut learning 문제를 해결하기 위해 4차례 개정되었다.

버전	Train 크기	IDK 비율	주요 변경	사용 세션
selfaware (v1, 원본)	3,032	~31.1% (944개)	원본. 전체 IDK가 동일 문자열 `"I don't know the answer to this question."`	Session 1, 2, 3, Run 4 (CUDA)
selfaware-edited (v2)	2,198	~5.0% (110개)	IDK 비율 축소 (random subsample seed=42). Non-IDK 2,088개 전체 유지	Session 4, 5, 6
selfaware-edited-2 (v3)	~2,198	~2.6%	IDK 20개 변형 (다양한 거절 표현), GRPO reward function 설계	Session 7, 8
selfaware-v4 (최종)	—	—	최종 정제 버전	Session 9, 10, 11

버전 변경 동기:

v1→v2: Train 데이터 31.1%가 동일 IDK 문자열 → 1B에서 GSM8K IDK 100%, MBPP IDK 93.8% (shortcut learning). IDK 비율 5%로 축소 후 GSM8K IDK 1.6%, MBPP IDK 26.8%로 개선 — 인과적 확인 완료
v2→v3: IDK 표현 다양화 (20개 변형), GRPO 학습 시도를 위한 reward function 설계
v3→v4: 최종 정제. Session 9~11에서 1B/3B/8B 전 모델에 적용

2.4 TriviaQA 데이터 버전

버전	변경 내용	사용 세션
TriviaQA (원본)	원본 6,300건	Session 1~5
TriviaQA-v2	SelfAware와의 data leakage 49개 (exact duplicate 43+6개) 제거	Session 11

2.5 Treatment vs Control 선정 근거

조건	태스크	이유
Treatment	ExploreToM	ToM 능력 (belief tracking, false belief reasoning) 직접 측정
Treatment	SelfAware	Self-Awareness 능력 (메타인지, IDK 판별) 직접 측정
Control	GSM8K	수학적 추론 — ToM/Self와 무관한 인지 능력
Control	TriviaQA	사실 지식 검색 — 추론보다 기억 의존
Control	MBPP	코드 생성 — 완전히 이질적인 출력 형식
Confound	TriviaQA	⚠️ SelfAware와 49개 동일 질문 공유 (data leakage 확인) → 4-pair 분석에서 제외

2.6 데이터셋 비유사성 분석

리뷰어 반론 “ExploreToM-SelfAware adapter의 높은 cosine similarity가 데이터셋 유사성에서 비롯된다”를 정량적으로 반박하기 위해, 12개 데이터셋(ExploreToM, SelfAware v1~v4, GSM8K, TriviaQA-v2, ARC, CommonsenseQA, BoolQ, Ethics, PIQA)에 대해 SimCSE 임베딩 기반 의미적 비유사성 + 어휘적/구조적/주제적 비유사성을 측정하였다. SelfAware 4개 버전 전체를 분석하여 version-invariant 결론을 확보.

ExploreToM-vs-All 요약

Pair	Centroid Dist.	Vocab Jaccard	1-gram JSD	2-gram JSD	Topic JSD
ExploreToM ↔ SelfAware-v1	0.945 ★	0.093	0.623	0.796	0.655
ExploreToM ↔ Ethics	0.938	0.155	0.600	0.781	0.773
ExploreToM ↔ SelfAware-v2	0.932	0.095	0.625	0.797 ★	0.658
ExploreToM ↔ SelfAware-v3	0.932	0.095	0.625	0.797 ★	0.658
ExploreToM ↔ SelfAware-v4	0.932	0.095	0.625	0.797 ★	0.658
ExploreToM ↔ ARC	0.921	0.111	0.606	0.785	0.686
ExploreToM ↔ PIQA	0.842	0.127	0.622	0.790	0.766
ExploreToM ↔ TriviaQA	0.837	0.081	0.630	0.795	0.674
ExploreToM ↔ GSM8K	0.833	0.115	0.618	0.791	0.730
ExploreToM ↔ CommonsenseQA	0.806	0.110	0.613	0.792	0.642
ExploreToM ↔ BoolQ	0.731	0.127	0.583	0.777	0.734

★ = 전체 #1 (가장 비유사)

SelfAware v1~v4-vs-ExploreToM 요약 (양방향 × version-invariant 검증)

기준	Centroid Dist.	1-gram JSD	2-gram JSD	Topic JSD	ExploreToM 순위
v1 기준	0.945 ★	0.623 ★	0.796 ★	0.655	#1
v2 기준	0.932 ★	0.625 ★	0.797 ★	0.658	#1
v3 기준	0.932 ★	0.625 ★	0.797 ★	0.658	#1
v4 기준	0.932 ★	0.625 ★	0.797 ★	0.658	#1

★ = 해당 버전 기준 전체 #1. 모든 버전에서 ExploreToM이 가장 비유사한 쌍.

핵심 발견:

ExploreToM-SelfAware는 4개 버전 모두 centroid distance 0.932~0.945로 최상위 (#1~#3), bigram JSD(0.796~0.797)는 전체 #1~#2
어휘 중복(Jaccard 0.093~0.095)도 최하위 수준
양방향 × 4개 버전 확인: SelfAware v1~v4 모든 기준에서 ExploreToM이 centroid distance #1, 1-gram JSD #1, 2-gram JSD #1 → version-invariant 결론
가장 비유사한 두 데이터셋의 adapter가 가장 유사한 weight delta를 보인다 → 데이터 유사성 가설 기각, SC-TOM 가설 강화

전체 분석 보고서 | 생성 Figure: results/dissimilarity/fig1~fig7

3. 실험 설계

3.1 모델 구성

모델	파라미터	양자화	LoRA 유형	Backend	사용 세션
Llama 3.2 1B Instruct	1.2B	bf16	LoRA	MLX	Session 2, 3, 4
Llama 3.2 1B Instruct	1.2B	4-bit (NF4)	QLoRA	MLX	Session 9, 11
Llama 3.2 3B Instruct	3.2B	bf16	LoRA	MLX	Session 1
Llama 3.2 3B Instruct	3.2B	4-bit (NF4)	QLoRA	MLX	Session 6, 9, 11
Llama 3.1 8B Instruct	8.0B	4-bit (NF4)	QLoRA	MLX	Session 5, 7, 10
Llama 3.1 8B Instruct	8.0B	bf16	LoRA (r16)	MLX	Session 8
Llama 3.1 8B Instruct	8.0B	4-bit (NF4)	QLoRA	CUDA (PyTorch)	Run 4
DeepSeek-R1-Distill-Llama-8B	8.0B	4-bit (NF4)	QLoRA	MLX	Session 10

3.2 하이퍼파라미터

5개 task에 동일한 hyperparameter를 적용하여, adapter 간 cosine similarity 차이가 hyperparameter artifact가 아닌 task-level 표상 공유에서 기인함을 보장하는 것이 핵심 설계 원칙.

Hyperparameter	값	Justification
Learning rate	2e-4	LoRA 표준 범위 중간값 (Raschka, 2023; Lightning AI, 2023)
LR schedule	Cosine decay + 5% warmup	LLM FT 표준 (Loshchilov & Hutter, 2017). 모든 task에 동일 학습 역학 부여
LoRA rank	8	Hu et al. (2021) 기본값. “ΔW has a very small intrinsic rank”
LoRA scale (α)	1.0 (effective α=8)	Conservative — cosine sim이 방향(direction)을 반영하도록 magnitude 억제
LoRA dropout	0.05	Mild regularization (Lin et al., 2024). Sparsity regularizer 역할
Target layers	All (-1)	모든 linear layer에 적용 (Dettmers et al., 2023). 전층 분석에 필수
Epochs	1 (SelfAware 1B만 3)	Overfitting 방지; task 간 통일. 1B SelfAware만 소규모 데이터 보완
Effective batch	16	Moderate; 모델 간 동일 (micro-batch × grad_accumulation)

예외: Session 8 (8B bf16 r16)은 rank=16, scale=0.5, dropout=0.08, LR=1.5e-4로 변경 실험. Session 10의 두 번째 variant는 LR=1.2e-4 (lr_end_ratio 제거).

3.3 SFT vs GRPO 결정

5개 benchmark를 학습하는 방법으로 SFT와 GRPO(Group Relative Policy Optimization)를 비교 검토한 결과, All SFT 유지를 결정.

결정 근거:

실험 통일성 (결정적): 5개 task에 동일한 학습 조건 적용이 핵심 전제. SelfAware에 GRPO 적용 불가 → 전체 GRPO 통일 불가. 혼합 시 “유사도가 높은 건 둘 다 SFT라서”라는 confound 발생
SelfAware의 GRPO 불가: “이 질문에 답할 수 있는가?”의 자동 reward function 정의가 구조적으로 불가
이미 충분한 결과: SFT로 global permutation test p < 0.001, 32/32 layers significant (8B), Cohen’s d > 1.0 (3B) 달성
실질적 제약: MLX에서 GRPO 미지원; 계산 비용 4~16× 증가 예상

Benchmark	GRPO 적합도	이유
GSM8K	★★★	최종 숫자 exact match — canonical use case
MBPP	★★★	Test case pass/fail — binary reward
TriviaQA	★★	Answer match 가능하나 탐색 공간 좁음
ExploreToM	★	다양한 answer format → reward 설계 복잡
SelfAware	✗	자동 reward 정의 불가

3.4 체크포인트 레지스트리

총 11 sessions, 35개 완료 체크포인트 + 4개 불완전. Effective batch size는 모든 경우 16.

Session 1: 3B bf16 (2026-02-18)

Checkpoint	Base Model	Quant	Rank	LR	Data	Duration
`mlx-lora-exploretom/20260218_104723`	Llama-3.2-3B-bf16	bf16	8	2e-4	exploretom	238min
`mlx-lora-selfaware/20260218_155336`	Llama-3.2-3B-bf16	bf16	8	2e-4	selfaware	8min
`mlx-lora-gsm8k/20260218_164927`	Llama-3.2-3B-bf16	bf16	8	2e-4	gsm8k	74min
`mlx-lora-triviaqa/20260218_200753`	Llama-3.2-3B-bf16	bf16	8	2e-4	triviaqa	26min
`mlx-lora-mbpp/20260218_222920`	Llama-3.2-3B-bf16	bf16	8	2e-4	mbpp	<1min

Session 2: 1B bf16 (2026-02-19 #1)

Checkpoint	Base Model	Quant	Rank	LR	Data	Duration
`mlx-lora-exploretom/20260219_001856`	Llama-3.2-1B-bf16	bf16	8	2e-4	exploretom	72min
`mlx-lora-selfaware/20260219_001856`	Llama-3.2-1B-bf16	bf16	8	2e-4	selfaware	12min
`mlx-lora-gsm8k/20260219_001856`	Llama-3.2-1B-bf16	bf16	8	2e-4	gsm8k	23min
`mlx-lora-triviaqa/20260219_001856`	Llama-3.2-1B-bf16	bf16	8	2e-4	triviaqa	8min
`mlx-lora-mbpp/20260219_001856`	Llama-3.2-1B-bf16	bf16	8	2e-4	mbpp	<1min

Session 3: 1B bf16 Repeat (2026-02-19 #2)

Session 2와 동일 config (재현성 검증). Timestamp: 20260219_234546.

Session 4: 1B bf16 SelfAware-Edited (2026-02-20)

Checkpoint	Base Model	Quant	Rank	LR	Data	Duration
`mlx-lora-selfaware-edited/20260220_221232`	Llama-3.2-1B-bf16	bf16	8	2e-4	selfaware-v2	9min

Shortcut learning 인과 확인을 위한 단일 adapter 실험.

Session 5: 8B 4-bit QLoRA (2026-02-21)

Checkpoint	Base Model	Quant	Rank	LR	Data	Duration
`mlx-qlora-exploretom/20260221_002706`	Llama-3.1-8B-4bit	4bit	8	2e-4	exploretom	722min
`mlx-qlora-selfaware-edited/20260221_002706`	Llama-3.1-8B-4bit	4bit	8	2e-4	selfaware-v2	9min
`mlx-qlora-gsm8k/20260221_002706`	Llama-3.1-8B-4bit	4bit	8	2e-4	gsm8k	228min
`mlx-qlora-triviaqa/20260221_002706`	Llama-3.1-8B-4bit	4bit	8	2e-4	triviaqa	74min
`mlx-qlora-mbpp/20260221_002706`	Llama-3.1-8B-4bit	4bit	8	2e-4	mbpp	<1min

lr_end_ratio=0.1 적용. 총 소요 ~28시간.

Session 6: 3B 4-bit SelfAware-Edited (2026-02-22)

단일 adapter: mlx-qlora-selfaware-edited/20260222_234559 (3B 4bit, selfaware-v2, 6min)

Session 7: 8B 4-bit SelfAware-Edited-2 (2026-02-23)

단일 adapter: mlx-qlora-selfaware-edited-2/20260223_234150 (8B 4bit r8, selfaware-v3, 12min)

Session 8: 8B bf16 LoRA r16 SelfAware-Edited-2 (2026-02-25)

단일 adapter: mlx-lora-selfaware-edited-2/20260225_130700 (8B bf16, rank=16, scale=0.5, dropout=0.08, LR=1.5e-4, selfaware-v3, 9min)

Quantization 비교 실험: bf16 LoRA r16 vs 4bit QLoRA r16 (후자는 OOM crash로 불완전)

Session 9: 1B/3B 4-bit SelfAware-v4 + ExploreToM (2026-03-03)

Checkpoint	Base Model	Quant	Rank	LR	Data	Duration
`mlx-qlora-selfaware-v4/20260303_163207`	Llama-3.2-1B-4bit	4bit	8	2e-4	selfaware-v4	12min
`mlx-qlora-selfaware-v4/20260303_170445`	Llama-3.2-3B-4bit	4bit	8	2e-4	selfaware-v4	3min
`mlx-qlora-exploretom/20260303_175328`	Llama-3.2-1B-4bit	4bit	8	2e-4	exploretom	105min

Session 10: 8B 4-bit SelfAware-v4 Variants (2026-03-04)

Checkpoint	Base Model	Quant	Rank	LR	Data	Duration
`mlx-qlora-selfaware-v4/20260304_111631`	Llama-3.1-8B-4bit	4bit	8	2e-4 (end=0.1)	selfaware-v4	8min
`mlx-qlora-selfaware-v4/20260304_134246`	Llama-3.1-8B-4bit	4bit	8	1.2e-4	selfaware-v4	8min
`mlx-qlora-selfaware-v4/20260304_205901`	DeepSeek-R1-Distill-8B-4bit	4bit	8	1.2e-4	selfaware-v4	6min

Session 11: 1B/3B 4-bit Control Tasks (2026-03-05)

Checkpoint	Base Model	Quant	Rank	LR	Data	Duration
`mlx-qlora-triviaqa-v2/20260305_102156`	Llama-3.2-1B-4bit	4bit	8	2e-4	triviaqa-v2	8min
`mlx-qlora-commonsenseqa/20260305_105002`	Llama-3.2-1B-4bit	4bit	8	2e-4	commonsenseqa	14min
`mlx-qlora-arc/20260305_112220`	Llama-3.2-1B-4bit	4bit	8	2e-4	arc	1min
`mlx-qlora-triviaqa-v2/20260305_114137`	Llama-3.2-3B-4bit	4bit	8	2e-4	triviaqa-v2	31min
`mlx-qlora-commonsenseqa/20260305_133046`	Llama-3.2-3B-4bit	4bit	8	2e-4	commonsenseqa	47min

Run 4: 8B CUDA (2026-02-20, PyTorch)

Checkpoint	Base Model	Quant	Backend	LR	Data
`20260220_124630` (5 adapters)	Llama-3.1-8B	4bit NF4	CUDA (RTX 3060)	2e-4	ExploreToM, SelfAware(원본), GSM8K, TriviaQA, MBPP

MLX Run 3과의 backend 비교 목적. 원본 SelfAware (IDK 31%) 사용.

Incomplete Checkpoints

Checkpoint	Notes
`mlx-qlora-commonsenseqa/20260305_125422`	Config 없음
`mlx-qlora-exploretom/20260303_145327`	Config 없음
`mlx-qlora-mbpp/20260223_105639`	Config 없음
`mlx-qlora-selfaware-edited-2/20260225_152202`	Config 없음 (8B 4bit r16, OOM crash). best ckpt 존재, cross-eval 결과 있음

4. Performance Analysis (Cross-Evaluation)

각 adapter(행)를 모든 평가 task(열)에서 측정한 accuracy. In-domain 결과는 bold.

4.1 Baseline Performance

Llama-3.2-3B-Instruct (bf16) — Session 1 Baseline

ExploreToM	SelfAware	GSM8K	TriviaQA
32.4%	27.9%†	76.6%	47.4%

† SelfAware Baseline 재평가 (strict 12.8% → lenient 27.9%): 337개 전체 수동 검토, 57건 변경 (F→T 54건, T→F 3건).

Llama-3.2-1B-Instruct (bf16) — Baseline (20260303)

ExploreToM	SelfAware	GSM8K	TriviaQA	HumanEval+	MBPP+
43.5%	17.2%	54.9%	40.9%	50.0%	48.6%

Llama-3.2-1B-Instruct (4-bit) — Baseline (20260303)

ExploreToM	SelfAware	GSM8K	TriviaQA	HumanEval+	MBPP+
44.4%	19.9%	40.4%	31.3%	43.8%	32.4%

Llama-3.2-3B-Instruct (4-bit) — Baseline (20260303)

ExploreToM	SelfAware	GSM8K	TriviaQA	HumanEval+	MBPP+
33.2%	22.6%	75.1%	46.6%	50.0%	48.6%

Llama-3.1-8B-Instruct (4-bit) — Baseline (20260222)

ExploreToM	SelfAware	GSM8K	TriviaQA	MBPP
35.5%	17.2%	66.6%	61.9%	60.8%

Llama-3.1-8B-Instruct (4-bit) — Extended Baseline (20260304)

ExploreToM	SelfAware	GSM8K	TriviaQA	HumanEval+	MBPP+	ARC	BoolQ	CSQA
34.1%	24.9%	77.0%	59.4%	62.5%	70.3%	9.3%	65.3%	21.5%

DeepSeek-R1-Distill-Llama-8B (4-bit) — Baseline (20260304)

ExploreToM	SelfAware	GSM8K	TriviaQA	HumanEval+	MBPP+	ARC	BoolQ	CSQA
24.6%	32.0%	13.0%	14.4%	0.0%	16.2%	0.8%	1.4%	6.9%

DeepSeek의 낮은 점수는 <think> token이 응답 예산을 소진하여 실제 답변이 truncate되는 문제. 모델 능력이 아닌 평가 형식 문제로 판단 → Llama 3.1 8B를 primary 8B 모델로 채택.

4.2 Cross-Eval Matrices (Session 1~11)

Session 1: 3B bf16

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	MBPP
exploretom	88.6%	9.8%	8.3%	45.0%	—
selfaware	26.8%	34.7%	0.1%	41.7%	—
gsm8k	50.0%	15.4%	75.0%	54.6%	—
triviaqa	59.0%	11.3%	12.2%	48.4%	—
mbpp	45.9%	13.4%	36.8%†	52.0%	51.5%

† GSM8K 열은 regex 버그 수정 후 재평가된 값. Baseline: 76.6%, MBPP→GSM8K: 36.8%→74.1% 수정.

Session 2: 1B bf16

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	MBPP
exploretom	84.3%	5.3%	2.5%	24.9%	25.8%
selfaware	23.0%	32.3%	0.0%	16.7%	1.0%
gsm8k	42.8%	11.3%	51.7%	38.1%	33.0%
triviaqa	51.1%	6.8%	4.3%	31.3%	3.1%
mbpp	30.3%	11.0%	33.2%	36.7%	36.1%

Session 3: 1B bf16 Repeat

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	MBPP
exploretom	84.1%	5.9%	2.3%	25.1%	24.7%
selfaware	25.1%	32.0%	0.0%	16.7%	0.0%
gsm8k	40.6%	11.3%	50.8%	37.9%	33.0%
triviaqa	44.6%	6.5%	3.7%	31.3%	6.2%
mbpp	33.1%	11.6%	34.6%	36.9%	38.1%

Session 2와 높은 재현성 확인 (ExploreToM: 84.3% vs 84.1%, SelfAware: 32.3% vs 32.0%).

Session 4: 1B bf16 SelfAware-Edited (selfaware-v2)

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	MBPP
selfaware-edited	26.8%	25.2%	2.9%	19.4%	0.0%

Session 5: 8B 4-bit QLoRA (Run 3)

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	MBPP
exploretom	91.0%	11.9%	9.8%	46.6%	57.7%
selfaware-edited	36.5%	29.7%	11.4%	48.4%	28.9%
gsm8k	42.5%	13.4%	77.0%	60.3%	61.9%
triviaqa	66.0%	12.2%	15.9%	57.4%	58.8%
mbpp	40.9%	12.8%	29.9%	60.3%	51.5%

Session 6: 3B 4-bit SelfAware-Edited

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	MBPP
selfaware-edited	30.7%	29.7%	3.2%	37.1%	40.2%

Session 7: 8B 4-bit SelfAware-Edited-2 (v3)

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	MBPP	HumanEval
selfaware-edited-2	32.1%	21.1%	9.1%	53.1%	28.9%	0.0%

Session 8: 8B bf16 LoRA r16 SelfAware-Edited-2

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	MBPP	HumanEval
selfaware-edited-2	31.1%	15.7%	10.0%	51.7%	17.5%	3.1%

Incomplete: 8B 4-bit r16 SelfAware-Edited-2

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	MBPP	HumanEval
selfaware-edited-2	32.4%	12.5%	10.7%	51.9%	50.5%	34.4%

Quantization 비교 (Session 8 vs Incomplete): bf16 r16은 MBPP 17.5%, HumanEval 3.1% → 코드 능력 심각 하락. 4bit r16은 MBPP 50.5%, HumanEval 34.4% → 코드 능력 대폭 보존. 4-bit QLoRA가 base model capability를 더 잘 보존.

Session 9: 1B/3B 4-bit SelfAware-v4 + ExploreToM

1B SelfAware-v4:

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	HumanEval+	MBPP+
selfaware-v4	43.6%	26.1%	6.4%	32.8%	0.0%	0.0%

3B SelfAware-v4:

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	HumanEval+	MBPP+
selfaware-v4	62.8%	30.3%	32.7%	48.9%	0.0%	0.0%

1B ExploreToM:

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	HumanEval+	MBPP+
exploretom	87.1%	2.7%	3.9%	21.2%	0.0%	0.0%

Session 10: 8B 4-bit SelfAware-v4 Variants

Llama 8B, LR=2e-4, End LR=0.1:

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	HumanEval+	MBPP+
selfaware-v4	48.8%	35.6%	18.7%	56.1%	0.0%	0.0%

Llama 8B, LR=1.2e-4 (primary):

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	HumanEval+	MBPP+	ARC	BoolQ	CSQA
selfaware-v4	58.9%	34.4%	33.7%	55.8%	0.0%	0.0%	6.6%	12.8%	20.8%

DeepSeek-R1-Distill 8B, LR=1.2e-4:

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	HumanEval+	MBPP+	ARC	BoolQ	CSQA
selfaware-v4	66.2%	14.5%	6.2%	33.4%	0.0%	0.0%	5.4%	71.3%	13.8%

Session 11: 1B/3B 4-bit Control Tasks

1B TriviaQA-v2:

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	HumanEval+	MBPP+	ARC	BoolQ	CSQA
triviaqa-v2	66.7%	4.2%	4.6%	29.4%	12.5%	8.1%	2.7%	46.9%	10.7%

1B CommonsenseQA:

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	HumanEval+	MBPP+	ARC	BoolQ	CSQA
commonsenseqa	28.9%	2.4%	2.3%	20.0%	0.0%	0.0%	2.7%	3.0%	17.5%

1B ARC:

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	HumanEval+	MBPP+	ARC	BoolQ	CSQA
arc	38.0%	3.0%	5.5%	21.2%	12.5%	13.5%	4.6%	54.6%	11.5%

3B TriviaQA-v2:

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	HumanEval+	MBPP+	ARC	BoolQ	CSQA
triviaqa-v2	56.5%	5.9%	10.8%	44.3%	31.2%	45.9%	5.0%	72.6%	15.8%

3B CommonsenseQA:

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	HumanEval+	MBPP+	ARC	BoolQ	CSQA
commonsenseqa	45.8%	4.2%	4.8%	33.5%	0.0%	0.0%	3.5%	62.0%	24.5%

Run 4: 8B CUDA (PyTorch, 원본 SelfAware)

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	MBPP
Baseline	33.8%	16.6%	59.8%⚠️	60.6%	59.8%
exploretom	92.3%	11.9%	14.6%⚠️	56.4%	63.9%
selfaware	28.4%	39.8%	0.0%⚠️	51.1%	43.3%
gsm8k	45.5%	14.5%	80.0%⚠️	59.4%	68.0%
triviaqa	66.3%	13.4%	16.3%⚠️	57.4%	57.7%
mbpp	60.4%	13.1%	44.7%⚠️	59.9%	63.9%

⚠️ GSM8K 열은 regex 버그 수정 전 결과. Prediction 파일 미보유로 재평가 불가.
원본 SelfAware (IDK 31%) 사용. SelfAware→GSM8K=0.0%은 shortcut learning 증거.

4.3 분석: In-domain 향상과 Cross-domain Forgetting

In-domain 향상

대부분의 adapter가 자기 도메인에서 baseline 대비 향상을 보인다:

Task	1B	3B	8B	비고
ExploreToM	0.84	0.89	0.91	모든 크기에서 강한 향상
SelfAware (IDK F1)	70.1%	77.6%	76.8%	크기에 따라 F1 향상
GSM8K	0.52	0.75	0.77	Baseline 유지/향상

Cross-domain Catastrophic Forgetting

Adapter → Eval	1B	3B	8B	패턴
SelfAware → GSM8K	0.0%	0.13%	11.4%	소형 모델에서 완전 망각
SelfAware → HumanEval+	0.0%	0.0%	0.0%	전 크기 완전 소실
SelfAware → MBPP+	1.0%	0.0%	0.0%	전 크기 완전 소실
ExploreToM → GSM8K	2.5%	8.3%	9.8%	크기와 함께 소폭 완화

코드 생성 완전 소실: 1B/3B/8B 전 모델에서 SelfAware adapter 적용 시 HumanEvalPlus/MBPP+ 모두 0%. Adapter가 코드 대신 함수 기능에 대한 자연어 설명을 생성하는 catastrophic forgetting 패턴이 모든 모델 크기에서 동일하게 재현됨.

수학 추론 급락: GSM8K 정답률이 1B -34.0pp, 3B -42.4pp, 8B -43.2pp 하락. Chain-of-thought가 ~600자 → ~215자로 축소되며 단계적 추론 능력이 약화.

4.4 Shortcut Learning과 SelfAware 버전 개선

원본 SelfAware (v1, IDK 31.1%)의 Shortcut Learning

원본 SelfAware 데이터셋은 IDK 비율이 31.1% (3,032건 중 ~943건)로, adapter가 “무조건 IDK 출력” 전략을 학습하는 shortcut learning 문제를 야기했다.

증거 — GSM8K IDK 거부:

SelfAware 버전	GSM8K에서 IDK 출력 수	GSM8K IDK 출력 비율	GSM8K 정답률
v1 (원본, IDK 31.1%)	748/748	100%	0.0%
v2 (edited, IDK 5.0%)	12/748	1.6%	11.4%

v1 adapter는 GSM8K 747문제 전부를 IDK로 거부 — 수학 문제를 풀 수 있음에도 “답할 수 없다”고 응답. 이는 IDK 패턴의 과잉 일반화(shortcut)의 극단적 증거.

인과 확인: v1→v2에서 IDK 비율만 변경(31.1%→5.0%)하고 나머지 데이터/하이퍼파라미터를 동일하게 유지했을 때, GSM8K IDK 거부가 100%→1.6%로 급감. 이는 shortcut learning의 원인이 IDK 데이터 비율에 있음을 인과적으로 확인.

SelfAware-v4의 IDK 거부율 비교

SelfAware-v4 (IDK 2.6%, 20종 IDK 변형 포함)로 학습한 adapter에서도 GSM8K IDK 거부가 잔존하지만 대폭 감소:

모델	SelfAware-v4 → GSM8K IDK 거부율	GSM8K 정답률
1B	14.7% (103/699)	6.4%
3B	5.8% (29/503)	32.7%
8B	3.6% (18/495)	33.7%

모델 크기가 클수록 IDK 과잉 일반화가 억제됨 (1B 14.7% → 8B 3.6%). 그러나 GSM8K 하락의 주 원인은 IDK 거부보다 chain-of-thought 축소 (~600자 → ~215자)에 의한 추론 능력 약화.

4.5 ExploreToM 전이 효과와 모델 크기

SelfAware-v4 adapter가 ExploreToM(ToM 태스크)에 미치는 전이 효과는 모델 크기에 따라 질적으로 다르다:

모델	Baseline	SelfAware-v4	Δ	해석
1B	44.4%	43.6%	-0.8pp	변화 없음 (유지)
3B	33.2%	62.8%	+29.6pp	극적 향상
8B	34.1%	58.9%	+24.9pp	강한 향상

핵심 발견: 1B에서는 관찰되지 않던 SelfAware→ExploreToM 전이가 3B/8B에서 극적으로 나타남. 이는 SC-TOM 가설(Self-Awareness와 ToM 간의 표상 공유)을 행동 수준에서 지지하는 핵심 증거.

용량 가설: 1B 모델은 제한된 파라미터 공간에서 SelfAware 학습의 긍정적 전이가 catastrophic forgetting에 의해 상쇄됨. 3B/8B에서는 충분한 파라미터 공간으로 “질문의 전제 확인 → 답변 가능성 판단” 패턴이 belief tracking에 긍정적으로 전이.

8B vs 3B: 8B Δ(+24.9pp)가 3B Δ(+29.6pp)보다 작은 것은 8B baseline(34.1%)이 3B baseline(33.2%)보다 이미 높아 추가 효과가 상대적으로 작기 때문일 수 있음 (ceiling effect).

4.6 IDK F1 / Confusion Matrix 비교 (1B/3B/8B)

SelfAware-v4 adapter의 IDK 탐지 능력을 모델 크기별로 비교한다.

IDK F1 종합표

지표	1B QLoRA	3B QLoRA	8B QLoRA	8B Baseline
IDK F1	70.1%	77.6%	76.8%	50.0%
IDK Precision	85.9%	88.8%	86.6%	56.8%
IDK Recall	59.2%	68.9%	68.9%	44.7%
IDK 생성 수	71	80	82	81
답변 가능 정답률	11.5%	13.2%	19.2%	16.2%

Confusion Matrix (IDK 분류)

분류	1B	3B	8B
True Positive (정확한 IDK)	61	71	71
False Positive (오판 IDK)	10	9	11
False Negative (놓친 IDK)	42	32	32
True Negative (정확한 답변)	224	225	223

패턴 분석:

Precision: 1B 85.9% → 3B 88.8% → 8B 86.6%. 3B가 가장 높은 precision을 보임
Recall: 1B 59.2% → 3B/8B 68.9%. 3B 이상에서 recall이 수렴
F1: 1B(70.1%) < 8B(76.8%) ≈ 3B(77.6%). 모델 크기에 따른 향상이 3B에서 포화
False Positive 억제: 3개 모델 모두 FP 9~11건으로 낮음 — IDK를 무분별하게 남발하지 않음
답변 가능 정답률: 1B 11.5% → 3B 13.2% → 8B 19.2%. 큰 모델일수록 IDK 학습이 답변 능력을 덜 해침

4.7 응답 스타일 전이와 Goldilocks Zone

Style Transfer (응답 길이 수렴)

SelfAware-v4 adapter는 모든 태스크에서 응답 길이를 ~200–250자 범위로 수렴시키는 강한 style transfer를 보인다:

태스크	1B Baseline→V4	3B Baseline→V4	8B Baseline→V4
GSM8K	597→220 (×0.4)	593→213 (×0.4)	618→214 (×0.3)
HumanEval+	1503→207 (×0.1)	1329→219 (×0.2)	1380→228 (×0.2)
MBPP+	917→200 (×0.2)	934→215 (×0.2)	771→212 (×0.3)
TriviaQA	140→214 (×1.5)	134→216 (×1.6)	140→218 (×1.6)
ExploreToM	122→260 (×2.1)	187→243 (×1.3)	229→250 (×1.1)

코드/수학 태스크는 응답이 크게 단축되고, QA 태스크는 오히려 길어지며, 전체적으로 ~200–250자 범위로 수렴.

ExploreToM IDK Format Mismatch

ExploreToM adapter → SelfAware 평가에서, IDK-expected 질문에 대한 응답 패턴:

항목	결과
IDK 기대 질문 수	88/337
IDK 생성 수	0 (Baseline: 3)
응답 형식	짧은 명사구/단어 (평균 10자)

ExploreToM 학습 데이터에는 IDK 패턴이 없으므로, adapter가 모든 질문에 짧은 사실형 답변을 시도. 답할 수 없는 질문(“Why does every rule have exceptions?“)에도 “human nature”와 같은 1-2단어 응답을 생성.

비대칭 전이 (8B)

방향	Adapter → Task	점수	Δ vs Baseline
Self → ToM	SelfAware-ed → ExploreToM	36.5%	+3%
ToM → Self	ExploreToM → SelfAware	11.9%	−31%

Self→ToM은 약한 양성 전이, ToM→Self는 강한 음성 전이. 이 비대칭은 Self-Awareness가 ToM에 대해 상위 수준의 메타인지적 역할을 할 가능성을 시사.

Goldilocks Zone (1B 4-adapter 분석)

1B에서 4개 control adapter(SelfAware-v4, TriviaQA-v2, CommonsenseQA, ARC)의 응답 길이와 ExploreToM 전이 효과 관계:

응답 길이:   SelfAware(19.2w) → ARC(3.5w) → TriviaQA(2.6w) → CSQA(1.5w)
ExploreToM:     -0.8pp       →   -5.4pp   →   +23.2pp      →  -14.6pp

Adapter	평균 응답 길이	ExploreToM Δ	BoolQ	IDK 능력
SelfAware-v4	19.2 words	-0.8pp	—	강화 (F1 +26pp)
ARC	3.5 words	-5.4pp	54.6%	제거
TriviaQA-v2	2.6 words	+23.2pp	46.9%	제거
CommonsenseQA	1.5 words	-14.6pp	3.0%	제거

해석:

ExploreToM에서의 최적 응답 길이는 2–4 words (Goldilocks zone)
TriviaQA(2.6w)의 +23.2pp은 형식 매칭 artifact (짧은 단답이 ExploreToM 정답 형식과 일치)
CSQA(1.5w)은 너무 짧아 정보 손실 → -14.6pp
SelfAware(19.2w)는 장황하지만 ExploreToM 유지(-0.8pp) — 형식 효과 이외의 전이 가능성
형식을 통제해도 SelfAware만 ExploreToM을 유지하는 점은 SC-TOM 가설을 간접 지지

Yes/No 편향의 전이

Adapter	yes/no 편향	ExploreToM Type C (yes/no belief)	메커니즘
TriviaQA	Yes 편향	100%	정답이 yes이므로 우연 정답
ARC	No 편향	28.6% (+3.2pp)	no 출력이 yes 기대 질문에서 실패
CSQA	비표준 출력	—	양쪽 매칭 실패
SelfAware	장황한 설명	25.3%	baseline과 동일

4.8 모델 크기별 종합 비교 (SelfAware-v4)

관점	1B	3B	8B	8B Baseline	8B Δ
ExploreToM	43.6%	62.8%	58.9%	34.1%	+24.9pp
SelfAware	26.1%	30.3%	34.4%	24.9%	+9.5pp
IDK F1	70.1%	77.6%	76.8%	50.0%	+26.8pp
GSM8K	6.4%	32.7%	33.7%	77.0%	-43.2pp
GSM8K IDK 거부율	14.7%	5.8%	3.6%	0.0%	—
TriviaQA	32.8%	48.9%	55.8%	59.4%	-3.6pp
HumanEvalPlus	0.0%	0.0%	0.0%	62.5%	-62.5pp
MBPP+	0.0%	0.0%	0.0%	70.3%	-70.3pp

모델 크기별 핵심 패턴:

ExploreToM 전이: 1B(-0.8pp) → 3B(+29.6pp) → 8B(+24.9pp). 3B 이상에서 극적 전이 발생
IDK F1 수렴: 1B(70.1%) → 3B(77.6%) ≈ 8B(76.8%). 3B에서 IDK 탐지 능력 포화
IDK 과잉 일반화 감소: GSM8K IDK 거부율이 모델 크기와 반비례 (14.7% → 3.6%)
코드 생성 공통 소실: 전 모델 크기에서 HumanEval+/MBPP+ = 0%
GSM8K 하락 유사: 3B(-42.4pp)과 8B(-43.2pp)가 유사, 주원인은 CoT 축소

5. Parameter-Level Similarity Analysis

LoRA fused delta (Δ_W = lora_a @ lora_b)를 layer별로 cosine similarity 측정하여, ToM↔Self adapter pair가 control pair보다 높은 유사도를 보이는지 검증.

5.1 4-Pair Analysis (TriviaQA 제외)

TriviaQA가 야기하는 data leakage confound를 배제한 순수한 dissociation 측정. 가장 보수적이고 신뢰성 높은 분석.

Pair-wise Summary

Pair	1B Overall	1B Attn	1B MLP	3B Overall	3B Attn	3B MLP
ToM↔Self	0.1269	0.1275	0.1261	0.1672	0.1580	0.1794
ToM↔GSM8K	0.0742	0.0735	0.0752	0.0736	0.0686	0.0804
ToM↔MBPP	0.1027	0.1119	0.0905	0.0833	0.0876	0.0776
Self↔GSM8K	0.0891	0.0895	0.0887	0.0859	0.0853	0.0867
Self↔MBPP	0.1121	0.1211	0.1002	0.0922	0.1020	0.0791
GSM8K↔MBPP	0.1102	0.1187	0.0988	0.0737	0.0805	0.0646

Dissociation & Permutation Test

Metric	1B	3B
ToM↔Self mean	0.1269	0.1672
Control avg (5 pairs)	0.0977	0.0818
Dissociation gap	0.0292	0.0854
Gap ratio (ToM↔Self / control)	1.30×	2.04×
Permutation p-value (global)	< 0.001	< 0.001
Significant layers (p < 0.05)	13/16	26/28

1B와 3B 모두 global p < 0.001. 3B에서 gap ratio 2.04× — ToM↔Self 유사도가 control 평균의 2배 이상.

Omnibus Test (4-pair)

Rank	1B Pair	1B Mean	3B Pair	3B Mean
1	ToM↔Self	0.1269	ToM↔Self	0.1672
2	Self↔MBPP	0.1121	Self↔MBPP	0.0922
3	GSM8K↔MBPP	0.1102	Self↔GSM8K	0.0859
4	ToM↔MBPP	0.1027	ToM↔MBPP	0.0833
5	Self↔GSM8K	0.0891	GSM8K↔MBPP	0.0737
6	ToM↔GSM8K	0.0742	ToM↔GSM8K	0.0736

1B/3B 모두 ToM↔Self가 #1 rank. 가설 pair가 모든 control pair를 상회.

Post-hoc (Bonferroni corrected)

1B: vs Pair	Diff	p (corrected)	Cohen’s d	3B: vs Pair	Diff	p (corrected)	Cohen’s d
vs ToM↔GSM8K	+0.053	< 0.001	1.11	vs ToM↔GSM8K	+0.094	< 0.001	1.38
vs ToM↔MBPP	+0.024	0.001	0.48	vs ToM↔MBPP	+0.084	< 0.001	1.15
vs Self↔GSM8K	+0.038	< 0.001	0.72	vs Self↔GSM8K	+0.081	< 0.001	1.18
vs Self↔MBPP	+0.015	0.054	0.27	vs Self↔MBPP	+0.075	< 0.001	1.09
vs GSM8K↔MBPP	+0.017	0.054	0.30	vs GSM8K↔MBPP	+0.093	< 0.001	1.42

1B에서 Self↔MBPP, GSM8K↔MBPP과의 차이는 Bonferroni 보정 후 경계적 유의수준 (p≈0.054). 3B에서는 모든 대조군 대비 유의 (p < 0.001, Cohen’s d > 1.0).

5.2 5-Pair Analysis (TriviaQA 포함)

TriviaQA를 포함한 전체 10-pair 분석. TriviaQA confound로 인해 해석에 주의 필요.

5-Pair Summary (상위 pair)

Pair	1B Overall	3B Overall	8B Overall	비고
Self↔TriviaQA	0.2037	0.2225	0.1876	⚠️ 전체 1위 (data leakage)
ToM↔MBPP	0.1027	0.0833	0.1608	8B에서 급상승
ToM↔Self	0.1269	0.1672	0.1414	가설 pair
Self↔MBPP	0.1121	0.0922	0.1390
ToM↔TriviaQA	0.1419	0.1536	0.1217

5-Pair Dissociation

Metric	1B	3B	8B
ToM↔Self mean	0.1269	0.1672	0.1414
Control avg (9 pairs)	0.1171	0.1044	0.1101
Dissociation gap	0.0098	0.0628	0.0313
Gap ratio	1.08×	1.60×	1.28×
Permutation p-value	0.075 (n.s.)	< 0.001	< 0.001
Significant layers	13/16	26/28	32/32

⚠️ TriviaQA confound: Self↔TriviaQA가 ToM↔Self보다 높아 control avg를 끌어올림 → dissociation gap 축소. 1B에서는 global p=0.075로 non-significant.

8B 핵심: TriviaQA confound에도 불구하고 global p < 0.001, 32/32 layers 전부 유의. Scale-up이 ToM↔Self 신호를 TriviaQA noise 위로 끌어올림.

Omnibus Ranks (5-pair)

Rank	1B Pair	1B Mean	3B Pair	3B Mean	8B Pair	8B Mean
1	Self↔TriviaQA	0.2037	Self↔TriviaQA	0.2225	Self↔TriviaQA	0.1876
2	ToM↔TriviaQA	0.1419	ToM↔Self	0.1672	ToM↔MBPP	0.1608
3	ToM↔Self	0.1269	ToM↔TriviaQA	0.1536	ToM↔Self	0.1414
4	TriviaQA↔MBPP	0.1223	Self↔MBPP	0.0922	Self↔MBPP	0.1390
5	Self↔MBPP	0.1121	Self↔GSM8K	0.0859	ToM↔TriviaQA	0.1217

8B Omnibus F-test: p < 0.001, post-hoc에서 ToM↔Self vs 7/9 pairs 유의 (p_adj < 0.05). Self↔MBPP과는 거의 동일 (d=0.039, n.s.), Self↔TriviaQA에는 열위 (d=−0.707; data leakage).

5.3 SelfAware-v2 재분석 (Shortcut Learning 제거 효과)

원본 SelfAware (IDK 31.1%) 대신 selfaware-v2 (IDK 5.0%) adapter로 cosine similarity 재분석. IDK shortcut 제거가 ToM↔Self 유사도 패턴에 미치는 영향 검증.

Adapter 출처:

1B: ExploreToM/GSM8K/TriviaQA/MBPP = mlx-lora-*/20260219_001856 (bf16), selfaware-v2 = mlx-lora-selfaware-v2/20260220_221232 (bf16)

8B: 전체 5 task = mlx-qlora-*/20260221_002706 (4bit QLoRA) — 동일 run

3B: 혼합 양자화(bf16 + qlora) — ⚠️ 직접 비교 불가

selfaware-v2 4-Pair: Original vs Edited 비교

Metric	1B (orig)	1B (edited)	3B (orig)	3B (edited)⚠️	8B (edited)
ToM↔Self mean	0.1269	0.1441	0.1672	0.0578	0.1414
Control avg (5 pairs)	0.0977	0.1032	0.0818	0.0574	0.1040
Dissociation gap	0.029	0.041	0.085	0.000	0.037
Gap ratio	1.30×	1.40×	2.04×	1.01×	1.36×
Permutation p-value	< 0.001	< 0.001	< 0.001	0.461 (n.s.)	< 0.001
Significant layers	13/16	14/16	26/28	1/32	32/32

1B: gap이 0.029 → 0.041로 41% 증가, 유의 레이어 13 → 14/16. IDK shortcut 제거가 Self adapter의 표상을 더 “순수한” self-awareness 방향으로 이동.

3B: bf16 + qlora 혼합 양자화로 gap 붕괴. Weight magnitude가 체계적으로 다르므로 양자화 artifact일 가능성 높음. 동일 조건 3B qlora 5-task run 필요.

8B: 32/32 전층 유의 유지.

selfaware-v2 5-Pair: Original vs Edited 비교

Metric	1B (orig)	1B (edited)	3B (orig)	3B (edited)⚠️	8B (edited)
ToM↔Self mean	0.1269	0.1441	0.1672	0.0578	0.1414
Control avg (9 pairs)	0.1171	0.1282	0.1044	0.0764	0.1101
Dissociation gap	0.010	0.016 (+60%)	0.063	−0.019	0.031
Permutation p-value	0.075 (n.s.)	0.029	< 0.001	1.0 (n.s.)	< 0.001
Significant layers	13/16	14/16	26/28	1/32	32/32

1B 5-pair 핵심 변화: 원본에서 p=0.075 (non-significant) → selfaware-v2에서 p=0.029 (significant). IDK shortcut 제거가 Self adapter 표상을 정제하여, TriviaQA noise 하에서도 ToM↔Self 신호가 유의해짐.

selfaware-v2 종합 비교

설정	1B Gap (orig→ed)	3B Gap (orig→ed)	8B Gap (ed)
4-pair	0.029 → 0.041 (+41%)	0.085 → 0.000⚠️	0.037
5-pair	0.010 → 0.016 (+60%)	0.063 → −0.019⚠️	0.031
4-pair p-value	<0.001 → <0.001	<0.001 → 0.461	<0.001
5-pair p-value	0.075 → 0.029	<0.001 → 1.0	<0.001
4-pair rank	#1 → #1	#1 → #4	#2
5-pair rank	#3 → #2	#2 → #8	#3

결론: 1B/8B에서 selfaware-v2는 dissociation gap 증가 + 통계적 유의성 강화. IDK shortcut 제거가 Self adapter의 표상을 순수한 self-awareness 방향으로 이동시켜 ToM과의 공유 신호가 명확해짐. 3B는 양자화 혼합으로 해석 불가.

5.4 Data Leakage 분석

5개 학습 데이터셋 간 텍스트 중복을 검증.

Exact Duplicate Check

Dataset Pair	Exact Duplicates	비고
SelfAware train ↔ TriviaQA train	38	⚠️ 동일 질문 공유
SelfAware train ↔ TriviaQA valid	6	⚠️ train→valid 오염
SelfAware valid ↔ TriviaQA train	5	⚠️ valid→train 오염
그 외 모든 pair (42개)	0	✓ clean
Within-dataset (train↔valid, 5개)	0	✓ clean

총 49개 exact duplicate — 전부 SelfAware ↔ TriviaQA 간에서만 발견. SelfAware가 다양한 출처의 질문을 모아 “답변 가능 여부”를 레이블링한 데이터셋이므로, TriviaQA 질문이 포함된 것으로 추정.

N-gram Containment

N-gram	Flagged Pair	Examples	Max Containment
8-gram	SelfAware ↔ TriviaQA	102	1.000
13-gram	SelfAware ↔ TriviaQA	98	1.000
8-gram	그 외 9개 pair	0	—

Dataset-level 8-gram Jaccard:

	ExploreToM	SelfAware	GSM8K	TriviaQA	MBPP
ExploreToM	—	0.0000	0.0000	0.0000	0.0000
SelfAware	0.0000	—	0.0000	0.0036	0.0000
GSM8K	0.0000	0.0000	—	0.0000	0.0000
TriviaQA	0.0000	0.0036	0.0000	—	0.0000
MBPP	0.0000	0.0000	0.0000	0.0000	—

Data Leakage의 영향

Self↔TriviaQA cosine similarity 1위의 직접 원인: 동일 질문에 대해 학습한 adapter끼리 유사한 방향으로 가중치 이동 → cosine similarity 증가
4-pair 분석의 타당성 확인: TriviaQA를 제외한 4-pair 분석이 오염 없는 순수한 비교임을 입증
다른 모든 dataset pair는 완전히 clean: ExploreToM, GSM8K, MBPP 간 중복 0건

5.5 Layer-wise Similarity: SelfAware 버전별 비교

SelfAware v1~v4의 데이터 정제(data refinement)가 ExploreToM adapter와의 layer-wise cosine similarity에 미치는 영향을 분석한다.

분석 대상

Panel	Adapter	Checkpoint 경로	모델/Rank
A (1B)	selfaware v1	`mlx-lora-selfaware/20260219_234546/`	Llama 3.2 1B, r=8
A (1B)	selfaware v2 (edited)	`mlx-lora-selfaware-edited/20260220_221232/`	Llama 3.2 1B, r=8
A (1B)	exploretom	`mlx-lora-exploretom/20260219_234546/`	Llama 3.2 1B, r=8
B (8B)	selfaware v3 (edited-2)	`mlx-qlora-selfaware-edited-2/20260225_152202/`	Llama 3.1 8B, r=16
B (8B)	selfaware v4	`mlx-qlora-selfaware-v4/20260304_205901/`	Llama 3.1 8B, r=8
B (8B)	exploretom	`mlx-qlora-exploretom/20260221_002706/`	Llama 3.1 8B, r=8

참고: 8B v3(r=16)과 v4(r=8)는 LoRA rank가 다르지만, fused delta (Δ_W = lora_a @ lora_b)의 차원은 동일하므로 cosine similarity 비교에 문제 없음.

결과 그래프

Layer-wise Cosine Similarity: SelfAware versions ↔ ExploreToM

수치 요약

Panel	Pair	Mean Similarity	Max Layer (값)	Min Layer (값)
A (1B)	v1↔ToM	0.1253	Layer 0 (0.1814)	Layer 10 (0.0829)
A (1B)	v2↔ToM	0.1439	Layer 0 (0.2143)	Layer 10 (0.1047)
B (8B)	v3↔ToM	0.0610	Layer 29 (0.1356)	Layer 0 (0.0034)
B (8B)	v4↔ToM	0.0029	Layer 29 (0.0100)	Layer 31 (−0.0050)

해석

1B (Panel A): v2 > v1 — IDK shortcut 제거가 ToM 유사도를 증가

v2(edited)는 v1 대비 mean similarity가 0.125 → 0.144로 15% 증가
IDK shortcut을 제거하면 adapter가 순수한 self-awareness 표상을 학습하여 ToM adapter와의 공유 신호가 강해짐
이는 5.3절의 dissociation gap 분석 (+41% 증가) 결과와 일관된 방향
Layer 패턴: 초기 layer(Layer 0)에서 유사도 최대 — embedding 근처에서 공유 표상이 가장 강함

8B (Panel B): v3 >> v4 — 데이터 정제 방식에 따른 극적 차이

v3(edited-2)는 mean=0.0610으로 구조적 유사성이 존재하지만, v4는 mean=0.0029로 사실상 0에 가까움
v4의 데이터 정제(SimCSE 기반 IDK 재분류)가 self-awareness 특유의 신호를 과도하게 제거했을 가능성
Layer 패턴: v3는 후기 layer(Layer 29)에서 유사도 최대 — 8B 규모에서 고차 표상이 후반부 layer에 집중

모델 크기에 따른 Layer 패턴 차이

1B: 초기 layer(0)에서 최대 → 소형 모델은 저수준 표상 공유가 주도적
8B v3: 후기 layer(29)에서 최대 → 대형 모델은 고차 표상 수준에서 ToM-Self 공유가 발생
이는 모델 크기에 따라 공유 표상이 형성되는 network depth가 다름을 시사

5.6 통계적 증거 종합

4-Pair (TriviaQA 제외, 가장 보수적)

모델	Gap	Gap Ratio	Global p	Sig. Layers	Cohen’s d (max)
1B	0.0292	1.30×	< 0.001	13/16	1.11 (vs GSM8K)
3B	0.0854	2.04×	< 0.001	26/28	1.42 (vs GSM8K↔MBPP)

5-Pair (TriviaQA 포함)

모델	Gap	Gap Ratio	Global p	Sig. Layers
1B	0.0098	1.08×	0.075 (n.s.)	13/16
3B	0.0628	1.60×	< 0.001	26/28
8B	0.0313	1.28×	< 0.001	32/32

selfaware-v2 (shortcut 제거 후)

모델	4-pair Gap	4-pair p	5-pair Gap	5-pair p
1B	0.041	< 0.001	0.016	0.029
8B	0.037	< 0.001	0.031	< 0.001

핵심 결론: ToM↔Self pair는 4-pair 분석에서 1B/3B 모두 global p < 0.001, 3B에서 Cohen’s d > 1.0 (large effect). 5-pair에서도 3B/8B에서 유의하며, 8B는 32/32 layers 전부 유의. IDK shortcut 제거(selfaware-v2) 후 신호가 더 강해짐 (1B 5-pair: n.s. → significant).

6. Conclusion

6.1 확인된 사항

가설 지지 증거 (Parameter Level):

ToM↔Self adapter pair의 cosine similarity가 모든 control pair보다 높음 (4-pair 분석에서 1B/3B 모두 #1 rank)
Global permutation test: 4-pair p < 0.001 (1B, 3B), 5-pair p < 0.001 (3B, 8B)
Cohen’s d > 1.0 (3B 4-pair) — large effect size
8B 5-pair: 32/32 layers 전부 유의 — scale-up이 신호를 강화
selfaware-v2 (shortcut 제거): dissociation gap 41% 증가 (1B 4-pair), 5-pair에서 n.s.→significant 전환

가설 지지 증거 (Behavioral Level):

SelfAware→ExploreToM 전이: 3B +29.6pp, 8B +24.9pp — Self-Awareness 학습이 ToM 능력을 향상
전이 효과의 모델 크기 의존성: 1B(-0.8pp), 3B(+29.6pp), 8B(+24.9pp) — 충분한 용량에서 발현
비대칭 전이: Self→ToM 양성 전이, ToM→Self 음성 전이 — Self-Awareness의 메타인지적 상위 역할 시사

방법론적 확인:

Data leakage 검출 및 통제: SelfAware↔TriviaQA 49건 중복 → 4-pair 분석으로 배제
Shortcut learning 검출 및 해결: v1 IDK 과잉 학습 → v2/v4로 데이터 정제
동일 hyperparameter 통일로 confound 최소화

6.2 한계점

SFT 한계: LoRA delta가 출력 형식(surface pattern)을 반영할 수 있어, cosine similarity가 추론 전략이 아닌 형식 유사성을 포착할 가능성
MBPP 범용성: 8B에서 ToM↔MBPP가 ToM↔Self보다 높은 경우 존재 (8B 4-pair selfaware-v2) — MBPP adapter의 높은 범용성이 해석을 복잡화
3B 양자화 혼합: 3B selfaware-v2 분석에서 bf16+qlora 혼합으로 인해 결과 해석 불가
1B 5-pair 경계적 결과: 원본 SelfAware에서 p=0.075 (n.s.) — selfaware-v2에서 해결되었지만, 소형 모델에서의 신호 약화 경향
형식 효과 통제 부족: Goldilocks zone 분석이 시사하듯, cross-eval 전이의 상당 부분이 응답 형식 매칭에 기인할 수 있음
모델 다양성: Llama 계열만 사용 — 다른 모델 family에서의 재현 미확인

6.3 향후 실험

우선순위	실험	목적
1	TriviaQA-v2 재학습 (49 duplicate 제거)	Data leakage 완전 해소 후 5-pair 재분석
2	3B QLoRA 통합 5-task run	3B 양자화 혼합 문제 해결
3	Rank sensitivity (r16, r32)	LoRA rank에 따른 cosine similarity 변화 확인
4	GRPO 확장 실험 (GSM8K+MBPP)	SFT vs GRPO adapter의 cosine similarity 비교
5	다른 모델 family (Mistral, Gemma)	Llama 이외 모델에서의 재현
6	Semantic similarity 평가	Strict matching → lenient matching으로 cross-eval 재평가

SC-TOM_Experiment_Report