Pilot Test Results

SC-TOM Pilot 실험 결과 정리. Llama-3.2 (1B / 3B) 모델에 5개 task (ExploreToM, SelfAware, GSM8K, TriviaQA, MBPP)를 각각 LoRA fine-tuning한 후, cross-evaluation과 cosine similarity 분석을 통해 ToM과 Self-Awareness 간의 표상 공유를 검증.

Experiment Runs

Run 1: 20260218 (Feb 18) — 3B 5-task ★★

Model: Llama-3.2-3B-Instruct-bf16
LoRA: rank=8, scale=1.0, dropout=0.05, all layers (lora_num_layers=-1)
Training: ExploreToM 1ep / SelfAware 1ep / GSM8K 1ep / TriviaQA 1ep / MBPP 1ep
Batch: 2 × 8 = effective 16, grad_checkpoint=true
LR: 2e-4, cosine decay, warmup 5%
Timestamps:
- Baseline: 20260218_012033
- ExploreToM: 20260218_104723
- SelfAware: 20260218_155336
- GSM8K: 20260218_164927
- TriviaQA: 20260218_200753
- MBPP: 20260218_222920
Cross-eval: ✅ 5×5 matrix (단, ExploreToM/SelfAware/GSM8K/TriviaQA adapter는 MBPP eval 미포함)
Cosine similarity: ✅ 4-pair + 5-pair 분석, permutation test, omnibus test
비고: SelfAware epochs 3→1로 변경 (다른 task와 통일). TriviaQA, MBPP control 추가.

Run 2: 20260219_001856 (Feb 19) — 1B 5-task ★★

Model: Llama-3.2-1B-Instruct-bf16
LoRA: rank=8, scale=1.0, dropout=0.05, all layers (lora_num_layers=-1)
Training: ExploreToM 1ep / SelfAware 3ep / GSM8K 1ep / TriviaQA 1ep / MBPP 1ep
Batch: 4 × 4 = effective 16
LR: 2e-4, cosine decay, warmup 5%
Timestamp: 20260219_001856 (공유)
Cross-eval: ✅ 완전한 5×5 matrix
Cosine similarity: ✅ 4-pair + 5-pair 분석, permutation test, omnibus test
비고: 1B에서는 SelfAware 3 epochs 유지 (데이터 작아 3ep 필요). Baseline 미별도 측정.

Run 3: 20260221_002706 (Feb 21–22) — 8B QLoRA 5-task

Model: Llama-3.1-8B-Instruct (MLX 4-bit pre-quantized: mlx-community/Llama-3.1-8B-Instruct-4bit)
QLoRA: rank=8, scale=1.0, dropout=0.05, all layers, 4-bit quantization (NF4)
Training: ExploreToM 1ep / SelfAware-edited 1ep / GSM8K 1ep / TriviaQA 1ep / MBPP 1ep
Batch: 2 × 8 = effective 16, grad_checkpoint=true
LR: 2e-4, cosine decay, warmup 5%, lr_end_ratio=0.1
Timestamp: 20260221_002706 (training 공유), 20260222_032515 (baseline)
Cross-eval: ✅ 완전한 5×5 matrix + baseline
Cosine similarity: ✅ 4-pair + 5-pair 분석, permutation test, omnibus test
비고: SelfAware를 IDK 5%로 축소한 selfaware-edited 데이터셋 사용. 1B/3B pilot 대비 scale-up 효과 검증. 총 소요 ~28시간.

Training Summary

Task	Train Samples	Iters	Time (min)	Best val_loss	Best iter
ExploreToM	11,840	5,920	860.7	0.022	5,600
SelfAware-edited	2,198	1,099	31.2	1.209	1,099
GSM8K	6,725	3,362	297.2	0.532	400
TriviaQA	6,300	3,150	98.3	0.580	3,150
MBPP	877	438	45.5	0.569	400

Experiment Config 비교

항목	Run 1 ★★	Run 2 ★★	Run 3
Model	3B	1B	8B
Quantization	bf16	bf16	4-bit (QLoRA)
LoRA rank	8	8	8
LoRA scale	1.0	1.0	1.0
Tasks	5	5	5
ExploreToM ep	1	1	1
SelfAware ep	1	3	1 (edited)
GSM8K ep	1	1	1
TriviaQA ep	1	1	1
MBPP ep	1	1	1
LR schedule	cosine+warmup	cosine+warmup	cosine+warmup
Batch	2×8=16	4×4=16	2×8=16
grad_checkpoint	✓	✗	✓
All layers	✓	✓	✓
Cosine sim	✓	✓	✓
Permutation test	✓	✓	✓

⚠️ SelfAware 차이: Run 1은 1 epoch (원본), Run 2는 3 epochs (원본, 소규모 데이터 보완), Run 3은 1 epoch (selfaware-edited, IDK 5%로 축소). Run 3에서 shortcut learning 완화를 위해 IDK 비율 31.1% → 5.0%로 조정한 데이터셋 사용.

Configuration Parameter Reference

18개 config 파일의 핵심 파라미터를 모델 크기별로 그룹핑한 요약표.

Config	Model	Precision	Rank	Scale	Dropout	LR	Batch (eff)
`config_1b`	Llama 3.2 1B	bf16	8	1.0	0.05	2e-4	4×4=16
`config_1b_r16`	〃	bf16	16	0.5	0.08	1.5e-4	4×4=16
`config_1b_r32`	〃	bf16	32	0.5	0.1	1e-4	4×4=16
`config_1b_qlora`	〃	4bit	8	1.0	0.05	2e-4	4×4=16
`config_1b_qlora_r16`	〃	4bit	16	0.5	0.08	1.5e-4	4×4=16
`config_1b_qlora_r32`	〃	4bit	32	0.5	0.1	1e-4	4×4=16
`config_3b`	Llama 3.2 3B	bf16	8	1.0	0.05	2e-4	2×8=16
`config_3b_r16`	〃	bf16	16	0.5	0.08	1.5e-4	2×8=16
`config_3b_r32`	〃	bf16	32	0.5	0.1	1e-4	2×8=16
`config_3b_qlora`	〃	4bit	8	1.0	0.05	2e-4	2×8=16
`config_3b_qlora_r16`	〃	4bit	16	0.5	0.08	1.5e-4	2×8=16
`config_3b_qlora_r32`	〃	4bit	32	0.5	0.1	1e-4	2×8=16
`config_8b`	Llama 3.1 8B	bf16	8	1.0	0.05	2e-4	1×16=16
`config_8b_r16`	〃	bf16	16	0.5	0.08	1.5e-4	1×16=16
`config_8b_r32`	〃	bf16	32	0.5	0.1	1e-4	1×16=16
`config_8b_qlora`	〃	4bit	8	1.0	0.05	2e-4	1×16=16
`config_8b_qlora_r16`	〃	4bit	16	0.5	0.08	1.5e-4	1×16=16
`config_8b_qlora_r32`	〃	4bit	32	0.5	0.1	1e-4	1×16=16

Full Pipeline Status

5-Task = ExploreToM + SelfAware + GSM8K + TriviaQA + MBPP 전부 학습 완료 여부.

Config	5-Task SFT	Cross-Eval	Cosine (4p)	Cosine (5p)	Perm Test	Self Variant	TriviaQA	비고
1B bf16 r8	✅	✅	✅	✅	✅	orig (3ep)	orig	Run 2 (20260219)
3B bf16 r8	✅	✅	✅	✅	✅	orig (1ep)	orig	Run 1 (20260218)
8B 4bit r8	✅	✅	✅	✅	✅	edited	orig	Run 3 (20260221)
1B bf16 r16						—	—
1B bf16 r32						—	—
1B 4bit r8~r32						—	—	MLX에서 1B 4bit fallback→bf16
3B bf16 r16						—	—
3B bf16 r32						—	—
3B 4bit r8						—	—
3B 4bit r16						—	—
3B 4bit r32						—	—
8B bf16 r8~r32						—	—	8B bf16은 Metal OOM 위험
8B 4bit r16						—	—
8B 4bit r32						—	—

18개 config 중 3개만 full pipeline 완료 (16.7%). r16/r32 rank sensitivity 실험은 전무.

개별 Variant Adapter 현황

Full 5-task 외에 단일 task만 개별 학습한 variant adapter 목록.

Adapter	Model	Rank	Quant	Timestamp	Cross-Eval	Cosine Sim	비고
selfaware-edited (1B)	1B	8	bf16	20260220_221232	✅	✅	IDK 5%
selfaware-edited (3B)	3B	8	4bit	20260222_234559	✅	⚠️	혼합 양자화 (bf16 lora + qlora)
selfaware-edited (8B)	8B	8	4bit	20260221_002706	✅	✅	Run 3에 포함
selfaware-edited-2 (8B)	8B	8	4bit	20260223_234150	✅	✅	IDK 다양화, r8
selfaware-edited-2 (8B)	8B	16	bf16	20260225_130700	✅		r16 첫 실험, cross-precision eval
selfaware-edited-2 (8B)	8B	16	4bit	20260225_152202	❌		OOM@iter1920, best ckpt saved (iter800)
triviaqa-v2	—	—	—	—			데이터 생성 완료, 학습 미수행

미수행 실험 요약

우선순위	실험	상세	비고
1	TriviaQA-v2 재학습	data leak 43+6개 제거 후 3개 run 재실행	`train_triviaqa_v2.py` 준비 완료
2	SelfAware-edited-2 full 5-task	현재 개별 adapter만 존재, 전체 파이프라인 필요	cosine sim 분석에 필수
3	8B r16 4bit cross-eval	20260225_152202 best ckpt 기반 재실행	GPU 점유 해제 후 가능
4	3B qlora 5-task 통합 run	3B-edited 혼합 양자화 문제 해결	동일 조건 비교 필요
5	Rank sensitivity (r16, r32)	15개 config 미실행, full 5-task 필요	논문 robustness 분석용
6	HumanEval	config에 정의, 데이터 존재, 학습 미수행	코드 생성 control 추가
7	1B baseline	no-adapter baseline 미측정	Run 2에서 누락

Hyperparameter Justification

5개 task에 동일한 hyperparameter를 적용하여, adapter 간 cosine similarity 차이가 hyperparameter artifact가 아닌 task-level 표상 공유에서 기인함을 보장하는 것이 핵심 설계 원칙.

Learning Rate: `2e-4`

LoRA fine-tuning의 표준 학습률은 1e-4 ~ 2e-4 범위. Full fine-tuning (1e-5 ~ 3e-5)보다 약 10배 높은데, LoRA는 학습 가능 파라미터가 극히 적어 (전체의 ~0.5%) 더 높은 LR이 필요하기 때문. Raschka (2023)는 수백 건의 LoRA 실험에서 1e-4를 starting point로 제안하며, Lightning AI (2023)는 1e-4 ~ 3e-4를 최적 범위로 보고. 본 실험의 2e-4는 이 범위의 중간값으로, rank=8에서 경험적으로 안정적인 수렴을 보임.

LR Schedule: Cosine Decay + Warmup 5%

Warmup (5%): 학습 초기에 gradient가 크고 불안정 → 작은 LR에서 시작하여 점진적으로 올려 파라미터 divergence를 제한 (Gilmer et al., 2024). 5%는 1-epoch fine-tuning에서 과도하지 않은 conservative 설정.

Cosine decay: Linear decay 대비 peak LR 근처에서 더 오래 학습하여 loss landscape 탐색에 유리하고, 후반부의 graceful decay가 수렴 안정성을 높임 (Loshchilov & Hutter, 2017). GPT-3, LLaMA, Alpaca 등 주요 LLM 학습에서 표준으로 채택.

본 실험에서의 특수한 의의: LoRA delta의 cosine similarity를 분석하는 연구 특성상, 모든 task에 동일한 학습 역학(dynamics)을 부여하는 것이 중요. Cosine schedule은 task 간 학습 곡선 형태를 통일하여, adapter 간 유사도 차이가 schedule artifact가 아닌 genuine task similarity를 반영하도록 함.

LoRA Rank: `8`

Hu et al. (2021) 원논문의 기본값. GPT-3 175B에서 rank 4~8로도 full fine-tuning 수준의 성능을 달성하였으며, 핵심 발견은 “ΔW has a very small intrinsic rank” — rank를 64로 올려도 추가 의미 있는 subspace를 커버하지 못한다는 것. Rank 8은 1B/3B 소형 모델에서 충분한 expressiveness를 제공하면서, adapter 파라미터 수를 최소화하여 cosine similarity 분석의 noise를 줄임.

LoRA Scale: `1.0` (effective α = rank × scale = 8)

MLX 프레임워크에서 lora_scale=1.0은 PEFT의 lora_alpha=8에 해당 (effective scaling = α/r = 8/8 = 1.0). 일반적 권장은 α = 2×rank (effective scaling = 2.0)이나, 본 실험에서 conservative한 scale=1.0을 선택한 이유는 LoRA delta의 magnitude를 과도하게 키우면 adapter 간 cosine similarity가 표상(direction)보다 학습 강도(intensity)에 좌우될 위험이 있기 때문. Scale=1.0은 adapter가 원래 weight에 과도한 영향을 미치지 않도록 하여, 표상 방향이 task semantics를 더 잘 반영하도록 함.

LoRA Dropout: `0.05`

Lin et al. (2024)에 따르면 LoRA dropout이 sparsity regularizer로 작용하여 generalization error bound를 줄임. 0.05는 5%의 LoRA activation만 zeroing하는 mild regularization으로, overfitting을 방지하면서 학습 용량을 거의 손상시키지 않음. Dropout > 0.1에서는 adapter 학습 능력이 저하되므로 0.05가 conservative default.

Target Layers: All Layers (`lora_num_layers=-1`)

Dettmers et al. (2023, QLoRA)은 모든 linear layer에 LoRA 적용 시 최적 성능을 보고. Raschka (2023) 역시 “targeting all layers is crucial for matching the performance of full fine-tuning”로 요약. 본 실험에서 특히 중요한 이유: cosine similarity를 layer별로 분석하므로, 모든 layer에 adapter가 존재해야 전체 depth에 걸친 표상 변화를 추적 가능.

Epochs: `1` (SelfAware 1B만 `3`)

1 epoch은 LLM fine-tuning에서 overfitting 방지를 위한 표준적 선택. 대부분의 dataset이 수천~수만 example이므로 1 epoch으로도 충분한 학습이 가능. SelfAware 1B에서만 3 epochs를 적용한 이유는 ~1,000 train examples로 데이터가 적어 1B 모델에서 1 epoch만으로는 불충분하기 때문. 3B에서는 모델 용량이 충분하여 SelfAware도 1 epoch으로 통일 (task 간 공정 비교 우선).

Effective Batch Size: `16`

LoRA는 large batch에서 성능 저하 경향이 있으며 (Lightning AI, 2023), 16은 학습 안정성과 sample efficiency의 균형점. 3B는 메모리 제약으로 micro-batch=2 + grad_accumulation=8, 1B는 micro-batch=4 + grad_accumulation=4로 구성하되 effective batch size를 동일하게 유지하여 모델 크기 간 비교 공정성 확보.

요약표

Hyperparameter	Value	Primary Justification
Learning rate	2e-4	LoRA 표준 범위 (Raschka, 2023)
LR schedule	cosine + 5% warmup	LLM FT 표준 (Loshchilov & Hutter, 2017)
LoRA rank	8	원논문 기본값, intrinsic low rank (Hu et al., 2021)
LoRA scale (α)	1.0 (α=8)	Conservative — cosine sim이 방향 반영하도록
LoRA dropout	0.05	Mild regularization (Lin et al., 2024)
Target layers	All (-1)	최적 성능 + 전층 분석 필요 (Dettmers et al., 2023)
Epochs	1	Overfitting 방지; task 간 통일
Effective batch	16	Moderate; 모델 간 동일

References

Hu, E. J. et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685.
Dettmers, T. et al. (2023). QLoRA: Efficient Finetuning of Quantized Language Models. arXiv:2305.14314.
Loshchilov, I. & Hutter, F. (2017). SGDR: Stochastic Gradient Descent with Warm Restarts. ICLR 2017.
Lin, Y. et al. (2024). LoRA Dropout as a Sparsity Regularizer for Overfitting Control. arXiv:2404.09610.
Gilmer, J. et al. (2024). Why Warmup the Learning Rate? Underlying Mechanisms and Improvements. arXiv:2406.09405.
Raschka, S. (2023). Practical Tips for Finetuning LLMs Using LoRA. Sebastian Raschka’s Magazine.

Training Method Justification: SFT vs GRPO

5개 benchmark를 학습하는 방법으로 SFT(Supervised Fine-Tuning)와 GRPO(Group Relative Policy Optimization)를 비교 검토한 결과, All SFT 유지를 결정.

SFT vs GRPO 핵심 차이

	SFT (현재 채택)	GRPO
학습 신호	Token-level cross-entropy (정답 출력 복제)	Reward signal (결과 정확성 기반 강화)
최적화 대상	P(정답 토큰 \| 입력) 최대화	E[reward] 최대화 (group 내 상대 비교)
필요 조건	Gold output 존재	Verifiable reward function
생성 방식	Teacher forcing (학습 시 생성 없음)	프롬프트당 G개 출력 생성(G=4~16) → 점수 비교
계산 비용	1×	~~G× (4~~16배)
학습 결과	출력 형식 + 내용 모방	정답에 도달하는 전략 학습
Value model	불필요	불필요 (PPO와 달리 critic 없음)

GRPO(DeepSeek, 2024)는 PPO의 critic model을 제거하고, 동일 프롬프트에 G개 출력을 생성한 뒤 group 내 상대 reward 비교로 policy를 최적화하는 방법. “정답을 외우게 하는” SFT와 달리, “정답에 도달하는 방법을 탐색하게 하는” RL 접근.

Benchmark별 GRPO 적합도

Benchmark	GRPO 적합도	Reward 정의	근거
GSM8K	★★★ 최적	최종 숫자 정답 exact match	DeepSeek-R1, Qwen-Math의 canonical use case. 다양한 풀이 경로 탐색 가능
MBPP	★★★ 최적	Test case pass/fail	코드 실행 결과로 명확한 binary reward. 단 sandbox 환경 필요
TriviaQA	★★ 가능	Answer exact/fuzzy match	가능하나 답변이 짧은 사실(entity)이라 탐색 공간이 좁아 GRPO 이점 제한적
ExploreToM	★ 어려움	질문 유형별 별도 설계 필요	yes/no, 장소명, belief state 등 다양한 answer format → reward function 복잡
SelfAware	✗ 불가	자동 reward 정의 불가	”모르겠다”의 적절성을 자동 판별 불가. 답변 가능 여부의 ground truth가 reward로 사용 불가

Cosine Similarity 분석에 대한 영향

	SFT adapter	GRPO adapter
학습하는 것	출력 분포 모방 (surface pattern)	정답 도달 전략 (reasoning pattern)
Weight delta 의미	”이 task의 출력 형식/내용” 방향	”이 task를 풀기 위한 추론” 방향
Cosine sim 해석	출력 형식 유사성 반영 가능	추론 전략 유사성 반영 가능

인간 뇌과학에서의 ToM↔Self 공유 표상은 추론 과정 수준의 공유이므로, 이론적으로는 GRPO가 연구 가설에 더 부합하는 학습 방법일 가능성이 있음. 다만 이는 사변적이고, SFT에서도 이미 유의미한 결과(global p < 0.001, 32/32 layers significant)를 달성.

All SFT 유지 결정 근거

1. 실험 통일성 (결정적)

본 연구의 cosine similarity 분석은 5개 task에 동일한 학습 조건을 적용하는 것이 핵심 전제. SelfAware에 GRPO를 적용할 수 없으므로 5개 task 전체의 GRPO 통일이 불가능. SFT와 GRPO를 혼합하면 “ToM↔Self 유사도가 높은 건 둘 다 SFT라서”라는 confound 반론이 성립하여, adapter 간 유사도 차이가 학습 방법 차이인지 task-level 표상 공유인지 분리 불가.

2. SelfAware의 GRPO 불가

SelfAware는 “이 질문에 답할 수 있는가?”를 판단하는 task로, 자동 reward function 정의가 구조적으로 불가. ExploreToM도 다양한 answer format(yes/no, 장소명, belief state 구문)에 대한 reward 설계가 복잡. → 5개 task 중 2개(가설 pair의 양쪽)가 GRPO 부적합.

3. 이미 충분한 결과

SFT로도 global permutation test p < 0.001, 32/32 layers significant (8B), Cohen’s d > 1.0 (3B 4-pair) 달성. 학습 방법을 변경하지 않아도 연구 가설을 통계적으로 지지하는 결과를 확보.

4. 실질적 제약

제약	상세
MLX에서 GRPO 미지원	현재 MLX-LM은 SFT만 지원. GRPO 학습에는 HuggingFace TRL + CUDA 환경 필요
계산 비용	프롬프트당 4~~16개 생성 → 8B 모델 기준 학습 시간 4~~16× 증가 (현재 ~~28시간 → 100~~450시간 추정)
Reward 구현 복잡도	GSM8K/MBPP는 straightforward, ExploreToM은 질문 유형별 분기 필요, SelfAware는 불가

향후 확장 가능성

GRPO를 추가 실험으로 수행할 경우의 구성안:

단계	구성	목적
현재 (완료)	All SFT (5 task)	Primary analysis — cosine similarity + permutation test
확장 1	GSM8K + MBPP만 GRPO 재학습	Cross-eval 성능 비교 (cosine similarity 분석 대상 아님)
확장 2	ExploreToM + GSM8K + TriviaQA + MBPP를 All GRPO	GRPO adapter 간 cosine similarity 별도 분석 (SelfAware 제외)
확장 3	SFT → GRPO 2-stage	SFT adapter 위에 GRPO 추가 학습, stage별 cosine similarity 비교

확장 2~3은 CUDA 환경(TRL) 확보 시 수행 가능. SelfAware를 제외하므로 “ToM↔Self” pair 분석은 불가하나, “ToM↔Control” 비교로 ToM adapter의 표상 특성을 GRPO 맥락에서 분석 가능.

References

Shao, Z. et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300. (GRPO 제안)
DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948. (GRPO를 대규모 추론 모델에 적용)

Cross-Eval Results (Accuracy)

Run 1 — Llama-3.2-3B 5-task (Feb 18) ★★

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	MBPP
Baseline	0.3240	0.2789†	0.6618	0.4743	—
ExploreToM LoRA	0.8856	0.0979	0.0829	0.4500	—
SelfAware LoRA	0.2682	0.3472	0.0013	0.4171	—
GSM8K LoRA	0.4997	0.1543	0.7500	0.5457	—
TriviaQA LoRA	0.5902	0.1128	0.1217	0.4843	—
MBPP LoRA	0.4588	0.1335	0.3676	0.5200	0.5155

⚠️ ExploreToM/SelfAware/GSM8K/TriviaQA adapter의 MBPP eval은 미수행 (MBPP가 cross-eval에 추가되기 전에 학습 완료). MBPP adapter만 전체 5-task eval 수행.

† SelfAware Baseline 재평가 (0.1276 → 0.2789): 원래 strict string matching으로 평가된 SelfAware baseline accuracy를 lenient content matching으로 재평가. 337개 전체 샘플을 수동 검토하여 의미적 동치 관계를 반영 (예: “Equator” = “latitude 0 degrees N”, “Pontius Pilate” = “ponchus pilot”, “Generation X” = ”🅇”). 57건 변경 (F→T 54건, T→F 3건). IDK 정답의 경우 모델이 불확실성을 표현하면 정답 처리. 상세: results/predictions/20260218_012033/baseline_selfaware_reevaluated.xlsx

Run 2 — Llama-3.2-1B 5-task (Feb 19) ★★

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	MBPP
ExploreToM LoRA	0.8428	0.0534	0.0254	0.2486	0.2577
SelfAware LoRA	0.2301	0.3234	0.0000	0.1671	0.0103
GSM8K LoRA	0.4275	0.1128	0.5174	0.3814	0.3299
TriviaQA LoRA	0.5106	0.0682	0.0428	0.3129	0.0309
MBPP LoRA	0.3029	0.1098	0.3316	0.3671	0.3608

⚠️ 1B 5-task baseline (no-adapter) 별도 측정 미수행. Run 3 기준 1B baseline: ExploreToM 0.4003, SelfAware 0.1009.

Run 3 — Llama-3.1-8B QLoRA 5-task (Feb 21–22)

Adapter \ Eval	ExploreToM	SelfAware	GSM8K	TriviaQA	MBPP
Baseline (8B)	0.3553	0.1721	0.6658	0.6186	0.6082
ExploreToM QLoRA	0.9101	0.1187	0.0976	0.4657	0.5773
SelfAware-ed QLoRA	0.3649	0.2967	0.1136	0.4843	0.2887
GSM8K QLoRA	0.4248	0.1335	0.7701	0.6029	0.6186
TriviaQA QLoRA	0.6603	0.1217	0.1591	0.5743	0.5876
MBPP QLoRA	0.4091	0.1276	0.2995	0.6029	0.5155

SelfAware는 IDK 5%로 축소한 selfaware-edited 데이터셋 사용. Baseline timestamp: 20260222_032515.

Cross-Eval 주요 관찰

In-domain 향상 — 모든 adapter가 자기 도메인에서 baseline 대비 향상:

3B: ExploreToM 0.32→0.89, SelfAware 0.28→0.35†, GSM8K 0.66→0.75
1B: ExploreToM 0.84, SelfAware 0.32, GSM8K 0.52 (baseline 비교 불가)
8B: ExploreToM 0.36→0.91 (+155%), GSM8K 0.67→0.77 (+16%), SelfAware-ed 0.17→0.30 (+72%)

Cross-domain catastrophic forgetting:

SelfAware LoRA → GSM8K: 3B 0.0013, 1B 0.0000 (완전 망각)
SelfAware LoRA → MBPP: 1B 0.0103 (거의 완전 망각)
ExploreToM LoRA → GSM8K: 3B 0.0829, 1B 0.0254
8B: ExploreToM QLoRA → GSM8K 0.0976 (baseline 0.6658 대비 −85%), SelfAware-ed → MBPP 0.2887 (−53%)

전이 패턴 (흥미로운 관찰):

TriviaQA LoRA → ExploreToM: 3B 0.5902 (+82%), 1B 0.5106, 8B 0.6603 (+86%) — 규모 증가에도 TriviaQA→ToM 전이 일관
GSM8K LoRA → ExploreToM: 3B 0.4997 (+54%), 1B 0.4275, 8B 0.4248 (+20%) — 8B에서 전이 폭 축소
GSM8K LoRA: 8B에서 거의 모든 task를 baseline 수준 유지/향상 — 유일한 “범용” adapter
MBPP LoRA → TriviaQA: 3B 0.5200 (+10%), 1B 0.3671, 8B 0.6029 (−3%) — 8B에서는 전이 효과 소실
SelfAware LoRA → ExploreToM: 3B 0.2682 (−17%), 1B 0.2301, 8B-edited 0.3649 (+3%) — edited 데이터셋으로 역전이 해소
ExploreToM QLoRA → SelfAware: 8B 0.1187 (baseline 0.1721, −31%) — ExploreToM 학습이 SelfAware(짧은 사실 QA + IDK 판단) 능력을 저하. 상세: 아래 ExploreToM→SelfAware 전이 분석 참조

SelfAware-Edited Adapter 정성적 분석

SelfAware-edited adapter가 각 벤치마크에서 어떤 유형의 응답을 생성하는지에 대한 상세 정성적 분석. 응답 형식 전이(Style Transfer) 현상과 오답 패턴을 문항 단위로 분류.

⚠️ 주의: 보고서의 Run A(20260221_002706)는 Llama 3.1 8B QLoRA, Run B(20260222_234559)는 Llama 3.2 3B QLoRA. 두 Run의 성능 차이는 모델 크기 차이가 주 원인.

주요 발견:

GSM8K: CoT 억제 — Baseline 평균 574자 풀이 → Run A(8B) 평균 7자 (짧은 숫자만 출력)
ExploreToM: belief_2nd 질문에서 baseline 대비 +12.9%p 향상 (SC-TOM 가설 일관, 8B Run A)
MBPP: Run A(8B)에서 함수명만 출력(22.7%), IDK(11.3%) 등 비정상 패턴 다수
MBPP 역전: Run B(3B)가 Run A(8B)보다 정확도 높음 (40.2% > 28.9%) — Llama 3.2 세대 개선 가능성
TriviaQA: 짧은 답변 형식 호환으로 IDK 거의 없음, 다만 -22% 정확도 하락 (8B 기준)

📄 상세 보고서: Qualitative Analysis - SelfAware-Edited Cross-Domain.md

ExploreToM→SelfAware 전이 분석 (8B)

ExploreToM으로 학습한 8B adapter가 SelfAware 평가에서 baseline 대비 어떻게 변화하는지 분석.

정확도 비교 (SelfAware eval, 337문항)

조건	전체 정확도	IDK-expected (88)	Non-IDK-expected (249)	IDK 생성 수	평균 응답 길이
Baseline 8B	0.1721	0.0000	0.2329	3 (0.9%)	242자
ExploreToM QLoRA	0.1187 (−31%)	0.0000	0.1606 (−31%)	1 (0.3%)	10자
SelfAware-ed QLoRA	0.2967 (+72%)	0.7273	0.1446 (−38%)	68 (20.2%)	16자

참고: Baseline의 SelfAware 정확도(0.1721)는 strict string matching 기준. Lenient matching으로 재평가 시 0.2789 (Run 1 참조).

핵심 관찰

1. ExploreToM adapter도 style transfer 발생 — 응답 길이 242자 → 10자로 96% 축소

ExploreToM의 응답 형식(짧은 명사구: 장소명, 용기명)이 SelfAware에 전이되어, Baseline의 장문 설명(242자) 대신 짧은 단어/구(10자)로 응답.

ExploreToM 학습 형식: "cardboard box", "operations room", "yes", "no"
SelfAware에서의 출력: "equator", "Jennifer Lopez", "impedance" — 1-3단어 명사/구

이는 SelfAware-ed adapter의 style transfer(짧은 답변 출력)와 동일한 메커니즘이지만, SelfAware 데이터의 90%도 짧은 명사형이므로 형식 자체는 호환됨.

2. IDK-expected 질문에서 IDK를 전혀 생성하지 않음 (0/88)

ExploreToM 데이터에는 “I don’t know” 패턴이 없으므로, adapter가 IDK 생성 능력을 갖고 있지 않음. 88개의 “답할 수 없는 질문”에 대해 모두 짧은 사실형 답변을 시도:

IDK-expected 질문	Baseline	ExploreToM adapter
”Would you rather be in a bad relationship…”	장문 설명 (토론형)	`"single forever"`
”Why does every rule have exceptions?”	장문 설명 (분석형)	`"human nature"`
”What is the reason for life?”	장문 철학적 설명	`"existential question"`
”When will human cloning become safe?”	장문 과학적 설명	`"never"`
”Is there a risk to be dependent on AI?”	장문 위험 분석	`"yes"`

→ Baseline은 “모른다”고 직접 말하지 않지만 불확실성을 표현하는 장문 응답. ExploreToM adapter는 “무조건 짧게 답한다” — 답할 수 없는 질문에도 1-2단어로 답변 시도.

3. 전체 정확도 하락(−31%)의 원인 분석

교차 분류	건수	비고
Both correct	32	Baseline과 ExploreToM 모두 정답
Baseline only correct	26	Baseline은 맞지만 ExploreToM은 틀림
ExploreToM only correct	8	ExploreToM만 정답 (짧은 답이 매칭에 유리)
Both wrong	271	둘 다 오답

ExploreToM이 이기는 8건: "no", "paper", "about 20%", "mast", "negative" 등 — 짧은 정확한 답이 strict matching에서 오히려 유리한 경우
Baseline이 이기는 26건: 장문 속에 정답이 포함되어 있어 매칭 성공, ExploreToM은 부분적/다른 단어로 실패
Near-miss 사례 (의미적으로 맞지만 strict fail): "Jennifer Lopez" (expected: “list of jennifer lopez concerts”), "Japan" (expected: “japan country”), "hearing" (expected: “hearing sense”) — 최소 10건 이상

4. SC-TOM 관점에서의 해석

방향	Adapter	SelfAware 점수	해석
Self → ToM	SelfAware-ed → ExploreToM	0.3649 (+3%)	미세 향상 (양성 전이)
ToM → Self	ExploreToM → SelfAware	0.1187 (−31%)	하락 (음성 전이)

양방향이 비대칭: SelfAware→ExploreToM은 양성 전이, ExploreToM→SelfAware는 음성 전이. 이 비대칭은:

SelfAware의 “모르는 것을 안다”는 능력이 ToM의 false belief 추론에 도움을 줄 수 있으나,
**ExploreToM의 “사실 추적 + 믿음 추론”**은 SelfAware의 “답할 수 없는 질문 판별” 능력으로 전이되지 않음
이는 Self-Awareness가 ToM에 대해 상위 수준의 메타인지적 역할을 할 가능성을 시사 — 코사인 유사도 분석에서 ToM↔Self가 높은 것과 일관되나, cross-eval에서의 전이 방향은 비대칭적

단, strict string matching의 한계로 ExploreToM adapter의 실제 SelfAware 성능이 과소평가되었을 가능성이 높음 (near-miss 10건+). Lenient matching 재평가 시 격차가 축소될 수 있음.

Metrics Reference

본 문서에서 사용하는 통계 지표에 대한 간략한 설명.

유사도 지표

지표	설명	범위
Cosine similarity	두 LoRA adapter의 weight delta 벡터 간 방향 유사도. 1이면 동일 방향, 0이면 직교, −1이면 반대 방향. 본 실험에서는 layer별로 fused delta (Δ_W = lora_a @ lora_b)를 flatten하여 계산.	[−1, 1]
N-gram containment	텍스트 A의 n-gram 중 텍스트 B에도 등장하는 비율. 데이터 중복 검출에 사용. 1.0이면 A의 모든 n-gram이 B에 포함됨.	[0, 1]
Jaccard similarity	두 집합의 교집합 / 합집합. 데이터셋 수준의 n-gram 중복도 측정에 사용.	[0, 1]

효과 크기 (Effect Size)

지표	설명	해석 기준
Cohen’s d	두 그룹 평균 차이를 풀링된 표준편차로 나눈 값. 표본 크기와 무관하게 차이의 실질적 크기를 나타냄.	\|d\| < 0.2: 무시 가능, 0.2–0.5: small, 0.5–0.8: medium, > 0.8: large
Dissociation gap	ToM↔Self 유사도 평균에서 control pair 유사도 평균을 뺀 값. 양수일수록 가설 pair가 control보다 유사.	절대값; 크기 자체로 해석
Gap ratio	ToM↔Self 유사도 / control 평균. 1.0이면 차이 없음, 2.0이면 가설 pair가 control의 2배.	≥ 1.0

통계 검정 (Statistical Tests)

지표	설명	유의 기준
Permutation test	귀무가설(pair 간 유사도 차이 없음) 하에서 관찰된 차이가 우연히 발생할 확률. 분포 가정 없이 label을 무작위로 재배정하여 p-value를 추정하는 비모수 검정.	p < 0.05
Bonferroni correction	다중 비교 시 false positive를 통제하기 위해 유의수준을 비교 횟수로 나누는 보정. 예: 5개 비교 시 α = 0.05/5 = 0.01. 가장 보수적인 보정 방법.	보정된 p < 0.05

p-value 해석 참고: p < 0.001은 해당 차이가 우연에 의해 발생할 확률이 0.1% 미만임을 의미. 단, p-value는 효과의 크기가 아닌 통계적 유의성만 나타내므로, 반드시 Cohen’s d 등 효과 크기와 함께 해석해야 함.

Cosine Similarity Analysis (Run 6 & 7)

5개 adapter의 LoRA fused delta (Δ_W = lora_a @ lora_b)를 layer별로 cosine similarity 측정.

4-Pair Analysis (TriviaQA 제외)

TriviaQA가 야기하는 confound를 배제하고 순수한 ToM↔Self dissociation을 측정.

Pair-wise Summary

Pair	1B Overall	1B Attn	1B MLP	3B Overall	3B Attn	3B MLP
ToM↔Self	0.1269	0.1275	0.1261	0.1672	0.1580	0.1794
ToM↔GSM8K	0.0742	0.0735	0.0752	0.0736	0.0686	0.0804
ToM↔MBPP	0.1027	0.1119	0.0905	0.0833	0.0876	0.0776
Self↔GSM8K	0.0891	0.0895	0.0887	0.0859	0.0853	0.0867
Self↔MBPP	0.1121	0.1211	0.1002	0.0922	0.1020	0.0791
GSM8K↔MBPP	0.1102	0.1187	0.0988	0.0737	0.0805	0.0646

Dissociation & Permutation Test

Metric	1B	3B
ToM↔Self mean	0.1269	0.1672
Control avg (5 pairs)	0.0977	0.0818
Dissociation gap	0.0292	0.0854
Gap ratio (ToM↔Self / control)	1.30×	2.04×
Permutation p-value (global)	< 0.001	< 0.001
Significant layers (p < 0.05)	13/16	26/28

4-Pair Plots — 3B

3B Heatmap (4-pair)

3B Lineplot (4-pair)

3B Permutation Test (4-pair)

3B Omnibus Test (4-pair)

4-Pair Plots — 1B

1B Heatmap (4-pair)

1B Lineplot (4-pair)

1B Permutation Test (4-pair)

1B Omnibus Test (4-pair)

4-Pair Omnibus Test

Rank	1B Pair	1B Mean	3B Pair	3B Mean
1	ToM↔Self	0.1269	ToM↔Self	0.1672
2	Self↔MBPP	0.1121	Self↔MBPP	0.0922
3	GSM8K↔MBPP	0.1102	Self↔GSM8K	0.0859
4	ToM↔MBPP	0.1027	ToM↔MBPP	0.0833
5	Self↔GSM8K	0.0891	GSM8K↔MBPP	0.0737
6	ToM↔GSM8K	0.0742	ToM↔GSM8K	0.0736

Post-hoc (ToM↔Self vs each control, Bonferroni corrected):

1B: vs Pair	Diff	p (corrected)	Cohen’s d	3B: vs Pair	Diff	p (corrected)	Cohen’s d
vs ToM↔GSM8K	+0.053	< 0.001	1.11	vs ToM↔GSM8K	+0.094	< 0.001	1.38
vs ToM↔MBPP	+0.024	0.001	0.48	vs ToM↔MBPP	+0.084	< 0.001	1.15
vs Self↔GSM8K	+0.038	< 0.001	0.72	vs Self↔GSM8K	+0.081	< 0.001	1.18
vs Self↔MBPP	+0.015	0.054	0.27	vs Self↔MBPP	+0.075	< 0.001	1.09
vs GSM8K↔MBPP	+0.017	0.054	0.30	vs GSM8K↔MBPP	+0.093	< 0.001	1.42

1B에서 Self↔MBPP, GSM8K↔MBPP과의 차이는 Bonferroni 보정 후 경계적 유의수준 (p≈0.054). 3B에서는 모든 대조군 대비 유의 (p < 0.001, d > 1.0).

5-Pair Analysis (TriviaQA 포함)

TriviaQA를 포함한 전체 10-pair 분석. TriviaQA confound로 인한 해석 주의 필요.

5-Pair Summary (상위 pair 중심)

Pair	1B Overall	3B Overall	8B Overall	비고
Self↔TriviaQA	0.2037	0.2225	0.1876	⚠️ 전체 1위 유지 (data leakage)
ToM↔MBPP	0.1027	0.0833	0.1608	8B에서 급상승 (#2)
ToM↔Self	0.1269	0.1672	0.1414	가설 pair (#3)
Self↔MBPP	0.1121	0.0922	0.1390
ToM↔TriviaQA	0.1419	0.1536	0.1217
TriviaQA↔MBPP	0.1223	0.0774	0.1053

5-Pair Dissociation

Metric	1B	3B	8B
ToM↔Self mean	0.1269	0.1672	0.1414
Control avg (9 pairs)	0.1171	0.1044	0.1101
Dissociation gap	0.0098	0.0628	0.0313
Gap ratio (ToM↔Self / control)	1.08×	1.60×	1.28×
Permutation p-value	0.075 (n.s.)	< 0.001	< 0.001
Significant layers	13/16	26/28	32/32

⚠️ TriviaQA confound: Self↔TriviaQA가 ToM↔Self보다 높아, TriviaQA가 control avg를 끌어올려 dissociation gap이 축소됨. 1B에서는 global p=0.075로 유의하지 않음. → 4-pair (TriviaQA 제외) 분석이 더 conservative하고 신뢰성 높음.

8B에서는 TriviaQA confound에도 불구하고 global p < 0.001 (***), 32/32 layers 전부 유의 — 1B의 non-significant 결과와 대조적. Scale-up이 ToM↔Self 신호를 TriviaQA 노이즈 위로 끌어올림.

5-Pair Omnibus Ranks

Rank	1B Pair	1B Mean	3B Pair	3B Mean	8B Pair	8B Mean
1	Self↔TriviaQA	0.2037	Self↔TriviaQA	0.2225	Self↔TriviaQA	0.1876
2	ToM↔TriviaQA	0.1419	ToM↔Self	0.1672	ToM↔MBPP	0.1608
3	ToM↔Self	0.1269	ToM↔TriviaQA	0.1536	ToM↔Self	0.1414
4	TriviaQA↔MBPP	0.1223	Self↔MBPP	0.0922	Self↔MBPP	0.1390
5	Self↔MBPP	0.1121	Self↔GSM8K	0.0859	ToM↔TriviaQA	0.1217

8B Omnibus F-test: p < 0.001 (***), F_obs=0.001741. Post-hoc에서 ToM↔Self vs 7/9 pairs 유의 (p_adj < 0.05). Self↔MBPP과는 거의 동일 (d=0.039, n.s.), Self↔TriviaQA에는 열위 (d=−0.707, ***; data leakage).

5-Pair Plots — 3B

3B Heatmap (5-pair)

3B Lineplot (5-pair)

3B Permutation Test (5-pair)

3B Omnibus Test (5-pair)

5-Pair Plots — 1B

1B Heatmap (5-pair)

1B Lineplot (5-pair)

1B Permutation Test (5-pair)

1B Omnibus Test (5-pair)

5-Pair Plots — 8B

8B Lineplot (5-pair)

8B Heatmap (5-pair)

8B Permutation Test (5-pair)

8B Omnibus Test (5-pair)

Cosine Similarity Analysis — SelfAware-Edited

원본 SelfAware (IDK 31.1%) 대신 selfaware-edited (IDK 5.0%) adapter를 사용하여 cosine similarity를 재분석. Shortcut learning 완화가 ToM↔Self 유사도 패턴에 미치는 영향을 검증.

Adapter 출처:

1B: ExploreToM/GSM8K/TriviaQA/MBPP = mlx-lora-*/20260219_001856 (bf16), SelfAware-edited = mlx-lora-selfaware-edited/20260220_221232 (bf16)

8B: 전체 5 task = mlx-qlora-*/20260221_002706 (4bit QLoRA) — 동일 run

3B: ExploreToM/GSM8K/TriviaQA/MBPP = mlx-lora-*/20260218 (bf16), SelfAware-edited = mlx-qlora-selfaware-edited/20260222_234559 (4bit QLoRA) — ⚠️ 혼합 양자화, 해석에 주의 필요

SelfAware-Edited: 4-Pair Analysis (TriviaQA 제외)

Pair-wise Summary

Pair	1B-ed Overall	1B-ed Attn	1B-ed MLP	8B-ed Overall	8B-ed Attn	8B-ed MLP
ToM↔Self	0.1441	0.1447	0.1433	0.1414	0.1332	0.1524
ToM↔GSM8K	0.0742	0.0735	0.0752	0.0681	0.0619	0.0765
ToM↔MBPP	0.1027	0.1119	0.0905	0.1608	0.1507	0.1741
Self↔GSM8K	0.0980	0.0895	0.0887	0.0734	0.0722	0.0749
Self↔MBPP	0.1309	0.1211	0.1002	0.1390	0.1432	0.1333
GSM8K↔MBPP	0.1102	0.1187	0.0988	0.0786	0.0783	0.0789

⚠️ 3B-ed 결과는 혼합 양자화(bf16 + qlora) 문제로 별도 표기: ToM↔Self = 0.0578, Control avg = 0.0574, Gap ≈ 0 (p=0.461, n.s.). 직접 비교 불가.

Dissociation & Permutation Test

Metric	1B (orig)	1B (edited)	3B (orig)	3B (edited)⚠️	8B (edited)
ToM↔Self mean	0.1269	0.1441	0.1672	0.0578	0.1414
Control avg (5 pairs)	0.0977	0.1032	0.0818	0.0574	0.1040
Dissociation gap	0.029	0.041	0.085	0.000	0.037
Gap ratio	1.30×	1.40×	2.04×	1.01×	1.36×
Permutation p-value	< 0.001	< 0.001	< 0.001	0.461 (n.s.)	< 0.001
Significant layers	13/16	14/16	26/28	1/32	32/32

핵심 발견: SelfAware-edited adapter를 사용하면 1B에서 gap이 0.029 → 0.041로 41% 증가, 유의 레이어도 13 → 14/16으로 향상. 8B에서는 32/32 전층 유의 유지. IDK shortcut 제거가 Self adapter의 표상을 더 “순수한” self-awareness 방향으로 이동시킨 것으로 해석 가능.

3B는 bf16 lora + qlora 혼합으로 weight magnitude가 체계적으로 다르므로, gap 붕괴는 양자화 artifact일 가능성이 높음. 동일 조건의 3B qlora 5-task run이 필요.

4-Pair Omnibus Test — SelfAware-Edited

Rank	1B-ed Pair	1B-ed Mean	8B-ed Pair	8B-ed Mean
1	ToM↔Self	0.1441	ToM↔MBPP	0.1608
2	Self↔MBPP	0.1309	ToM↔Self	0.1414
3	GSM8K↔MBPP	0.1102	Self↔MBPP	0.1390
4	ToM↔MBPP	0.1027	GSM8K↔MBPP	0.0786
5	Self↔GSM8K	0.0980	Self↔GSM8K	0.0734
6	ToM↔GSM8K	0.0742	ToM↔GSM8K	0.0681

Post-hoc (ToM↔Self vs each control, Bonferroni corrected):

1B-ed: vs Pair	Diff	p (corrected)	Cohen’s d	8B-ed: vs Pair	Diff	p (corrected)	Cohen’s d
vs ToM↔GSM8K	+0.070	< 0.001	1.41	vs ToM↔GSM8K	+0.073	< 0.001	1.36
vs ToM↔MBPP	+0.041	< 0.001	0.79	vs ToM↔MBPP	−0.019	0.020	−0.24
vs Self↔GSM8K	+0.046	< 0.001	0.82	vs Self↔GSM8K	+0.068	< 0.001	1.34
vs Self↔MBPP	+0.013	0.107 (n.s.)	0.22	vs Self↔MBPP	+0.002	0.671 (n.s.)	0.04
vs GSM8K↔MBPP	+0.034	< 0.001	0.58	vs GSM8K↔MBPP	+0.063	< 0.001	1.21

1B-ed: ToM↔Self가 #1으로 유지 (원본과 동일). Self↔MBPP과의 차이만 비유의 (d=0.22) — 원본(d=0.27, p≈0.054)과 유사한 패턴.

8B-ed: ToM↔MBPP가 #1, ToM↔Self가 #2. ToM↔MBPP과는 ToM↔Self가 오히려 낮음 (d=−0.24, p=0.020). Self↔MBPP과는 거의 동일 (d=0.04, n.s.). → 8B에서 MBPP adapter의 높은 범용성이 4-pair에서도 확인됨.

4-Pair Plots — SelfAware-Edited 1B

1B-ed Heatmap (4-pair)

1B-ed Lineplot (4-pair)

1B-ed Permutation Test (4-pair)

1B-ed Omnibus Test (4-pair)

4-Pair Plots — SelfAware-Edited 8B

8B-ed Heatmap (4-pair)

8B-ed Lineplot (4-pair)

8B-ed Permutation Test (4-pair)

8B-ed Omnibus Test (4-pair)

SelfAware-Edited: 5-Pair Analysis (TriviaQA 포함)

5-Pair Summary (상위 pair 중심)

Pair	1B-ed Overall	3B-ed⚠️ Overall	8B-ed Overall	비고
Self↔TriviaQA	0.2756	0.0925	0.1876	⚠️ 1B-ed에서 최고치 (data leakage)
ToM↔TriviaQA	0.1419	0.1536	0.1217
ToM↔Self	0.1441	0.0578	0.1414	가설 pair
Self↔MBPP	0.1309	0.0264	0.1390
ToM↔MBPP	0.1027	0.0833	0.1608	8B에서 #2

5-Pair Dissociation — Original vs Edited 비교

Metric	1B (orig)	1B (edited)	3B (orig)	3B (edited)⚠️	8B (edited)
ToM↔Self mean	0.1269	0.1441	0.1672	0.0578	0.1414
Control avg (9 pairs)	0.1171	0.1282	0.1044	0.0764	0.1101
Dissociation gap	0.010	0.016	0.063	−0.019	0.031
Permutation p-value	0.075 (n.s.)	0.029	< 0.001	1.0 (n.s.)	< 0.001
Significant layers	13/16	14/16	26/28	1/32	32/32

1B에서의 중요한 변화: 원본 SelfAware 5-pair에서 p=0.075 (non-significant)였던 결과가, selfaware-edited에서 **p=0.029 (significant)**로 전환. IDK shortcut 제거가 Self adapter의 표상을 정제하여 ToM↔Self 신호가 TriviaQA noise를 넘어서게 됨.

5-Pair Omnibus Ranks — SelfAware-Edited

Rank	1B-ed Pair	1B-ed Mean	8B-ed Pair	8B-ed Mean
1	Self↔TriviaQA	0.2756	Self↔TriviaQA	0.1876
2	ToM↔Self	0.1441	ToM↔MBPP	0.1608
3	ToM↔TriviaQA	0.1419	ToM↔Self	0.1414
4	Self↔MBPP	0.1309	Self↔MBPP	0.1390
5	TriviaQA↔MBPP	0.1223	ToM↔TriviaQA	0.1217

1B-ed 5-pair: ToM↔Self가 2로 상승 (원본에서는 #3). Self↔TriviaQA(data leakage)만 상위.

5-Pair Plots — SelfAware-Edited 1B

1B-ed Lineplot (5-pair)

1B-ed Heatmap (5-pair)

1B-ed Permutation Test (5-pair)

1B-ed Omnibus Test (5-pair)

5-Pair Plots — SelfAware-Edited 8B

8B-ed Lineplot (5-pair)

8B-ed Heatmap (5-pair)

8B-ed Permutation Test (5-pair)

8B-ed Omnibus Test (5-pair)

SelfAware-Edited 종합 비교: Original vs Edited

설정	1B Gap (orig→ed)	3B Gap (orig→ed)	8B Gap (ed)
4-pair	0.029 → 0.041 (+41%)	0.085 → 0.000⚠️	0.037
5-pair	0.010 → 0.016 (+60%)	0.063 → −0.019⚠️	0.031
4-pair p-value	<0.001 → <0.001	<0.001 → 0.461	<0.001
5-pair p-value	0.075 → 0.029	<0.001 → 1.0	<0.001
4-pair rank	#1 → #1	#1 → #4	#2
5-pair rank	#3 → #2	#2 → #8	#3

결론: 1B와 8B에서 selfaware-edited는 원본 대비 dissociation gap 증가 및 통계적 유의성 강화. IDK shortcut 제거가 Self adapter의 표상을 더 순수한 self-awareness 방향으로 이동시켜 ToM과의 공유 신호가 더 명확해짐. 3B는 양자화 혼합 문제로 해석 불가 — 동일 조건 재실행 필요.

Data Leakage Analysis

5개 학습 데이터셋 간 텍스트 중복을 검증하여, cosine similarity 결과가 데이터 오염에 의한 것이 아닌지 확인. (analyze_data_leakage.py)

Level 1: Exact Duplicate Check

Dataset Pair	Exact Duplicates	비고
SelfAware train ↔ TriviaQA train	38	⚠️ 동일 질문 공유
SelfAware train ↔ TriviaQA valid	6	⚠️ train→valid 오염
SelfAware valid ↔ TriviaQA train	5	⚠️ valid→train 오염
그 외 모든 pair (42개)	0	✓ clean
Within-dataset (train↔valid, 5개)	0	✓ clean

총 49개 exact duplicate — 전부 SelfAware ↔ TriviaQA 간에서만 발견.

중복 질문 예시:

“what is the name for the colored part of the eye?”
“a left-handed boxer is called a ‘what’…paw?”
“from which language do we get the word ‘bizarre’?”

Level 2: N-gram Containment

N-gram	Flagged Pair	Flagged Examples	Max Containment	비고
8-gram	SelfAware ↔ TriviaQA	102	1.000	⚠️ 유일한 flagged pair
13-gram	SelfAware ↔ TriviaQA	98	1.000	⚠️ 동일
8-gram	그 외 9개 pair	0	—	✓ clean
13-gram	그 외 9개 pair	0	—	✓ clean

Dataset-level 8-gram Jaccard:

	ExploreToM	SelfAware	GSM8K	TriviaQA	MBPP
ExploreToM	—	0.0000	0.0000	0.0000	0.0000
SelfAware	0.0000	—	0.0000	0.0036	0.0000
GSM8K	0.0000	0.0000	—	0.0000	0.0000
TriviaQA	0.0000	0.0036	0.0000	—	0.0000
MBPP	0.0000	0.0000	0.0000	0.0000	—

Leakage 결론

SelfAware ↔ TriviaQA: 데이터 오염 확인. SelfAware 데이터셋에 TriviaQA와 동일한 질문 49개 포함. 이는 SelfAware가 다양한 출처의 질문을 모아 “답변 가능 여부”를 레이블링한 데이터셋이기 때문으로, TriviaQA 질문이 SelfAware에 포함된 것으로 추정.
Self↔TriviaQA LoRA 유사도가 1위인 직접적 원인: 동일 질문에 대해 학습한 adapter끼리 유사한 방향으로 가중치가 이동하므로 cosine similarity가 높아짐.
4-pair 분석 (TriviaQA 제외)의 타당성 재확인: TriviaQA를 control에서 제외한 4-pair 분석이 오염 없는 순수한 비교임을 입증.
다른 모든 dataset pair는 완전히 clean — ExploreToM, GSM8K, MBPP 간, 그리고 이들과 SelfAware/TriviaQA 간에 어떤 중복도 없음.

SelfAware Shortcut Learning Analysis

문제 제기

Cross-eval 결과에서 SelfAware LoRA adapter가 out-of-domain task에서 극단적으로 낮은 accuracy를 보임:

Eval Task	3B Accuracy	1B Accuracy
GSM8K	0.0013	0.0000
MBPP	—	0.0103
ExploreToM	0.2682 (baseline 대비 −17%)	0.2301

초기 해석은 “catastrophic forgetting” — 즉 SelfAware 학습이 기존 능력을 파괴했다는 것이었으나, 예측 로그 분석 결과 실제 원인은 shortcut learning으로 확인됨.

원인 조사: 학습 데이터 분석

SelfAware 데이터셋은 질문에 대해 “답변 가능 여부”를 판단하는 task로, unanswerable 질문에 대해 모두 동일한 문자열 "I don't know the answer to this question." (이하 IDK)을 정답으로 사용:

Split	Total	IDK 응답 수	IDK 비율
Train	3,032	944	31.13%
Valid	337	88	26.11%

학습 데이터의 약 1/3이 동일한 IDK 문자열 → 모델이 이 패턴을 “안전한 기본 응답”으로 학습 (shortcut learning). 특히 1B 모델에서 3 epochs로 학습했기 때문에 이 패턴이 더욱 강화됨.

근거: 예측 로그 분석

1B SelfAware adapter의 cross-eval 예측 로그에서 IDK 응답 비율을 분석한 결과:

Eval Task	Total	IDK 응답 수	IDK 비율	비고
GSM8K	748	748	100%	전 문항 IDK
MBPP	97	73	75%	대부분 IDK
ExploreToM	1,469	962	65.5%	과반수 IDK
TriviaQA	700	10	1.4%	정상 범위
SelfAware	337	111	33%	정상 (학습 분포와 유사)

참조 예측 로그 (1B, timestamp 20260219_001856):

selfaware_adapter_on_gsm8k.jsonl

selfaware_adapter_on_exploretom.jsonl

selfaware_adapter_on_mbpp.jsonl

구체적 응답 예시

GSM8K (수학 문제 → IDK):

Q: "In Professor Plum's biology class there are 40 students. Of those students,
    80 percent have puppies. Of those who have puppies, 25% also have parrots.
    How many students have both puppies and parrots?"
Expected: "8"
Generated: "I don't know the answer to this question."

ExploreToM (yes/no 판단 → IDK):

Q: "Does Sophia know about entertainment options? Answer yes or no."
Expected: "yes"
Generated: "I don't know the answer to this question."

MBPP (코딩 문제 → IDK):

Q: "Write a function to check if the triangle is valid or not."
Expected: "def validity_triangle(a,b,c): ..."
Generated: "I don't know the answer to this question."

수학 연산, yes/no 판단, 코드 생성 등 전혀 다른 유형의 task에서 동일한 IDK 문자열로 응답하는 것은, 모델이 task의 내용을 처리하지 않고 학습된 shortcut 패턴을 그대로 출력하고 있음을 보여줌.

해석 및 시사점

Shortcut Learning vs Genuine Catastrophic Forgetting

구분	Catastrophic Forgetting	Shortcut Learning (본 사례)
메커니즘	기존 능력의 파라미터가 덮어써짐	표면적 패턴을 과학습하여 일반화 실패
증상	다양한 오류 패턴 (random guessing 등)	단일 응답 패턴 반복
원인	학습 데이터와 기존 지식의 간섭	학습 데이터의 편향된 분포
GSM8K에서의 양상	잘못된 계산, 무관한 숫자 출력 등	100% “I don’t know”
해결 방향	Regularization, replay buffer 등	데이터 균형화, 다양한 표현 사용

SelfAware adapter가 GSM8K에서 0.0000을 기록한 것은 모델이 수학 능력을 “잊은” 것이 아니라, 모든 입력에 대해 학습된 IDK shortcut을 출력한 결과. TriviaQA에서 IDK 비율이 1.4%로 낮은 것은 TriviaQA와 SelfAware의 데이터 중복 (49개 동일 질문)으로 인해 해당 도메인에서는 다른 응답 패턴도 함께 학습되었기 때문으로 추정.

SelfAware 데이터셋의 구조적 한계

전체 학습 데이터의 31%가 완전히 동일한 문자열 — 이는 모델에게 매우 강한 학습 신호
Unanswerable 질문에 대한 표현이 전혀 다양화되지 않음 (단 하나의 IDK 문자열)
1B 모델에서 3 epochs 학습 시 이 패턴이 약 2,832회 (944 × 3) 반복 노출

향후 개선 방향

IDK 비율 축소: Unanswerable 질문 비율을 줄이거나, answerable 질문을 augmentation
다양한 거절 표현 사용: “I’m not sure”, “This question cannot be answered”, “I don’t have enough information” 등으로 IDK 응답을 다양화
대체 Self-Awareness 데이터셋 탐색: 단일 패턴 의존도가 낮은 데이터셋 발굴
IDK 응답에 대한 loss weighting: IDK 응답의 학습 가중치를 낮추어 shortcut 학습 완화

SelfAware-Edited: IDK 비율 조정 실험 (Feb 20)

실험 설계

Shortcut learning 완화를 위해 train set의 IDK 비율을 31.1% → 5.0%로 조정한 데이터셋(data/selfaware-edited/)으로 재학습.

	원본 (`selfaware`)	수정 (`selfaware-edited`)
Train total	3,032	2,198
Non-IDK	2,088	2,088 (전체 유지)
IDK	944 (31.1%)	110 (5.0%, random subsample seed=42)
Valid	337 (IDK 26.1%)	337 (원본 동일)
Test	337	337 (원본 동일)

Model: Llama-3.2-1B-Instruct-bf16
Config: config_1b_qlora.json (MLX에서 4bit 미지원 → bf16 fallback)
Training: SelfAware 3ep, batch 4×4=16, LR 2e-4 cosine
Timestamp: 20260220_221232
스크립트: prepare_selfaware_edited.py (데이터 생성), train_selfaware_edited.py (학습)
Adapter: results/mlx-lora-selfaware-edited/20260220_221232/
Best checkpoint: Iter 600, val_loss=1.1213

Training 경과

Iter	Train Loss	Val Loss	비고
1	—	8.831	초기
200	2.213	1.600
400	2.246	1.462
600	1.450	1.121	★ Best checkpoint
800	1.163	1.470	Overfitting 시작
1000	1.127	1.265
1200	0.614	1.697
1647	0.702	1.747	Final

Iter 600 이후 train loss는 계속 하락하나 val loss는 상승 — 전형적 overfitting. Best checkpoint (Iter 600)으로 cross-eval 수행.

Cross-Eval: Accuracy 비교

Eval Dataset	원본 selfaware (20260219_234546)	selfaware-edited (20260220_221232)	Delta
ExploreToM	0.2512	0.2675	+1.63%
SelfAware	0.3205	0.2522	−6.82%
GSM8K	0.0000	0.0294	+2.94%
TriviaQA	0.1671	0.1943	+2.71%
MBPP	0.0000	0.0000	0.00%

Cross-Eval: IDK 응답률 비교 (핵심)

Eval Dataset	원본 IDK율	Edited IDK율	Delta
ExploreToM	908/1469 (61.8%)	946/1469 (64.4%)	+2.6%
SelfAware	111/337 (32.9%)	73/337 (21.7%)	−11.3%
GSM8K	748/748 (100.0%)	12/748 (1.6%)	−98.4%
TriviaQA	10/700 (1.4%)	2/700 (0.3%)	−1.1%
MBPP	91/97 (93.8%)	26/97 (26.8%)	−67.0%

결과 해석

1. Shortcut learning 완화 성공 (GSM8K, MBPP)

원본에서 GSM8K 100%, MBPP 93.8%였던 IDK 응답률이 각각 1.6%, 26.8%로 급감. 모델이 더 이상 IDK를 기본 응답 전략으로 사용하지 않으며, 실제로 문제를 시도하게 됨. IDK 비율 조정이 shortcut learning의 직접적 원인이었음을 확인하는 인과적 증거(causal evidence).

2. SelfAware in-domain 정확도 하락 (−6.82%)

IDK 샘플 축소로 “언제 모르겠다고 해야 하는지”를 덜 학습 → SelfAware 자체 정확도 하락. 이는 예상된 trade-off이며, IDK 판단 능력과 shortcut 방지 사이의 균형점 탐색이 필요.

3. ExploreToM IDK율은 여전히 높음 (64.4%) — 별도 원인 존재

GSM8K/MBPP의 IDK가 해소된 반면 ExploreToM은 오히려 미세 증가. 이는 shortcut이 아닌 다른 원인에 의한 것으로, 아래 추가 분석에서 상세 규명.

ExploreToM IDK 추가 분석: 응답 형식 불일치 (Format Mismatch)

질문 유형별 IDK 분포

selfaware-edited adapter의 ExploreToM cross-eval 결과 (20260220_221232)를 질문 유형별로 분석:

질문 유형	n	IDK율	Accuracy	Non-IDK Acc
belief (open-ended) — “Where does X think…?“	969	63.0%	24.6%	66.3%
yes/no belief — “Does X know…? Answer yes or no.”	336	100.0%	19.9%*	—
which (multiple choice)	164	0.0%	53.7%	53.7%

*yes/no 질문의 19.9% accuracy는 IDK 응답 중 expected가 우연히 IDK인 경우의 일치.

Expected 답변별 IDK 패턴 — 결정적 증거

Expected Answer	n	IDK율	비고
`"does not know about it"`	336	100%	구문형 — SelfAware에 없는 형식
`"knows about it"`	274	100%	구문형 — SelfAware에 없는 형식
`"yes"`	269	100%	SelfAware에 0.3%만 존재
`"no"`	67	100%	SelfAware에 0.3%만 존재
장소/물건 명사 (operations room, plastic storage bin 등)	~523	0%	SelfAware 응답 형식과 일치

완벽한 이분법: 명사/구 형태 답변은 IDK 0%, 그 외(yes/no, belief state 구문)는 IDK 100%.

원인: SelfAware 학습 데이터의 응답 형식 편향

SelfAware Non-IDK 응답의 분포:

특성	값
1–3단어 명사/구 형태	90.1% (1,882/2,088)
yes/no 형태	0.3% (7/2,088)
응답 길이 median	12자
”knows about it” / “does not know about it” 등 구문	0개

모델은 SelfAware SFT를 통해 “짧은 명사형 답변” 생성 패턴만 학습. ExploreToM에서:

장소/물건 이름 (e.g., “cardboard box”, “operations room”) → 학습 분포 내 → 정상 생성 (IDK 0%)
yes/no → 학습 데이터에 거의 없음 (0.3%) → 생성 불가 → IDK fallback (100%)
belief state 구문 (“knows about it”) → 학습 데이터에 전무 → 생성 불가 → IDK fallback (100%)

Shortcut Learning과의 구분

	Shortcut Learning (GSM8K)	Format Mismatch (ExploreToM)
메커니즘	IDK 문자열을 기본 응답으로 과학습	학습 분포에 없는 응답 형식을 생성 불가
IDK 비율 조정 효과	✅ 극적 개선 (100% → 1.6%)	❌ 효과 없음 (61.8% → 64.4%)
IDK 발생 조건	입력 도메인과 무관하게 일괄 발생	특정 응답 형식에만 선택적 발생
해결 방향	데이터 균형화 (본 실험)	응답 형식 다양화 또는 eval 프롬프트 통일

시사점

ExploreToM IDK는 “모르겠다”가 아니라 “이 형식으로 답할 수 없다” — task difficulty가 아닌 output space mismatch
IDK 비율 조정으로 해결 불가 — 별도의 접근 필요
가능한 해결 방향:
- ExploreToM eval 시 프롬프트를 명사형 답변으로 유도 (e.g., “Answer with the location name only”)
- SelfAware 학습 데이터에 yes/no, belief state 구문 등 다양한 응답 형식 추가
- Cross-eval 시 응답 형식이 호환되는 subset만 평가 (명사형 답변 질문 523개)

SelfAware F1 Score & Confusion Matrix 분석

SelfAware 평가를 Known (answerable) vs Unknown (unanswerable) 이진 분류로 재해석. 기존 exact-match accuracy는 답변의 표면 형태에 과도하게 의존하지만, 이 분석은 “모델이 답변 가능/불가능 여부를 올바르게 판별하는가”를 직접 측정한다.

분류 기준

Ground Truth: expected 값에 IDK 패턴 포함 → Unknown (88개), 그 외 → Known (249개). Total 337.
Predicted: generated 값에 IDK 패턴 포함 → Predicted Unknown, 그 외 → Predicted Known
Positive class: Known (answerable)
IDK 패턴 (16개): i don't know, i do not know, i'm not sure, i cannot determine, i cannot answer, i don't have enough information, i'm unable to, i cannot provide 등
Known subset 답변 정확도: TP (Known이라고 올바르게 분류) 중 기존 exact-match로도 정답인 비율. Classification 성능과 답변 품질을 분리.

8B Group Confusion Matrices

Baseline (no adapter)

	Pred. Known (답변 시도)	Pred. Unknown (IDK)	Total
Actual Known	TP = 235	FN = 14 (Type 2)	249
Actual Unknown	FP = 82 (Type 1)	TN = 6	88

Metric	Value
Classification Accuracy	71.5%
Known Precision / Recall / F1	74.1% / 94.4% / 83.0%
Unknown Precision / Recall / F1	30.0% / 6.8% / 11.1%
Macro F1	47.1%
Type 1 Error Rate (과잉 확신)	93.2%
Type 2 Error Rate (과잉 불확실성)	5.6%
Known subset 답변 정확도	24.3% (57/235)
기존 Exact-Match Accuracy	17.2%

SelfAware-edited (IDK 5%)

	Pred. Known (답변 시도)	Pred. Unknown (IDK)	Total
Actual Known	TP = 245	FN = 4 (Type 2)	249
Actual Unknown	FP = 24 (Type 1)	TN = 64	88

Metric	Value
Classification Accuracy	91.7%
Known Precision / Recall / F1	91.1% / 98.4% / 94.6%
Unknown Precision / Recall / F1	94.1% / 72.7% / 82.1%
Macro F1	88.3%
Type 1 Error Rate (과잉 확신)	27.3%
Type 2 Error Rate (과잉 불확실성)	1.6%
Known subset 답변 정확도	13.9% (34/245)
기존 Exact-Match Accuracy	29.7%

SelfAware-edited-2 (IDK 0.6%)

	Pred. Known (답변 시도)	Pred. Unknown (IDK)	Total
Actual Known	TP = 245	FN = 4 (Type 2)	249
Actual Unknown	FP = 41 (Type 1)	TN = 47	88

Metric	Value
Classification Accuracy	86.6%
Known Precision / Recall / F1	85.7% / 98.4% / 91.6%
Unknown Precision / Recall / F1	92.2% / 53.4% / 67.6%
Macro F1	79.6%
Type 1 Error Rate (과잉 확신)	46.6%
Type 2 Error Rate (과잉 불확실성)	1.6%
Known subset 답변 정확도	14.7% (36/245)
기존 Exact-Match Accuracy	21.1%

3B Group Confusion Matrices

Baseline (no adapter)

	Pred. Known (답변 시도)	Pred. Unknown (IDK)	Total
Actual Known	TP = 225	FN = 24 (Type 2)	249
Actual Unknown	FP = 85 (Type 1)	TN = 3	88

Metric	Value
Classification Accuracy	67.7%
Known Precision / Recall / F1	72.6% / 90.4% / 80.5%
Unknown Precision / Recall / F1	11.1% / 3.4% / 5.2%
Macro F1	42.9%
Type 1 Error Rate (과잉 확신)	96.6%
Type 2 Error Rate (과잉 불확실성)	9.6%
Known subset 답변 정확도	18.7% (42/225)
기존 Exact-Match Accuracy	12.8%

SelfAware 원본 (IDK 31.1%)

	Pred. Known (답변 시도)	Pred. Unknown (IDK)	Total
Actual Known	TP = 230	FN = 19 (Type 2)	249
Actual Unknown	FP = 2 (Type 1)	TN = 86	88

Metric	Value
Classification Accuracy	93.8%
Known Precision / Recall / F1	99.1% / 92.4% / 95.6%
Unknown Precision / Recall / F1	81.9% / 97.7% / 89.1%
Macro F1	92.4%
Type 1 Error Rate (과잉 확신)	2.3%
Type 2 Error Rate (과잉 불확실성)	7.6%
Known subset 답변 정확도	12.6% (29/230)
기존 Exact-Match Accuracy	34.7%

SelfAware-edited (IDK 5%)

	Pred. Known (답변 시도)	Pred. Unknown (IDK)	Total
Actual Known	TP = 239	FN = 10 (Type 2)	249
Actual Unknown	FP = 18 (Type 1)	TN = 70	88

Metric	Value
Classification Accuracy	91.7%
Known Precision / Recall / F1	93.0% / 96.0% / 94.5%
Unknown Precision / Recall / F1	87.5% / 79.5% / 83.3%
Macro F1	88.9%
Type 1 Error Rate (과잉 확신)	20.5%
Type 2 Error Rate (과잉 불확실성)	4.0%
Known subset 답변 정확도	11.7% (28/239)
기존 Exact-Match Accuracy	29.7%

1B Group Confusion Matrices

SelfAware 원본 (IDK 31.1%)

	Pred. Known (답변 시도)	Pred. Unknown (IDK)	Total
Actual Known	TP = 224	FN = 25 (Type 2)	249
Actual Unknown	FP = 2 (Type 1)	TN = 86	88

Metric	Value
Classification Accuracy	92.0%
Known Precision / Recall / F1	99.1% / 90.0% / 94.3%
Unknown Precision / Recall / F1	77.5% / 97.7% / 86.4%
Macro F1	90.4%
Type 1 Error Rate (과잉 확신)	2.3%
Type 2 Error Rate (과잉 불확실성)	10.0%
Known subset 답변 정확도	8.5% (19/224)
기존 Exact-Match Accuracy	32.0%

SelfAware-edited (IDK 5%)

	Pred. Known (답변 시도)	Pred. Unknown (IDK)	Total
Actual Known	TP = 237	FN = 12 (Type 2)	249
Actual Unknown	FP = 27 (Type 1)	TN = 61	88

Metric	Value
Classification Accuracy	88.4%
Known Precision / Recall / F1	89.8% / 95.2% / 92.4%
Unknown Precision / Recall / F1	83.6% / 69.3% / 75.8%
Macro F1	84.1%
Type 1 Error Rate (과잉 확신)	30.7%
Type 2 Error Rate (과잉 불확실성)	4.8%
Known subset 답변 정확도	9.3% (22/237)
기존 Exact-Match Accuracy	25.2%

종합 비교 테이블

Model	Run	Train IDK	Type 1 (과잉확신)	Type 2 (과잉불확실)	Known F1	Unknown F1	Macro F1	Cls. Acc	Known 답변정확도	기존 Acc
8B	Baseline	—	93.2%	5.6%	83.0%	11.1%	47.1%	71.5%	24.3%	17.2%
8B	SelfAware-ed (5%)	5%	27.3%	1.6%	94.6%	82.1%	88.3%	91.7%	13.9%	29.7%
8B	SelfAware-ed-2 (0.6%)	0.6%	46.6%	1.6%	91.6%	67.6%	79.6%	86.6%	14.7%	21.1%
3B	Baseline	—	96.6%	9.6%	80.5%	5.2%	42.9%	67.7%	18.7%	12.8%
3B	SelfAware 원본 (31.1%)	31.1%	2.3%	7.6%	95.6%	89.1%	92.4%	93.8%	12.6%	34.7%
3B	SelfAware-ed (5%)	5%	20.5%	4.0%	94.5%	83.3%	88.9%	91.7%	11.7%	29.7%
1B	SelfAware 원본 (31.1%)	31.1%	2.3%	10.0%	94.3%	86.4%	90.4%	92.0%	8.5%	32.0%
1B	SelfAware-ed (5%)	5%	30.7%	4.8%	92.4%	75.8%	84.1%	88.4%	9.3%	25.2%

해석: IDK 비율 변화에 따른 Type 1/Type 2 Trade-off

1. Baseline의 극단적 과잉 확신

Fine-tuning 없는 baseline 모델은 Type 1 error 93-97%로 unanswerable 질문에도 거의 항상 답변을 시도한다 (Unknown F1 5-11%). 이는 instruct-tuned LLM의 “helpful but overconfident” 기본 성향을 반영하며, SelfAware 학습의 가장 핵심적 효과가 이 과잉 확신 억제에 있음을 보여준다.

2. IDK 31.1% 학습: in-domain 최적, but cross-domain shortcut

	Type 1	Type 2	Macro F1
3B 원본 (31.1%)	2.3%	7.6%	92.4%
1B 원본 (31.1%)	2.3%	10.0%	90.4%

IDK 31.1% 학습은 Type 1 error를 2.3%로 극적으로 낮추고 Macro F1 90%+ 달성. in-domain SelfAware 분류 성능으로는 최적이지만, 이 높은 IDK 비율이 cross-eval에서 GSM8K 100% IDK, MBPP 94% IDK라는 shortcut learning을 유발한 원인이기도 하다 (상세).

3. IDK 5% 학습: 균형점

	Type 1	Type 2	Macro F1
8B edited (5%)	27.3%	1.6%	88.3%
3B edited (5%)	20.5%	4.0%	88.9%
1B edited (5%)	30.7%	4.8%	84.1%

Type 1 error는 20-31%로 상승하지만 (과잉 확신 증가), Type 2 error가 1.6-4.8%로 감소 (과잉 불확실성 해소). Cross-eval에서 GSM8K IDK가 100%→1.6%, MBPP가 94%→27%로 해소되는 것을 고려하면, in-domain에서 Macro F1 3-6%p를 양보하고 cross-domain shortcut을 제거하는 trade-off로 해석.

4. IDK 0.6% 학습: 과교정 (overcorrection)

8B edited-2 (0.6%)는 Type 1 error 46.6%, Unknown F1 67.6%, Macro F1 79.6%로 5% 대비 전면 악화. IDK를 거의 제거하면 모델이 unanswerable 질문까지 답변을 시도하여 baseline 방향으로 회귀한다. IDK 비율의 최적 구간은 5% 근처이며, 그 이하로 줄이면 self-awareness 자체가 손상.

5. 기존 Exact-Match Accuracy와의 괴리

Model/Run	Cls. Acc	기존 Acc	Gap
3B 원본 (31.1%)	93.8%	34.7%	59.1%p
1B 원본 (31.1%)	92.0%	32.0%	60.0%p
8B edited (5%)	91.7%	29.7%	62.0%p

Classification accuracy가 92-94%인데 기존 accuracy는 30-35% — 60%p 차이. 이 gap은 모델이 “답변 가능 여부”는 정확히 판별하지만, 실제 답변 내용은 ground truth와 surface form이 달라 정답 처리되지 않기 때문이다 (e.g., “Equator” vs “latitude 0 degrees n”). Known subset 답변 정확도 9-19%가 이를 확인. 기존 exact-match accuracy만으로는 SelfAware 학습의 진정한 효과를 과소평가하게 된다.

Key Findings & Interpretation

1. ToM↔Self 유사도가 가장 높다 — 가설 지지 (4-pair)

TriviaQA confound를 제외한 4-pair 분석에서:

ToM↔Self가 전체 6 pair 중 1위 (1B 원본, 3B 원본, 1B edited 모두)
1B: 0.1269 (control avg 0.0977, gap +0.029)
3B: 0.1672 (control avg 0.0818, gap +0.085)
8B (edited): 0.1414 (control avg 0.1040, gap +0.037) — #2 (ToM↔MBPP에 근소하게 열위)
1B (edited): 0.1441 (control avg 0.1032, gap +0.041) — #1 유지, gap 41% 증가
전 모델·전 설정에서 global permutation test p < 0.001

이는 ToM과 Self-Awareness가 공유 표상을 가진다는 가설을 지지한다. Selfaware-edited에서 IDK shortcut을 제거하면 gap이 더 커지는 것은, 원본의 “IDK 일변도” 학습이 Self adapter의 표상을 일부 오염시켰을 가능성을 시사.

2. 후반 레이어에서의 수렴 — 추상화 레이어에서의 공유 표상

3B (28 layers): layer 8 이후부터 ToM↔Self가 대조군과 명확히 분리, 26/28 layers significant
1B (16 layers): layer 6 이후부터 유사한 패턴, 13/16 layers significant
초기 레이어 (shallow features)에서는 차이 미미 → 토큰/구문 수준이 아닌 고차 의미 표상 수준에서의 공유

이는 인간 뇌에서 ToM과 Self가 기본 모드 네트워크 (default mode network) 의 고차 영역에서 겹치는 패턴과 유사.

3. Scale-up 효과: 더 큰 모델에서 더 강한 dissociation

4-pair (TriviaQA 제외) — 1B vs 3B vs 8B

Metric	1B (16L)	3B (28L)	8B-ed (32L)	비고
Dissociation gap	0.029	0.085	0.037	3B > 8B > 1B
Gap ratio	1.30×	2.04×	1.36×
Significant layers	13/16 (81%)	26/28 (93%)	32/32 (100%)	8B 전층 유의
Post-hoc: 최소 Cohen’s d	0.27	1.09	0.04 (Self↔MBPP)	8B에서 Self↔MBPP과 거의 동일
Omnibus rank	#1	#1	#2	8B에서 ToM↔MBPP이 #1

4-pair Selfaware-Edited 효과 (IDK shortcut 제거)

Metric	1B (orig)	1B (edited)	변화
Dissociation gap	0.029	0.041	+41%
Gap ratio	1.30×	1.40×	+8%p
Significant layers	13/16	14/16	+1 layer
Omnibus rank	#1	#1	유지
5-pair permutation p	0.075 (n.s.)	0.029 (*)	n.s. → significant

5-pair — 1B vs 3B vs 8B

Metric	1B (16L)	3B (28L)	8B (32L)	비고
ToM↔Self mean	0.1269	0.1672	0.1414
Dissociation gap	0.010	0.063	0.031	8B > 1B
Permutation p-value	0.075 (n.s.)	< 0.001	< 0.001	8B에서 유의 회복
Significant layers	13/16 (81%)	26/28 (93%)	32/32 (100%)	8B 전층 유의
Omnibus p-value	< 0.001	< 0.001	< 0.001	전 모델 유의
ToM↔Self omnibus rank	#3/10	#2/10	#3/10

8B 해석: TriviaQA confound가 있는 5-pair에서도 8B는 1B와 달리 global p < 0.001을 달성하고 32개 레이어 전부(100%) 유의한 것이 핵심. 이는 모델 스케일이 커질수록 ToM↔Self 공유 표상 신호가 noise를 넘어서 일관되게 강화됨을 시사. ~~4-pair 분석은 8B에서 미수행~~ → ✅ 8B 4-pair 완료: gap=0.037, p < 0.001, 32/32 layers significant. ToM↔MBPP(0.161)이 ToM↔Self(0.141)보다 근소하게 높아 2이나, 대부분의 control pair와 유의한 차이 유지.

3-1. 8B QLoRA Cross-Eval에서의 Scale-up 관찰 (Feb 22)

8B 모델의 cross-eval 결과에서 규모 증가에 따른 패턴 변화:

관찰	1B	3B	8B	해석
ExploreToM in-domain	0.84	0.89	0.91	일관된 향상
GSM8K in-domain	0.52	0.75	0.77	수렴 조짐
TriviaQA → ExploreToM (전이)	0.51	0.59	0.66	규모 증가에 따라 전이 강화
GSM8K → 전체 task 보존	부분적	부분적	거의 완전	8B GSM8K가 유일한 “범용” adapter
SelfAware-ed → ExploreToM	—	—	0.36 (≈baseline)	Shortcut 완화로 역전이 없음 확인

8B GSM8K adapter의 특이성: GSM8K QLoRA가 모든 5개 task에서 baseline과 동등 또는 상회하는 유일한 adapter. ExploreToM (+20%), TriviaQA (−3%), MBPP (+2%), SelfAware (−22%)로, 수학적 추론 학습이 다른 능력을 거의 손상시키지 않음. 이는 mathematical reasoning이 LLM의 범용 능력과 가장 호환되는 fine-tuning target임을 시사.

8B Cosine Similarity에서의 주요 발견:

ToM↔MBPP가 8B에서 #2 rank로 급상승 (1B #4, 3B #4 → 8B #2, mean=0.1608) — ToM↔Self(0.1414)보다 높음. 이는 cross-eval에서 MBPP adapter가 8B에서 높은 범용성을 보이는 패턴과 일치. 4-pair에서도 동일 패턴 확인: ToM↔MBPP #1 (0.161), ToM↔Self #2 (0.141)
Self↔TriviaQA가 여전히 #1 (0.1876) — data leakage에 의한 confound가 규모에 무관하게 지속
32/32 레이어 전부 유의 (permutation test) — 1B 13/16, 3B 26/28에 이어 8B에서 100% 달성. 모델 깊이가 증가할수록 ToM↔Self > ToM↔GSM8K 패턴이 전 레이어에 걸쳐 일관됨
Layer 13–25에서 가장 강한 효과 (Δ > 0.08) — 중후반 레이어에서의 표상 공유가 두드러지며, 이는 1B/3B의 후반 레이어 수렴 패턴과 일치
SelfAware-edited 효과: 1B에서 gap +41% 증가 (0.029→0.041), 5-pair p=0.075→0.029 (n.s.→significant). IDK shortcut 제거가 Self 표상을 정제하여 ToM과의 공유 신호 강화

4. TriviaQA Confound — 데이터 오염으로 인한 허위 유사도

Self↔TriviaQA: 1B 0.204, 3B 0.223 → ToM↔Self보다 높음
ToM↔TriviaQA: 1B 0.142, 3B 0.154 → 마찬가지로 높음
5-pair 분석에서 1B dissociation이 유의하지 않게 됨 (p=0.075)

원인 규명 (Data Leakage Analysis): SelfAware와 TriviaQA 학습 데이터 간 49개 동일 질문이 존재하는 것으로 확인. SelfAware는 다양한 출처의 질문을 모아 답변 가능 여부를 레이블링한 데이터셋이므로, TriviaQA 유래 질문이 포함된 것으로 추정. 8-gram containment 기준 102개 example이 중복 flagged.

이로 인해 Self adapter와 TriviaQA adapter가 동일한 질문에 대해 학습하면서 가중치 이동 방향이 유사해졌고, cosine similarity가 인위적으로 부풀려졌음.

→ 4-pair (TriviaQA 제외) 분석이 오염 없는 유일한 비교이므로 primary analysis로 확정. 5-pair는 오염 영향을 보여주는 참고 자료로만 사용.

5. Cross-Eval에서의 전이 패턴

패턴	3B Δ (vs baseline)	해석
TriviaQA → ExploreToM	0.59 (baseline 0.32, +82%)	TriviaQA의 사실 지식 + 자연어 이해가 ToM 추론에 전이
GSM8K → ExploreToM	0.50 (baseline 0.32, +54%)	수학적 단계적 추론이 belief tracking에 전이
SelfAware → ExploreToM	0.27 (baseline 0.32, −17%)	Self 학습이 ToM을 오히려 저해
SelfAware → GSM8K	0.001 / 0.000	⚠️ Shortcut learning — IDK 패턴 과학습 (상세: SelfAware Shortcut Learning Analysis). IDK 비율 5%로 축소 시 0→2.94%로 개선 확인 (SelfAware-Edited)
ExploreToM → SelfAware	8B: 0.1187 (baseline 0.1721, −31%)	ExploreToM의 짧은 명사형 style transfer로 IDK 판별 불가. 비대칭적 전이: Self→ToM은 +3%, ToM→Self는 −31%

주목할 점: TriviaQA, GSM8K → ExploreToM의 양방향 전이가 크다는 것은 ExploreToM의 ToM 추론이 일반적 언어 이해 + 논리적 추론에 크게 의존함을 시사. 반면 SelfAware는 매우 task-specific한 학습을 유발하며, 특히 학습 데이터의 31%를 차지하는 동일 IDK 문자열이 shortcut으로 작용하여 out-of-domain에서 일괄 IDK 응답을 유발 (catastrophic forgetting이 아닌 shortcut learning으로 재해석됨).

6. SelfAware Shortcut Learning → 인과적 확인 완료

IDK 비율을 31.1% → 5.0%로 조정한 selfaware-edited 실험에서:

GSM8K IDK: 100% → 1.6%, MBPP IDK: 93.8% → 26.8% — shortcut이 원인이었음을 인과적으로 확인
ExploreToM IDK (64.4%)는 shortcut이 아닌 **응답 형식 불일치(format mismatch)**로 별도 규명
상세: SelfAware-Edited 실험, ExploreToM IDK 분석

7. 후속 실험 필요

더 큰 모델 (7B, 13B): scale-up 효과가 지속되는지 확인 → ✅ 8B QLoRA 완료: cross-eval + cosine similarity + permutation test. 32/32 layers significant, global p < 0.001
~~8B 4-pair 분석 (TriviaQA 제외)~~ → ✅ 완료: gap=0.037, p < 0.001, 32/32 layers significant, rank #2 (ToM↔MBPP이 #1)
~~SelfAware-edited로 전체 파이프라인 재실행~~ → ✅ 완료: 1B/8B에서 gap 증가 확인 (+41%/+28%), 1B 5-pair가 n.s. → significant (p=0.029)로 전환. 상세: Cosine Similarity Analysis — SelfAware-Edited
TriviaQA 대안 control: fact retrieval이 아닌 다른 general knowledge task 탐색
SelfAware epochs 통일: 3B에서도 3 epochs로 재학습하여 공정 비교
1B baseline 측정: 5-task era에서의 no-adapter baseline 별도 수행
3B MBPP baseline + 전체 cross-eval 보완: 초기 adapter들의 MBPP eval 수행
Permutation test refinement: layer-level FDR correction 적용
3B selfaware-edited 동일 조건 재실행: 현재 3B-ed 결과는 혼합 양자화(bf16+qlora) artifact — 3B QLoRA 5-task 통합 run 필요
ExploreToM eval 프롬프트 통일: 응답 형식 호환 subset 평가 또는 프롬프트 수정

메모

instruct model과 base model 중 mlx에서 지원하는 것이 instruct라 instruct로 진행
1B 결과를 놓고 보면, Tom-adapter는 ExploreToM에서 크게 향상(0.40→0.74)되나 SelfAware는 하락(0.10→0.05). Self-adapter는 반대 패턴. 두 능력이 단순히 같이 올라가지는 않음
Run 5: Cosine similarity 분석에서 ToM↔Self가 후반 레이어(특히 Attention)에서 대조군 대비 뚜렷하게 높음 — 고차 의미 처리 레이어에서의 표상 공유 시사
Run 6/7: 5-task 확장으로 더 엄격한 control 확보. 4-pair 분석에서 ToM↔Self dissociation이 1B/3B 모두에서 통계적으로 유의
TriviaQA가 “순수한” control이 아닌 것으로 판명 — SelfAware와 49개 동일 질문 공유 (data leakage 확인). 향후 control task 선정에 주의 필요
SelfAware LoRA의 out-of-domain 성능 붕괴는 catastrophic forgetting이 아닌 shortcut learning으로 확인 — 학습 데이터의 31%가 동일한 IDK 문자열이며, 모델이 이를 기본 응답 전략으로 과학습. GSM8K에서 1B 748/748 (100%) IDK 응답이 결정적 증거
3B에서의 모든 post-hoc comparison Cohen’s d > 1.0은 매우 강력한 효과 크기 — 논문 보고 시 긍정적
8B Cosine Similarity (Feb 22): 5-pair 분석에서 global permutation p < 0.001, 32/32 layers significant. 1B (p=0.075 n.s.)에서 유의하지 않았던 5-pair가 8B에서 회복. ToM↔MBPP이 2로 급상승한 것이 특이점 — 8B MBPP adapter의 cross-eval 범용성과 일치. 후속으로 4-pair (TriviaQA 제외) 분석 필요
SelfAware-Edited (Feb 20): IDK 31.1%→5.0% 조정으로 GSM8K IDK 100%→1.6%, MBPP 93.8%→26.8% — shortcut learning의 인과적 확인. SelfAware in-domain은 32.1%→25.2%로 하락 (예상된 trade-off)
ExploreToM IDK 원인 규명: expected answer가 명사형이면 IDK 0%, yes/no 또는 belief state 구문이면 IDK 100% — shortcut이 아닌 응답 형식 불일치(format mismatch). SelfAware 학습 데이터의 90%가 1-3단어 명사/구 응답이라 이 형식 외에는 생성 불가

Pilot Test Results

Pilot Test Results

Experiment Runs

Run 1: 20260218 (Feb 18) — 3B 5-task ★★

Run 2: 20260219_001856 (Feb 19) — 1B 5-task ★★

Run 3: 20260221_002706 (Feb 21–22) — 8B QLoRA 5-task

Training Summary

Experiment Config 비교

Configuration Parameter Reference

Full Pipeline Status

개별 Variant Adapter 현황

미수행 실험 요약

Hyperparameter Justification

Learning Rate: 2e-4

LR Schedule: Cosine Decay + Warmup 5%

LoRA Rank: 8

LoRA Scale: 1.0 (effective α = rank × scale = 8)

LoRA Dropout: 0.05

Target Layers: All Layers (lora_num_layers=-1)

Epochs: 1 (SelfAware 1B만 3)

Effective Batch Size: 16

요약표

References

Training Method Justification: SFT vs GRPO

SFT vs GRPO 핵심 차이

Benchmark별 GRPO 적합도

Cosine Similarity 분석에 대한 영향

All SFT 유지 결정 근거

향후 확장 가능성

References

Cross-Eval Results (Accuracy)

Run 1 — Llama-3.2-3B 5-task (Feb 18) ★★

Run 2 — Llama-3.2-1B 5-task (Feb 19) ★★

Run 3 — Llama-3.1-8B QLoRA 5-task (Feb 21–22)

Cross-Eval 주요 관찰

SelfAware-Edited Adapter 정성적 분석

ExploreToM→SelfAware 전이 분석 (8B)

정확도 비교 (SelfAware eval, 337문항)

핵심 관찰

Metrics Reference

유사도 지표

효과 크기 (Effect Size)

통계 검정 (Statistical Tests)

Cosine Similarity Analysis (Run 6 & 7)

4-Pair Analysis (TriviaQA 제외)

Pair-wise Summary

Dissociation & Permutation Test

4-Pair Plots — 3B

4-Pair Plots — 1B

4-Pair Omnibus Test

5-Pair Analysis (TriviaQA 포함)

5-Pair Summary (상위 pair 중심)

5-Pair Dissociation

5-Pair Omnibus Ranks

5-Pair Plots — 3B

5-Pair Plots — 1B

5-Pair Plots — 8B

Cosine Similarity Analysis — SelfAware-Edited

SelfAware-Edited: 4-Pair Analysis (TriviaQA 제외)

Pair-wise Summary

Dissociation & Permutation Test

4-Pair Omnibus Test — SelfAware-Edited

4-Pair Plots — SelfAware-Edited 1B

4-Pair Plots — SelfAware-Edited 8B

SelfAware-Edited: 5-Pair Analysis (TriviaQA 포함)

5-Pair Summary (상위 pair 중심)

5-Pair Dissociation — Original vs Edited 비교

5-Pair Omnibus Ranks — SelfAware-Edited

5-Pair Plots — SelfAware-Edited 1B

5-Pair Plots — SelfAware-Edited 8B

SelfAware-Edited 종합 비교: Original vs Edited

Data Leakage Analysis

Level 1: Exact Duplicate Check

Level 2: N-gram Containment

Leakage 결론

SelfAware Shortcut Learning Analysis

문제 제기

원인 조사: 학습 데이터 분석

근거: 예측 로그 분석

구체적 응답 예시

Learning Rate: `2e-4`

LoRA Rank: `8`

LoRA Scale: `1.0` (effective α = rank × scale = 8)

LoRA Dropout: `0.05`

Target Layers: All Layers (`lora_num_layers=-1`)

Epochs: `1` (SelfAware 1B만 `3`)

Effective Batch Size: `16`