SC-TOM 종합 실험 보고서
Self-Consciousness and Theory of Mind: Neural Activation Overlap in LLMs
최종 업데이트: 2026-03-09
목차
- 프로젝트 개요
- 데이터셋
- 실험 설계
- Performance Analysis (Cross-Evaluation)
- Parameter-Level Similarity Analysis (Cosine Similarity)
- Conclusion
1. 프로젝트 개요
1.1 연구 가설
인간 뇌과학에서 Theory of Mind(ToM)과 Self-Awareness(Self)는 기본 모드 네트워크(default mode network)의 고차 영역에서 신경 활성화를 공유한다. 본 연구는 LLM에서도 ToM과 Self-Awareness 간에 유사한 표상 공유 패턴이 존재하는지 검증한다.
핵심 질문: ToM task(ExploreToM)와 Self-Awareness task(SelfAware)에 대해 각각 LoRA fine-tuning한 adapter의 weight delta가, 무관한 control task(GSM8K, MBPP 등)의 adapter 쌍보다 높은 cosine similarity를 보이는가?
1.2 방법론 요약
[Step 1] 데이터셋 준비
- Treatment: ExploreToM (ToM), SelfAware (Self-Awareness)
- Control: GSM8K (수학), TriviaQA (상식 QA), MBPP (코드 생성) 등
[Step 2] LoRA/QLoRA SFT
- 동일 hyperparameter로 각 task별 독립 adapter 학습
- 모델: Llama 3.2 1B/3B, Llama 3.1 8B (bf16 / 4-bit QLoRA)
[Step 3] Cross-Evaluation
- 각 adapter를 모든 task에서 평가 → N×M accuracy matrix
- In-domain 향상, cross-domain forgetting, 전이 패턴 분석
[Step 4] Cosine Similarity Analysis
- LoRA fused delta (Δ_W = lora_a @ lora_b) layer별 cosine similarity
- Permutation test (비모수 검정) + Cohen's d (효과 크기)
- 4-pair (TriviaQA 제외, data leakage) / 5-pair (전체) 분석
1.3 실험 환경
| 항목 | 값 |
|---|---|
| Primary backend | MLX (Apple Silicon, M-series) |
| Secondary backend | CUDA (PyTorch, RTX 3060 12GB) |
| Python | 3.12 |
| 프레임워크 | mlx-lm, transformers, bitsandbytes |
| 실험 기간 | 2026-02-18 ~ 2026-03-05 (11 sessions) |
| 총 체크포인트 | 35개 완료 + 4개 불완전 |
2. 데이터셋
2.1 Treatment 조건
ExploreToM (Theory of Mind)
| 항목 | 값 |
|---|---|
| 출처 | ExploreToM benchmark (ExploreToM.csv) |
| 규모 | Train ~11,840 / Valid+Test 1,330 |
| 형식 | 이야기 구조 + 질문 (belief tracking, false belief, location tracking) |
| 질문 유형 | yes/no belief, 2nd-order knowledge, location belief, object belief 등 |
| 답변 형식 | 짧은 명사구 (장소명, 용기명), yes/no, belief state 구문 |
샘플:
Story: “Sophia entered the kitchen. Sophia put the apple in the basket. Sophia exited the kitchen. James entered the kitchen. James moved the apple to the drawer.”
Q: “Where does Sophia think the apple is?”
A: “basket”
SelfAware (Self-Awareness)
| 항목 | 값 |
|---|---|
| 출처 | SelfAware Data.json |
| 형식 | 질문 + 답변 가능 여부 판별 |
| 핵심 능력 | ”모르는 것을 모른다고 말하기” (IDK 판별) |
| 답변 형식 | 짧은 사실 응답 (90.1%가 1-3단어 명사/구) 또는 IDK |
샘플:
Q: “What is the colored part of the eye called?”
A: “iris”Q: “What is the cure for cancer?”
A: “I don’t know the answer to this question.”
2.2 Control 조건
| 데이터셋 | 유형 | 규모 (train) | 선정 이유 |
|---|---|---|---|
| GSM8K | 수학 추론 | 6,725 | ToM/Self와 무관한 수리 능력, chain-of-thought 추론 |
| TriviaQA | 상식 QA | 6,300 | 사실 지식 검색, 짧은 답변 형식 |
| MBPP | 코드 생성 | 877 | 완전히 이질적인 출력 형식 (Python 코드) |
| CommonsenseQA | 상식 추론 (5지선다) | ~9,700 | 1B/3B 추가 control (Session 11) |
| ARC | 과학 추론 (4지선다) | ~1,100 | 1B 추가 control (Session 11) |
추가 평가 전용 태스크 (학습 없이 cross-eval에만 사용)
| 태스크 | 샘플 수 | 유형 |
|---|---|---|
| HumanEval+ | 16 | 코드 생성 |
| MBPP+ | 37 | 코드 생성 (강화판) |
| BoolQ | 943 | Yes/No QA |
2.3 SelfAware 데이터 버전 히스토리
SelfAware 데이터셋은 shortcut learning 문제를 해결하기 위해 4차례 개정되었다.
| 버전 | Train 크기 | IDK 비율 | 주요 변경 | 사용 세션 |
|---|---|---|---|---|
| selfaware (v1, 원본) | 3,032 | ~31.1% (944개) | 원본. 전체 IDK가 동일 문자열 "I don't know the answer to this question." | Session 1, 2, 3, Run 4 (CUDA) |
| selfaware-edited (v2) | 2,198 | ~5.0% (110개) | IDK 비율 축소 (random subsample seed=42). Non-IDK 2,088개 전체 유지 | Session 4, 5, 6 |
| selfaware-edited-2 (v3) | ~2,198 | ~2.6% | IDK 20개 변형 (다양한 거절 표현), GRPO reward function 설계 | Session 7, 8 |
| selfaware-v4 (최종) | — | — | 최종 정제 버전 | Session 9, 10, 11 |
버전 변경 동기:
- v1→v2: Train 데이터 31.1%가 동일 IDK 문자열 → 1B에서 GSM8K IDK 100%, MBPP IDK 93.8% (shortcut learning). IDK 비율 5%로 축소 후 GSM8K IDK 1.6%, MBPP IDK 26.8%로 개선 — 인과적 확인 완료
- v2→v3: IDK 표현 다양화 (20개 변형), GRPO 학습 시도를 위한 reward function 설계
- v3→v4: 최종 정제. Session 9~11에서 1B/3B/8B 전 모델에 적용
2.4 TriviaQA 데이터 버전
| 버전 | 변경 내용 | 사용 세션 |
|---|---|---|
| TriviaQA (원본) | 원본 6,300건 | Session 1~5 |
| TriviaQA-v2 | SelfAware와의 data leakage 49개 (exact duplicate 43+6개) 제거 | Session 11 |
2.5 Treatment vs Control 선정 근거
| 조건 | 태스크 | 이유 |
|---|---|---|
| Treatment | ExploreToM | ToM 능력 (belief tracking, false belief reasoning) 직접 측정 |
| Treatment | SelfAware | Self-Awareness 능력 (메타인지, IDK 판별) 직접 측정 |
| Control | GSM8K | 수학적 추론 — ToM/Self와 무관한 인지 능력 |
| Control | TriviaQA | 사실 지식 검색 — 추론보다 기억 의존 |
| Control | MBPP | 코드 생성 — 완전히 이질적인 출력 형식 |
| Confound | TriviaQA | ⚠️ SelfAware와 49개 동일 질문 공유 (data leakage 확인) → 4-pair 분석에서 제외 |
2.6 데이터셋 비유사성 분석
리뷰어 반론 “ExploreToM-SelfAware adapter의 높은 cosine similarity가 데이터셋 유사성에서 비롯된다”를 정량적으로 반박하기 위해, 12개 데이터셋(ExploreToM, SelfAware v1~v4, GSM8K, TriviaQA-v2, ARC, CommonsenseQA, BoolQ, Ethics, PIQA)에 대해 SimCSE 임베딩 기반 의미적 비유사성 + 어휘적/구조적/주제적 비유사성을 측정하였다. SelfAware 4개 버전 전체를 분석하여 version-invariant 결론을 확보.
ExploreToM-vs-All 요약
| Pair | Centroid Dist. | Vocab Jaccard | 1-gram JSD | 2-gram JSD | Topic JSD |
|---|---|---|---|---|---|
| ExploreToM ↔ SelfAware-v1 | 0.945 ★ | 0.093 | 0.623 | 0.796 | 0.655 |
| ExploreToM ↔ Ethics | 0.938 | 0.155 | 0.600 | 0.781 | 0.773 |
| ExploreToM ↔ SelfAware-v2 | 0.932 | 0.095 | 0.625 | 0.797 ★ | 0.658 |
| ExploreToM ↔ SelfAware-v3 | 0.932 | 0.095 | 0.625 | 0.797 ★ | 0.658 |
| ExploreToM ↔ SelfAware-v4 | 0.932 | 0.095 | 0.625 | 0.797 ★ | 0.658 |
| ExploreToM ↔ ARC | 0.921 | 0.111 | 0.606 | 0.785 | 0.686 |
| ExploreToM ↔ PIQA | 0.842 | 0.127 | 0.622 | 0.790 | 0.766 |
| ExploreToM ↔ TriviaQA | 0.837 | 0.081 | 0.630 | 0.795 | 0.674 |
| ExploreToM ↔ GSM8K | 0.833 | 0.115 | 0.618 | 0.791 | 0.730 |
| ExploreToM ↔ CommonsenseQA | 0.806 | 0.110 | 0.613 | 0.792 | 0.642 |
| ExploreToM ↔ BoolQ | 0.731 | 0.127 | 0.583 | 0.777 | 0.734 |
★ = 전체 #1 (가장 비유사)
SelfAware v1~v4-vs-ExploreToM 요약 (양방향 × version-invariant 검증)
| 기준 | Centroid Dist. | 1-gram JSD | 2-gram JSD | Topic JSD | ExploreToM 순위 |
|---|---|---|---|---|---|
| v1 기준 | 0.945 ★ | 0.623 ★ | 0.796 ★ | 0.655 | #1 |
| v2 기준 | 0.932 ★ | 0.625 ★ | 0.797 ★ | 0.658 | #1 |
| v3 기준 | 0.932 ★ | 0.625 ★ | 0.797 ★ | 0.658 | #1 |
| v4 기준 | 0.932 ★ | 0.625 ★ | 0.797 ★ | 0.658 | #1 |
★ = 해당 버전 기준 전체 #1. 모든 버전에서 ExploreToM이 가장 비유사한 쌍.
핵심 발견:
- ExploreToM-SelfAware는 4개 버전 모두 centroid distance 0.932~0.945로 최상위 (#1~#3), bigram JSD(0.796~0.797)는 전체 #1~#2
- 어휘 중복(Jaccard 0.093~0.095)도 최하위 수준
- 양방향 × 4개 버전 확인: SelfAware v1~v4 모든 기준에서 ExploreToM이 centroid distance #1, 1-gram JSD #1, 2-gram JSD #1 → version-invariant 결론
- 가장 비유사한 두 데이터셋의 adapter가 가장 유사한 weight delta를 보인다 → 데이터 유사성 가설 기각, SC-TOM 가설 강화
전체 분석 보고서 | 생성 Figure:
results/dissimilarity/fig1~fig7
3. 실험 설계
3.1 모델 구성
| 모델 | 파라미터 | 양자화 | LoRA 유형 | Backend | 사용 세션 |
|---|---|---|---|---|---|
| Llama 3.2 1B Instruct | 1.2B | bf16 | LoRA | MLX | Session 2, 3, 4 |
| Llama 3.2 1B Instruct | 1.2B | 4-bit (NF4) | QLoRA | MLX | Session 9, 11 |
| Llama 3.2 3B Instruct | 3.2B | bf16 | LoRA | MLX | Session 1 |
| Llama 3.2 3B Instruct | 3.2B | 4-bit (NF4) | QLoRA | MLX | Session 6, 9, 11 |
| Llama 3.1 8B Instruct | 8.0B | 4-bit (NF4) | QLoRA | MLX | Session 5, 7, 10 |
| Llama 3.1 8B Instruct | 8.0B | bf16 | LoRA (r16) | MLX | Session 8 |
| Llama 3.1 8B Instruct | 8.0B | 4-bit (NF4) | QLoRA | CUDA (PyTorch) | Run 4 |
| DeepSeek-R1-Distill-Llama-8B | 8.0B | 4-bit (NF4) | QLoRA | MLX | Session 10 |
3.2 하이퍼파라미터
5개 task에 동일한 hyperparameter를 적용하여, adapter 간 cosine similarity 차이가 hyperparameter artifact가 아닌 task-level 표상 공유에서 기인함을 보장하는 것이 핵심 설계 원칙.
| Hyperparameter | 값 | Justification |
|---|---|---|
| Learning rate | 2e-4 | LoRA 표준 범위 중간값 (Raschka, 2023; Lightning AI, 2023) |
| LR schedule | Cosine decay + 5% warmup | LLM FT 표준 (Loshchilov & Hutter, 2017). 모든 task에 동일 학습 역학 부여 |
| LoRA rank | 8 | Hu et al. (2021) 기본값. “ΔW has a very small intrinsic rank” |
| LoRA scale (α) | 1.0 (effective α=8) | Conservative — cosine sim이 방향(direction)을 반영하도록 magnitude 억제 |
| LoRA dropout | 0.05 | Mild regularization (Lin et al., 2024). Sparsity regularizer 역할 |
| Target layers | All (-1) | 모든 linear layer에 적용 (Dettmers et al., 2023). 전층 분석에 필수 |
| Epochs | 1 (SelfAware 1B만 3) | Overfitting 방지; task 간 통일. 1B SelfAware만 소규모 데이터 보완 |
| Effective batch | 16 | Moderate; 모델 간 동일 (micro-batch × grad_accumulation) |
예외: Session 8 (8B bf16 r16)은 rank=16, scale=0.5, dropout=0.08, LR=1.5e-4로 변경 실험. Session 10의 두 번째 variant는 LR=1.2e-4 (lr_end_ratio 제거).
3.3 SFT vs GRPO 결정
5개 benchmark를 학습하는 방법으로 SFT와 GRPO(Group Relative Policy Optimization)를 비교 검토한 결과, All SFT 유지를 결정.
결정 근거:
- 실험 통일성 (결정적): 5개 task에 동일한 학습 조건 적용이 핵심 전제. SelfAware에 GRPO 적용 불가 → 전체 GRPO 통일 불가. 혼합 시 “유사도가 높은 건 둘 다 SFT라서”라는 confound 발생
- SelfAware의 GRPO 불가: “이 질문에 답할 수 있는가?”의 자동 reward function 정의가 구조적으로 불가
- 이미 충분한 결과: SFT로 global permutation test p < 0.001, 32/32 layers significant (8B), Cohen’s d > 1.0 (3B) 달성
- 실질적 제약: MLX에서 GRPO 미지원; 계산 비용 4~16× 증가 예상
| Benchmark | GRPO 적합도 | 이유 |
|---|---|---|
| GSM8K | ★★★ | 최종 숫자 exact match — canonical use case |
| MBPP | ★★★ | Test case pass/fail — binary reward |
| TriviaQA | ★★ | Answer match 가능하나 탐색 공간 좁음 |
| ExploreToM | ★ | 다양한 answer format → reward 설계 복잡 |
| SelfAware | ✗ | 자동 reward 정의 불가 |
3.4 체크포인트 레지스트리
총 11 sessions, 35개 완료 체크포인트 + 4개 불완전. Effective batch size는 모든 경우 16.
Session 1: 3B bf16 (2026-02-18)
| Checkpoint | Base Model | Quant | Rank | LR | Data | Duration |
|---|---|---|---|---|---|---|
mlx-lora-exploretom/20260218_104723 | Llama-3.2-3B-bf16 | bf16 | 8 | 2e-4 | exploretom | 238min |
mlx-lora-selfaware/20260218_155336 | Llama-3.2-3B-bf16 | bf16 | 8 | 2e-4 | selfaware | 8min |
mlx-lora-gsm8k/20260218_164927 | Llama-3.2-3B-bf16 | bf16 | 8 | 2e-4 | gsm8k | 74min |
mlx-lora-triviaqa/20260218_200753 | Llama-3.2-3B-bf16 | bf16 | 8 | 2e-4 | triviaqa | 26min |
mlx-lora-mbpp/20260218_222920 | Llama-3.2-3B-bf16 | bf16 | 8 | 2e-4 | mbpp | <1min |
Session 2: 1B bf16 (2026-02-19 #1)
| Checkpoint | Base Model | Quant | Rank | LR | Data | Duration |
|---|---|---|---|---|---|---|
mlx-lora-exploretom/20260219_001856 | Llama-3.2-1B-bf16 | bf16 | 8 | 2e-4 | exploretom | 72min |
mlx-lora-selfaware/20260219_001856 | Llama-3.2-1B-bf16 | bf16 | 8 | 2e-4 | selfaware | 12min |
mlx-lora-gsm8k/20260219_001856 | Llama-3.2-1B-bf16 | bf16 | 8 | 2e-4 | gsm8k | 23min |
mlx-lora-triviaqa/20260219_001856 | Llama-3.2-1B-bf16 | bf16 | 8 | 2e-4 | triviaqa | 8min |
mlx-lora-mbpp/20260219_001856 | Llama-3.2-1B-bf16 | bf16 | 8 | 2e-4 | mbpp | <1min |
Session 3: 1B bf16 Repeat (2026-02-19 #2)
Session 2와 동일 config (재현성 검증). Timestamp: 20260219_234546.
Session 4: 1B bf16 SelfAware-Edited (2026-02-20)
| Checkpoint | Base Model | Quant | Rank | LR | Data | Duration |
|---|---|---|---|---|---|---|
mlx-lora-selfaware-edited/20260220_221232 | Llama-3.2-1B-bf16 | bf16 | 8 | 2e-4 | selfaware-v2 | 9min |
Shortcut learning 인과 확인을 위한 단일 adapter 실험.
Session 5: 8B 4-bit QLoRA (2026-02-21)
| Checkpoint | Base Model | Quant | Rank | LR | Data | Duration |
|---|---|---|---|---|---|---|
mlx-qlora-exploretom/20260221_002706 | Llama-3.1-8B-4bit | 4bit | 8 | 2e-4 | exploretom | 722min |
mlx-qlora-selfaware-edited/20260221_002706 | Llama-3.1-8B-4bit | 4bit | 8 | 2e-4 | selfaware-v2 | 9min |
mlx-qlora-gsm8k/20260221_002706 | Llama-3.1-8B-4bit | 4bit | 8 | 2e-4 | gsm8k | 228min |
mlx-qlora-triviaqa/20260221_002706 | Llama-3.1-8B-4bit | 4bit | 8 | 2e-4 | triviaqa | 74min |
mlx-qlora-mbpp/20260221_002706 | Llama-3.1-8B-4bit | 4bit | 8 | 2e-4 | mbpp | <1min |
lr_end_ratio=0.1 적용. 총 소요 ~28시간.
Session 6: 3B 4-bit SelfAware-Edited (2026-02-22)
단일 adapter: mlx-qlora-selfaware-edited/20260222_234559 (3B 4bit, selfaware-v2, 6min)
Session 7: 8B 4-bit SelfAware-Edited-2 (2026-02-23)
단일 adapter: mlx-qlora-selfaware-edited-2/20260223_234150 (8B 4bit r8, selfaware-v3, 12min)
Session 8: 8B bf16 LoRA r16 SelfAware-Edited-2 (2026-02-25)
단일 adapter: mlx-lora-selfaware-edited-2/20260225_130700 (8B bf16, rank=16, scale=0.5, dropout=0.08, LR=1.5e-4, selfaware-v3, 9min)
Quantization 비교 실험: bf16 LoRA r16 vs 4bit QLoRA r16 (후자는 OOM crash로 불완전)
Session 9: 1B/3B 4-bit SelfAware-v4 + ExploreToM (2026-03-03)
| Checkpoint | Base Model | Quant | Rank | LR | Data | Duration |
|---|---|---|---|---|---|---|
mlx-qlora-selfaware-v4/20260303_163207 | Llama-3.2-1B-4bit | 4bit | 8 | 2e-4 | selfaware-v4 | 12min |
mlx-qlora-selfaware-v4/20260303_170445 | Llama-3.2-3B-4bit | 4bit | 8 | 2e-4 | selfaware-v4 | 3min |
mlx-qlora-exploretom/20260303_175328 | Llama-3.2-1B-4bit | 4bit | 8 | 2e-4 | exploretom | 105min |
Session 10: 8B 4-bit SelfAware-v4 Variants (2026-03-04)
| Checkpoint | Base Model | Quant | Rank | LR | Data | Duration |
|---|---|---|---|---|---|---|
mlx-qlora-selfaware-v4/20260304_111631 | Llama-3.1-8B-4bit | 4bit | 8 | 2e-4 (end=0.1) | selfaware-v4 | 8min |
mlx-qlora-selfaware-v4/20260304_134246 | Llama-3.1-8B-4bit | 4bit | 8 | 1.2e-4 | selfaware-v4 | 8min |
mlx-qlora-selfaware-v4/20260304_205901 | DeepSeek-R1-Distill-8B-4bit | 4bit | 8 | 1.2e-4 | selfaware-v4 | 6min |
Session 11: 1B/3B 4-bit Control Tasks (2026-03-05)
| Checkpoint | Base Model | Quant | Rank | LR | Data | Duration |
|---|---|---|---|---|---|---|
mlx-qlora-triviaqa-v2/20260305_102156 | Llama-3.2-1B-4bit | 4bit | 8 | 2e-4 | triviaqa-v2 | 8min |
mlx-qlora-commonsenseqa/20260305_105002 | Llama-3.2-1B-4bit | 4bit | 8 | 2e-4 | commonsenseqa | 14min |
mlx-qlora-arc/20260305_112220 | Llama-3.2-1B-4bit | 4bit | 8 | 2e-4 | arc | 1min |
mlx-qlora-triviaqa-v2/20260305_114137 | Llama-3.2-3B-4bit | 4bit | 8 | 2e-4 | triviaqa-v2 | 31min |
mlx-qlora-commonsenseqa/20260305_133046 | Llama-3.2-3B-4bit | 4bit | 8 | 2e-4 | commonsenseqa | 47min |
Run 4: 8B CUDA (2026-02-20, PyTorch)
| Checkpoint | Base Model | Quant | Backend | LR | Data |
|---|---|---|---|---|---|
20260220_124630 (5 adapters) | Llama-3.1-8B | 4bit NF4 | CUDA (RTX 3060) | 2e-4 | ExploreToM, SelfAware(원본), GSM8K, TriviaQA, MBPP |
MLX Run 3과의 backend 비교 목적. 원본 SelfAware (IDK 31%) 사용.
Incomplete Checkpoints
| Checkpoint | Notes |
|---|---|
mlx-qlora-commonsenseqa/20260305_125422 | Config 없음 |
mlx-qlora-exploretom/20260303_145327 | Config 없음 |
mlx-qlora-mbpp/20260223_105639 | Config 없음 |
mlx-qlora-selfaware-edited-2/20260225_152202 | Config 없음 (8B 4bit r16, OOM crash). best ckpt 존재, cross-eval 결과 있음 |
4. Performance Analysis (Cross-Evaluation)
각 adapter(행)를 모든 평가 task(열)에서 측정한 accuracy. In-domain 결과는 bold.
4.1 Baseline Performance
Llama-3.2-3B-Instruct (bf16) — Session 1 Baseline
| ExploreToM | SelfAware | GSM8K | TriviaQA |
|---|---|---|---|
| 32.4% | 27.9%† | 76.6% | 47.4% |
† SelfAware Baseline 재평가 (strict 12.8% → lenient 27.9%): 337개 전체 수동 검토, 57건 변경 (F→T 54건, T→F 3건).
Llama-3.2-1B-Instruct (bf16) — Baseline (20260303)
| ExploreToM | SelfAware | GSM8K | TriviaQA | HumanEval+ | MBPP+ |
|---|---|---|---|---|---|
| 43.5% | 17.2% | 54.9% | 40.9% | 50.0% | 48.6% |
Llama-3.2-1B-Instruct (4-bit) — Baseline (20260303)
| ExploreToM | SelfAware | GSM8K | TriviaQA | HumanEval+ | MBPP+ |
|---|---|---|---|---|---|
| 44.4% | 19.9% | 40.4% | 31.3% | 43.8% | 32.4% |
Llama-3.2-3B-Instruct (4-bit) — Baseline (20260303)
| ExploreToM | SelfAware | GSM8K | TriviaQA | HumanEval+ | MBPP+ |
|---|---|---|---|---|---|
| 33.2% | 22.6% | 75.1% | 46.6% | 50.0% | 48.6% |
Llama-3.1-8B-Instruct (4-bit) — Baseline (20260222)
| ExploreToM | SelfAware | GSM8K | TriviaQA | MBPP |
|---|---|---|---|---|
| 35.5% | 17.2% | 66.6% | 61.9% | 60.8% |
Llama-3.1-8B-Instruct (4-bit) — Extended Baseline (20260304)
| ExploreToM | SelfAware | GSM8K | TriviaQA | HumanEval+ | MBPP+ | ARC | BoolQ | CSQA |
|---|---|---|---|---|---|---|---|---|
| 34.1% | 24.9% | 77.0% | 59.4% | 62.5% | 70.3% | 9.3% | 65.3% | 21.5% |
DeepSeek-R1-Distill-Llama-8B (4-bit) — Baseline (20260304)
| ExploreToM | SelfAware | GSM8K | TriviaQA | HumanEval+ | MBPP+ | ARC | BoolQ | CSQA |
|---|---|---|---|---|---|---|---|---|
| 24.6% | 32.0% | 13.0% | 14.4% | 0.0% | 16.2% | 0.8% | 1.4% | 6.9% |
DeepSeek의 낮은 점수는
<think>token이 응답 예산을 소진하여 실제 답변이 truncate되는 문제. 모델 능력이 아닌 평가 형식 문제로 판단 → Llama 3.1 8B를 primary 8B 모델로 채택.
4.2 Cross-Eval Matrices (Session 1~11)
Session 1: 3B bf16
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | MBPP |
|---|---|---|---|---|---|
| exploretom | 88.6% | 9.8% | 8.3% | 45.0% | — |
| selfaware | 26.8% | 34.7% | 0.1% | 41.7% | — |
| gsm8k | 50.0% | 15.4% | 75.0% | 54.6% | — |
| triviaqa | 59.0% | 11.3% | 12.2% | 48.4% | — |
| mbpp | 45.9% | 13.4% | 36.8%† | 52.0% | 51.5% |
† GSM8K 열은 regex 버그 수정 후 재평가된 값. Baseline: 76.6%, MBPP→GSM8K: 36.8%→74.1% 수정.
Session 2: 1B bf16
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | MBPP |
|---|---|---|---|---|---|
| exploretom | 84.3% | 5.3% | 2.5% | 24.9% | 25.8% |
| selfaware | 23.0% | 32.3% | 0.0% | 16.7% | 1.0% |
| gsm8k | 42.8% | 11.3% | 51.7% | 38.1% | 33.0% |
| triviaqa | 51.1% | 6.8% | 4.3% | 31.3% | 3.1% |
| mbpp | 30.3% | 11.0% | 33.2% | 36.7% | 36.1% |
Session 3: 1B bf16 Repeat
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | MBPP |
|---|---|---|---|---|---|
| exploretom | 84.1% | 5.9% | 2.3% | 25.1% | 24.7% |
| selfaware | 25.1% | 32.0% | 0.0% | 16.7% | 0.0% |
| gsm8k | 40.6% | 11.3% | 50.8% | 37.9% | 33.0% |
| triviaqa | 44.6% | 6.5% | 3.7% | 31.3% | 6.2% |
| mbpp | 33.1% | 11.6% | 34.6% | 36.9% | 38.1% |
Session 2와 높은 재현성 확인 (ExploreToM: 84.3% vs 84.1%, SelfAware: 32.3% vs 32.0%).
Session 4: 1B bf16 SelfAware-Edited (selfaware-v2)
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | MBPP |
|---|---|---|---|---|---|
| selfaware-edited | 26.8% | 25.2% | 2.9% | 19.4% | 0.0% |
Session 5: 8B 4-bit QLoRA (Run 3)
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | MBPP |
|---|---|---|---|---|---|
| exploretom | 91.0% | 11.9% | 9.8% | 46.6% | 57.7% |
| selfaware-edited | 36.5% | 29.7% | 11.4% | 48.4% | 28.9% |
| gsm8k | 42.5% | 13.4% | 77.0% | 60.3% | 61.9% |
| triviaqa | 66.0% | 12.2% | 15.9% | 57.4% | 58.8% |
| mbpp | 40.9% | 12.8% | 29.9% | 60.3% | 51.5% |
Session 6: 3B 4-bit SelfAware-Edited
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | MBPP |
|---|---|---|---|---|---|
| selfaware-edited | 30.7% | 29.7% | 3.2% | 37.1% | 40.2% |
Session 7: 8B 4-bit SelfAware-Edited-2 (v3)
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | MBPP | HumanEval |
|---|---|---|---|---|---|---|
| selfaware-edited-2 | 32.1% | 21.1% | 9.1% | 53.1% | 28.9% | 0.0% |
Session 8: 8B bf16 LoRA r16 SelfAware-Edited-2
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | MBPP | HumanEval |
|---|---|---|---|---|---|---|
| selfaware-edited-2 | 31.1% | 15.7% | 10.0% | 51.7% | 17.5% | 3.1% |
Incomplete: 8B 4-bit r16 SelfAware-Edited-2
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | MBPP | HumanEval |
|---|---|---|---|---|---|---|
| selfaware-edited-2 | 32.4% | 12.5% | 10.7% | 51.9% | 50.5% | 34.4% |
Quantization 비교 (Session 8 vs Incomplete): bf16 r16은 MBPP 17.5%, HumanEval 3.1% → 코드 능력 심각 하락. 4bit r16은 MBPP 50.5%, HumanEval 34.4% → 코드 능력 대폭 보존. 4-bit QLoRA가 base model capability를 더 잘 보존.
Session 9: 1B/3B 4-bit SelfAware-v4 + ExploreToM
1B SelfAware-v4:
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | HumanEval+ | MBPP+ |
|---|---|---|---|---|---|---|
| selfaware-v4 | 43.6% | 26.1% | 6.4% | 32.8% | 0.0% | 0.0% |
3B SelfAware-v4:
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | HumanEval+ | MBPP+ |
|---|---|---|---|---|---|---|
| selfaware-v4 | 62.8% | 30.3% | 32.7% | 48.9% | 0.0% | 0.0% |
1B ExploreToM:
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | HumanEval+ | MBPP+ |
|---|---|---|---|---|---|---|
| exploretom | 87.1% | 2.7% | 3.9% | 21.2% | 0.0% | 0.0% |
Session 10: 8B 4-bit SelfAware-v4 Variants
Llama 8B, LR=2e-4, End LR=0.1:
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | HumanEval+ | MBPP+ |
|---|---|---|---|---|---|---|
| selfaware-v4 | 48.8% | 35.6% | 18.7% | 56.1% | 0.0% | 0.0% |
Llama 8B, LR=1.2e-4 (primary):
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | HumanEval+ | MBPP+ | ARC | BoolQ | CSQA |
|---|---|---|---|---|---|---|---|---|---|
| selfaware-v4 | 58.9% | 34.4% | 33.7% | 55.8% | 0.0% | 0.0% | 6.6% | 12.8% | 20.8% |
DeepSeek-R1-Distill 8B, LR=1.2e-4:
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | HumanEval+ | MBPP+ | ARC | BoolQ | CSQA |
|---|---|---|---|---|---|---|---|---|---|
| selfaware-v4 | 66.2% | 14.5% | 6.2% | 33.4% | 0.0% | 0.0% | 5.4% | 71.3% | 13.8% |
Session 11: 1B/3B 4-bit Control Tasks
1B TriviaQA-v2:
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | HumanEval+ | MBPP+ | ARC | BoolQ | CSQA |
|---|---|---|---|---|---|---|---|---|---|
| triviaqa-v2 | 66.7% | 4.2% | 4.6% | 29.4% | 12.5% | 8.1% | 2.7% | 46.9% | 10.7% |
1B CommonsenseQA:
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | HumanEval+ | MBPP+ | ARC | BoolQ | CSQA |
|---|---|---|---|---|---|---|---|---|---|
| commonsenseqa | 28.9% | 2.4% | 2.3% | 20.0% | 0.0% | 0.0% | 2.7% | 3.0% | 17.5% |
1B ARC:
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | HumanEval+ | MBPP+ | ARC | BoolQ | CSQA |
|---|---|---|---|---|---|---|---|---|---|
| arc | 38.0% | 3.0% | 5.5% | 21.2% | 12.5% | 13.5% | 4.6% | 54.6% | 11.5% |
3B TriviaQA-v2:
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | HumanEval+ | MBPP+ | ARC | BoolQ | CSQA |
|---|---|---|---|---|---|---|---|---|---|
| triviaqa-v2 | 56.5% | 5.9% | 10.8% | 44.3% | 31.2% | 45.9% | 5.0% | 72.6% | 15.8% |
3B CommonsenseQA:
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | HumanEval+ | MBPP+ | ARC | BoolQ | CSQA |
|---|---|---|---|---|---|---|---|---|---|
| commonsenseqa | 45.8% | 4.2% | 4.8% | 33.5% | 0.0% | 0.0% | 3.5% | 62.0% | 24.5% |
Run 4: 8B CUDA (PyTorch, 원본 SelfAware)
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | MBPP |
|---|---|---|---|---|---|
| Baseline | 33.8% | 16.6% | 59.8%⚠️ | 60.6% | 59.8% |
| exploretom | 92.3% | 11.9% | 14.6%⚠️ | 56.4% | 63.9% |
| selfaware | 28.4% | 39.8% | 0.0%⚠️ | 51.1% | 43.3% |
| gsm8k | 45.5% | 14.5% | **80.0%**⚠️ | 59.4% | 68.0% |
| triviaqa | 66.3% | 13.4% | 16.3%⚠️ | 57.4% | 57.7% |
| mbpp | 60.4% | 13.1% | 44.7%⚠️ | 59.9% | 63.9% |
⚠️ GSM8K 열은 regex 버그 수정 전 결과. Prediction 파일 미보유로 재평가 불가.
원본 SelfAware (IDK 31%) 사용. SelfAware→GSM8K=0.0%은 shortcut learning 증거.
4.3 분석: In-domain 향상과 Cross-domain Forgetting
In-domain 향상
대부분의 adapter가 자기 도메인에서 baseline 대비 향상을 보인다:
| Task | 1B | 3B | 8B | 비고 |
|---|---|---|---|---|
| ExploreToM | 0.84 | 0.89 | 0.91 | 모든 크기에서 강한 향상 |
| SelfAware (IDK F1) | 70.1% | 77.6% | 76.8% | 크기에 따라 F1 향상 |
| GSM8K | 0.52 | 0.75 | 0.77 | Baseline 유지/향상 |
Cross-domain Catastrophic Forgetting
| Adapter → Eval | 1B | 3B | 8B | 패턴 |
|---|---|---|---|---|
| SelfAware → GSM8K | 0.0% | 0.13% | 11.4% | 소형 모델에서 완전 망각 |
| SelfAware → HumanEval+ | 0.0% | 0.0% | 0.0% | 전 크기 완전 소실 |
| SelfAware → MBPP+ | 1.0% | 0.0% | 0.0% | 전 크기 완전 소실 |
| ExploreToM → GSM8K | 2.5% | 8.3% | 9.8% | 크기와 함께 소폭 완화 |
코드 생성 완전 소실: 1B/3B/8B 전 모델에서 SelfAware adapter 적용 시 HumanEvalPlus/MBPP+ 모두 0%. Adapter가 코드 대신 함수 기능에 대한 자연어 설명을 생성하는 catastrophic forgetting 패턴이 모든 모델 크기에서 동일하게 재현됨.
수학 추론 급락: GSM8K 정답률이 1B -34.0pp, 3B -42.4pp, 8B -43.2pp 하락. Chain-of-thought가 ~600자 → ~215자로 축소되며 단계적 추론 능력이 약화.
4.4 Shortcut Learning과 SelfAware 버전 개선
원본 SelfAware (v1, IDK 31.1%)의 Shortcut Learning
원본 SelfAware 데이터셋은 IDK 비율이 31.1% (3,032건 중 ~943건)로, adapter가 “무조건 IDK 출력” 전략을 학습하는 shortcut learning 문제를 야기했다.
증거 — GSM8K IDK 거부:
| SelfAware 버전 | GSM8K에서 IDK 출력 수 | GSM8K IDK 출력 비율 | GSM8K 정답률 |
|---|---|---|---|
| v1 (원본, IDK 31.1%) | 748/748 | 100% | 0.0% |
| v2 (edited, IDK 5.0%) | 12/748 | 1.6% | 11.4% |
v1 adapter는 GSM8K 747문제 전부를 IDK로 거부 — 수학 문제를 풀 수 있음에도 “답할 수 없다”고 응답. 이는 IDK 패턴의 과잉 일반화(shortcut)의 극단적 증거.
인과 확인: v1→v2에서 IDK 비율만 변경(31.1%→5.0%)하고 나머지 데이터/하이퍼파라미터를 동일하게 유지했을 때, GSM8K IDK 거부가 100%→1.6%로 급감. 이는 shortcut learning의 원인이 IDK 데이터 비율에 있음을 인과적으로 확인.
SelfAware-v4의 IDK 거부율 비교
SelfAware-v4 (IDK 2.6%, 20종 IDK 변형 포함)로 학습한 adapter에서도 GSM8K IDK 거부가 잔존하지만 대폭 감소:
| 모델 | SelfAware-v4 → GSM8K IDK 거부율 | GSM8K 정답률 |
|---|---|---|
| 1B | 14.7% (103/699) | 6.4% |
| 3B | 5.8% (29/503) | 32.7% |
| 8B | 3.6% (18/495) | 33.7% |
모델 크기가 클수록 IDK 과잉 일반화가 억제됨 (1B 14.7% → 8B 3.6%). 그러나 GSM8K 하락의 주 원인은 IDK 거부보다 chain-of-thought 축소 (~600자 → ~215자)에 의한 추론 능력 약화.
4.5 ExploreToM 전이 효과와 모델 크기
SelfAware-v4 adapter가 ExploreToM(ToM 태스크)에 미치는 전이 효과는 모델 크기에 따라 질적으로 다르다:
| 모델 | Baseline | SelfAware-v4 | Δ | 해석 |
|---|---|---|---|---|
| 1B | 44.4% | 43.6% | -0.8pp | 변화 없음 (유지) |
| 3B | 33.2% | 62.8% | +29.6pp | 극적 향상 |
| 8B | 34.1% | 58.9% | +24.9pp | 강한 향상 |
핵심 발견: 1B에서는 관찰되지 않던 SelfAware→ExploreToM 전이가 3B/8B에서 극적으로 나타남. 이는 SC-TOM 가설(Self-Awareness와 ToM 간의 표상 공유)을 행동 수준에서 지지하는 핵심 증거.
용량 가설: 1B 모델은 제한된 파라미터 공간에서 SelfAware 학습의 긍정적 전이가 catastrophic forgetting에 의해 상쇄됨. 3B/8B에서는 충분한 파라미터 공간으로 “질문의 전제 확인 → 답변 가능성 판단” 패턴이 belief tracking에 긍정적으로 전이.
8B vs 3B: 8B Δ(+24.9pp)가 3B Δ(+29.6pp)보다 작은 것은 8B baseline(34.1%)이 3B baseline(33.2%)보다 이미 높아 추가 효과가 상대적으로 작기 때문일 수 있음 (ceiling effect).
4.6 IDK F1 / Confusion Matrix 비교 (1B/3B/8B)
SelfAware-v4 adapter의 IDK 탐지 능력을 모델 크기별로 비교한다.
IDK F1 종합표
| 지표 | 1B QLoRA | 3B QLoRA | 8B QLoRA | 8B Baseline |
|---|---|---|---|---|
| IDK F1 | 70.1% | 77.6% | 76.8% | 50.0% |
| IDK Precision | 85.9% | 88.8% | 86.6% | 56.8% |
| IDK Recall | 59.2% | 68.9% | 68.9% | 44.7% |
| IDK 생성 수 | 71 | 80 | 82 | 81 |
| 답변 가능 정답률 | 11.5% | 13.2% | 19.2% | 16.2% |
Confusion Matrix (IDK 분류)
| 분류 | 1B | 3B | 8B |
|---|---|---|---|
| True Positive (정확한 IDK) | 61 | 71 | 71 |
| False Positive (오판 IDK) | 10 | 9 | 11 |
| False Negative (놓친 IDK) | 42 | 32 | 32 |
| True Negative (정확한 답변) | 224 | 225 | 223 |
패턴 분석:
- Precision: 1B 85.9% → 3B 88.8% → 8B 86.6%. 3B가 가장 높은 precision을 보임
- Recall: 1B 59.2% → 3B/8B 68.9%. 3B 이상에서 recall이 수렴
- F1: 1B(70.1%) < 8B(76.8%) ≈ 3B(77.6%). 모델 크기에 따른 향상이 3B에서 포화
- False Positive 억제: 3개 모델 모두 FP 9~11건으로 낮음 — IDK를 무분별하게 남발하지 않음
- 답변 가능 정답률: 1B 11.5% → 3B 13.2% → 8B 19.2%. 큰 모델일수록 IDK 학습이 답변 능력을 덜 해침
4.7 응답 스타일 전이와 Goldilocks Zone
Style Transfer (응답 길이 수렴)
SelfAware-v4 adapter는 모든 태스크에서 응답 길이를 ~200–250자 범위로 수렴시키는 강한 style transfer를 보인다:
| 태스크 | 1B Baseline→V4 | 3B Baseline→V4 | 8B Baseline→V4 |
|---|---|---|---|
| GSM8K | 597→220 (×0.4) | 593→213 (×0.4) | 618→214 (×0.3) |
| HumanEval+ | 1503→207 (×0.1) | 1329→219 (×0.2) | 1380→228 (×0.2) |
| MBPP+ | 917→200 (×0.2) | 934→215 (×0.2) | 771→212 (×0.3) |
| TriviaQA | 140→214 (×1.5) | 134→216 (×1.6) | 140→218 (×1.6) |
| ExploreToM | 122→260 (×2.1) | 187→243 (×1.3) | 229→250 (×1.1) |
코드/수학 태스크는 응답이 크게 단축되고, QA 태스크는 오히려 길어지며, 전체적으로 ~200–250자 범위로 수렴.
ExploreToM IDK Format Mismatch
ExploreToM adapter → SelfAware 평가에서, IDK-expected 질문에 대한 응답 패턴:
| 항목 | 결과 |
|---|---|
| IDK 기대 질문 수 | 88/337 |
| IDK 생성 수 | 0 (Baseline: 3) |
| 응답 형식 | 짧은 명사구/단어 (평균 10자) |
ExploreToM 학습 데이터에는 IDK 패턴이 없으므로, adapter가 모든 질문에 짧은 사실형 답변을 시도. 답할 수 없는 질문(“Why does every rule have exceptions?“)에도 “human nature”와 같은 1-2단어 응답을 생성.
비대칭 전이 (8B)
| 방향 | Adapter → Task | 점수 | Δ vs Baseline |
|---|---|---|---|
| Self → ToM | SelfAware-ed → ExploreToM | 36.5% | +3% |
| ToM → Self | ExploreToM → SelfAware | 11.9% | −31% |
Self→ToM은 약한 양성 전이, ToM→Self는 강한 음성 전이. 이 비대칭은 Self-Awareness가 ToM에 대해 상위 수준의 메타인지적 역할을 할 가능성을 시사.
Goldilocks Zone (1B 4-adapter 분석)
1B에서 4개 control adapter(SelfAware-v4, TriviaQA-v2, CommonsenseQA, ARC)의 응답 길이와 ExploreToM 전이 효과 관계:
응답 길이: SelfAware(19.2w) → ARC(3.5w) → TriviaQA(2.6w) → CSQA(1.5w)
ExploreToM: -0.8pp → -5.4pp → +23.2pp → -14.6pp
| Adapter | 평균 응답 길이 | ExploreToM Δ | BoolQ | IDK 능력 |
|---|---|---|---|---|
| SelfAware-v4 | 19.2 words | -0.8pp | — | 강화 (F1 +26pp) |
| ARC | 3.5 words | -5.4pp | 54.6% | 제거 |
| TriviaQA-v2 | 2.6 words | +23.2pp | 46.9% | 제거 |
| CommonsenseQA | 1.5 words | -14.6pp | 3.0% | 제거 |
해석:
- ExploreToM에서의 최적 응답 길이는 2–4 words (Goldilocks zone)
- TriviaQA(2.6w)의 +23.2pp은 형식 매칭 artifact (짧은 단답이 ExploreToM 정답 형식과 일치)
- CSQA(1.5w)은 너무 짧아 정보 손실 → -14.6pp
- SelfAware(19.2w)는 장황하지만 ExploreToM 유지(-0.8pp) — 형식 효과 이외의 전이 가능성
- 형식을 통제해도 SelfAware만 ExploreToM을 유지하는 점은 SC-TOM 가설을 간접 지지
Yes/No 편향의 전이
| Adapter | yes/no 편향 | ExploreToM Type C (yes/no belief) | 메커니즘 |
|---|---|---|---|
| TriviaQA | Yes 편향 | 100% | 정답이 yes이므로 우연 정답 |
| ARC | No 편향 | 28.6% (+3.2pp) | no 출력이 yes 기대 질문에서 실패 |
| CSQA | 비표준 출력 | — | 양쪽 매칭 실패 |
| SelfAware | 장황한 설명 | 25.3% | baseline과 동일 |
4.8 모델 크기별 종합 비교 (SelfAware-v4)
| 관점 | 1B | 3B | 8B | 8B Baseline | 8B Δ |
|---|---|---|---|---|---|
| ExploreToM | 43.6% | 62.8% | 58.9% | 34.1% | +24.9pp |
| SelfAware | 26.1% | 30.3% | 34.4% | 24.9% | +9.5pp |
| IDK F1 | 70.1% | 77.6% | 76.8% | 50.0% | +26.8pp |
| GSM8K | 6.4% | 32.7% | 33.7% | 77.0% | -43.2pp |
| GSM8K IDK 거부율 | 14.7% | 5.8% | 3.6% | 0.0% | — |
| TriviaQA | 32.8% | 48.9% | 55.8% | 59.4% | -3.6pp |
| HumanEvalPlus | 0.0% | 0.0% | 0.0% | 62.5% | -62.5pp |
| MBPP+ | 0.0% | 0.0% | 0.0% | 70.3% | -70.3pp |
모델 크기별 핵심 패턴:
- ExploreToM 전이: 1B(-0.8pp) → 3B(+29.6pp) → 8B(+24.9pp). 3B 이상에서 극적 전이 발생
- IDK F1 수렴: 1B(70.1%) → 3B(77.6%) ≈ 8B(76.8%). 3B에서 IDK 탐지 능력 포화
- IDK 과잉 일반화 감소: GSM8K IDK 거부율이 모델 크기와 반비례 (14.7% → 3.6%)
- 코드 생성 공통 소실: 전 모델 크기에서 HumanEval+/MBPP+ = 0%
- GSM8K 하락 유사: 3B(-42.4pp)과 8B(-43.2pp)가 유사, 주원인은 CoT 축소
5. Parameter-Level Similarity Analysis
LoRA fused delta (Δ_W = lora_a @ lora_b)를 layer별로 cosine similarity 측정하여, ToM↔Self adapter pair가 control pair보다 높은 유사도를 보이는지 검증.
5.1 4-Pair Analysis (TriviaQA 제외)
TriviaQA가 야기하는 data leakage confound를 배제한 순수한 dissociation 측정. 가장 보수적이고 신뢰성 높은 분석.
Pair-wise Summary
| Pair | 1B Overall | 1B Attn | 1B MLP | 3B Overall | 3B Attn | 3B MLP |
|---|---|---|---|---|---|---|
| ToM↔Self | 0.1269 | 0.1275 | 0.1261 | 0.1672 | 0.1580 | 0.1794 |
| ToM↔GSM8K | 0.0742 | 0.0735 | 0.0752 | 0.0736 | 0.0686 | 0.0804 |
| ToM↔MBPP | 0.1027 | 0.1119 | 0.0905 | 0.0833 | 0.0876 | 0.0776 |
| Self↔GSM8K | 0.0891 | 0.0895 | 0.0887 | 0.0859 | 0.0853 | 0.0867 |
| Self↔MBPP | 0.1121 | 0.1211 | 0.1002 | 0.0922 | 0.1020 | 0.0791 |
| GSM8K↔MBPP | 0.1102 | 0.1187 | 0.0988 | 0.0737 | 0.0805 | 0.0646 |
Dissociation & Permutation Test
| Metric | 1B | 3B |
|---|---|---|
| ToM↔Self mean | 0.1269 | 0.1672 |
| Control avg (5 pairs) | 0.0977 | 0.0818 |
| Dissociation gap | 0.0292 | 0.0854 |
| Gap ratio (ToM↔Self / control) | 1.30× | 2.04× |
| Permutation p-value (global) | < 0.001 | < 0.001 |
| Significant layers (p < 0.05) | 13/16 | 26/28 |
1B와 3B 모두 global p < 0.001. 3B에서 gap ratio 2.04× — ToM↔Self 유사도가 control 평균의 2배 이상.
Omnibus Test (4-pair)
| Rank | 1B Pair | 1B Mean | 3B Pair | 3B Mean |
|---|---|---|---|---|
| 1 | ToM↔Self | 0.1269 | ToM↔Self | 0.1672 |
| 2 | Self↔MBPP | 0.1121 | Self↔MBPP | 0.0922 |
| 3 | GSM8K↔MBPP | 0.1102 | Self↔GSM8K | 0.0859 |
| 4 | ToM↔MBPP | 0.1027 | ToM↔MBPP | 0.0833 |
| 5 | Self↔GSM8K | 0.0891 | GSM8K↔MBPP | 0.0737 |
| 6 | ToM↔GSM8K | 0.0742 | ToM↔GSM8K | 0.0736 |
1B/3B 모두 ToM↔Self가 #1 rank. 가설 pair가 모든 control pair를 상회.
Post-hoc (Bonferroni corrected)
| 1B: vs Pair | Diff | p (corrected) | Cohen’s d | 3B: vs Pair | Diff | p (corrected) | Cohen’s d |
|---|---|---|---|---|---|---|---|
| vs ToM↔GSM8K | +0.053 | < 0.001 | 1.11 | vs ToM↔GSM8K | +0.094 | < 0.001 | 1.38 |
| vs ToM↔MBPP | +0.024 | 0.001 | 0.48 | vs ToM↔MBPP | +0.084 | < 0.001 | 1.15 |
| vs Self↔GSM8K | +0.038 | < 0.001 | 0.72 | vs Self↔GSM8K | +0.081 | < 0.001 | 1.18 |
| vs Self↔MBPP | +0.015 | 0.054 | 0.27 | vs Self↔MBPP | +0.075 | < 0.001 | 1.09 |
| vs GSM8K↔MBPP | +0.017 | 0.054 | 0.30 | vs GSM8K↔MBPP | +0.093 | < 0.001 | 1.42 |
1B에서 Self↔MBPP, GSM8K↔MBPP과의 차이는 Bonferroni 보정 후 경계적 유의수준 (p≈0.054). 3B에서는 모든 대조군 대비 유의 (p < 0.001, Cohen’s d > 1.0).
5.2 5-Pair Analysis (TriviaQA 포함)
TriviaQA를 포함한 전체 10-pair 분석. TriviaQA confound로 인해 해석에 주의 필요.
5-Pair Summary (상위 pair)
| Pair | 1B Overall | 3B Overall | 8B Overall | 비고 |
|---|---|---|---|---|
| Self↔TriviaQA | 0.2037 | 0.2225 | 0.1876 | ⚠️ 전체 1위 (data leakage) |
| ToM↔MBPP | 0.1027 | 0.0833 | 0.1608 | 8B에서 급상승 |
| ToM↔Self | 0.1269 | 0.1672 | 0.1414 | 가설 pair |
| Self↔MBPP | 0.1121 | 0.0922 | 0.1390 | |
| ToM↔TriviaQA | 0.1419 | 0.1536 | 0.1217 |
5-Pair Dissociation
| Metric | 1B | 3B | 8B |
|---|---|---|---|
| ToM↔Self mean | 0.1269 | 0.1672 | 0.1414 |
| Control avg (9 pairs) | 0.1171 | 0.1044 | 0.1101 |
| Dissociation gap | 0.0098 | 0.0628 | 0.0313 |
| Gap ratio | 1.08× | 1.60× | 1.28× |
| Permutation p-value | 0.075 (n.s.) | < 0.001 | < 0.001 |
| Significant layers | 13/16 | 26/28 | 32/32 |
⚠️ TriviaQA confound: Self↔TriviaQA가 ToM↔Self보다 높아 control avg를 끌어올림 → dissociation gap 축소. 1B에서는 global p=0.075로 non-significant.
8B 핵심: TriviaQA confound에도 불구하고 global p < 0.001, 32/32 layers 전부 유의. Scale-up이 ToM↔Self 신호를 TriviaQA noise 위로 끌어올림.
Omnibus Ranks (5-pair)
| Rank | 1B Pair | 1B Mean | 3B Pair | 3B Mean | 8B Pair | 8B Mean |
|---|---|---|---|---|---|---|
| 1 | Self↔TriviaQA | 0.2037 | Self↔TriviaQA | 0.2225 | Self↔TriviaQA | 0.1876 |
| 2 | ToM↔TriviaQA | 0.1419 | ToM↔Self | 0.1672 | ToM↔MBPP | 0.1608 |
| 3 | ToM↔Self | 0.1269 | ToM↔TriviaQA | 0.1536 | ToM↔Self | 0.1414 |
| 4 | TriviaQA↔MBPP | 0.1223 | Self↔MBPP | 0.0922 | Self↔MBPP | 0.1390 |
| 5 | Self↔MBPP | 0.1121 | Self↔GSM8K | 0.0859 | ToM↔TriviaQA | 0.1217 |
8B Omnibus F-test: p < 0.001, post-hoc에서 ToM↔Self vs 7/9 pairs 유의 (p_adj < 0.05). Self↔MBPP과는 거의 동일 (d=0.039, n.s.), Self↔TriviaQA에는 열위 (d=−0.707; data leakage).
5.3 SelfAware-v2 재분석 (Shortcut Learning 제거 효과)
원본 SelfAware (IDK 31.1%) 대신 selfaware-v2 (IDK 5.0%) adapter로 cosine similarity 재분석. IDK shortcut 제거가 ToM↔Self 유사도 패턴에 미치는 영향 검증.
Adapter 출처:
- 1B: ExploreToM/GSM8K/TriviaQA/MBPP =
mlx-lora-*/20260219_001856(bf16), selfaware-v2 =mlx-lora-selfaware-v2/20260220_221232(bf16)- 8B: 전체 5 task =
mlx-qlora-*/20260221_002706(4bit QLoRA) — 동일 run- 3B: 혼합 양자화(bf16 + qlora) — ⚠️ 직접 비교 불가
selfaware-v2 4-Pair: Original vs Edited 비교
| Metric | 1B (orig) | 1B (edited) | 3B (orig) | 3B (edited)⚠️ | 8B (edited) |
|---|---|---|---|---|---|
| ToM↔Self mean | 0.1269 | 0.1441 | 0.1672 | 0.0578 | 0.1414 |
| Control avg (5 pairs) | 0.0977 | 0.1032 | 0.0818 | 0.0574 | 0.1040 |
| Dissociation gap | 0.029 | 0.041 | 0.085 | 0.000 | 0.037 |
| Gap ratio | 1.30× | 1.40× | 2.04× | 1.01× | 1.36× |
| Permutation p-value | < 0.001 | < 0.001 | < 0.001 | 0.461 (n.s.) | < 0.001 |
| Significant layers | 13/16 | 14/16 | 26/28 | 1/32 | 32/32 |
1B: gap이 0.029 → 0.041로 41% 증가, 유의 레이어 13 → 14/16. IDK shortcut 제거가 Self adapter의 표상을 더 “순수한” self-awareness 방향으로 이동.
3B: bf16 + qlora 혼합 양자화로 gap 붕괴. Weight magnitude가 체계적으로 다르므로 양자화 artifact일 가능성 높음. 동일 조건 3B qlora 5-task run 필요.
8B: 32/32 전층 유의 유지.
selfaware-v2 5-Pair: Original vs Edited 비교
| Metric | 1B (orig) | 1B (edited) | 3B (orig) | 3B (edited)⚠️ | 8B (edited) |
|---|---|---|---|---|---|
| ToM↔Self mean | 0.1269 | 0.1441 | 0.1672 | 0.0578 | 0.1414 |
| Control avg (9 pairs) | 0.1171 | 0.1282 | 0.1044 | 0.0764 | 0.1101 |
| Dissociation gap | 0.010 | 0.016 (+60%) | 0.063 | −0.019 | 0.031 |
| Permutation p-value | 0.075 (n.s.) | 0.029 | < 0.001 | 1.0 (n.s.) | < 0.001 |
| Significant layers | 13/16 | 14/16 | 26/28 | 1/32 | 32/32 |
1B 5-pair 핵심 변화: 원본에서 p=0.075 (non-significant) → selfaware-v2에서 p=0.029 (significant). IDK shortcut 제거가 Self adapter 표상을 정제하여, TriviaQA noise 하에서도 ToM↔Self 신호가 유의해짐.
selfaware-v2 종합 비교
| 설정 | 1B Gap (orig→ed) | 3B Gap (orig→ed) | 8B Gap (ed) |
|---|---|---|---|
| 4-pair | 0.029 → 0.041 (+41%) | 0.085 → 0.000⚠️ | 0.037 |
| 5-pair | 0.010 → 0.016 (+60%) | 0.063 → −0.019⚠️ | 0.031 |
| 4-pair p-value | <0.001 → <0.001 | <0.001 → 0.461 | <0.001 |
| 5-pair p-value | 0.075 → 0.029 | <0.001 → 1.0 | <0.001 |
| 4-pair rank | #1 → #1 | #1 → #4 | #2 |
| 5-pair rank | #3 → #2 | #2 → #8 | #3 |
결론: 1B/8B에서 selfaware-v2는 dissociation gap 증가 + 통계적 유의성 강화. IDK shortcut 제거가 Self adapter의 표상을 순수한 self-awareness 방향으로 이동시켜 ToM과의 공유 신호가 명확해짐. 3B는 양자화 혼합으로 해석 불가.
5.4 Data Leakage 분석
5개 학습 데이터셋 간 텍스트 중복을 검증.
Exact Duplicate Check
| Dataset Pair | Exact Duplicates | 비고 |
|---|---|---|
| SelfAware train ↔ TriviaQA train | 38 | ⚠️ 동일 질문 공유 |
| SelfAware train ↔ TriviaQA valid | 6 | ⚠️ train→valid 오염 |
| SelfAware valid ↔ TriviaQA train | 5 | ⚠️ valid→train 오염 |
| 그 외 모든 pair (42개) | 0 | ✓ clean |
| Within-dataset (train↔valid, 5개) | 0 | ✓ clean |
총 49개 exact duplicate — 전부 SelfAware ↔ TriviaQA 간에서만 발견. SelfAware가 다양한 출처의 질문을 모아 “답변 가능 여부”를 레이블링한 데이터셋이므로, TriviaQA 질문이 포함된 것으로 추정.
N-gram Containment
| N-gram | Flagged Pair | Examples | Max Containment |
|---|---|---|---|
| 8-gram | SelfAware ↔ TriviaQA | 102 | 1.000 |
| 13-gram | SelfAware ↔ TriviaQA | 98 | 1.000 |
| 8-gram | 그 외 9개 pair | 0 | — |
Dataset-level 8-gram Jaccard:
| ExploreToM | SelfAware | GSM8K | TriviaQA | MBPP | |
|---|---|---|---|---|---|
| ExploreToM | — | 0.0000 | 0.0000 | 0.0000 | 0.0000 |
| SelfAware | 0.0000 | — | 0.0000 | 0.0036 | 0.0000 |
| GSM8K | 0.0000 | 0.0000 | — | 0.0000 | 0.0000 |
| TriviaQA | 0.0000 | 0.0036 | 0.0000 | — | 0.0000 |
| MBPP | 0.0000 | 0.0000 | 0.0000 | 0.0000 | — |
Data Leakage의 영향
- Self↔TriviaQA cosine similarity 1위의 직접 원인: 동일 질문에 대해 학습한 adapter끼리 유사한 방향으로 가중치 이동 → cosine similarity 증가
- 4-pair 분석의 타당성 확인: TriviaQA를 제외한 4-pair 분석이 오염 없는 순수한 비교임을 입증
- 다른 모든 dataset pair는 완전히 clean: ExploreToM, GSM8K, MBPP 간 중복 0건
5.5 Layer-wise Similarity: SelfAware 버전별 비교
SelfAware v1~v4의 데이터 정제(data refinement)가 ExploreToM adapter와의 layer-wise cosine similarity에 미치는 영향을 분석한다.
분석 대상
| Panel | Adapter | Checkpoint 경로 | 모델/Rank |
|---|---|---|---|
| A (1B) | selfaware v1 | mlx-lora-selfaware/20260219_234546/ | Llama 3.2 1B, r=8 |
| A (1B) | selfaware v2 (edited) | mlx-lora-selfaware-edited/20260220_221232/ | Llama 3.2 1B, r=8 |
| A (1B) | exploretom | mlx-lora-exploretom/20260219_234546/ | Llama 3.2 1B, r=8 |
| B (8B) | selfaware v3 (edited-2) | mlx-qlora-selfaware-edited-2/20260225_152202/ | Llama 3.1 8B, r=16 |
| B (8B) | selfaware v4 | mlx-qlora-selfaware-v4/20260304_205901/ | Llama 3.1 8B, r=8 |
| B (8B) | exploretom | mlx-qlora-exploretom/20260221_002706/ | Llama 3.1 8B, r=8 |
참고: 8B v3(r=16)과 v4(r=8)는 LoRA rank가 다르지만, fused delta (Δ_W = lora_a @ lora_b)의 차원은 동일하므로 cosine similarity 비교에 문제 없음.
결과 그래프

수치 요약
| Panel | Pair | Mean Similarity | Max Layer (값) | Min Layer (값) |
|---|---|---|---|---|
| A (1B) | v1↔ToM | 0.1253 | Layer 0 (0.1814) | Layer 10 (0.0829) |
| A (1B) | v2↔ToM | 0.1439 | Layer 0 (0.2143) | Layer 10 (0.1047) |
| B (8B) | v3↔ToM | 0.0610 | Layer 29 (0.1356) | Layer 0 (0.0034) |
| B (8B) | v4↔ToM | 0.0029 | Layer 29 (0.0100) | Layer 31 (−0.0050) |
해석
1B (Panel A): v2 > v1 — IDK shortcut 제거가 ToM 유사도를 증가
- v2(edited)는 v1 대비 mean similarity가 0.125 → 0.144로 15% 증가
- IDK shortcut을 제거하면 adapter가 순수한 self-awareness 표상을 학습하여 ToM adapter와의 공유 신호가 강해짐
- 이는 5.3절의 dissociation gap 분석 (+41% 증가) 결과와 일관된 방향
- Layer 패턴: 초기 layer(Layer 0)에서 유사도 최대 — embedding 근처에서 공유 표상이 가장 강함
8B (Panel B): v3 >> v4 — 데이터 정제 방식에 따른 극적 차이
- v3(edited-2)는 mean=0.0610으로 구조적 유사성이 존재하지만, v4는 mean=0.0029로 사실상 0에 가까움
- v4의 데이터 정제(SimCSE 기반 IDK 재분류)가 self-awareness 특유의 신호를 과도하게 제거했을 가능성
- Layer 패턴: v3는 후기 layer(Layer 29)에서 유사도 최대 — 8B 규모에서 고차 표상이 후반부 layer에 집중
모델 크기에 따른 Layer 패턴 차이
- 1B: 초기 layer(0)에서 최대 → 소형 모델은 저수준 표상 공유가 주도적
- 8B v3: 후기 layer(29)에서 최대 → 대형 모델은 고차 표상 수준에서 ToM-Self 공유가 발생
- 이는 모델 크기에 따라 공유 표상이 형성되는 network depth가 다름을 시사
5.6 통계적 증거 종합
4-Pair (TriviaQA 제외, 가장 보수적)
| 모델 | Gap | Gap Ratio | Global p | Sig. Layers | Cohen’s d (max) |
|---|---|---|---|---|---|
| 1B | 0.0292 | 1.30× | < 0.001 | 13/16 | 1.11 (vs GSM8K) |
| 3B | 0.0854 | 2.04× | < 0.001 | 26/28 | 1.42 (vs GSM8K↔MBPP) |
5-Pair (TriviaQA 포함)
| 모델 | Gap | Gap Ratio | Global p | Sig. Layers |
|---|---|---|---|---|
| 1B | 0.0098 | 1.08× | 0.075 (n.s.) | 13/16 |
| 3B | 0.0628 | 1.60× | < 0.001 | 26/28 |
| 8B | 0.0313 | 1.28× | < 0.001 | 32/32 |
selfaware-v2 (shortcut 제거 후)
| 모델 | 4-pair Gap | 4-pair p | 5-pair Gap | 5-pair p |
|---|---|---|---|---|
| 1B | 0.041 | < 0.001 | 0.016 | 0.029 |
| 8B | 0.037 | < 0.001 | 0.031 | < 0.001 |
핵심 결론: ToM↔Self pair는 4-pair 분석에서 1B/3B 모두 global p < 0.001, 3B에서 Cohen’s d > 1.0 (large effect). 5-pair에서도 3B/8B에서 유의하며, 8B는 32/32 layers 전부 유의. IDK shortcut 제거(selfaware-v2) 후 신호가 더 강해짐 (1B 5-pair: n.s. → significant).
6. Conclusion
6.1 확인된 사항
가설 지지 증거 (Parameter Level):
- ToM↔Self adapter pair의 cosine similarity가 모든 control pair보다 높음 (4-pair 분석에서 1B/3B 모두 #1 rank)
- Global permutation test: 4-pair p < 0.001 (1B, 3B), 5-pair p < 0.001 (3B, 8B)
- Cohen’s d > 1.0 (3B 4-pair) — large effect size
- 8B 5-pair: 32/32 layers 전부 유의 — scale-up이 신호를 강화
- selfaware-v2 (shortcut 제거): dissociation gap 41% 증가 (1B 4-pair), 5-pair에서 n.s.→significant 전환
가설 지지 증거 (Behavioral Level):
- SelfAware→ExploreToM 전이: 3B +29.6pp, 8B +24.9pp — Self-Awareness 학습이 ToM 능력을 향상
- 전이 효과의 모델 크기 의존성: 1B(-0.8pp), 3B(+29.6pp), 8B(+24.9pp) — 충분한 용량에서 발현
- 비대칭 전이: Self→ToM 양성 전이, ToM→Self 음성 전이 — Self-Awareness의 메타인지적 상위 역할 시사
방법론적 확인:
- Data leakage 검출 및 통제: SelfAware↔TriviaQA 49건 중복 → 4-pair 분석으로 배제
- Shortcut learning 검출 및 해결: v1 IDK 과잉 학습 → v2/v4로 데이터 정제
- 동일 hyperparameter 통일로 confound 최소화
6.2 한계점
- SFT 한계: LoRA delta가 출력 형식(surface pattern)을 반영할 수 있어, cosine similarity가 추론 전략이 아닌 형식 유사성을 포착할 가능성
- MBPP 범용성: 8B에서 ToM↔MBPP가 ToM↔Self보다 높은 경우 존재 (8B 4-pair selfaware-v2) — MBPP adapter의 높은 범용성이 해석을 복잡화
- 3B 양자화 혼합: 3B selfaware-v2 분석에서 bf16+qlora 혼합으로 인해 결과 해석 불가
- 1B 5-pair 경계적 결과: 원본 SelfAware에서 p=0.075 (n.s.) — selfaware-v2에서 해결되었지만, 소형 모델에서의 신호 약화 경향
- 형식 효과 통제 부족: Goldilocks zone 분석이 시사하듯, cross-eval 전이의 상당 부분이 응답 형식 매칭에 기인할 수 있음
- 모델 다양성: Llama 계열만 사용 — 다른 모델 family에서의 재현 미확인
6.3 향후 실험
| 우선순위 | 실험 | 목적 |
|---|---|---|
| 1 | TriviaQA-v2 재학습 (49 duplicate 제거) | Data leakage 완전 해소 후 5-pair 재분석 |
| 2 | 3B QLoRA 통합 5-task run | 3B 양자화 혼합 문제 해결 |
| 3 | Rank sensitivity (r16, r32) | LoRA rank에 따른 cosine similarity 변화 확인 |
| 4 | GRPO 확장 실험 (GSM8K+MBPP) | SFT vs GRPO adapter의 cosine similarity 비교 |
| 5 | 다른 모델 family (Mistral, Gemma) | Llama 이외 모델에서의 재현 |
| 6 | Semantic similarity 평가 | Strict matching → lenient matching으로 cross-eval 재평가 |