Pilot Test Results
SC-TOM Pilot 실험 결과 정리. Llama-3.2 (1B / 3B) 모델에 5개 task (ExploreToM, SelfAware, GSM8K, TriviaQA, MBPP)를 각각 LoRA fine-tuning한 후, cross-evaluation과 cosine similarity 분석을 통해 ToM과 Self-Awareness 간의 표상 공유를 검증.
Experiment Runs
Run 1: 20260218 (Feb 18) — 3B 5-task ★★
- Model: Llama-3.2-3B-Instruct-bf16
- LoRA: rank=8, scale=1.0, dropout=0.05, all layers (
lora_num_layers=-1) - Training: ExploreToM 1ep / SelfAware 1ep / GSM8K 1ep / TriviaQA 1ep / MBPP 1ep
- Batch: 2 × 8 = effective 16, grad_checkpoint=true
- LR: 2e-4, cosine decay, warmup 5%
- Timestamps:
- Baseline:
20260218_012033 - ExploreToM:
20260218_104723 - SelfAware:
20260218_155336 - GSM8K:
20260218_164927 - TriviaQA:
20260218_200753 - MBPP:
20260218_222920
- Baseline:
- Cross-eval: ✅ 5×5 matrix (단, ExploreToM/SelfAware/GSM8K/TriviaQA adapter는 MBPP eval 미포함)
- Cosine similarity: ✅ 4-pair + 5-pair 분석, permutation test, omnibus test
- 비고: SelfAware epochs 3→1로 변경 (다른 task와 통일). TriviaQA, MBPP control 추가.
Run 2: 20260219_001856 (Feb 19) — 1B 5-task ★★
- Model: Llama-3.2-1B-Instruct-bf16
- LoRA: rank=8, scale=1.0, dropout=0.05, all layers (
lora_num_layers=-1) - Training: ExploreToM 1ep / SelfAware 3ep / GSM8K 1ep / TriviaQA 1ep / MBPP 1ep
- Batch: 4 × 4 = effective 16
- LR: 2e-4, cosine decay, warmup 5%
- Timestamp:
20260219_001856(공유) - Cross-eval: ✅ 완전한 5×5 matrix
- Cosine similarity: ✅ 4-pair + 5-pair 분석, permutation test, omnibus test
- 비고: 1B에서는 SelfAware 3 epochs 유지 (데이터 작아 3ep 필요). Baseline 미별도 측정.
Run 3: 20260221_002706 (Feb 21–22) — 8B QLoRA 5-task
- Model: Llama-3.1-8B-Instruct (MLX 4-bit pre-quantized:
mlx-community/Llama-3.1-8B-Instruct-4bit) - QLoRA: rank=8, scale=1.0, dropout=0.05, all layers, 4-bit quantization (NF4)
- Training: ExploreToM 1ep / SelfAware-edited 1ep / GSM8K 1ep / TriviaQA 1ep / MBPP 1ep
- Batch: 2 × 8 = effective 16, grad_checkpoint=true
- LR: 2e-4, cosine decay, warmup 5%, lr_end_ratio=0.1
- Timestamp:
20260221_002706(training 공유),20260222_032515(baseline) - Cross-eval: ✅ 완전한 5×5 matrix + baseline
- Cosine similarity: ✅ 4-pair + 5-pair 분석, permutation test, omnibus test
- 비고: SelfAware를 IDK 5%로 축소한
selfaware-edited데이터셋 사용. 1B/3B pilot 대비 scale-up 효과 검증. 총 소요 ~28시간.
Training Summary
| Task | Train Samples | Iters | Time (min) | Best val_loss | Best iter |
|---|---|---|---|---|---|
| ExploreToM | 11,840 | 5,920 | 860.7 | 0.022 | 5,600 |
| SelfAware-edited | 2,198 | 1,099 | 31.2 | 1.209 | 1,099 |
| GSM8K | 6,725 | 3,362 | 297.2 | 0.532 | 400 |
| TriviaQA | 6,300 | 3,150 | 98.3 | 0.580 | 3,150 |
| MBPP | 877 | 438 | 45.5 | 0.569 | 400 |
Experiment Config 비교
| 항목 | Run 1 ★★ | Run 2 ★★ | Run 3 |
|---|---|---|---|
| Model | 3B | 1B | 8B |
| Quantization | bf16 | bf16 | 4-bit (QLoRA) |
| LoRA rank | 8 | 8 | 8 |
| LoRA scale | 1.0 | 1.0 | 1.0 |
| Tasks | 5 | 5 | 5 |
| ExploreToM ep | 1 | 1 | 1 |
| SelfAware ep | 1 | 3 | 1 (edited) |
| GSM8K ep | 1 | 1 | 1 |
| TriviaQA ep | 1 | 1 | 1 |
| MBPP ep | 1 | 1 | 1 |
| LR schedule | cosine+warmup | cosine+warmup | cosine+warmup |
| Batch | 2×8=16 | 4×4=16 | 2×8=16 |
| grad_checkpoint | ✓ | ✗ | ✓ |
| All layers | ✓ | ✓ | ✓ |
| Cosine sim | ✓ | ✓ | ✓ |
| Permutation test | ✓ | ✓ | ✓ |
⚠️ SelfAware 차이: Run 1은 1 epoch (원본), Run 2는 3 epochs (원본, 소규모 데이터 보완), Run 3은 1 epoch (selfaware-edited, IDK 5%로 축소). Run 3에서 shortcut learning 완화를 위해 IDK 비율 31.1% → 5.0%로 조정한 데이터셋 사용.
Configuration Parameter Reference
18개 config 파일의 핵심 파라미터를 모델 크기별로 그룹핑한 요약표.
| Config | Model | Precision | Rank | Scale | Dropout | LR | Batch (eff) |
|---|---|---|---|---|---|---|---|
config_1b | Llama 3.2 1B | bf16 | 8 | 1.0 | 0.05 | 2e-4 | 4×4=16 |
config_1b_r16 | 〃 | bf16 | 16 | 0.5 | 0.08 | 1.5e-4 | 4×4=16 |
config_1b_r32 | 〃 | bf16 | 32 | 0.5 | 0.1 | 1e-4 | 4×4=16 |
config_1b_qlora | 〃 | 4bit | 8 | 1.0 | 0.05 | 2e-4 | 4×4=16 |
config_1b_qlora_r16 | 〃 | 4bit | 16 | 0.5 | 0.08 | 1.5e-4 | 4×4=16 |
config_1b_qlora_r32 | 〃 | 4bit | 32 | 0.5 | 0.1 | 1e-4 | 4×4=16 |
config_3b | Llama 3.2 3B | bf16 | 8 | 1.0 | 0.05 | 2e-4 | 2×8=16 |
config_3b_r16 | 〃 | bf16 | 16 | 0.5 | 0.08 | 1.5e-4 | 2×8=16 |
config_3b_r32 | 〃 | bf16 | 32 | 0.5 | 0.1 | 1e-4 | 2×8=16 |
config_3b_qlora | 〃 | 4bit | 8 | 1.0 | 0.05 | 2e-4 | 2×8=16 |
config_3b_qlora_r16 | 〃 | 4bit | 16 | 0.5 | 0.08 | 1.5e-4 | 2×8=16 |
config_3b_qlora_r32 | 〃 | 4bit | 32 | 0.5 | 0.1 | 1e-4 | 2×8=16 |
config_8b | Llama 3.1 8B | bf16 | 8 | 1.0 | 0.05 | 2e-4 | 1×16=16 |
config_8b_r16 | 〃 | bf16 | 16 | 0.5 | 0.08 | 1.5e-4 | 1×16=16 |
config_8b_r32 | 〃 | bf16 | 32 | 0.5 | 0.1 | 1e-4 | 1×16=16 |
config_8b_qlora | 〃 | 4bit | 8 | 1.0 | 0.05 | 2e-4 | 1×16=16 |
config_8b_qlora_r16 | 〃 | 4bit | 16 | 0.5 | 0.08 | 1.5e-4 | 1×16=16 |
config_8b_qlora_r32 | 〃 | 4bit | 32 | 0.5 | 0.1 | 1e-4 | 1×16=16 |
Full Pipeline Status
5-Task = ExploreToM + SelfAware + GSM8K + TriviaQA + MBPP 전부 학습 완료 여부.
| Config | 5-Task SFT | Cross-Eval | Cosine (4p) | Cosine (5p) | Perm Test | Self Variant | TriviaQA | 비고 |
|---|---|---|---|---|---|---|---|---|
| 1B bf16 r8 | ✅ | ✅ | ✅ | ✅ | ✅ | orig (3ep) | orig | Run 2 (20260219) |
| 3B bf16 r8 | ✅ | ✅ | ✅ | ✅ | ✅ | orig (1ep) | orig | Run 1 (20260218) |
| 8B 4bit r8 | ✅ | ✅ | ✅ | ✅ | ✅ | edited | orig | Run 3 (20260221) |
| 1B bf16 r16 | — | — | ||||||
| 1B bf16 r32 | — | — | ||||||
| 1B 4bit r8~r32 | — | — | MLX에서 1B 4bit fallback→bf16 | |||||
| 3B bf16 r16 | — | — | ||||||
| 3B bf16 r32 | — | — | ||||||
| 3B 4bit r8 | — | — | ||||||
| 3B 4bit r16 | — | — | ||||||
| 3B 4bit r32 | — | — | ||||||
| 8B bf16 r8~r32 | — | — | 8B bf16은 Metal OOM 위험 | |||||
| 8B 4bit r16 | — | — | ||||||
| 8B 4bit r32 | — | — |
18개 config 중 3개만 full pipeline 완료 (16.7%). r16/r32 rank sensitivity 실험은 전무.
개별 Variant Adapter 현황
Full 5-task 외에 단일 task만 개별 학습한 variant adapter 목록.
| Adapter | Model | Rank | Quant | Timestamp | Cross-Eval | Cosine Sim | 비고 |
|---|---|---|---|---|---|---|---|
| selfaware-edited (1B) | 1B | 8 | bf16 | 20260220_221232 | ✅ | ✅ | IDK 5% |
| selfaware-edited (3B) | 3B | 8 | 4bit | 20260222_234559 | ✅ | ⚠️ | 혼합 양자화 (bf16 lora + qlora) |
| selfaware-edited (8B) | 8B | 8 | 4bit | 20260221_002706 | ✅ | ✅ | Run 3에 포함 |
| selfaware-edited-2 (8B) | 8B | 8 | 4bit | 20260223_234150 | ✅ | ✅ | IDK 다양화, r8 |
| selfaware-edited-2 (8B) | 8B | 16 | bf16 | 20260225_130700 | ✅ | r16 첫 실험, cross-precision eval | |
| selfaware-edited-2 (8B) | 8B | 16 | 4bit | 20260225_152202 | ❌ | OOM@iter1920, best ckpt saved (iter800) | |
| triviaqa-v2 | — | — | — | — | 데이터 생성 완료, 학습 미수행 |
미수행 실험 요약
| 우선순위 | 실험 | 상세 | 비고 |
|---|---|---|---|
| 1 | TriviaQA-v2 재학습 | data leak 43+6개 제거 후 3개 run 재실행 | train_triviaqa_v2.py 준비 완료 |
| 2 | SelfAware-edited-2 full 5-task | 현재 개별 adapter만 존재, 전체 파이프라인 필요 | cosine sim 분석에 필수 |
| 3 | 8B r16 4bit cross-eval | 20260225_152202 best ckpt 기반 재실행 | GPU 점유 해제 후 가능 |
| 4 | 3B qlora 5-task 통합 run | 3B-edited 혼합 양자화 문제 해결 | 동일 조건 비교 필요 |
| 5 | Rank sensitivity (r16, r32) | 15개 config 미실행, full 5-task 필요 | 논문 robustness 분석용 |
| 6 | HumanEval | config에 정의, 데이터 존재, 학습 미수행 | 코드 생성 control 추가 |
| 7 | 1B baseline | no-adapter baseline 미측정 | Run 2에서 누락 |
Hyperparameter Justification
5개 task에 동일한 hyperparameter를 적용하여, adapter 간 cosine similarity 차이가 hyperparameter artifact가 아닌 task-level 표상 공유에서 기인함을 보장하는 것이 핵심 설계 원칙.
Learning Rate: 2e-4
LoRA fine-tuning의 표준 학습률은 1e-4 ~ 2e-4 범위. Full fine-tuning (1e-5 ~ 3e-5)보다 약 10배 높은데, LoRA는 학습 가능 파라미터가 극히 적어 (전체의 ~0.5%) 더 높은 LR이 필요하기 때문. Raschka (2023)는 수백 건의 LoRA 실험에서 1e-4를 starting point로 제안하며, Lightning AI (2023)는 1e-4 ~ 3e-4를 최적 범위로 보고. 본 실험의 2e-4는 이 범위의 중간값으로, rank=8에서 경험적으로 안정적인 수렴을 보임.
LR Schedule: Cosine Decay + Warmup 5%
Warmup (5%): 학습 초기에 gradient가 크고 불안정 → 작은 LR에서 시작하여 점진적으로 올려 파라미터 divergence를 제한 (Gilmer et al., 2024). 5%는 1-epoch fine-tuning에서 과도하지 않은 conservative 설정.
Cosine decay: Linear decay 대비 peak LR 근처에서 더 오래 학습하여 loss landscape 탐색에 유리하고, 후반부의 graceful decay가 수렴 안정성을 높임 (Loshchilov & Hutter, 2017). GPT-3, LLaMA, Alpaca 등 주요 LLM 학습에서 표준으로 채택.
본 실험에서의 특수한 의의: LoRA delta의 cosine similarity를 분석하는 연구 특성상, 모든 task에 동일한 학습 역학(dynamics)을 부여하는 것이 중요. Cosine schedule은 task 간 학습 곡선 형태를 통일하여, adapter 간 유사도 차이가 schedule artifact가 아닌 genuine task similarity를 반영하도록 함.
LoRA Rank: 8
Hu et al. (2021) 원논문의 기본값. GPT-3 175B에서 rank 4~8로도 full fine-tuning 수준의 성능을 달성하였으며, 핵심 발견은 “ΔW has a very small intrinsic rank” — rank를 64로 올려도 추가 의미 있는 subspace를 커버하지 못한다는 것. Rank 8은 1B/3B 소형 모델에서 충분한 expressiveness를 제공하면서, adapter 파라미터 수를 최소화하여 cosine similarity 분석의 noise를 줄임.
LoRA Scale: 1.0 (effective α = rank × scale = 8)
MLX 프레임워크에서 lora_scale=1.0은 PEFT의 lora_alpha=8에 해당 (effective scaling = α/r = 8/8 = 1.0). 일반적 권장은 α = 2×rank (effective scaling = 2.0)이나, 본 실험에서 conservative한 scale=1.0을 선택한 이유는 LoRA delta의 magnitude를 과도하게 키우면 adapter 간 cosine similarity가 표상(direction)보다 학습 강도(intensity)에 좌우될 위험이 있기 때문. Scale=1.0은 adapter가 원래 weight에 과도한 영향을 미치지 않도록 하여, 표상 방향이 task semantics를 더 잘 반영하도록 함.
LoRA Dropout: 0.05
Lin et al. (2024)에 따르면 LoRA dropout이 sparsity regularizer로 작용하여 generalization error bound를 줄임. 0.05는 5%의 LoRA activation만 zeroing하는 mild regularization으로, overfitting을 방지하면서 학습 용량을 거의 손상시키지 않음. Dropout > 0.1에서는 adapter 학습 능력이 저하되므로 0.05가 conservative default.
Target Layers: All Layers (lora_num_layers=-1)
Dettmers et al. (2023, QLoRA)은 모든 linear layer에 LoRA 적용 시 최적 성능을 보고. Raschka (2023) 역시 “targeting all layers is crucial for matching the performance of full fine-tuning”로 요약. 본 실험에서 특히 중요한 이유: cosine similarity를 layer별로 분석하므로, 모든 layer에 adapter가 존재해야 전체 depth에 걸친 표상 변화를 추적 가능.
Epochs: 1 (SelfAware 1B만 3)
1 epoch은 LLM fine-tuning에서 overfitting 방지를 위한 표준적 선택. 대부분의 dataset이 수천~수만 example이므로 1 epoch으로도 충분한 학습이 가능. SelfAware 1B에서만 3 epochs를 적용한 이유는 ~1,000 train examples로 데이터가 적어 1B 모델에서 1 epoch만으로는 불충분하기 때문. 3B에서는 모델 용량이 충분하여 SelfAware도 1 epoch으로 통일 (task 간 공정 비교 우선).
Effective Batch Size: 16
LoRA는 large batch에서 성능 저하 경향이 있으며 (Lightning AI, 2023), 16은 학습 안정성과 sample efficiency의 균형점. 3B는 메모리 제약으로 micro-batch=2 + grad_accumulation=8, 1B는 micro-batch=4 + grad_accumulation=4로 구성하되 effective batch size를 동일하게 유지하여 모델 크기 간 비교 공정성 확보.
요약표
| Hyperparameter | Value | Primary Justification |
|---|---|---|
| Learning rate | 2e-4 | LoRA 표준 범위 (Raschka, 2023) |
| LR schedule | cosine + 5% warmup | LLM FT 표준 (Loshchilov & Hutter, 2017) |
| LoRA rank | 8 | 원논문 기본값, intrinsic low rank (Hu et al., 2021) |
| LoRA scale (α) | 1.0 (α=8) | Conservative — cosine sim이 방향 반영하도록 |
| LoRA dropout | 0.05 | Mild regularization (Lin et al., 2024) |
| Target layers | All (-1) | 최적 성능 + 전층 분석 필요 (Dettmers et al., 2023) |
| Epochs | 1 | Overfitting 방지; task 간 통일 |
| Effective batch | 16 | Moderate; 모델 간 동일 |
References
- Hu, E. J. et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685.
- Dettmers, T. et al. (2023). QLoRA: Efficient Finetuning of Quantized Language Models. arXiv:2305.14314.
- Loshchilov, I. & Hutter, F. (2017). SGDR: Stochastic Gradient Descent with Warm Restarts. ICLR 2017.
- Lin, Y. et al. (2024). LoRA Dropout as a Sparsity Regularizer for Overfitting Control. arXiv:2404.09610.
- Gilmer, J. et al. (2024). Why Warmup the Learning Rate? Underlying Mechanisms and Improvements. arXiv:2406.09405.
- Raschka, S. (2023). Practical Tips for Finetuning LLMs Using LoRA. Sebastian Raschka’s Magazine.
Training Method Justification: SFT vs GRPO
5개 benchmark를 학습하는 방법으로 SFT(Supervised Fine-Tuning)와 GRPO(Group Relative Policy Optimization)를 비교 검토한 결과, All SFT 유지를 결정.
SFT vs GRPO 핵심 차이
| SFT (현재 채택) | GRPO | |
|---|---|---|
| 학습 신호 | Token-level cross-entropy (정답 출력 복제) | Reward signal (결과 정확성 기반 강화) |
| 최적화 대상 | P(정답 토큰 | 입력) 최대화 | E[reward] 최대화 (group 내 상대 비교) |
| 필요 조건 | Gold output 존재 | Verifiable reward function |
| 생성 방식 | Teacher forcing (학습 시 생성 없음) | 프롬프트당 G개 출력 생성(G=4~16) → 점수 비교 |
| 계산 비용 | 1× | |
| 학습 결과 | 출력 형식 + 내용 모방 | 정답에 도달하는 전략 학습 |
| Value model | 불필요 | 불필요 (PPO와 달리 critic 없음) |
GRPO(DeepSeek, 2024)는 PPO의 critic model을 제거하고, 동일 프롬프트에 G개 출력을 생성한 뒤 group 내 상대 reward 비교로 policy를 최적화하는 방법. “정답을 외우게 하는” SFT와 달리, “정답에 도달하는 방법을 탐색하게 하는” RL 접근.
Benchmark별 GRPO 적합도
| Benchmark | GRPO 적합도 | Reward 정의 | 근거 |
|---|---|---|---|
| GSM8K | ★★★ 최적 | 최종 숫자 정답 exact match | DeepSeek-R1, Qwen-Math의 canonical use case. 다양한 풀이 경로 탐색 가능 |
| MBPP | ★★★ 최적 | Test case pass/fail | 코드 실행 결과로 명확한 binary reward. 단 sandbox 환경 필요 |
| TriviaQA | ★★ 가능 | Answer exact/fuzzy match | 가능하나 답변이 짧은 사실(entity)이라 탐색 공간이 좁아 GRPO 이점 제한적 |
| ExploreToM | ★ 어려움 | 질문 유형별 별도 설계 필요 | yes/no, 장소명, belief state 등 다양한 answer format → reward function 복잡 |
| SelfAware | ✗ 불가 | 자동 reward 정의 불가 | ”모르겠다”의 적절성을 자동 판별 불가. 답변 가능 여부의 ground truth가 reward로 사용 불가 |
Cosine Similarity 분석에 대한 영향
| SFT adapter | GRPO adapter | |
|---|---|---|
| 학습하는 것 | 출력 분포 모방 (surface pattern) | 정답 도달 전략 (reasoning pattern) |
| Weight delta 의미 | ”이 task의 출력 형식/내용” 방향 | ”이 task를 풀기 위한 추론” 방향 |
| Cosine sim 해석 | 출력 형식 유사성 반영 가능 | 추론 전략 유사성 반영 가능 |
인간 뇌과학에서의 ToM↔Self 공유 표상은 추론 과정 수준의 공유이므로, 이론적으로는 GRPO가 연구 가설에 더 부합하는 학습 방법일 가능성이 있음. 다만 이는 사변적이고, SFT에서도 이미 유의미한 결과(global p < 0.001, 32/32 layers significant)를 달성.
All SFT 유지 결정 근거
1. 실험 통일성 (결정적)
본 연구의 cosine similarity 분석은 5개 task에 동일한 학습 조건을 적용하는 것이 핵심 전제. SelfAware에 GRPO를 적용할 수 없으므로 5개 task 전체의 GRPO 통일이 불가능. SFT와 GRPO를 혼합하면 “ToM↔Self 유사도가 높은 건 둘 다 SFT라서”라는 confound 반론이 성립하여, adapter 간 유사도 차이가 학습 방법 차이인지 task-level 표상 공유인지 분리 불가.
2. SelfAware의 GRPO 불가
SelfAware는 “이 질문에 답할 수 있는가?”를 판단하는 task로, 자동 reward function 정의가 구조적으로 불가. ExploreToM도 다양한 answer format(yes/no, 장소명, belief state 구문)에 대한 reward 설계가 복잡. → 5개 task 중 2개(가설 pair의 양쪽)가 GRPO 부적합.
3. 이미 충분한 결과
SFT로도 global permutation test p < 0.001, 32/32 layers significant (8B), Cohen’s d > 1.0 (3B 4-pair) 달성. 학습 방법을 변경하지 않아도 연구 가설을 통계적으로 지지하는 결과를 확보.
4. 실질적 제약
| 제약 | 상세 |
|---|---|
| MLX에서 GRPO 미지원 | 현재 MLX-LM은 SFT만 지원. GRPO 학습에는 HuggingFace TRL + CUDA 환경 필요 |
| 계산 비용 | 프롬프트당 4 |
| Reward 구현 복잡도 | GSM8K/MBPP는 straightforward, ExploreToM은 질문 유형별 분기 필요, SelfAware는 불가 |
향후 확장 가능성
GRPO를 추가 실험으로 수행할 경우의 구성안:
| 단계 | 구성 | 목적 |
|---|---|---|
| 현재 (완료) | All SFT (5 task) | Primary analysis — cosine similarity + permutation test |
| 확장 1 | GSM8K + MBPP만 GRPO 재학습 | Cross-eval 성능 비교 (cosine similarity 분석 대상 아님) |
| 확장 2 | ExploreToM + GSM8K + TriviaQA + MBPP를 All GRPO | GRPO adapter 간 cosine similarity 별도 분석 (SelfAware 제외) |
| 확장 3 | SFT → GRPO 2-stage | SFT adapter 위에 GRPO 추가 학습, stage별 cosine similarity 비교 |
확장 2~3은 CUDA 환경(TRL) 확보 시 수행 가능. SelfAware를 제외하므로 “ToM↔Self” pair 분석은 불가하나, “ToM↔Control” 비교로 ToM adapter의 표상 특성을 GRPO 맥락에서 분석 가능.
References
- Shao, Z. et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300. (GRPO 제안)
- DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948. (GRPO를 대규모 추론 모델에 적용)
Cross-Eval Results (Accuracy)
Run 1 — Llama-3.2-3B 5-task (Feb 18) ★★
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | MBPP |
|---|---|---|---|---|---|
| Baseline | 0.3240 | 0.2789† | 0.6618 | 0.4743 | — |
| ExploreToM LoRA | 0.8856 | 0.0979 | 0.0829 | 0.4500 | — |
| SelfAware LoRA | 0.2682 | 0.3472 | 0.0013 | 0.4171 | — |
| GSM8K LoRA | 0.4997 | 0.1543 | 0.7500 | 0.5457 | — |
| TriviaQA LoRA | 0.5902 | 0.1128 | 0.1217 | 0.4843 | — |
| MBPP LoRA | 0.4588 | 0.1335 | 0.3676 | 0.5200 | 0.5155 |
⚠️ ExploreToM/SelfAware/GSM8K/TriviaQA adapter의 MBPP eval은 미수행 (MBPP가 cross-eval에 추가되기 전에 학습 완료). MBPP adapter만 전체 5-task eval 수행.
† SelfAware Baseline 재평가 (0.1276 → 0.2789): 원래 strict string matching으로 평가된 SelfAware baseline accuracy를 lenient content matching으로 재평가. 337개 전체 샘플을 수동 검토하여 의미적 동치 관계를 반영 (예: “Equator” = “latitude 0 degrees N”, “Pontius Pilate” = “ponchus pilot”, “Generation X” = ”🅇”). 57건 변경 (F→T 54건, T→F 3건). IDK 정답의 경우 모델이 불확실성을 표현하면 정답 처리. 상세:
results/predictions/20260218_012033/baseline_selfaware_reevaluated.xlsx
Run 2 — Llama-3.2-1B 5-task (Feb 19) ★★
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | MBPP |
|---|---|---|---|---|---|
| ExploreToM LoRA | 0.8428 | 0.0534 | 0.0254 | 0.2486 | 0.2577 |
| SelfAware LoRA | 0.2301 | 0.3234 | 0.0000 | 0.1671 | 0.0103 |
| GSM8K LoRA | 0.4275 | 0.1128 | 0.5174 | 0.3814 | 0.3299 |
| TriviaQA LoRA | 0.5106 | 0.0682 | 0.0428 | 0.3129 | 0.0309 |
| MBPP LoRA | 0.3029 | 0.1098 | 0.3316 | 0.3671 | 0.3608 |
⚠️ 1B 5-task baseline (no-adapter) 별도 측정 미수행. Run 3 기준 1B baseline: ExploreToM 0.4003, SelfAware 0.1009.
Run 3 — Llama-3.1-8B QLoRA 5-task (Feb 21–22)
| Adapter \ Eval | ExploreToM | SelfAware | GSM8K | TriviaQA | MBPP |
|---|---|---|---|---|---|
| Baseline (8B) | 0.3553 | 0.1721 | 0.6658 | 0.6186 | 0.6082 |
| ExploreToM QLoRA | 0.9101 | 0.1187 | 0.0976 | 0.4657 | 0.5773 |
| SelfAware-ed QLoRA | 0.3649 | 0.2967 | 0.1136 | 0.4843 | 0.2887 |
| GSM8K QLoRA | 0.4248 | 0.1335 | 0.7701 | 0.6029 | 0.6186 |
| TriviaQA QLoRA | 0.6603 | 0.1217 | 0.1591 | 0.5743 | 0.5876 |
| MBPP QLoRA | 0.4091 | 0.1276 | 0.2995 | 0.6029 | 0.5155 |
SelfAware는 IDK 5%로 축소한
selfaware-edited데이터셋 사용. Baseline timestamp:20260222_032515.
Cross-Eval 주요 관찰
In-domain 향상 — 모든 adapter가 자기 도메인에서 baseline 대비 향상:
- 3B: ExploreToM 0.32→0.89, SelfAware 0.28→0.35†, GSM8K 0.66→0.75
- 1B: ExploreToM 0.84, SelfAware 0.32, GSM8K 0.52 (baseline 비교 불가)
- 8B: ExploreToM 0.36→0.91 (+155%), GSM8K 0.67→0.77 (+16%), SelfAware-ed 0.17→0.30 (+72%)
Cross-domain catastrophic forgetting:
- SelfAware LoRA → GSM8K: 3B 0.0013, 1B 0.0000 (완전 망각)
- SelfAware LoRA → MBPP: 1B 0.0103 (거의 완전 망각)
- ExploreToM LoRA → GSM8K: 3B 0.0829, 1B 0.0254
- 8B: ExploreToM QLoRA → GSM8K 0.0976 (baseline 0.6658 대비 −85%), SelfAware-ed → MBPP 0.2887 (−53%)
전이 패턴 (흥미로운 관찰):
- TriviaQA LoRA → ExploreToM: 3B 0.5902 (+82%), 1B 0.5106, 8B 0.6603 (+86%) — 규모 증가에도 TriviaQA→ToM 전이 일관
- GSM8K LoRA → ExploreToM: 3B 0.4997 (+54%), 1B 0.4275, 8B 0.4248 (+20%) — 8B에서 전이 폭 축소
- GSM8K LoRA: 8B에서 거의 모든 task를 baseline 수준 유지/향상 — 유일한 “범용” adapter
- MBPP LoRA → TriviaQA: 3B 0.5200 (+10%), 1B 0.3671, 8B 0.6029 (−3%) — 8B에서는 전이 효과 소실
- SelfAware LoRA → ExploreToM: 3B 0.2682 (−17%), 1B 0.2301, 8B-edited 0.3649 (+3%) — edited 데이터셋으로 역전이 해소
- ExploreToM QLoRA → SelfAware: 8B 0.1187 (baseline 0.1721, −31%) — ExploreToM 학습이 SelfAware(짧은 사실 QA + IDK 판단) 능력을 저하. 상세: 아래 ExploreToM→SelfAware 전이 분석 참조
SelfAware-Edited Adapter 정성적 분석
SelfAware-edited adapter가 각 벤치마크에서 어떤 유형의 응답을 생성하는지에 대한 상세 정성적 분석. 응답 형식 전이(Style Transfer) 현상과 오답 패턴을 문항 단위로 분류.
⚠️ 주의: 보고서의 Run A(20260221_002706)는 Llama 3.1 8B QLoRA, Run B(20260222_234559)는 Llama 3.2 3B QLoRA. 두 Run의 성능 차이는 모델 크기 차이가 주 원인.
주요 발견:
- GSM8K: CoT 억제 — Baseline 평균 574자 풀이 → Run A(8B) 평균 7자 (짧은 숫자만 출력)
- ExploreToM: belief_2nd 질문에서 baseline 대비 +12.9%p 향상 (SC-TOM 가설 일관, 8B Run A)
- MBPP: Run A(8B)에서 함수명만 출력(22.7%), IDK(11.3%) 등 비정상 패턴 다수
- MBPP 역전: Run B(3B)가 Run A(8B)보다 정확도 높음 (40.2% > 28.9%) — Llama 3.2 세대 개선 가능성
- TriviaQA: 짧은 답변 형식 호환으로 IDK 거의 없음, 다만 -22% 정확도 하락 (8B 기준)
📄 상세 보고서:
Qualitative Analysis - SelfAware-Edited Cross-Domain.md
ExploreToM→SelfAware 전이 분석 (8B)
ExploreToM으로 학습한 8B adapter가 SelfAware 평가에서 baseline 대비 어떻게 변화하는지 분석.
정확도 비교 (SelfAware eval, 337문항)
| 조건 | 전체 정확도 | IDK-expected (88) | Non-IDK-expected (249) | IDK 생성 수 | 평균 응답 길이 |
|---|---|---|---|---|---|
| Baseline 8B | 0.1721 | 0.0000 | 0.2329 | 3 (0.9%) | 242자 |
| ExploreToM QLoRA | 0.1187 (−31%) | 0.0000 | 0.1606 (−31%) | 1 (0.3%) | 10자 |
| SelfAware-ed QLoRA | 0.2967 (+72%) | 0.7273 | 0.1446 (−38%) | 68 (20.2%) | 16자 |
참고: Baseline의 SelfAware 정확도(0.1721)는 strict string matching 기준. Lenient matching으로 재평가 시 0.2789 (Run 1 참조).
핵심 관찰
1. ExploreToM adapter도 style transfer 발생 — 응답 길이 242자 → 10자로 96% 축소
ExploreToM의 응답 형식(짧은 명사구: 장소명, 용기명)이 SelfAware에 전이되어, Baseline의 장문 설명(242자) 대신 짧은 단어/구(10자)로 응답.
- ExploreToM 학습 형식:
"cardboard box","operations room","yes","no" - SelfAware에서의 출력:
"equator","Jennifer Lopez","impedance"— 1-3단어 명사/구
이는 SelfAware-ed adapter의 style transfer(짧은 답변 출력)와 동일한 메커니즘이지만, SelfAware 데이터의 90%도 짧은 명사형이므로 형식 자체는 호환됨.
2. IDK-expected 질문에서 IDK를 전혀 생성하지 않음 (0/88)
ExploreToM 데이터에는 “I don’t know” 패턴이 없으므로, adapter가 IDK 생성 능력을 갖고 있지 않음. 88개의 “답할 수 없는 질문”에 대해 모두 짧은 사실형 답변을 시도:
| IDK-expected 질문 | Baseline | ExploreToM adapter |
|---|---|---|
| ”Would you rather be in a bad relationship…” | 장문 설명 (토론형) | "single forever" |
| ”Why does every rule have exceptions?” | 장문 설명 (분석형) | "human nature" |
| ”What is the reason for life?” | 장문 철학적 설명 | "existential question" |
| ”When will human cloning become safe?” | 장문 과학적 설명 | "never" |
| ”Is there a risk to be dependent on AI?” | 장문 위험 분석 | "yes" |
→ Baseline은 “모른다”고 직접 말하지 않지만 불확실성을 표현하는 장문 응답. ExploreToM adapter는 “무조건 짧게 답한다” — 답할 수 없는 질문에도 1-2단어로 답변 시도.
3. 전체 정확도 하락(−31%)의 원인 분석
| 교차 분류 | 건수 | 비고 |
|---|---|---|
| Both correct | 32 | Baseline과 ExploreToM 모두 정답 |
| Baseline only correct | 26 | Baseline은 맞지만 ExploreToM은 틀림 |
| ExploreToM only correct | 8 | ExploreToM만 정답 (짧은 답이 매칭에 유리) |
| Both wrong | 271 | 둘 다 오답 |
- ExploreToM이 이기는 8건:
"no","paper","about 20%","mast","negative"등 — 짧은 정확한 답이 strict matching에서 오히려 유리한 경우 - Baseline이 이기는 26건: 장문 속에 정답이 포함되어 있어 매칭 성공, ExploreToM은 부분적/다른 단어로 실패
- Near-miss 사례 (의미적으로 맞지만 strict fail):
"Jennifer Lopez"(expected: “list of jennifer lopez concerts”),"Japan"(expected: “japan country”),"hearing"(expected: “hearing sense”) — 최소 10건 이상
4. SC-TOM 관점에서의 해석
| 방향 | Adapter | SelfAware 점수 | 해석 |
|---|---|---|---|
| Self → ToM | SelfAware-ed → ExploreToM | 0.3649 (+3%) | 미세 향상 (양성 전이) |
| ToM → Self | ExploreToM → SelfAware | 0.1187 (−31%) | 하락 (음성 전이) |
양방향이 비대칭: SelfAware→ExploreToM은 양성 전이, ExploreToM→SelfAware는 음성 전이. 이 비대칭은:
- SelfAware의 “모르는 것을 안다”는 능력이 ToM의 false belief 추론에 도움을 줄 수 있으나,
- **ExploreToM의 “사실 추적 + 믿음 추론”**은 SelfAware의 “답할 수 없는 질문 판별” 능력으로 전이되지 않음
- 이는 Self-Awareness가 ToM에 대해 상위 수준의 메타인지적 역할을 할 가능성을 시사 — 코사인 유사도 분석에서 ToM↔Self가 높은 것과 일관되나, cross-eval에서의 전이 방향은 비대칭적
단, strict string matching의 한계로 ExploreToM adapter의 실제 SelfAware 성능이 과소평가되었을 가능성이 높음 (near-miss 10건+). Lenient matching 재평가 시 격차가 축소될 수 있음.
Metrics Reference
본 문서에서 사용하는 통계 지표에 대한 간략한 설명.
유사도 지표
| 지표 | 설명 | 범위 |
|---|---|---|
| Cosine similarity | 두 LoRA adapter의 weight delta 벡터 간 방향 유사도. 1이면 동일 방향, 0이면 직교, −1이면 반대 방향. 본 실험에서는 layer별로 fused delta (Δ_W = lora_a @ lora_b)를 flatten하여 계산. | [−1, 1] |
| N-gram containment | 텍스트 A의 n-gram 중 텍스트 B에도 등장하는 비율. 데이터 중복 검출에 사용. 1.0이면 A의 모든 n-gram이 B에 포함됨. | [0, 1] |
| Jaccard similarity | 두 집합의 교집합 / 합집합. 데이터셋 수준의 n-gram 중복도 측정에 사용. | [0, 1] |
효과 크기 (Effect Size)
| 지표 | 설명 | 해석 기준 |
|---|---|---|
| Cohen’s d | 두 그룹 평균 차이를 풀링된 표준편차로 나눈 값. 표본 크기와 무관하게 차이의 실질적 크기를 나타냄. | |d| < 0.2: 무시 가능, 0.2–0.5: small, 0.5–0.8: medium, > 0.8: large |
| Dissociation gap | ToM↔Self 유사도 평균에서 control pair 유사도 평균을 뺀 값. 양수일수록 가설 pair가 control보다 유사. | 절대값; 크기 자체로 해석 |
| Gap ratio | ToM↔Self 유사도 / control 평균. 1.0이면 차이 없음, 2.0이면 가설 pair가 control의 2배. | ≥ 1.0 |
통계 검정 (Statistical Tests)
| 지표 | 설명 | 유의 기준 |
|---|---|---|
| Permutation test | 귀무가설(pair 간 유사도 차이 없음) 하에서 관찰된 차이가 우연히 발생할 확률. 분포 가정 없이 label을 무작위로 재배정하여 p-value를 추정하는 비모수 검정. | p < 0.05 |
| Bonferroni correction | 다중 비교 시 false positive를 통제하기 위해 유의수준을 비교 횟수로 나누는 보정. 예: 5개 비교 시 α = 0.05/5 = 0.01. 가장 보수적인 보정 방법. | 보정된 p < 0.05 |
p-value 해석 참고: p < 0.001은 해당 차이가 우연에 의해 발생할 확률이 0.1% 미만임을 의미. 단, p-value는 효과의 크기가 아닌 통계적 유의성만 나타내므로, 반드시 Cohen’s d 등 효과 크기와 함께 해석해야 함.
Cosine Similarity Analysis (Run 6 & 7)
5개 adapter의 LoRA fused delta (Δ_W = lora_a @ lora_b)를 layer별로 cosine similarity 측정.
4-Pair Analysis (TriviaQA 제외)
TriviaQA가 야기하는 confound를 배제하고 순수한 ToM↔Self dissociation을 측정.
Pair-wise Summary
| Pair | 1B Overall | 1B Attn | 1B MLP | 3B Overall | 3B Attn | 3B MLP |
|---|---|---|---|---|---|---|
| ToM↔Self | 0.1269 | 0.1275 | 0.1261 | 0.1672 | 0.1580 | 0.1794 |
| ToM↔GSM8K | 0.0742 | 0.0735 | 0.0752 | 0.0736 | 0.0686 | 0.0804 |
| ToM↔MBPP | 0.1027 | 0.1119 | 0.0905 | 0.0833 | 0.0876 | 0.0776 |
| Self↔GSM8K | 0.0891 | 0.0895 | 0.0887 | 0.0859 | 0.0853 | 0.0867 |
| Self↔MBPP | 0.1121 | 0.1211 | 0.1002 | 0.0922 | 0.1020 | 0.0791 |
| GSM8K↔MBPP | 0.1102 | 0.1187 | 0.0988 | 0.0737 | 0.0805 | 0.0646 |
Dissociation & Permutation Test
| Metric | 1B | 3B |
|---|---|---|
| ToM↔Self mean | 0.1269 | 0.1672 |
| Control avg (5 pairs) | 0.0977 | 0.0818 |
| Dissociation gap | 0.0292 | 0.0854 |
| Gap ratio (ToM↔Self / control) | 1.30× | 2.04× |
| Permutation p-value (global) | < 0.001 | < 0.001 |
| Significant layers (p < 0.05) | 13/16 | 26/28 |
4-Pair Plots — 3B




4-Pair Plots — 1B




4-Pair Omnibus Test
| Rank | 1B Pair | 1B Mean | 3B Pair | 3B Mean |
|---|---|---|---|---|
| 1 | ToM↔Self | 0.1269 | ToM↔Self | 0.1672 |
| 2 | Self↔MBPP | 0.1121 | Self↔MBPP | 0.0922 |
| 3 | GSM8K↔MBPP | 0.1102 | Self↔GSM8K | 0.0859 |
| 4 | ToM↔MBPP | 0.1027 | ToM↔MBPP | 0.0833 |
| 5 | Self↔GSM8K | 0.0891 | GSM8K↔MBPP | 0.0737 |
| 6 | ToM↔GSM8K | 0.0742 | ToM↔GSM8K | 0.0736 |
Post-hoc (ToM↔Self vs each control, Bonferroni corrected):
| 1B: vs Pair | Diff | p (corrected) | Cohen’s d | 3B: vs Pair | Diff | p (corrected) | Cohen’s d |
|---|---|---|---|---|---|---|---|
| vs ToM↔GSM8K | +0.053 | < 0.001 | 1.11 | vs ToM↔GSM8K | +0.094 | < 0.001 | 1.38 |
| vs ToM↔MBPP | +0.024 | 0.001 | 0.48 | vs ToM↔MBPP | +0.084 | < 0.001 | 1.15 |
| vs Self↔GSM8K | +0.038 | < 0.001 | 0.72 | vs Self↔GSM8K | +0.081 | < 0.001 | 1.18 |
| vs Self↔MBPP | +0.015 | 0.054 | 0.27 | vs Self↔MBPP | +0.075 | < 0.001 | 1.09 |
| vs GSM8K↔MBPP | +0.017 | 0.054 | 0.30 | vs GSM8K↔MBPP | +0.093 | < 0.001 | 1.42 |
1B에서 Self↔MBPP, GSM8K↔MBPP과의 차이는 Bonferroni 보정 후 경계적 유의수준 (p≈0.054). 3B에서는 모든 대조군 대비 유의 (p < 0.001, d > 1.0).
5-Pair Analysis (TriviaQA 포함)
TriviaQA를 포함한 전체 10-pair 분석. TriviaQA confound로 인한 해석 주의 필요.
5-Pair Summary (상위 pair 중심)
| Pair | 1B Overall | 3B Overall | 8B Overall | 비고 |
|---|---|---|---|---|
| Self↔TriviaQA | 0.2037 | 0.2225 | 0.1876 | ⚠️ 전체 1위 유지 (data leakage) |
| ToM↔MBPP | 0.1027 | 0.0833 | 0.1608 | 8B에서 급상승 (#2) |
| ToM↔Self | 0.1269 | 0.1672 | 0.1414 | 가설 pair (#3) |
| Self↔MBPP | 0.1121 | 0.0922 | 0.1390 | |
| ToM↔TriviaQA | 0.1419 | 0.1536 | 0.1217 | |
| TriviaQA↔MBPP | 0.1223 | 0.0774 | 0.1053 |
5-Pair Dissociation
| Metric | 1B | 3B | 8B |
|---|---|---|---|
| ToM↔Self mean | 0.1269 | 0.1672 | 0.1414 |
| Control avg (9 pairs) | 0.1171 | 0.1044 | 0.1101 |
| Dissociation gap | 0.0098 | 0.0628 | 0.0313 |
| Gap ratio (ToM↔Self / control) | 1.08× | 1.60× | 1.28× |
| Permutation p-value | 0.075 (n.s.) | < 0.001 | < 0.001 |
| Significant layers | 13/16 | 26/28 | 32/32 |
⚠️ TriviaQA confound: Self↔TriviaQA가 ToM↔Self보다 높아, TriviaQA가 control avg를 끌어올려 dissociation gap이 축소됨. 1B에서는 global p=0.075로 유의하지 않음. → 4-pair (TriviaQA 제외) 분석이 더 conservative하고 신뢰성 높음.
8B에서는 TriviaQA confound에도 불구하고 global p < 0.001 (***), 32/32 layers 전부 유의 — 1B의 non-significant 결과와 대조적. Scale-up이 ToM↔Self 신호를 TriviaQA 노이즈 위로 끌어올림.
5-Pair Omnibus Ranks
| Rank | 1B Pair | 1B Mean | 3B Pair | 3B Mean | 8B Pair | 8B Mean |
|---|---|---|---|---|---|---|
| 1 | Self↔TriviaQA | 0.2037 | Self↔TriviaQA | 0.2225 | Self↔TriviaQA | 0.1876 |
| 2 | ToM↔TriviaQA | 0.1419 | ToM↔Self | 0.1672 | ToM↔MBPP | 0.1608 |
| 3 | ToM↔Self | 0.1269 | ToM↔TriviaQA | 0.1536 | ToM↔Self | 0.1414 |
| 4 | TriviaQA↔MBPP | 0.1223 | Self↔MBPP | 0.0922 | Self↔MBPP | 0.1390 |
| 5 | Self↔MBPP | 0.1121 | Self↔GSM8K | 0.0859 | ToM↔TriviaQA | 0.1217 |
8B Omnibus F-test: p < 0.001 (***), F_obs=0.001741. Post-hoc에서 ToM↔Self vs 7/9 pairs 유의 (p_adj < 0.05). Self↔MBPP과는 거의 동일 (d=0.039, n.s.), Self↔TriviaQA에는 열위 (d=−0.707, ***; data leakage).
5-Pair Plots — 3B




5-Pair Plots — 1B




5-Pair Plots — 8B




Cosine Similarity Analysis — SelfAware-Edited
원본 SelfAware (IDK 31.1%) 대신 selfaware-edited (IDK 5.0%) adapter를 사용하여 cosine similarity를 재분석. Shortcut learning 완화가 ToM↔Self 유사도 패턴에 미치는 영향을 검증.
Adapter 출처:
- 1B: ExploreToM/GSM8K/TriviaQA/MBPP =
mlx-lora-*/20260219_001856(bf16), SelfAware-edited =mlx-lora-selfaware-edited/20260220_221232(bf16)- 8B: 전체 5 task =
mlx-qlora-*/20260221_002706(4bit QLoRA) — 동일 run- 3B: ExploreToM/GSM8K/TriviaQA/MBPP =
mlx-lora-*/20260218(bf16), SelfAware-edited =mlx-qlora-selfaware-edited/20260222_234559(4bit QLoRA) — ⚠️ 혼합 양자화, 해석에 주의 필요
SelfAware-Edited: 4-Pair Analysis (TriviaQA 제외)
Pair-wise Summary
| Pair | 1B-ed Overall | 1B-ed Attn | 1B-ed MLP | 8B-ed Overall | 8B-ed Attn | 8B-ed MLP |
|---|---|---|---|---|---|---|
| ToM↔Self | 0.1441 | 0.1447 | 0.1433 | 0.1414 | 0.1332 | 0.1524 |
| ToM↔GSM8K | 0.0742 | 0.0735 | 0.0752 | 0.0681 | 0.0619 | 0.0765 |
| ToM↔MBPP | 0.1027 | 0.1119 | 0.0905 | 0.1608 | 0.1507 | 0.1741 |
| Self↔GSM8K | 0.0980 | 0.0895 | 0.0887 | 0.0734 | 0.0722 | 0.0749 |
| Self↔MBPP | 0.1309 | 0.1211 | 0.1002 | 0.1390 | 0.1432 | 0.1333 |
| GSM8K↔MBPP | 0.1102 | 0.1187 | 0.0988 | 0.0786 | 0.0783 | 0.0789 |
⚠️ 3B-ed 결과는 혼합 양자화(bf16 + qlora) 문제로 별도 표기: ToM↔Self = 0.0578, Control avg = 0.0574, Gap ≈ 0 (p=0.461, n.s.). 직접 비교 불가.
Dissociation & Permutation Test
| Metric | 1B (orig) | 1B (edited) | 3B (orig) | 3B (edited)⚠️ | 8B (edited) |
|---|---|---|---|---|---|
| ToM↔Self mean | 0.1269 | 0.1441 | 0.1672 | 0.0578 | 0.1414 |
| Control avg (5 pairs) | 0.0977 | 0.1032 | 0.0818 | 0.0574 | 0.1040 |
| Dissociation gap | 0.029 | 0.041 | 0.085 | 0.000 | 0.037 |
| Gap ratio | 1.30× | 1.40× | 2.04× | 1.01× | 1.36× |
| Permutation p-value | < 0.001 | < 0.001 | < 0.001 | 0.461 (n.s.) | < 0.001 |
| Significant layers | 13/16 | 14/16 | 26/28 | 1/32 | 32/32 |
핵심 발견: SelfAware-edited adapter를 사용하면 1B에서 gap이 0.029 → 0.041로 41% 증가, 유의 레이어도 13 → 14/16으로 향상. 8B에서는 32/32 전층 유의 유지. IDK shortcut 제거가 Self adapter의 표상을 더 “순수한” self-awareness 방향으로 이동시킨 것으로 해석 가능.
3B는 bf16 lora + qlora 혼합으로 weight magnitude가 체계적으로 다르므로, gap 붕괴는 양자화 artifact일 가능성이 높음. 동일 조건의 3B qlora 5-task run이 필요.
4-Pair Omnibus Test — SelfAware-Edited
| Rank | 1B-ed Pair | 1B-ed Mean | 8B-ed Pair | 8B-ed Mean |
|---|---|---|---|---|
| 1 | ToM↔Self | 0.1441 | ToM↔MBPP | 0.1608 |
| 2 | Self↔MBPP | 0.1309 | ToM↔Self | 0.1414 |
| 3 | GSM8K↔MBPP | 0.1102 | Self↔MBPP | 0.1390 |
| 4 | ToM↔MBPP | 0.1027 | GSM8K↔MBPP | 0.0786 |
| 5 | Self↔GSM8K | 0.0980 | Self↔GSM8K | 0.0734 |
| 6 | ToM↔GSM8K | 0.0742 | ToM↔GSM8K | 0.0681 |
Post-hoc (ToM↔Self vs each control, Bonferroni corrected):
| 1B-ed: vs Pair | Diff | p (corrected) | Cohen’s d | 8B-ed: vs Pair | Diff | p (corrected) | Cohen’s d |
|---|---|---|---|---|---|---|---|
| vs ToM↔GSM8K | +0.070 | < 0.001 | 1.41 | vs ToM↔GSM8K | +0.073 | < 0.001 | 1.36 |
| vs ToM↔MBPP | +0.041 | < 0.001 | 0.79 | vs ToM↔MBPP | −0.019 | 0.020 | −0.24 |
| vs Self↔GSM8K | +0.046 | < 0.001 | 0.82 | vs Self↔GSM8K | +0.068 | < 0.001 | 1.34 |
| vs Self↔MBPP | +0.013 | 0.107 (n.s.) | 0.22 | vs Self↔MBPP | +0.002 | 0.671 (n.s.) | 0.04 |
| vs GSM8K↔MBPP | +0.034 | < 0.001 | 0.58 | vs GSM8K↔MBPP | +0.063 | < 0.001 | 1.21 |
1B-ed: ToM↔Self가 #1으로 유지 (원본과 동일). Self↔MBPP과의 차이만 비유의 (d=0.22) — 원본(d=0.27, p≈0.054)과 유사한 패턴.
8B-ed: ToM↔MBPP가 #1, ToM↔Self가 #2. ToM↔MBPP과는 ToM↔Self가 오히려 낮음 (d=−0.24, p=0.020). Self↔MBPP과는 거의 동일 (d=0.04, n.s.). → 8B에서 MBPP adapter의 높은 범용성이 4-pair에서도 확인됨.
4-Pair Plots — SelfAware-Edited 1B




4-Pair Plots — SelfAware-Edited 8B




SelfAware-Edited: 5-Pair Analysis (TriviaQA 포함)
5-Pair Summary (상위 pair 중심)
| Pair | 1B-ed Overall | 3B-ed⚠️ Overall | 8B-ed Overall | 비고 |
|---|---|---|---|---|
| Self↔TriviaQA | 0.2756 | 0.0925 | 0.1876 | ⚠️ 1B-ed에서 최고치 (data leakage) |
| ToM↔TriviaQA | 0.1419 | 0.1536 | 0.1217 | |
| ToM↔Self | 0.1441 | 0.0578 | 0.1414 | 가설 pair |
| Self↔MBPP | 0.1309 | 0.0264 | 0.1390 | |
| ToM↔MBPP | 0.1027 | 0.0833 | 0.1608 | 8B에서 #2 |
5-Pair Dissociation — Original vs Edited 비교
| Metric | 1B (orig) | 1B (edited) | 3B (orig) | 3B (edited)⚠️ | 8B (edited) |
|---|---|---|---|---|---|
| ToM↔Self mean | 0.1269 | 0.1441 | 0.1672 | 0.0578 | 0.1414 |
| Control avg (9 pairs) | 0.1171 | 0.1282 | 0.1044 | 0.0764 | 0.1101 |
| Dissociation gap | 0.010 | 0.016 | 0.063 | −0.019 | 0.031 |
| Permutation p-value | 0.075 (n.s.) | 0.029 | < 0.001 | 1.0 (n.s.) | < 0.001 |
| Significant layers | 13/16 | 14/16 | 26/28 | 1/32 | 32/32 |
1B에서의 중요한 변화: 원본 SelfAware 5-pair에서 p=0.075 (non-significant)였던 결과가, selfaware-edited에서 **p=0.029 (significant)**로 전환. IDK shortcut 제거가 Self adapter의 표상을 정제하여 ToM↔Self 신호가 TriviaQA noise를 넘어서게 됨.
5-Pair Omnibus Ranks — SelfAware-Edited
| Rank | 1B-ed Pair | 1B-ed Mean | 8B-ed Pair | 8B-ed Mean |
|---|---|---|---|---|
| 1 | Self↔TriviaQA | 0.2756 | Self↔TriviaQA | 0.1876 |
| 2 | ToM↔Self | 0.1441 | ToM↔MBPP | 0.1608 |
| 3 | ToM↔TriviaQA | 0.1419 | ToM↔Self | 0.1414 |
| 4 | Self↔MBPP | 0.1309 | Self↔MBPP | 0.1390 |
| 5 | TriviaQA↔MBPP | 0.1223 | ToM↔TriviaQA | 0.1217 |
1B-ed 5-pair: ToM↔Self가 2로 상승 (원본에서는 #3). Self↔TriviaQA(data leakage)만 상위.
5-Pair Plots — SelfAware-Edited 1B




5-Pair Plots — SelfAware-Edited 8B




SelfAware-Edited 종합 비교: Original vs Edited
| 설정 | 1B Gap (orig→ed) | 3B Gap (orig→ed) | 8B Gap (ed) |
|---|---|---|---|
| 4-pair | 0.029 → 0.041 (+41%) | 0.085 → 0.000⚠️ | 0.037 |
| 5-pair | 0.010 → 0.016 (+60%) | 0.063 → −0.019⚠️ | 0.031 |
| 4-pair p-value | <0.001 → <0.001 | <0.001 → 0.461 | <0.001 |
| 5-pair p-value | 0.075 → 0.029 | <0.001 → 1.0 | <0.001 |
| 4-pair rank | #1 → #1 | #1 → #4 | #2 |
| 5-pair rank | #3 → #2 | #2 → #8 | #3 |
결론: 1B와 8B에서 selfaware-edited는 원본 대비 dissociation gap 증가 및 통계적 유의성 강화. IDK shortcut 제거가 Self adapter의 표상을 더 순수한 self-awareness 방향으로 이동시켜 ToM과의 공유 신호가 더 명확해짐. 3B는 양자화 혼합 문제로 해석 불가 — 동일 조건 재실행 필요.
Data Leakage Analysis
5개 학습 데이터셋 간 텍스트 중복을 검증하여, cosine similarity 결과가 데이터 오염에 의한 것이 아닌지 확인. (analyze_data_leakage.py)
Level 1: Exact Duplicate Check
| Dataset Pair | Exact Duplicates | 비고 |
|---|---|---|
| SelfAware train ↔ TriviaQA train | 38 | ⚠️ 동일 질문 공유 |
| SelfAware train ↔ TriviaQA valid | 6 | ⚠️ train→valid 오염 |
| SelfAware valid ↔ TriviaQA train | 5 | ⚠️ valid→train 오염 |
| 그 외 모든 pair (42개) | 0 | ✓ clean |
| Within-dataset (train↔valid, 5개) | 0 | ✓ clean |
총 49개 exact duplicate — 전부 SelfAware ↔ TriviaQA 간에서만 발견.
중복 질문 예시:
- “what is the name for the colored part of the eye?”
- “a left-handed boxer is called a ‘what’…paw?”
- “from which language do we get the word ‘bizarre’?”
Level 2: N-gram Containment
| N-gram | Flagged Pair | Flagged Examples | Max Containment | 비고 |
|---|---|---|---|---|
| 8-gram | SelfAware ↔ TriviaQA | 102 | 1.000 | ⚠️ 유일한 flagged pair |
| 13-gram | SelfAware ↔ TriviaQA | 98 | 1.000 | ⚠️ 동일 |
| 8-gram | 그 외 9개 pair | 0 | — | ✓ clean |
| 13-gram | 그 외 9개 pair | 0 | — | ✓ clean |
Dataset-level 8-gram Jaccard:
| ExploreToM | SelfAware | GSM8K | TriviaQA | MBPP | |
|---|---|---|---|---|---|
| ExploreToM | — | 0.0000 | 0.0000 | 0.0000 | 0.0000 |
| SelfAware | 0.0000 | — | 0.0000 | 0.0036 | 0.0000 |
| GSM8K | 0.0000 | 0.0000 | — | 0.0000 | 0.0000 |
| TriviaQA | 0.0000 | 0.0036 | 0.0000 | — | 0.0000 |
| MBPP | 0.0000 | 0.0000 | 0.0000 | 0.0000 | — |
Leakage 결론
- SelfAware ↔ TriviaQA: 데이터 오염 확인. SelfAware 데이터셋에 TriviaQA와 동일한 질문 49개 포함. 이는 SelfAware가 다양한 출처의 질문을 모아 “답변 가능 여부”를 레이블링한 데이터셋이기 때문으로, TriviaQA 질문이 SelfAware에 포함된 것으로 추정.
- Self↔TriviaQA LoRA 유사도가 1위인 직접적 원인: 동일 질문에 대해 학습한 adapter끼리 유사한 방향으로 가중치가 이동하므로 cosine similarity가 높아짐.
- 4-pair 분석 (TriviaQA 제외)의 타당성 재확인: TriviaQA를 control에서 제외한 4-pair 분석이 오염 없는 순수한 비교임을 입증.
- 다른 모든 dataset pair는 완전히 clean — ExploreToM, GSM8K, MBPP 간, 그리고 이들과 SelfAware/TriviaQA 간에 어떤 중복도 없음.
SelfAware Shortcut Learning Analysis
문제 제기
Cross-eval 결과에서 SelfAware LoRA adapter가 out-of-domain task에서 극단적으로 낮은 accuracy를 보임:
| Eval Task | 3B Accuracy | 1B Accuracy |
|---|---|---|
| GSM8K | 0.0013 | 0.0000 |
| MBPP | — | 0.0103 |
| ExploreToM | 0.2682 (baseline 대비 −17%) | 0.2301 |
초기 해석은 “catastrophic forgetting” — 즉 SelfAware 학습이 기존 능력을 파괴했다는 것이었으나, 예측 로그 분석 결과 실제 원인은 shortcut learning으로 확인됨.
원인 조사: 학습 데이터 분석
SelfAware 데이터셋은 질문에 대해 “답변 가능 여부”를 판단하는 task로, unanswerable 질문에 대해 모두 동일한 문자열 "I don't know the answer to this question." (이하 IDK)을 정답으로 사용:
| Split | Total | IDK 응답 수 | IDK 비율 |
|---|---|---|---|
| Train | 3,032 | 944 | 31.13% |
| Valid | 337 | 88 | 26.11% |
학습 데이터의 약 1/3이 동일한 IDK 문자열 → 모델이 이 패턴을 “안전한 기본 응답”으로 학습 (shortcut learning). 특히 1B 모델에서 3 epochs로 학습했기 때문에 이 패턴이 더욱 강화됨.
근거: 예측 로그 분석
1B SelfAware adapter의 cross-eval 예측 로그에서 IDK 응답 비율을 분석한 결과:
| Eval Task | Total | IDK 응답 수 | IDK 비율 | 비고 |
|---|---|---|---|---|
| GSM8K | 748 | 748 | 100% | 전 문항 IDK |
| MBPP | 97 | 73 | 75% | 대부분 IDK |
| ExploreToM | 1,469 | 962 | 65.5% | 과반수 IDK |
| TriviaQA | 700 | 10 | 1.4% | 정상 범위 |
| SelfAware | 337 | 111 | 33% | 정상 (학습 분포와 유사) |
참조 예측 로그 (1B, timestamp
20260219_001856):
selfaware_adapter_on_gsm8k.jsonlselfaware_adapter_on_exploretom.jsonlselfaware_adapter_on_mbpp.jsonl
구체적 응답 예시
GSM8K (수학 문제 → IDK):
Q: "In Professor Plum's biology class there are 40 students. Of those students,
80 percent have puppies. Of those who have puppies, 25% also have parrots.
How many students have both puppies and parrots?"
Expected: "8"
Generated: "I don't know the answer to this question."
ExploreToM (yes/no 판단 → IDK):
Q: "Does Sophia know about entertainment options? Answer yes or no."
Expected: "yes"
Generated: "I don't know the answer to this question."
MBPP (코딩 문제 → IDK):
Q: "Write a function to check if the triangle is valid or not."
Expected: "def validity_triangle(a,b,c): ..."
Generated: "I don't know the answer to this question."
수학 연산, yes/no 판단, 코드 생성 등 전혀 다른 유형의 task에서 동일한 IDK 문자열로 응답하는 것은, 모델이 task의 내용을 처리하지 않고 학습된 shortcut 패턴을 그대로 출력하고 있음을 보여줌.
해석 및 시사점
Shortcut Learning vs Genuine Catastrophic Forgetting
| 구분 | Catastrophic Forgetting | Shortcut Learning (본 사례) |
|---|---|---|
| 메커니즘 | 기존 능력의 파라미터가 덮어써짐 | 표면적 패턴을 과학습하여 일반화 실패 |
| 증상 | 다양한 오류 패턴 (random guessing 등) | 단일 응답 패턴 반복 |
| 원인 | 학습 데이터와 기존 지식의 간섭 | 학습 데이터의 편향된 분포 |
| GSM8K에서의 양상 | 잘못된 계산, 무관한 숫자 출력 등 | 100% “I don’t know” |
| 해결 방향 | Regularization, replay buffer 등 | 데이터 균형화, 다양한 표현 사용 |
SelfAware adapter가 GSM8K에서 0.0000을 기록한 것은 모델이 수학 능력을 “잊은” 것이 아니라, 모든 입력에 대해 학습된 IDK shortcut을 출력한 결과. TriviaQA에서 IDK 비율이 1.4%로 낮은 것은 TriviaQA와 SelfAware의 데이터 중복 (49개 동일 질문)으로 인해 해당 도메인에서는 다른 응답 패턴도 함께 학습되었기 때문으로 추정.
SelfAware 데이터셋의 구조적 한계
- 전체 학습 데이터의 31%가 완전히 동일한 문자열 — 이는 모델에게 매우 강한 학습 신호
- Unanswerable 질문에 대한 표현이 전혀 다양화되지 않음 (단 하나의 IDK 문자열)
- 1B 모델에서 3 epochs 학습 시 이 패턴이 약 2,832회 (944 × 3) 반복 노출
향후 개선 방향
- IDK 비율 축소: Unanswerable 질문 비율을 줄이거나, answerable 질문을 augmentation
- 다양한 거절 표현 사용: “I’m not sure”, “This question cannot be answered”, “I don’t have enough information” 등으로 IDK 응답을 다양화
- 대체 Self-Awareness 데이터셋 탐색: 단일 패턴 의존도가 낮은 데이터셋 발굴
- IDK 응답에 대한 loss weighting: IDK 응답의 학습 가중치를 낮추어 shortcut 학습 완화
SelfAware-Edited: IDK 비율 조정 실험 (Feb 20)
실험 설계
Shortcut learning 완화를 위해 train set의 IDK 비율을 31.1% → 5.0%로 조정한 데이터셋(data/selfaware-edited/)으로 재학습.
원본 (selfaware) | 수정 (selfaware-edited) | |
|---|---|---|
| Train total | 3,032 | 2,198 |
| Non-IDK | 2,088 | 2,088 (전체 유지) |
| IDK | 944 (31.1%) | 110 (5.0%, random subsample seed=42) |
| Valid | 337 (IDK 26.1%) | 337 (원본 동일) |
| Test | 337 | 337 (원본 동일) |
- Model: Llama-3.2-1B-Instruct-bf16
- Config:
config_1b_qlora.json(MLX에서 4bit 미지원 → bf16 fallback) - Training: SelfAware 3ep, batch 4×4=16, LR 2e-4 cosine
- Timestamp:
20260220_221232 - 스크립트:
prepare_selfaware_edited.py(데이터 생성),train_selfaware_edited.py(학습) - Adapter:
results/mlx-lora-selfaware-edited/20260220_221232/ - Best checkpoint: Iter 600, val_loss=1.1213
Training 경과
| Iter | Train Loss | Val Loss | 비고 |
|---|---|---|---|
| 1 | — | 8.831 | 초기 |
| 200 | 2.213 | 1.600 | |
| 400 | 2.246 | 1.462 | |
| 600 | 1.450 | 1.121 | ★ Best checkpoint |
| 800 | 1.163 | 1.470 | Overfitting 시작 |
| 1000 | 1.127 | 1.265 | |
| 1200 | 0.614 | 1.697 | |
| 1647 | 0.702 | 1.747 | Final |
Iter 600 이후 train loss는 계속 하락하나 val loss는 상승 — 전형적 overfitting. Best checkpoint (Iter 600)으로 cross-eval 수행.
Cross-Eval: Accuracy 비교
| Eval Dataset | 원본 selfaware (20260219_234546) | selfaware-edited (20260220_221232) | Delta |
|---|---|---|---|
| ExploreToM | 0.2512 | 0.2675 | +1.63% |
| SelfAware | 0.3205 | 0.2522 | −6.82% |
| GSM8K | 0.0000 | 0.0294 | +2.94% |
| TriviaQA | 0.1671 | 0.1943 | +2.71% |
| MBPP | 0.0000 | 0.0000 | 0.00% |
Cross-Eval: IDK 응답률 비교 (핵심)
| Eval Dataset | 원본 IDK율 | Edited IDK율 | Delta |
|---|---|---|---|
| ExploreToM | 908/1469 (61.8%) | 946/1469 (64.4%) | +2.6% |
| SelfAware | 111/337 (32.9%) | 73/337 (21.7%) | −11.3% |
| GSM8K | 748/748 (100.0%) | 12/748 (1.6%) | −98.4% |
| TriviaQA | 10/700 (1.4%) | 2/700 (0.3%) | −1.1% |
| MBPP | 91/97 (93.8%) | 26/97 (26.8%) | −67.0% |
결과 해석
1. Shortcut learning 완화 성공 (GSM8K, MBPP)
원본에서 GSM8K 100%, MBPP 93.8%였던 IDK 응답률이 각각 1.6%, 26.8%로 급감. 모델이 더 이상 IDK를 기본 응답 전략으로 사용하지 않으며, 실제로 문제를 시도하게 됨. IDK 비율 조정이 shortcut learning의 직접적 원인이었음을 확인하는 인과적 증거(causal evidence).
2. SelfAware in-domain 정확도 하락 (−6.82%)
IDK 샘플 축소로 “언제 모르겠다고 해야 하는지”를 덜 학습 → SelfAware 자체 정확도 하락. 이는 예상된 trade-off이며, IDK 판단 능력과 shortcut 방지 사이의 균형점 탐색이 필요.
3. ExploreToM IDK율은 여전히 높음 (64.4%) — 별도 원인 존재
GSM8K/MBPP의 IDK가 해소된 반면 ExploreToM은 오히려 미세 증가. 이는 shortcut이 아닌 다른 원인에 의한 것으로, 아래 추가 분석에서 상세 규명.
ExploreToM IDK 추가 분석: 응답 형식 불일치 (Format Mismatch)
질문 유형별 IDK 분포
selfaware-edited adapter의 ExploreToM cross-eval 결과 (20260220_221232)를 질문 유형별로 분석:
| 질문 유형 | n | IDK율 | Accuracy | Non-IDK Acc |
|---|---|---|---|---|
| belief (open-ended) — “Where does X think…?“ | 969 | 63.0% | 24.6% | 66.3% |
| yes/no belief — “Does X know…? Answer yes or no.” | 336 | 100.0% | 19.9%* | — |
| which (multiple choice) | 164 | 0.0% | 53.7% | 53.7% |
*yes/no 질문의 19.9% accuracy는 IDK 응답 중 expected가 우연히 IDK인 경우의 일치.
Expected 답변별 IDK 패턴 — 결정적 증거
| Expected Answer | n | IDK율 | 비고 |
|---|---|---|---|
"does not know about it" | 336 | 100% | 구문형 — SelfAware에 없는 형식 |
"knows about it" | 274 | 100% | 구문형 — SelfAware에 없는 형식 |
"yes" | 269 | 100% | SelfAware에 0.3%만 존재 |
"no" | 67 | 100% | SelfAware에 0.3%만 존재 |
| 장소/물건 명사 (operations room, plastic storage bin 등) | ~523 | 0% | SelfAware 응답 형식과 일치 |
완벽한 이분법: 명사/구 형태 답변은 IDK 0%, 그 외(yes/no, belief state 구문)는 IDK 100%.
원인: SelfAware 학습 데이터의 응답 형식 편향
SelfAware Non-IDK 응답의 분포:
| 특성 | 값 |
|---|---|
| 1–3단어 명사/구 형태 | 90.1% (1,882/2,088) |
| yes/no 형태 | 0.3% (7/2,088) |
| 응답 길이 median | 12자 |
| ”knows about it” / “does not know about it” 등 구문 | 0개 |
모델은 SelfAware SFT를 통해 “짧은 명사형 답변” 생성 패턴만 학습. ExploreToM에서:
- 장소/물건 이름 (e.g., “cardboard box”, “operations room”) → 학습 분포 내 → 정상 생성 (IDK 0%)
- yes/no → 학습 데이터에 거의 없음 (0.3%) → 생성 불가 → IDK fallback (100%)
- belief state 구문 (“knows about it”) → 학습 데이터에 전무 → 생성 불가 → IDK fallback (100%)
Shortcut Learning과의 구분
| Shortcut Learning (GSM8K) | Format Mismatch (ExploreToM) | |
|---|---|---|
| 메커니즘 | IDK 문자열을 기본 응답으로 과학습 | 학습 분포에 없는 응답 형식을 생성 불가 |
| IDK 비율 조정 효과 | ✅ 극적 개선 (100% → 1.6%) | ❌ 효과 없음 (61.8% → 64.4%) |
| IDK 발생 조건 | 입력 도메인과 무관하게 일괄 발생 | 특정 응답 형식에만 선택적 발생 |
| 해결 방향 | 데이터 균형화 (본 실험) | 응답 형식 다양화 또는 eval 프롬프트 통일 |
시사점
- ExploreToM IDK는 “모르겠다”가 아니라 “이 형식으로 답할 수 없다” — task difficulty가 아닌 output space mismatch
- IDK 비율 조정으로 해결 불가 — 별도의 접근 필요
- 가능한 해결 방향:
- ExploreToM eval 시 프롬프트를 명사형 답변으로 유도 (e.g., “Answer with the location name only”)
- SelfAware 학습 데이터에 yes/no, belief state 구문 등 다양한 응답 형식 추가
- Cross-eval 시 응답 형식이 호환되는 subset만 평가 (명사형 답변 질문 523개)
SelfAware F1 Score & Confusion Matrix 분석
SelfAware 평가를 Known (answerable) vs Unknown (unanswerable) 이진 분류로 재해석. 기존 exact-match accuracy는 답변의 표면 형태에 과도하게 의존하지만, 이 분석은 “모델이 답변 가능/불가능 여부를 올바르게 판별하는가”를 직접 측정한다.
분류 기준
- Ground Truth:
expected값에 IDK 패턴 포함 → Unknown (88개), 그 외 → Known (249개). Total 337. - Predicted:
generated값에 IDK 패턴 포함 → Predicted Unknown, 그 외 → Predicted Known - Positive class: Known (answerable)
- IDK 패턴 (16개):
i don't know,i do not know,i'm not sure,i cannot determine,i cannot answer,i don't have enough information,i'm unable to,i cannot provide등 - Known subset 답변 정확도: TP (Known이라고 올바르게 분류) 중 기존 exact-match로도 정답인 비율. Classification 성능과 답변 품질을 분리.
8B Group Confusion Matrices
Baseline (no adapter)
| Pred. Known (답변 시도) | Pred. Unknown (IDK) | Total | |
|---|---|---|---|
| Actual Known | TP = 235 | FN = 14 (Type 2) | 249 |
| Actual Unknown | FP = 82 (Type 1) | TN = 6 | 88 |
| Metric | Value |
|---|---|
| Classification Accuracy | 71.5% |
| Known Precision / Recall / F1 | 74.1% / 94.4% / 83.0% |
| Unknown Precision / Recall / F1 | 30.0% / 6.8% / 11.1% |
| Macro F1 | 47.1% |
| Type 1 Error Rate (과잉 확신) | 93.2% |
| Type 2 Error Rate (과잉 불확실성) | 5.6% |
| Known subset 답변 정확도 | 24.3% (57/235) |
| 기존 Exact-Match Accuracy | 17.2% |
SelfAware-edited (IDK 5%)
| Pred. Known (답변 시도) | Pred. Unknown (IDK) | Total | |
|---|---|---|---|
| Actual Known | TP = 245 | FN = 4 (Type 2) | 249 |
| Actual Unknown | FP = 24 (Type 1) | TN = 64 | 88 |
| Metric | Value |
|---|---|
| Classification Accuracy | 91.7% |
| Known Precision / Recall / F1 | 91.1% / 98.4% / 94.6% |
| Unknown Precision / Recall / F1 | 94.1% / 72.7% / 82.1% |
| Macro F1 | 88.3% |
| Type 1 Error Rate (과잉 확신) | 27.3% |
| Type 2 Error Rate (과잉 불확실성) | 1.6% |
| Known subset 답변 정확도 | 13.9% (34/245) |
| 기존 Exact-Match Accuracy | 29.7% |
SelfAware-edited-2 (IDK 0.6%)
| Pred. Known (답변 시도) | Pred. Unknown (IDK) | Total | |
|---|---|---|---|
| Actual Known | TP = 245 | FN = 4 (Type 2) | 249 |
| Actual Unknown | FP = 41 (Type 1) | TN = 47 | 88 |
| Metric | Value |
|---|---|
| Classification Accuracy | 86.6% |
| Known Precision / Recall / F1 | 85.7% / 98.4% / 91.6% |
| Unknown Precision / Recall / F1 | 92.2% / 53.4% / 67.6% |
| Macro F1 | 79.6% |
| Type 1 Error Rate (과잉 확신) | 46.6% |
| Type 2 Error Rate (과잉 불확실성) | 1.6% |
| Known subset 답변 정확도 | 14.7% (36/245) |
| 기존 Exact-Match Accuracy | 21.1% |
3B Group Confusion Matrices
Baseline (no adapter)
| Pred. Known (답변 시도) | Pred. Unknown (IDK) | Total | |
|---|---|---|---|
| Actual Known | TP = 225 | FN = 24 (Type 2) | 249 |
| Actual Unknown | FP = 85 (Type 1) | TN = 3 | 88 |
| Metric | Value |
|---|---|
| Classification Accuracy | 67.7% |
| Known Precision / Recall / F1 | 72.6% / 90.4% / 80.5% |
| Unknown Precision / Recall / F1 | 11.1% / 3.4% / 5.2% |
| Macro F1 | 42.9% |
| Type 1 Error Rate (과잉 확신) | 96.6% |
| Type 2 Error Rate (과잉 불확실성) | 9.6% |
| Known subset 답변 정확도 | 18.7% (42/225) |
| 기존 Exact-Match Accuracy | 12.8% |
SelfAware 원본 (IDK 31.1%)
| Pred. Known (답변 시도) | Pred. Unknown (IDK) | Total | |
|---|---|---|---|
| Actual Known | TP = 230 | FN = 19 (Type 2) | 249 |
| Actual Unknown | FP = 2 (Type 1) | TN = 86 | 88 |
| Metric | Value |
|---|---|
| Classification Accuracy | 93.8% |
| Known Precision / Recall / F1 | 99.1% / 92.4% / 95.6% |
| Unknown Precision / Recall / F1 | 81.9% / 97.7% / 89.1% |
| Macro F1 | 92.4% |
| Type 1 Error Rate (과잉 확신) | 2.3% |
| Type 2 Error Rate (과잉 불확실성) | 7.6% |
| Known subset 답변 정확도 | 12.6% (29/230) |
| 기존 Exact-Match Accuracy | 34.7% |
SelfAware-edited (IDK 5%)
| Pred. Known (답변 시도) | Pred. Unknown (IDK) | Total | |
|---|---|---|---|
| Actual Known | TP = 239 | FN = 10 (Type 2) | 249 |
| Actual Unknown | FP = 18 (Type 1) | TN = 70 | 88 |
| Metric | Value |
|---|---|
| Classification Accuracy | 91.7% |
| Known Precision / Recall / F1 | 93.0% / 96.0% / 94.5% |
| Unknown Precision / Recall / F1 | 87.5% / 79.5% / 83.3% |
| Macro F1 | 88.9% |
| Type 1 Error Rate (과잉 확신) | 20.5% |
| Type 2 Error Rate (과잉 불확실성) | 4.0% |
| Known subset 답변 정확도 | 11.7% (28/239) |
| 기존 Exact-Match Accuracy | 29.7% |
1B Group Confusion Matrices
SelfAware 원본 (IDK 31.1%)
| Pred. Known (답변 시도) | Pred. Unknown (IDK) | Total | |
|---|---|---|---|
| Actual Known | TP = 224 | FN = 25 (Type 2) | 249 |
| Actual Unknown | FP = 2 (Type 1) | TN = 86 | 88 |
| Metric | Value |
|---|---|
| Classification Accuracy | 92.0% |
| Known Precision / Recall / F1 | 99.1% / 90.0% / 94.3% |
| Unknown Precision / Recall / F1 | 77.5% / 97.7% / 86.4% |
| Macro F1 | 90.4% |
| Type 1 Error Rate (과잉 확신) | 2.3% |
| Type 2 Error Rate (과잉 불확실성) | 10.0% |
| Known subset 답변 정확도 | 8.5% (19/224) |
| 기존 Exact-Match Accuracy | 32.0% |
SelfAware-edited (IDK 5%)
| Pred. Known (답변 시도) | Pred. Unknown (IDK) | Total | |
|---|---|---|---|
| Actual Known | TP = 237 | FN = 12 (Type 2) | 249 |
| Actual Unknown | FP = 27 (Type 1) | TN = 61 | 88 |
| Metric | Value |
|---|---|
| Classification Accuracy | 88.4% |
| Known Precision / Recall / F1 | 89.8% / 95.2% / 92.4% |
| Unknown Precision / Recall / F1 | 83.6% / 69.3% / 75.8% |
| Macro F1 | 84.1% |
| Type 1 Error Rate (과잉 확신) | 30.7% |
| Type 2 Error Rate (과잉 불확실성) | 4.8% |
| Known subset 답변 정확도 | 9.3% (22/237) |
| 기존 Exact-Match Accuracy | 25.2% |
종합 비교 테이블
| Model | Run | Train IDK | Type 1 (과잉확신) | Type 2 (과잉불확실) | Known F1 | Unknown F1 | Macro F1 | Cls. Acc | Known 답변정확도 | 기존 Acc |
|---|---|---|---|---|---|---|---|---|---|---|
| 8B | Baseline | — | 93.2% | 5.6% | 83.0% | 11.1% | 47.1% | 71.5% | 24.3% | 17.2% |
| 8B | SelfAware-ed (5%) | 5% | 27.3% | 1.6% | 94.6% | 82.1% | 88.3% | 91.7% | 13.9% | 29.7% |
| 8B | SelfAware-ed-2 (0.6%) | 0.6% | 46.6% | 1.6% | 91.6% | 67.6% | 79.6% | 86.6% | 14.7% | 21.1% |
| 3B | Baseline | — | 96.6% | 9.6% | 80.5% | 5.2% | 42.9% | 67.7% | 18.7% | 12.8% |
| 3B | SelfAware 원본 (31.1%) | 31.1% | 2.3% | 7.6% | 95.6% | 89.1% | 92.4% | 93.8% | 12.6% | 34.7% |
| 3B | SelfAware-ed (5%) | 5% | 20.5% | 4.0% | 94.5% | 83.3% | 88.9% | 91.7% | 11.7% | 29.7% |
| 1B | SelfAware 원본 (31.1%) | 31.1% | 2.3% | 10.0% | 94.3% | 86.4% | 90.4% | 92.0% | 8.5% | 32.0% |
| 1B | SelfAware-ed (5%) | 5% | 30.7% | 4.8% | 92.4% | 75.8% | 84.1% | 88.4% | 9.3% | 25.2% |
해석: IDK 비율 변화에 따른 Type 1/Type 2 Trade-off
1. Baseline의 극단적 과잉 확신
Fine-tuning 없는 baseline 모델은 Type 1 error 93-97%로 unanswerable 질문에도 거의 항상 답변을 시도한다 (Unknown F1 5-11%). 이는 instruct-tuned LLM의 “helpful but overconfident” 기본 성향을 반영하며, SelfAware 학습의 가장 핵심적 효과가 이 과잉 확신 억제에 있음을 보여준다.
2. IDK 31.1% 학습: in-domain 최적, but cross-domain shortcut
| Type 1 | Type 2 | Macro F1 | |
|---|---|---|---|
| 3B 원본 (31.1%) | 2.3% | 7.6% | 92.4% |
| 1B 원본 (31.1%) | 2.3% | 10.0% | 90.4% |
IDK 31.1% 학습은 Type 1 error를 2.3%로 극적으로 낮추고 Macro F1 90%+ 달성. in-domain SelfAware 분류 성능으로는 최적이지만, 이 높은 IDK 비율이 cross-eval에서 GSM8K 100% IDK, MBPP 94% IDK라는 shortcut learning을 유발한 원인이기도 하다 (상세).
3. IDK 5% 학습: 균형점
| Type 1 | Type 2 | Macro F1 | |
|---|---|---|---|
| 8B edited (5%) | 27.3% | 1.6% | 88.3% |
| 3B edited (5%) | 20.5% | 4.0% | 88.9% |
| 1B edited (5%) | 30.7% | 4.8% | 84.1% |
Type 1 error는 20-31%로 상승하지만 (과잉 확신 증가), Type 2 error가 1.6-4.8%로 감소 (과잉 불확실성 해소). Cross-eval에서 GSM8K IDK가 100%→1.6%, MBPP가 94%→27%로 해소되는 것을 고려하면, in-domain에서 Macro F1 3-6%p를 양보하고 cross-domain shortcut을 제거하는 trade-off로 해석.
4. IDK 0.6% 학습: 과교정 (overcorrection)
8B edited-2 (0.6%)는 Type 1 error 46.6%, Unknown F1 67.6%, Macro F1 79.6%로 5% 대비 전면 악화. IDK를 거의 제거하면 모델이 unanswerable 질문까지 답변을 시도하여 baseline 방향으로 회귀한다. IDK 비율의 최적 구간은 5% 근처이며, 그 이하로 줄이면 self-awareness 자체가 손상.
5. 기존 Exact-Match Accuracy와의 괴리
| Model/Run | Cls. Acc | 기존 Acc | Gap |
|---|---|---|---|
| 3B 원본 (31.1%) | 93.8% | 34.7% | 59.1%p |
| 1B 원본 (31.1%) | 92.0% | 32.0% | 60.0%p |
| 8B edited (5%) | 91.7% | 29.7% | 62.0%p |
Classification accuracy가 92-94%인데 기존 accuracy는 30-35% — 60%p 차이. 이 gap은 모델이 “답변 가능 여부”는 정확히 판별하지만, 실제 답변 내용은 ground truth와 surface form이 달라 정답 처리되지 않기 때문이다 (e.g., “Equator” vs “latitude 0 degrees n”). Known subset 답변 정확도 9-19%가 이를 확인. 기존 exact-match accuracy만으로는 SelfAware 학습의 진정한 효과를 과소평가하게 된다.
Key Findings & Interpretation
1. ToM↔Self 유사도가 가장 높다 — 가설 지지 (4-pair)
TriviaQA confound를 제외한 4-pair 분석에서:
- ToM↔Self가 전체 6 pair 중 1위 (1B 원본, 3B 원본, 1B edited 모두)
- 1B: 0.1269 (control avg 0.0977, gap +0.029)
- 3B: 0.1672 (control avg 0.0818, gap +0.085)
- 8B (edited): 0.1414 (control avg 0.1040, gap +0.037) — #2 (ToM↔MBPP에 근소하게 열위)
- 1B (edited): 0.1441 (control avg 0.1032, gap +0.041) — #1 유지, gap 41% 증가
- 전 모델·전 설정에서 global permutation test p < 0.001
이는 ToM과 Self-Awareness가 공유 표상을 가진다는 가설을 지지한다. Selfaware-edited에서 IDK shortcut을 제거하면 gap이 더 커지는 것은, 원본의 “IDK 일변도” 학습이 Self adapter의 표상을 일부 오염시켰을 가능성을 시사.
2. 후반 레이어에서의 수렴 — 추상화 레이어에서의 공유 표상
- 3B (28 layers): layer 8 이후부터 ToM↔Self가 대조군과 명확히 분리, 26/28 layers significant
- 1B (16 layers): layer 6 이후부터 유사한 패턴, 13/16 layers significant
- 초기 레이어 (shallow features)에서는 차이 미미 → 토큰/구문 수준이 아닌 고차 의미 표상 수준에서의 공유
이는 인간 뇌에서 ToM과 Self가 기본 모드 네트워크 (default mode network) 의 고차 영역에서 겹치는 패턴과 유사.
3. Scale-up 효과: 더 큰 모델에서 더 강한 dissociation
4-pair (TriviaQA 제외) — 1B vs 3B vs 8B
| Metric | 1B (16L) | 3B (28L) | 8B-ed (32L) | 비고 |
|---|---|---|---|---|
| Dissociation gap | 0.029 | 0.085 | 0.037 | 3B > 8B > 1B |
| Gap ratio | 1.30× | 2.04× | 1.36× | |
| Significant layers | 13/16 (81%) | 26/28 (93%) | 32/32 (100%) | 8B 전층 유의 |
| Post-hoc: 최소 Cohen’s d | 0.27 | 1.09 | 0.04 (Self↔MBPP) | 8B에서 Self↔MBPP과 거의 동일 |
| Omnibus rank | #1 | #1 | #2 | 8B에서 ToM↔MBPP이 #1 |
4-pair Selfaware-Edited 효과 (IDK shortcut 제거)
| Metric | 1B (orig) | 1B (edited) | 변화 |
|---|---|---|---|
| Dissociation gap | 0.029 | 0.041 | +41% |
| Gap ratio | 1.30× | 1.40× | +8%p |
| Significant layers | 13/16 | 14/16 | +1 layer |
| Omnibus rank | #1 | #1 | 유지 |
| 5-pair permutation p | 0.075 (n.s.) | 0.029 (*) | n.s. → significant |
5-pair — 1B vs 3B vs 8B
| Metric | 1B (16L) | 3B (28L) | 8B (32L) | 비고 |
|---|---|---|---|---|
| ToM↔Self mean | 0.1269 | 0.1672 | 0.1414 | |
| Dissociation gap | 0.010 | 0.063 | 0.031 | 8B > 1B |
| Permutation p-value | 0.075 (n.s.) | < 0.001 | < 0.001 | 8B에서 유의 회복 |
| Significant layers | 13/16 (81%) | 26/28 (93%) | 32/32 (100%) | 8B 전층 유의 |
| Omnibus p-value | < 0.001 | < 0.001 | < 0.001 | 전 모델 유의 |
| ToM↔Self omnibus rank | #3/10 | #2/10 | #3/10 |
8B 해석: TriviaQA confound가 있는 5-pair에서도 8B는 1B와 달리 global p < 0.001을 달성하고 32개 레이어 전부(100%) 유의한 것이 핵심. 이는 모델 스케일이 커질수록 ToM↔Self 공유 표상 신호가 noise를 넘어서 일관되게 강화됨을 시사.
4-pair 분석은 8B에서 미수행→ ✅ 8B 4-pair 완료: gap=0.037, p < 0.001, 32/32 layers significant. ToM↔MBPP(0.161)이 ToM↔Self(0.141)보다 근소하게 높아 2이나, 대부분의 control pair와 유의한 차이 유지.
3-1. 8B QLoRA Cross-Eval에서의 Scale-up 관찰 (Feb 22)
8B 모델의 cross-eval 결과에서 규모 증가에 따른 패턴 변화:
| 관찰 | 1B | 3B | 8B | 해석 |
|---|---|---|---|---|
| ExploreToM in-domain | 0.84 | 0.89 | 0.91 | 일관된 향상 |
| GSM8K in-domain | 0.52 | 0.75 | 0.77 | 수렴 조짐 |
| TriviaQA → ExploreToM (전이) | 0.51 | 0.59 | 0.66 | 규모 증가에 따라 전이 강화 |
| GSM8K → 전체 task 보존 | 부분적 | 부분적 | 거의 완전 | 8B GSM8K가 유일한 “범용” adapter |
| SelfAware-ed → ExploreToM | — | — | 0.36 (≈baseline) | Shortcut 완화로 역전이 없음 확인 |
8B GSM8K adapter의 특이성: GSM8K QLoRA가 모든 5개 task에서 baseline과 동등 또는 상회하는 유일한 adapter. ExploreToM (+20%), TriviaQA (−3%), MBPP (+2%), SelfAware (−22%)로, 수학적 추론 학습이 다른 능력을 거의 손상시키지 않음. 이는 mathematical reasoning이 LLM의 범용 능력과 가장 호환되는 fine-tuning target임을 시사.
8B Cosine Similarity에서의 주요 발견:
- ToM↔MBPP가 8B에서 #2 rank로 급상승 (1B #4, 3B #4 → 8B #2, mean=0.1608) — ToM↔Self(0.1414)보다 높음. 이는 cross-eval에서 MBPP adapter가 8B에서 높은 범용성을 보이는 패턴과 일치. 4-pair에서도 동일 패턴 확인: ToM↔MBPP #1 (0.161), ToM↔Self #2 (0.141)
- Self↔TriviaQA가 여전히 #1 (0.1876) — data leakage에 의한 confound가 규모에 무관하게 지속
- 32/32 레이어 전부 유의 (permutation test) — 1B 13/16, 3B 26/28에 이어 8B에서 100% 달성. 모델 깊이가 증가할수록 ToM↔Self > ToM↔GSM8K 패턴이 전 레이어에 걸쳐 일관됨
- Layer 13–25에서 가장 강한 효과 (Δ > 0.08) — 중후반 레이어에서의 표상 공유가 두드러지며, 이는 1B/3B의 후반 레이어 수렴 패턴과 일치
- SelfAware-edited 효과: 1B에서 gap +41% 증가 (0.029→0.041), 5-pair p=0.075→0.029 (n.s.→significant). IDK shortcut 제거가 Self 표상을 정제하여 ToM과의 공유 신호 강화
4. TriviaQA Confound — 데이터 오염으로 인한 허위 유사도
- Self↔TriviaQA: 1B 0.204, 3B 0.223 → ToM↔Self보다 높음
- ToM↔TriviaQA: 1B 0.142, 3B 0.154 → 마찬가지로 높음
- 5-pair 분석에서 1B dissociation이 유의하지 않게 됨 (p=0.075)
원인 규명 (Data Leakage Analysis): SelfAware와 TriviaQA 학습 데이터 간 49개 동일 질문이 존재하는 것으로 확인. SelfAware는 다양한 출처의 질문을 모아 답변 가능 여부를 레이블링한 데이터셋이므로, TriviaQA 유래 질문이 포함된 것으로 추정. 8-gram containment 기준 102개 example이 중복 flagged.
이로 인해 Self adapter와 TriviaQA adapter가 동일한 질문에 대해 학습하면서 가중치 이동 방향이 유사해졌고, cosine similarity가 인위적으로 부풀려졌음.
→ 4-pair (TriviaQA 제외) 분석이 오염 없는 유일한 비교이므로 primary analysis로 확정. 5-pair는 오염 영향을 보여주는 참고 자료로만 사용.
5. Cross-Eval에서의 전이 패턴
| 패턴 | 3B Δ (vs baseline) | 해석 |
|---|---|---|
| TriviaQA → ExploreToM | 0.59 (baseline 0.32, +82%) | TriviaQA의 사실 지식 + 자연어 이해가 ToM 추론에 전이 |
| GSM8K → ExploreToM | 0.50 (baseline 0.32, +54%) | 수학적 단계적 추론이 belief tracking에 전이 |
| SelfAware → ExploreToM | 0.27 (baseline 0.32, −17%) | Self 학습이 ToM을 오히려 저해 |
| SelfAware → GSM8K | 0.001 / 0.000 | ⚠️ Shortcut learning — IDK 패턴 과학습 (상세: SelfAware Shortcut Learning Analysis). IDK 비율 5%로 축소 시 0→2.94%로 개선 확인 (SelfAware-Edited) |
| ExploreToM → SelfAware | 8B: 0.1187 (baseline 0.1721, −31%) | ExploreToM의 짧은 명사형 style transfer로 IDK 판별 불가. 비대칭적 전이: Self→ToM은 +3%, ToM→Self는 −31% |
주목할 점: TriviaQA, GSM8K → ExploreToM의 양방향 전이가 크다는 것은 ExploreToM의 ToM 추론이 일반적 언어 이해 + 논리적 추론에 크게 의존함을 시사. 반면 SelfAware는 매우 task-specific한 학습을 유발하며, 특히 학습 데이터의 31%를 차지하는 동일 IDK 문자열이 shortcut으로 작용하여 out-of-domain에서 일괄 IDK 응답을 유발 (catastrophic forgetting이 아닌 shortcut learning으로 재해석됨).
6. SelfAware Shortcut Learning → 인과적 확인 완료
IDK 비율을 31.1% → 5.0%로 조정한 selfaware-edited 실험에서:
- GSM8K IDK: 100% → 1.6%, MBPP IDK: 93.8% → 26.8% — shortcut이 원인이었음을 인과적으로 확인
- ExploreToM IDK (64.4%)는 shortcut이 아닌 **응답 형식 불일치(format mismatch)**로 별도 규명
- 상세: SelfAware-Edited 실험, ExploreToM IDK 분석
7. 후속 실험 필요
더 큰 모델 (7B, 13B): scale-up 효과가 지속되는지 확인→ ✅ 8B QLoRA 완료: cross-eval + cosine similarity + permutation test. 32/32 layers significant, global p < 0.0018B 4-pair 분석 (TriviaQA 제외)→ ✅ 완료: gap=0.037, p < 0.001, 32/32 layers significant, rank #2 (ToM↔MBPP이 #1)SelfAware-edited로 전체 파이프라인 재실행→ ✅ 완료: 1B/8B에서 gap 증가 확인 (+41%/+28%), 1B 5-pair가 n.s. → significant (p=0.029)로 전환. 상세: Cosine Similarity Analysis — SelfAware-Edited- TriviaQA 대안 control: fact retrieval이 아닌 다른 general knowledge task 탐색
- SelfAware epochs 통일: 3B에서도 3 epochs로 재학습하여 공정 비교
- 1B baseline 측정: 5-task era에서의 no-adapter baseline 별도 수행
- 3B MBPP baseline + 전체 cross-eval 보완: 초기 adapter들의 MBPP eval 수행
- Permutation test refinement: layer-level FDR correction 적용
- 3B selfaware-edited 동일 조건 재실행: 현재 3B-ed 결과는 혼합 양자화(bf16+qlora) artifact — 3B QLoRA 5-task 통합 run 필요
- ExploreToM eval 프롬프트 통일: 응답 형식 호환 subset 평가 또는 프롬프트 수정
메모
- instruct model과 base model 중 mlx에서 지원하는 것이 instruct라 instruct로 진행
- 1B 결과를 놓고 보면, Tom-adapter는 ExploreToM에서 크게 향상(0.40→0.74)되나 SelfAware는 하락(0.10→0.05). Self-adapter는 반대 패턴. 두 능력이 단순히 같이 올라가지는 않음
- Run 5: Cosine similarity 분석에서 ToM↔Self가 후반 레이어(특히 Attention)에서 대조군 대비 뚜렷하게 높음 — 고차 의미 처리 레이어에서의 표상 공유 시사
- Run 6/7: 5-task 확장으로 더 엄격한 control 확보. 4-pair 분석에서 ToM↔Self dissociation이 1B/3B 모두에서 통계적으로 유의
- TriviaQA가 “순수한” control이 아닌 것으로 판명 — SelfAware와 49개 동일 질문 공유 (data leakage 확인). 향후 control task 선정에 주의 필요
- SelfAware LoRA의 out-of-domain 성능 붕괴는 catastrophic forgetting이 아닌 shortcut learning으로 확인 — 학습 데이터의 31%가 동일한 IDK 문자열이며, 모델이 이를 기본 응답 전략으로 과학습. GSM8K에서 1B 748/748 (100%) IDK 응답이 결정적 증거
- 3B에서의 모든 post-hoc comparison Cohen’s d > 1.0은 매우 강력한 효과 크기 — 논문 보고 시 긍정적
- 8B Cosine Similarity (Feb 22): 5-pair 분석에서 global permutation p < 0.001, 32/32 layers significant. 1B (p=0.075 n.s.)에서 유의하지 않았던 5-pair가 8B에서 회복. ToM↔MBPP이 2로 급상승한 것이 특이점 — 8B MBPP adapter의 cross-eval 범용성과 일치. 후속으로 4-pair (TriviaQA 제외) 분석 필요
- SelfAware-Edited (Feb 20): IDK 31.1%→5.0% 조정으로 GSM8K IDK 100%→1.6%, MBPP 93.8%→26.8% — shortcut learning의 인과적 확인. SelfAware in-domain은 32.1%→25.2%로 하락 (예상된 trade-off)
- ExploreToM IDK 원인 규명: expected answer가 명사형이면 IDK 0%, yes/no 또는 belief state 구문이면 IDK 100% — shortcut이 아닌 응답 형식 불일치(format mismatch). SelfAware 학습 데이터의 90%가 1-3단어 명사/구 응답이라 이 형식 외에는 생성 불가