Pilot Test Results

SC-TOM Pilot 실험 결과 정리. Llama-3.2 (1B / 3B) 모델에 5개 task (ExploreToM, SelfAware, GSM8K, TriviaQA, MBPP)를 각각 LoRA fine-tuning한 후, cross-evaluation과 cosine similarity 분석을 통해 ToM과 Self-Awareness 간의 표상 공유를 검증.


Experiment Runs

Run 1: 20260218 (Feb 18) — 3B 5-task ★★

  • Model: Llama-3.2-3B-Instruct-bf16
  • LoRA: rank=8, scale=1.0, dropout=0.05, all layers (lora_num_layers=-1)
  • Training: ExploreToM 1ep / SelfAware 1ep / GSM8K 1ep / TriviaQA 1ep / MBPP 1ep
  • Batch: 2 × 8 = effective 16, grad_checkpoint=true
  • LR: 2e-4, cosine decay, warmup 5%
  • Timestamps:
    • Baseline: 20260218_012033
    • ExploreToM: 20260218_104723
    • SelfAware: 20260218_155336
    • GSM8K: 20260218_164927
    • TriviaQA: 20260218_200753
    • MBPP: 20260218_222920
  • Cross-eval: ✅ 5×5 matrix (단, ExploreToM/SelfAware/GSM8K/TriviaQA adapter는 MBPP eval 미포함)
  • Cosine similarity: ✅ 4-pair + 5-pair 분석, permutation test, omnibus test
  • 비고: SelfAware epochs 3→1로 변경 (다른 task와 통일). TriviaQA, MBPP control 추가.

Run 2: 20260219_001856 (Feb 19) — 1B 5-task ★★

  • Model: Llama-3.2-1B-Instruct-bf16
  • LoRA: rank=8, scale=1.0, dropout=0.05, all layers (lora_num_layers=-1)
  • Training: ExploreToM 1ep / SelfAware 3ep / GSM8K 1ep / TriviaQA 1ep / MBPP 1ep
  • Batch: 4 × 4 = effective 16
  • LR: 2e-4, cosine decay, warmup 5%
  • Timestamp: 20260219_001856 (공유)
  • Cross-eval: ✅ 완전한 5×5 matrix
  • Cosine similarity: ✅ 4-pair + 5-pair 분석, permutation test, omnibus test
  • 비고: 1B에서는 SelfAware 3 epochs 유지 (데이터 작아 3ep 필요). Baseline 미별도 측정.

Run 3: 20260221_002706 (Feb 21–22) — 8B QLoRA 5-task

  • Model: Llama-3.1-8B-Instruct (MLX 4-bit pre-quantized: mlx-community/Llama-3.1-8B-Instruct-4bit)
  • QLoRA: rank=8, scale=1.0, dropout=0.05, all layers, 4-bit quantization (NF4)
  • Training: ExploreToM 1ep / SelfAware-edited 1ep / GSM8K 1ep / TriviaQA 1ep / MBPP 1ep
  • Batch: 2 × 8 = effective 16, grad_checkpoint=true
  • LR: 2e-4, cosine decay, warmup 5%, lr_end_ratio=0.1
  • Timestamp: 20260221_002706 (training 공유), 20260222_032515 (baseline)
  • Cross-eval: ✅ 완전한 5×5 matrix + baseline
  • Cosine similarity: ✅ 4-pair + 5-pair 분석, permutation test, omnibus test
  • 비고: SelfAware를 IDK 5%로 축소한 selfaware-edited 데이터셋 사용. 1B/3B pilot 대비 scale-up 효과 검증. 총 소요 ~28시간.

Training Summary

TaskTrain SamplesItersTime (min)Best val_lossBest iter
ExploreToM11,8405,920860.70.0225,600
SelfAware-edited2,1981,09931.21.2091,099
GSM8K6,7253,362297.20.532400
TriviaQA6,3003,15098.30.5803,150
MBPP87743845.50.569400

Experiment Config 비교

항목Run 1 ★★Run 2 ★★Run 3
Model3B1B8B
Quantizationbf16bf164-bit (QLoRA)
LoRA rank888
LoRA scale1.01.01.0
Tasks555
ExploreToM ep111
SelfAware ep131 (edited)
GSM8K ep111
TriviaQA ep111
MBPP ep111
LR schedulecosine+warmupcosine+warmupcosine+warmup
Batch2×8=164×4=162×8=16
grad_checkpoint
All layers
Cosine sim
Permutation test

⚠️ SelfAware 차이: Run 1은 1 epoch (원본), Run 2는 3 epochs (원본, 소규모 데이터 보완), Run 3은 1 epoch (selfaware-edited, IDK 5%로 축소). Run 3에서 shortcut learning 완화를 위해 IDK 비율 31.1% → 5.0%로 조정한 데이터셋 사용.

Configuration Parameter Reference

18개 config 파일의 핵심 파라미터를 모델 크기별로 그룹핑한 요약표.

ConfigModelPrecisionRankScaleDropoutLRBatch (eff)
config_1bLlama 3.2 1Bbf1681.00.052e-44×4=16
config_1b_r16bf16160.50.081.5e-44×4=16
config_1b_r32bf16320.50.11e-44×4=16
config_1b_qlora4bit81.00.052e-44×4=16
config_1b_qlora_r164bit160.50.081.5e-44×4=16
config_1b_qlora_r324bit320.50.11e-44×4=16
config_3bLlama 3.2 3Bbf1681.00.052e-42×8=16
config_3b_r16bf16160.50.081.5e-42×8=16
config_3b_r32bf16320.50.11e-42×8=16
config_3b_qlora4bit81.00.052e-42×8=16
config_3b_qlora_r164bit160.50.081.5e-42×8=16
config_3b_qlora_r324bit320.50.11e-42×8=16
config_8bLlama 3.1 8Bbf1681.00.052e-41×16=16
config_8b_r16bf16160.50.081.5e-41×16=16
config_8b_r32bf16320.50.11e-41×16=16
config_8b_qlora4bit81.00.052e-41×16=16
config_8b_qlora_r164bit160.50.081.5e-41×16=16
config_8b_qlora_r324bit320.50.11e-41×16=16

Full Pipeline Status

5-Task = ExploreToM + SelfAware + GSM8K + TriviaQA + MBPP 전부 학습 완료 여부.

Config5-Task SFTCross-EvalCosine (4p)Cosine (5p)Perm TestSelf VariantTriviaQA비고
1B bf16 r8orig (3ep)origRun 2 (20260219)
3B bf16 r8orig (1ep)origRun 1 (20260218)
8B 4bit r8editedorigRun 3 (20260221)
1B bf16 r16
1B bf16 r32
1B 4bit r8~r32MLX에서 1B 4bit fallback→bf16
3B bf16 r16
3B bf16 r32
3B 4bit r8
3B 4bit r16
3B 4bit r32
8B bf16 r8~r328B bf16은 Metal OOM 위험
8B 4bit r16
8B 4bit r32

18개 config 중 3개만 full pipeline 완료 (16.7%). r16/r32 rank sensitivity 실험은 전무.

개별 Variant Adapter 현황

Full 5-task 외에 단일 task만 개별 학습한 variant adapter 목록.

AdapterModelRankQuantTimestampCross-EvalCosine Sim비고
selfaware-edited (1B)1B8bf1620260220_221232IDK 5%
selfaware-edited (3B)3B84bit20260222_234559⚠️혼합 양자화 (bf16 lora + qlora)
selfaware-edited (8B)8B84bit20260221_002706Run 3에 포함
selfaware-edited-2 (8B)8B84bit20260223_234150IDK 다양화, r8
selfaware-edited-2 (8B)8B16bf1620260225_130700r16 첫 실험, cross-precision eval
selfaware-edited-2 (8B)8B164bit20260225_152202OOM@iter1920, best ckpt saved (iter800)
triviaqa-v2데이터 생성 완료, 학습 미수행

미수행 실험 요약

우선순위실험상세비고
1TriviaQA-v2 재학습data leak 43+6개 제거 후 3개 run 재실행train_triviaqa_v2.py 준비 완료
2SelfAware-edited-2 full 5-task현재 개별 adapter만 존재, 전체 파이프라인 필요cosine sim 분석에 필수
38B r16 4bit cross-eval20260225_152202 best ckpt 기반 재실행GPU 점유 해제 후 가능
43B qlora 5-task 통합 run3B-edited 혼합 양자화 문제 해결동일 조건 비교 필요
5Rank sensitivity (r16, r32)15개 config 미실행, full 5-task 필요논문 robustness 분석용
6HumanEvalconfig에 정의, 데이터 존재, 학습 미수행코드 생성 control 추가
71B baselineno-adapter baseline 미측정Run 2에서 누락

Hyperparameter Justification

5개 task에 동일한 hyperparameter를 적용하여, adapter 간 cosine similarity 차이가 hyperparameter artifact가 아닌 task-level 표상 공유에서 기인함을 보장하는 것이 핵심 설계 원칙.

Learning Rate: 2e-4

LoRA fine-tuning의 표준 학습률은 1e-4 ~ 2e-4 범위. Full fine-tuning (1e-5 ~ 3e-5)보다 약 10배 높은데, LoRA는 학습 가능 파라미터가 극히 적어 (전체의 ~0.5%) 더 높은 LR이 필요하기 때문. Raschka (2023)는 수백 건의 LoRA 실험에서 1e-4를 starting point로 제안하며, Lightning AI (2023)는 1e-4 ~ 3e-4를 최적 범위로 보고. 본 실험의 2e-4는 이 범위의 중간값으로, rank=8에서 경험적으로 안정적인 수렴을 보임.

LR Schedule: Cosine Decay + Warmup 5%

Warmup (5%): 학습 초기에 gradient가 크고 불안정 → 작은 LR에서 시작하여 점진적으로 올려 파라미터 divergence를 제한 (Gilmer et al., 2024). 5%는 1-epoch fine-tuning에서 과도하지 않은 conservative 설정.

Cosine decay: Linear decay 대비 peak LR 근처에서 더 오래 학습하여 loss landscape 탐색에 유리하고, 후반부의 graceful decay가 수렴 안정성을 높임 (Loshchilov & Hutter, 2017). GPT-3, LLaMA, Alpaca 등 주요 LLM 학습에서 표준으로 채택.

본 실험에서의 특수한 의의: LoRA delta의 cosine similarity를 분석하는 연구 특성상, 모든 task에 동일한 학습 역학(dynamics)을 부여하는 것이 중요. Cosine schedule은 task 간 학습 곡선 형태를 통일하여, adapter 간 유사도 차이가 schedule artifact가 아닌 genuine task similarity를 반영하도록 함.

LoRA Rank: 8

Hu et al. (2021) 원논문의 기본값. GPT-3 175B에서 rank 4~8로도 full fine-tuning 수준의 성능을 달성하였으며, 핵심 발견은 “ΔW has a very small intrinsic rank” — rank를 64로 올려도 추가 의미 있는 subspace를 커버하지 못한다는 것. Rank 8은 1B/3B 소형 모델에서 충분한 expressiveness를 제공하면서, adapter 파라미터 수를 최소화하여 cosine similarity 분석의 noise를 줄임.

LoRA Scale: 1.0 (effective α = rank × scale = 8)

MLX 프레임워크에서 lora_scale=1.0은 PEFT의 lora_alpha=8에 해당 (effective scaling = α/r = 8/8 = 1.0). 일반적 권장은 α = 2×rank (effective scaling = 2.0)이나, 본 실험에서 conservative한 scale=1.0을 선택한 이유는 LoRA delta의 magnitude를 과도하게 키우면 adapter 간 cosine similarity가 표상(direction)보다 학습 강도(intensity)에 좌우될 위험이 있기 때문. Scale=1.0은 adapter가 원래 weight에 과도한 영향을 미치지 않도록 하여, 표상 방향이 task semantics를 더 잘 반영하도록 함.

LoRA Dropout: 0.05

Lin et al. (2024)에 따르면 LoRA dropout이 sparsity regularizer로 작용하여 generalization error bound를 줄임. 0.05는 5%의 LoRA activation만 zeroing하는 mild regularization으로, overfitting을 방지하면서 학습 용량을 거의 손상시키지 않음. Dropout > 0.1에서는 adapter 학습 능력이 저하되므로 0.05가 conservative default.

Target Layers: All Layers (lora_num_layers=-1)

Dettmers et al. (2023, QLoRA)은 모든 linear layer에 LoRA 적용 시 최적 성능을 보고. Raschka (2023) 역시 “targeting all layers is crucial for matching the performance of full fine-tuning”로 요약. 본 실험에서 특히 중요한 이유: cosine similarity를 layer별로 분석하므로, 모든 layer에 adapter가 존재해야 전체 depth에 걸친 표상 변화를 추적 가능.

Epochs: 1 (SelfAware 1B만 3)

1 epoch은 LLM fine-tuning에서 overfitting 방지를 위한 표준적 선택. 대부분의 dataset이 수천~수만 example이므로 1 epoch으로도 충분한 학습이 가능. SelfAware 1B에서만 3 epochs를 적용한 이유는 ~1,000 train examples로 데이터가 적어 1B 모델에서 1 epoch만으로는 불충분하기 때문. 3B에서는 모델 용량이 충분하여 SelfAware도 1 epoch으로 통일 (task 간 공정 비교 우선).

Effective Batch Size: 16

LoRA는 large batch에서 성능 저하 경향이 있으며 (Lightning AI, 2023), 16은 학습 안정성과 sample efficiency의 균형점. 3B는 메모리 제약으로 micro-batch=2 + grad_accumulation=8, 1B는 micro-batch=4 + grad_accumulation=4로 구성하되 effective batch size를 동일하게 유지하여 모델 크기 간 비교 공정성 확보.

요약표

HyperparameterValuePrimary Justification
Learning rate2e-4LoRA 표준 범위 (Raschka, 2023)
LR schedulecosine + 5% warmupLLM FT 표준 (Loshchilov & Hutter, 2017)
LoRA rank8원논문 기본값, intrinsic low rank (Hu et al., 2021)
LoRA scale (α)1.0 (α=8)Conservative — cosine sim이 방향 반영하도록
LoRA dropout0.05Mild regularization (Lin et al., 2024)
Target layersAll (-1)최적 성능 + 전층 분석 필요 (Dettmers et al., 2023)
Epochs1Overfitting 방지; task 간 통일
Effective batch16Moderate; 모델 간 동일

References

  • Hu, E. J. et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685.
  • Dettmers, T. et al. (2023). QLoRA: Efficient Finetuning of Quantized Language Models. arXiv:2305.14314.
  • Loshchilov, I. & Hutter, F. (2017). SGDR: Stochastic Gradient Descent with Warm Restarts. ICLR 2017.
  • Lin, Y. et al. (2024). LoRA Dropout as a Sparsity Regularizer for Overfitting Control. arXiv:2404.09610.
  • Gilmer, J. et al. (2024). Why Warmup the Learning Rate? Underlying Mechanisms and Improvements. arXiv:2406.09405.
  • Raschka, S. (2023). Practical Tips for Finetuning LLMs Using LoRA. Sebastian Raschka’s Magazine.

Training Method Justification: SFT vs GRPO

5개 benchmark를 학습하는 방법으로 SFT(Supervised Fine-Tuning)와 GRPO(Group Relative Policy Optimization)를 비교 검토한 결과, All SFT 유지를 결정.

SFT vs GRPO 핵심 차이

SFT (현재 채택)GRPO
학습 신호Token-level cross-entropy (정답 출력 복제)Reward signal (결과 정확성 기반 강화)
최적화 대상P(정답 토큰 | 입력) 최대화E[reward] 최대화 (group 내 상대 비교)
필요 조건Gold output 존재Verifiable reward function
생성 방식Teacher forcing (학습 시 생성 없음)프롬프트당 G개 출력 생성(G=4~16) → 점수 비교
계산 비용G× (416배)
학습 결과출력 형식 + 내용 모방정답에 도달하는 전략 학습
Value model불필요불필요 (PPO와 달리 critic 없음)

GRPO(DeepSeek, 2024)는 PPO의 critic model을 제거하고, 동일 프롬프트에 G개 출력을 생성한 뒤 group 내 상대 reward 비교로 policy를 최적화하는 방법. “정답을 외우게 하는” SFT와 달리, “정답에 도달하는 방법을 탐색하게 하는” RL 접근.

Benchmark별 GRPO 적합도

BenchmarkGRPO 적합도Reward 정의근거
GSM8K★★★ 최적최종 숫자 정답 exact matchDeepSeek-R1, Qwen-Math의 canonical use case. 다양한 풀이 경로 탐색 가능
MBPP★★★ 최적Test case pass/fail코드 실행 결과로 명확한 binary reward. 단 sandbox 환경 필요
TriviaQA★★ 가능Answer exact/fuzzy match가능하나 답변이 짧은 사실(entity)이라 탐색 공간이 좁아 GRPO 이점 제한적
ExploreToM★ 어려움질문 유형별 별도 설계 필요yes/no, 장소명, belief state 등 다양한 answer format → reward function 복잡
SelfAware✗ 불가자동 reward 정의 불가”모르겠다”의 적절성을 자동 판별 불가. 답변 가능 여부의 ground truth가 reward로 사용 불가

Cosine Similarity 분석에 대한 영향

SFT adapterGRPO adapter
학습하는 것출력 분포 모방 (surface pattern)정답 도달 전략 (reasoning pattern)
Weight delta 의미”이 task의 출력 형식/내용” 방향”이 task를 풀기 위한 추론” 방향
Cosine sim 해석출력 형식 유사성 반영 가능추론 전략 유사성 반영 가능

인간 뇌과학에서의 ToM↔Self 공유 표상은 추론 과정 수준의 공유이므로, 이론적으로는 GRPO가 연구 가설에 더 부합하는 학습 방법일 가능성이 있음. 다만 이는 사변적이고, SFT에서도 이미 유의미한 결과(global p < 0.001, 32/32 layers significant)를 달성.

All SFT 유지 결정 근거

1. 실험 통일성 (결정적)

본 연구의 cosine similarity 분석은 5개 task에 동일한 학습 조건을 적용하는 것이 핵심 전제. SelfAware에 GRPO를 적용할 수 없으므로 5개 task 전체의 GRPO 통일이 불가능. SFT와 GRPO를 혼합하면 “ToM↔Self 유사도가 높은 건 둘 다 SFT라서”라는 confound 반론이 성립하여, adapter 간 유사도 차이가 학습 방법 차이인지 task-level 표상 공유인지 분리 불가.

2. SelfAware의 GRPO 불가

SelfAware는 “이 질문에 답할 수 있는가?”를 판단하는 task로, 자동 reward function 정의가 구조적으로 불가. ExploreToM도 다양한 answer format(yes/no, 장소명, belief state 구문)에 대한 reward 설계가 복잡. → 5개 task 중 2개(가설 pair의 양쪽)가 GRPO 부적합.

3. 이미 충분한 결과

SFT로도 global permutation test p < 0.001, 32/32 layers significant (8B), Cohen’s d > 1.0 (3B 4-pair) 달성. 학습 방법을 변경하지 않아도 연구 가설을 통계적으로 지지하는 결과를 확보.

4. 실질적 제약

제약상세
MLX에서 GRPO 미지원현재 MLX-LM은 SFT만 지원. GRPO 학습에는 HuggingFace TRL + CUDA 환경 필요
계산 비용프롬프트당 416개 생성 → 8B 모델 기준 학습 시간 416× 증가 (현재 28시간 → 100450시간 추정)
Reward 구현 복잡도GSM8K/MBPP는 straightforward, ExploreToM은 질문 유형별 분기 필요, SelfAware는 불가

향후 확장 가능성

GRPO를 추가 실험으로 수행할 경우의 구성안:

단계구성목적
현재 (완료)All SFT (5 task)Primary analysis — cosine similarity + permutation test
확장 1GSM8K + MBPP만 GRPO 재학습Cross-eval 성능 비교 (cosine similarity 분석 대상 아님)
확장 2ExploreToM + GSM8K + TriviaQA + MBPP를 All GRPOGRPO adapter 간 cosine similarity 별도 분석 (SelfAware 제외)
확장 3SFT → GRPO 2-stageSFT adapter 위에 GRPO 추가 학습, stage별 cosine similarity 비교

확장 2~3은 CUDA 환경(TRL) 확보 시 수행 가능. SelfAware를 제외하므로 “ToM↔Self” pair 분석은 불가하나, “ToM↔Control” 비교로 ToM adapter의 표상 특성을 GRPO 맥락에서 분석 가능.

References

  • Shao, Z. et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300. (GRPO 제안)
  • DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948. (GRPO를 대규모 추론 모델에 적용)

Cross-Eval Results (Accuracy)

Run 1 — Llama-3.2-3B 5-task (Feb 18) ★★

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAMBPP
Baseline0.32400.2789†0.66180.4743
ExploreToM LoRA0.88560.09790.08290.4500
SelfAware LoRA0.26820.34720.00130.4171
GSM8K LoRA0.49970.15430.75000.5457
TriviaQA LoRA0.59020.11280.12170.4843
MBPP LoRA0.45880.13350.36760.52000.5155

⚠️ ExploreToM/SelfAware/GSM8K/TriviaQA adapter의 MBPP eval은 미수행 (MBPP가 cross-eval에 추가되기 전에 학습 완료). MBPP adapter만 전체 5-task eval 수행.

SelfAware Baseline 재평가 (0.1276 → 0.2789): 원래 strict string matching으로 평가된 SelfAware baseline accuracy를 lenient content matching으로 재평가. 337개 전체 샘플을 수동 검토하여 의미적 동치 관계를 반영 (예: “Equator” = “latitude 0 degrees N”, “Pontius Pilate” = “ponchus pilot”, “Generation X” = ”🅇”). 57건 변경 (F→T 54건, T→F 3건). IDK 정답의 경우 모델이 불확실성을 표현하면 정답 처리. 상세: results/predictions/20260218_012033/baseline_selfaware_reevaluated.xlsx

Run 2 — Llama-3.2-1B 5-task (Feb 19) ★★

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAMBPP
ExploreToM LoRA0.84280.05340.02540.24860.2577
SelfAware LoRA0.23010.32340.00000.16710.0103
GSM8K LoRA0.42750.11280.51740.38140.3299
TriviaQA LoRA0.51060.06820.04280.31290.0309
MBPP LoRA0.30290.10980.33160.36710.3608

⚠️ 1B 5-task baseline (no-adapter) 별도 측정 미수행. Run 3 기준 1B baseline: ExploreToM 0.4003, SelfAware 0.1009.

Run 3 — Llama-3.1-8B QLoRA 5-task (Feb 21–22)

Adapter \ EvalExploreToMSelfAwareGSM8KTriviaQAMBPP
Baseline (8B)0.35530.17210.66580.61860.6082
ExploreToM QLoRA0.91010.11870.09760.46570.5773
SelfAware-ed QLoRA0.36490.29670.11360.48430.2887
GSM8K QLoRA0.42480.13350.77010.60290.6186
TriviaQA QLoRA0.66030.12170.15910.57430.5876
MBPP QLoRA0.40910.12760.29950.60290.5155

SelfAware는 IDK 5%로 축소한 selfaware-edited 데이터셋 사용. Baseline timestamp: 20260222_032515.

Cross-Eval 주요 관찰

In-domain 향상 — 모든 adapter가 자기 도메인에서 baseline 대비 향상:

  • 3B: ExploreToM 0.32→0.89, SelfAware 0.28→0.35†, GSM8K 0.66→0.75
  • 1B: ExploreToM 0.84, SelfAware 0.32, GSM8K 0.52 (baseline 비교 불가)
  • 8B: ExploreToM 0.36→0.91 (+155%), GSM8K 0.67→0.77 (+16%), SelfAware-ed 0.17→0.30 (+72%)

Cross-domain catastrophic forgetting:

  • SelfAware LoRA → GSM8K: 3B 0.0013, 1B 0.0000 (완전 망각)
  • SelfAware LoRA → MBPP: 1B 0.0103 (거의 완전 망각)
  • ExploreToM LoRA → GSM8K: 3B 0.0829, 1B 0.0254
  • 8B: ExploreToM QLoRA → GSM8K 0.0976 (baseline 0.6658 대비 −85%), SelfAware-ed → MBPP 0.2887 (−53%)

전이 패턴 (흥미로운 관찰):

  • TriviaQA LoRA → ExploreToM: 3B 0.5902 (+82%), 1B 0.5106, 8B 0.6603 (+86%) — 규모 증가에도 TriviaQA→ToM 전이 일관
  • GSM8K LoRA → ExploreToM: 3B 0.4997 (+54%), 1B 0.4275, 8B 0.4248 (+20%) — 8B에서 전이 폭 축소
  • GSM8K LoRA: 8B에서 거의 모든 task를 baseline 수준 유지/향상 — 유일한 “범용” adapter
  • MBPP LoRA → TriviaQA: 3B 0.5200 (+10%), 1B 0.3671, 8B 0.6029 (−3%) — 8B에서는 전이 효과 소실
  • SelfAware LoRA → ExploreToM: 3B 0.2682 (−17%), 1B 0.2301, 8B-edited 0.3649 (+3%) — edited 데이터셋으로 역전이 해소
  • ExploreToM QLoRA → SelfAware: 8B 0.1187 (baseline 0.1721, −31%) — ExploreToM 학습이 SelfAware(짧은 사실 QA + IDK 판단) 능력을 저하. 상세: 아래 ExploreToM→SelfAware 전이 분석 참조

SelfAware-Edited Adapter 정성적 분석

SelfAware-edited adapter가 각 벤치마크에서 어떤 유형의 응답을 생성하는지에 대한 상세 정성적 분석. 응답 형식 전이(Style Transfer) 현상과 오답 패턴을 문항 단위로 분류.

⚠️ 주의: 보고서의 Run A(20260221_002706)는 Llama 3.1 8B QLoRA, Run B(20260222_234559)는 Llama 3.2 3B QLoRA. 두 Run의 성능 차이는 모델 크기 차이가 주 원인.

주요 발견:

  • GSM8K: CoT 억제 — Baseline 평균 574자 풀이 → Run A(8B) 평균 7자 (짧은 숫자만 출력)
  • ExploreToM: belief_2nd 질문에서 baseline 대비 +12.9%p 향상 (SC-TOM 가설 일관, 8B Run A)
  • MBPP: Run A(8B)에서 함수명만 출력(22.7%), IDK(11.3%) 등 비정상 패턴 다수
  • MBPP 역전: Run B(3B)가 Run A(8B)보다 정확도 높음 (40.2% > 28.9%) — Llama 3.2 세대 개선 가능성
  • TriviaQA: 짧은 답변 형식 호환으로 IDK 거의 없음, 다만 -22% 정확도 하락 (8B 기준)

📄 상세 보고서: Qualitative Analysis - SelfAware-Edited Cross-Domain.md

ExploreToM→SelfAware 전이 분석 (8B)

ExploreToM으로 학습한 8B adapter가 SelfAware 평가에서 baseline 대비 어떻게 변화하는지 분석.

정확도 비교 (SelfAware eval, 337문항)

조건전체 정확도IDK-expected (88)Non-IDK-expected (249)IDK 생성 수평균 응답 길이
Baseline 8B0.17210.00000.23293 (0.9%)242자
ExploreToM QLoRA0.1187 (−31%)0.00000.1606 (−31%)1 (0.3%)10자
SelfAware-ed QLoRA0.2967 (+72%)0.72730.1446 (−38%)68 (20.2%)16자

참고: Baseline의 SelfAware 정확도(0.1721)는 strict string matching 기준. Lenient matching으로 재평가 시 0.2789 (Run 1 참조).

핵심 관찰

1. ExploreToM adapter도 style transfer 발생 — 응답 길이 242자 → 10자로 96% 축소

ExploreToM의 응답 형식(짧은 명사구: 장소명, 용기명)이 SelfAware에 전이되어, Baseline의 장문 설명(242자) 대신 짧은 단어/구(10자)로 응답.

  • ExploreToM 학습 형식: "cardboard box", "operations room", "yes", "no"
  • SelfAware에서의 출력: "equator", "Jennifer Lopez", "impedance" — 1-3단어 명사/구

이는 SelfAware-ed adapter의 style transfer(짧은 답변 출력)와 동일한 메커니즘이지만, SelfAware 데이터의 90%도 짧은 명사형이므로 형식 자체는 호환됨.

2. IDK-expected 질문에서 IDK를 전혀 생성하지 않음 (0/88)

ExploreToM 데이터에는 “I don’t know” 패턴이 없으므로, adapter가 IDK 생성 능력을 갖고 있지 않음. 88개의 “답할 수 없는 질문”에 대해 모두 짧은 사실형 답변을 시도:

IDK-expected 질문BaselineExploreToM adapter
”Would you rather be in a bad relationship…”장문 설명 (토론형)"single forever"
”Why does every rule have exceptions?”장문 설명 (분석형)"human nature"
”What is the reason for life?”장문 철학적 설명"existential question"
”When will human cloning become safe?”장문 과학적 설명"never"
”Is there a risk to be dependent on AI?”장문 위험 분석"yes"

→ Baseline은 “모른다”고 직접 말하지 않지만 불확실성을 표현하는 장문 응답. ExploreToM adapter는 “무조건 짧게 답한다” — 답할 수 없는 질문에도 1-2단어로 답변 시도.

3. 전체 정확도 하락(−31%)의 원인 분석

교차 분류건수비고
Both correct32Baseline과 ExploreToM 모두 정답
Baseline only correct26Baseline은 맞지만 ExploreToM은 틀림
ExploreToM only correct8ExploreToM만 정답 (짧은 답이 매칭에 유리)
Both wrong271둘 다 오답
  • ExploreToM이 이기는 8건: "no", "paper", "about 20%", "mast", "negative" 등 — 짧은 정확한 답이 strict matching에서 오히려 유리한 경우
  • Baseline이 이기는 26건: 장문 속에 정답이 포함되어 있어 매칭 성공, ExploreToM은 부분적/다른 단어로 실패
  • Near-miss 사례 (의미적으로 맞지만 strict fail): "Jennifer Lopez" (expected: “list of jennifer lopez concerts”), "Japan" (expected: “japan country”), "hearing" (expected: “hearing sense”) — 최소 10건 이상

4. SC-TOM 관점에서의 해석

방향AdapterSelfAware 점수해석
Self → ToMSelfAware-ed → ExploreToM0.3649 (+3%)미세 향상 (양성 전이)
ToM → SelfExploreToM → SelfAware0.1187 (−31%)하락 (음성 전이)

양방향이 비대칭: SelfAware→ExploreToM은 양성 전이, ExploreToM→SelfAware는 음성 전이. 이 비대칭은:

  • SelfAware의 “모르는 것을 안다”는 능력이 ToM의 false belief 추론에 도움을 줄 수 있으나,
  • **ExploreToM의 “사실 추적 + 믿음 추론”**은 SelfAware의 “답할 수 없는 질문 판별” 능력으로 전이되지 않음
  • 이는 Self-Awareness가 ToM에 대해 상위 수준의 메타인지적 역할을 할 가능성을 시사 — 코사인 유사도 분석에서 ToM↔Self가 높은 것과 일관되나, cross-eval에서의 전이 방향은 비대칭적

단, strict string matching의 한계로 ExploreToM adapter의 실제 SelfAware 성능이 과소평가되었을 가능성이 높음 (near-miss 10건+). Lenient matching 재평가 시 격차가 축소될 수 있음.


Metrics Reference

본 문서에서 사용하는 통계 지표에 대한 간략한 설명.

유사도 지표

지표설명범위
Cosine similarity두 LoRA adapter의 weight delta 벡터 간 방향 유사도. 1이면 동일 방향, 0이면 직교, −1이면 반대 방향. 본 실험에서는 layer별로 fused delta (Δ_W = lora_a @ lora_b)를 flatten하여 계산.[−1, 1]
N-gram containment텍스트 A의 n-gram 중 텍스트 B에도 등장하는 비율. 데이터 중복 검출에 사용. 1.0이면 A의 모든 n-gram이 B에 포함됨.[0, 1]
Jaccard similarity두 집합의 교집합 / 합집합. 데이터셋 수준의 n-gram 중복도 측정에 사용.[0, 1]

효과 크기 (Effect Size)

지표설명해석 기준
Cohen’s d두 그룹 평균 차이를 풀링된 표준편차로 나눈 값. 표본 크기와 무관하게 차이의 실질적 크기를 나타냄.|d| < 0.2: 무시 가능, 0.2–0.5: small, 0.5–0.8: medium, > 0.8: large
Dissociation gapToM↔Self 유사도 평균에서 control pair 유사도 평균을 뺀 값. 양수일수록 가설 pair가 control보다 유사.절대값; 크기 자체로 해석
Gap ratioToM↔Self 유사도 / control 평균. 1.0이면 차이 없음, 2.0이면 가설 pair가 control의 2배.≥ 1.0

통계 검정 (Statistical Tests)

지표설명유의 기준
Permutation test귀무가설(pair 간 유사도 차이 없음) 하에서 관찰된 차이가 우연히 발생할 확률. 분포 가정 없이 label을 무작위로 재배정하여 p-value를 추정하는 비모수 검정.p < 0.05
Bonferroni correction다중 비교 시 false positive를 통제하기 위해 유의수준을 비교 횟수로 나누는 보정. 예: 5개 비교 시 α = 0.05/5 = 0.01. 가장 보수적인 보정 방법.보정된 p < 0.05

p-value 해석 참고: p < 0.001은 해당 차이가 우연에 의해 발생할 확률이 0.1% 미만임을 의미. 단, p-value는 효과의 크기가 아닌 통계적 유의성만 나타내므로, 반드시 Cohen’s d 등 효과 크기와 함께 해석해야 함.


Cosine Similarity Analysis (Run 6 & 7)

5개 adapter의 LoRA fused delta (Δ_W = lora_a @ lora_b)를 layer별로 cosine similarity 측정.

4-Pair Analysis (TriviaQA 제외)

TriviaQA가 야기하는 confound를 배제하고 순수한 ToM↔Self dissociation을 측정.

Pair-wise Summary

Pair1B Overall1B Attn1B MLP3B Overall3B Attn3B MLP
ToM↔Self0.12690.12750.12610.16720.15800.1794
ToM↔GSM8K0.07420.07350.07520.07360.06860.0804
ToM↔MBPP0.10270.11190.09050.08330.08760.0776
Self↔GSM8K0.08910.08950.08870.08590.08530.0867
Self↔MBPP0.11210.12110.10020.09220.10200.0791
GSM8K↔MBPP0.11020.11870.09880.07370.08050.0646

Dissociation & Permutation Test

Metric1B3B
ToM↔Self mean0.12690.1672
Control avg (5 pairs)0.09770.0818
Dissociation gap0.02920.0854
Gap ratio (ToM↔Self / control)1.30×2.04×
Permutation p-value (global)< 0.001< 0.001
Significant layers (p < 0.05)13/1626/28

4-Pair Plots — 3B

3B Heatmap (4-pair)

3B Lineplot (4-pair)

3B Permutation Test (4-pair)

3B Omnibus Test (4-pair)

4-Pair Plots — 1B

1B Heatmap (4-pair)

1B Lineplot (4-pair)

1B Permutation Test (4-pair)

1B Omnibus Test (4-pair)

4-Pair Omnibus Test

Rank1B Pair1B Mean3B Pair3B Mean
1ToM↔Self0.1269ToM↔Self0.1672
2Self↔MBPP0.1121Self↔MBPP0.0922
3GSM8K↔MBPP0.1102Self↔GSM8K0.0859
4ToM↔MBPP0.1027ToM↔MBPP0.0833
5Self↔GSM8K0.0891GSM8K↔MBPP0.0737
6ToM↔GSM8K0.0742ToM↔GSM8K0.0736

Post-hoc (ToM↔Self vs each control, Bonferroni corrected):

1B: vs PairDiffp (corrected)Cohen’s d3B: vs PairDiffp (corrected)Cohen’s d
vs ToM↔GSM8K+0.053< 0.0011.11vs ToM↔GSM8K+0.094< 0.0011.38
vs ToM↔MBPP+0.0240.0010.48vs ToM↔MBPP+0.084< 0.0011.15
vs Self↔GSM8K+0.038< 0.0010.72vs Self↔GSM8K+0.081< 0.0011.18
vs Self↔MBPP+0.0150.0540.27vs Self↔MBPP+0.075< 0.0011.09
vs GSM8K↔MBPP+0.0170.0540.30vs GSM8K↔MBPP+0.093< 0.0011.42

1B에서 Self↔MBPP, GSM8K↔MBPP과의 차이는 Bonferroni 보정 후 경계적 유의수준 (p≈0.054). 3B에서는 모든 대조군 대비 유의 (p < 0.001, d > 1.0).


5-Pair Analysis (TriviaQA 포함)

TriviaQA를 포함한 전체 10-pair 분석. TriviaQA confound로 인한 해석 주의 필요.

5-Pair Summary (상위 pair 중심)

Pair1B Overall3B Overall8B Overall비고
Self↔TriviaQA0.20370.22250.1876⚠️ 전체 1위 유지 (data leakage)
ToM↔MBPP0.10270.08330.16088B에서 급상승 (#2)
ToM↔Self0.12690.16720.1414가설 pair (#3)
Self↔MBPP0.11210.09220.1390
ToM↔TriviaQA0.14190.15360.1217
TriviaQA↔MBPP0.12230.07740.1053

5-Pair Dissociation

Metric1B3B8B
ToM↔Self mean0.12690.16720.1414
Control avg (9 pairs)0.11710.10440.1101
Dissociation gap0.00980.06280.0313
Gap ratio (ToM↔Self / control)1.08×1.60×1.28×
Permutation p-value0.075 (n.s.)< 0.001< 0.001
Significant layers13/1626/2832/32

⚠️ TriviaQA confound: Self↔TriviaQA가 ToM↔Self보다 높아, TriviaQA가 control avg를 끌어올려 dissociation gap이 축소됨. 1B에서는 global p=0.075로 유의하지 않음. → 4-pair (TriviaQA 제외) 분석이 더 conservative하고 신뢰성 높음.

8B에서는 TriviaQA confound에도 불구하고 global p < 0.001 (***), 32/32 layers 전부 유의 — 1B의 non-significant 결과와 대조적. Scale-up이 ToM↔Self 신호를 TriviaQA 노이즈 위로 끌어올림.

5-Pair Omnibus Ranks

Rank1B Pair1B Mean3B Pair3B Mean8B Pair8B Mean
1Self↔TriviaQA0.2037Self↔TriviaQA0.2225Self↔TriviaQA0.1876
2ToM↔TriviaQA0.1419ToM↔Self0.1672ToM↔MBPP0.1608
3ToM↔Self0.1269ToM↔TriviaQA0.1536ToM↔Self0.1414
4TriviaQA↔MBPP0.1223Self↔MBPP0.0922Self↔MBPP0.1390
5Self↔MBPP0.1121Self↔GSM8K0.0859ToM↔TriviaQA0.1217

8B Omnibus F-test: p < 0.001 (***), F_obs=0.001741. Post-hoc에서 ToM↔Self vs 7/9 pairs 유의 (p_adj < 0.05). Self↔MBPP과는 거의 동일 (d=0.039, n.s.), Self↔TriviaQA에는 열위 (d=−0.707, ***; data leakage).

5-Pair Plots — 3B

3B Heatmap (5-pair)

3B Lineplot (5-pair)

3B Permutation Test (5-pair)

3B Omnibus Test (5-pair)

5-Pair Plots — 1B

1B Heatmap (5-pair)

1B Lineplot (5-pair)

1B Permutation Test (5-pair)

1B Omnibus Test (5-pair)

5-Pair Plots — 8B

8B Lineplot (5-pair)

8B Heatmap (5-pair)

8B Permutation Test (5-pair)

8B Omnibus Test (5-pair)


Cosine Similarity Analysis — SelfAware-Edited

원본 SelfAware (IDK 31.1%) 대신 selfaware-edited (IDK 5.0%) adapter를 사용하여 cosine similarity를 재분석. Shortcut learning 완화가 ToM↔Self 유사도 패턴에 미치는 영향을 검증.

Adapter 출처:

  • 1B: ExploreToM/GSM8K/TriviaQA/MBPP = mlx-lora-*/20260219_001856 (bf16), SelfAware-edited = mlx-lora-selfaware-edited/20260220_221232 (bf16)
  • 8B: 전체 5 task = mlx-qlora-*/20260221_002706 (4bit QLoRA) — 동일 run
  • 3B: ExploreToM/GSM8K/TriviaQA/MBPP = mlx-lora-*/20260218 (bf16), SelfAware-edited = mlx-qlora-selfaware-edited/20260222_234559 (4bit QLoRA) — ⚠️ 혼합 양자화, 해석에 주의 필요

SelfAware-Edited: 4-Pair Analysis (TriviaQA 제외)

Pair-wise Summary

Pair1B-ed Overall1B-ed Attn1B-ed MLP8B-ed Overall8B-ed Attn8B-ed MLP
ToM↔Self0.14410.14470.14330.14140.13320.1524
ToM↔GSM8K0.07420.07350.07520.06810.06190.0765
ToM↔MBPP0.10270.11190.09050.16080.15070.1741
Self↔GSM8K0.09800.08950.08870.07340.07220.0749
Self↔MBPP0.13090.12110.10020.13900.14320.1333
GSM8K↔MBPP0.11020.11870.09880.07860.07830.0789

⚠️ 3B-ed 결과는 혼합 양자화(bf16 + qlora) 문제로 별도 표기: ToM↔Self = 0.0578, Control avg = 0.0574, Gap ≈ 0 (p=0.461, n.s.). 직접 비교 불가.

Dissociation & Permutation Test

Metric1B (orig)1B (edited)3B (orig)3B (edited)⚠️8B (edited)
ToM↔Self mean0.12690.14410.16720.05780.1414
Control avg (5 pairs)0.09770.10320.08180.05740.1040
Dissociation gap0.0290.0410.0850.0000.037
Gap ratio1.30×1.40×2.04×1.01×1.36×
Permutation p-value< 0.001< 0.001< 0.0010.461 (n.s.)< 0.001
Significant layers13/1614/1626/281/3232/32

핵심 발견: SelfAware-edited adapter를 사용하면 1B에서 gap이 0.029 → 0.041로 41% 증가, 유의 레이어도 13 → 14/16으로 향상. 8B에서는 32/32 전층 유의 유지. IDK shortcut 제거가 Self adapter의 표상을 더 “순수한” self-awareness 방향으로 이동시킨 것으로 해석 가능.

3B는 bf16 lora + qlora 혼합으로 weight magnitude가 체계적으로 다르므로, gap 붕괴는 양자화 artifact일 가능성이 높음. 동일 조건의 3B qlora 5-task run이 필요.

4-Pair Omnibus Test — SelfAware-Edited

Rank1B-ed Pair1B-ed Mean8B-ed Pair8B-ed Mean
1ToM↔Self0.1441ToM↔MBPP0.1608
2Self↔MBPP0.1309ToM↔Self0.1414
3GSM8K↔MBPP0.1102Self↔MBPP0.1390
4ToM↔MBPP0.1027GSM8K↔MBPP0.0786
5Self↔GSM8K0.0980Self↔GSM8K0.0734
6ToM↔GSM8K0.0742ToM↔GSM8K0.0681

Post-hoc (ToM↔Self vs each control, Bonferroni corrected):

1B-ed: vs PairDiffp (corrected)Cohen’s d8B-ed: vs PairDiffp (corrected)Cohen’s d
vs ToM↔GSM8K+0.070< 0.0011.41vs ToM↔GSM8K+0.073< 0.0011.36
vs ToM↔MBPP+0.041< 0.0010.79vs ToM↔MBPP−0.0190.020−0.24
vs Self↔GSM8K+0.046< 0.0010.82vs Self↔GSM8K+0.068< 0.0011.34
vs Self↔MBPP+0.0130.107 (n.s.)0.22vs Self↔MBPP+0.0020.671 (n.s.)0.04
vs GSM8K↔MBPP+0.034< 0.0010.58vs GSM8K↔MBPP+0.063< 0.0011.21

1B-ed: ToM↔Self가 #1으로 유지 (원본과 동일). Self↔MBPP과의 차이만 비유의 (d=0.22) — 원본(d=0.27, p≈0.054)과 유사한 패턴.

8B-ed: ToM↔MBPP가 #1, ToM↔Self가 #2. ToM↔MBPP과는 ToM↔Self가 오히려 낮음 (d=−0.24, p=0.020). Self↔MBPP과는 거의 동일 (d=0.04, n.s.). → 8B에서 MBPP adapter의 높은 범용성이 4-pair에서도 확인됨.

4-Pair Plots — SelfAware-Edited 1B

1B-ed Heatmap (4-pair)

1B-ed Lineplot (4-pair)

1B-ed Permutation Test (4-pair)

1B-ed Omnibus Test (4-pair)

4-Pair Plots — SelfAware-Edited 8B

8B-ed Heatmap (4-pair)

8B-ed Lineplot (4-pair)

8B-ed Permutation Test (4-pair)

8B-ed Omnibus Test (4-pair)

SelfAware-Edited: 5-Pair Analysis (TriviaQA 포함)

5-Pair Summary (상위 pair 중심)

Pair1B-ed Overall3B-ed⚠️ Overall8B-ed Overall비고
Self↔TriviaQA0.27560.09250.1876⚠️ 1B-ed에서 최고치 (data leakage)
ToM↔TriviaQA0.14190.15360.1217
ToM↔Self0.14410.05780.1414가설 pair
Self↔MBPP0.13090.02640.1390
ToM↔MBPP0.10270.08330.16088B에서 #2

5-Pair Dissociation — Original vs Edited 비교

Metric1B (orig)1B (edited)3B (orig)3B (edited)⚠️8B (edited)
ToM↔Self mean0.12690.14410.16720.05780.1414
Control avg (9 pairs)0.11710.12820.10440.07640.1101
Dissociation gap0.0100.0160.063−0.0190.031
Permutation p-value0.075 (n.s.)0.029< 0.0011.0 (n.s.)< 0.001
Significant layers13/1614/1626/281/3232/32

1B에서의 중요한 변화: 원본 SelfAware 5-pair에서 p=0.075 (non-significant)였던 결과가, selfaware-edited에서 **p=0.029 (significant)**로 전환. IDK shortcut 제거가 Self adapter의 표상을 정제하여 ToM↔Self 신호가 TriviaQA noise를 넘어서게 됨.

5-Pair Omnibus Ranks — SelfAware-Edited

Rank1B-ed Pair1B-ed Mean8B-ed Pair8B-ed Mean
1Self↔TriviaQA0.2756Self↔TriviaQA0.1876
2ToM↔Self0.1441ToM↔MBPP0.1608
3ToM↔TriviaQA0.1419ToM↔Self0.1414
4Self↔MBPP0.1309Self↔MBPP0.1390
5TriviaQA↔MBPP0.1223ToM↔TriviaQA0.1217

1B-ed 5-pair: ToM↔Self가 2로 상승 (원본에서는 #3). Self↔TriviaQA(data leakage)만 상위.

5-Pair Plots — SelfAware-Edited 1B

1B-ed Lineplot (5-pair)

1B-ed Heatmap (5-pair)

1B-ed Permutation Test (5-pair)

1B-ed Omnibus Test (5-pair)

5-Pair Plots — SelfAware-Edited 8B

8B-ed Lineplot (5-pair)

8B-ed Heatmap (5-pair)

8B-ed Permutation Test (5-pair)

8B-ed Omnibus Test (5-pair)

SelfAware-Edited 종합 비교: Original vs Edited

설정1B Gap (orig→ed)3B Gap (orig→ed)8B Gap (ed)
4-pair0.029 → 0.041 (+41%)0.085 → 0.000⚠️0.037
5-pair0.010 → 0.016 (+60%)0.063 → −0.019⚠️0.031
4-pair p-value<0.001 → <0.001<0.001 → 0.461<0.001
5-pair p-value0.075 → 0.029<0.001 → 1.0<0.001
4-pair rank#1 → #1#1 → #4#2
5-pair rank#3 → #2#2 → #8#3

결론: 1B와 8B에서 selfaware-edited는 원본 대비 dissociation gap 증가 및 통계적 유의성 강화. IDK shortcut 제거가 Self adapter의 표상을 더 순수한 self-awareness 방향으로 이동시켜 ToM과의 공유 신호가 더 명확해짐. 3B는 양자화 혼합 문제로 해석 불가 — 동일 조건 재실행 필요.


Data Leakage Analysis

5개 학습 데이터셋 간 텍스트 중복을 검증하여, cosine similarity 결과가 데이터 오염에 의한 것이 아닌지 확인. (analyze_data_leakage.py)

Level 1: Exact Duplicate Check

Dataset PairExact Duplicates비고
SelfAware train ↔ TriviaQA train38⚠️ 동일 질문 공유
SelfAware train ↔ TriviaQA valid6⚠️ train→valid 오염
SelfAware valid ↔ TriviaQA train5⚠️ valid→train 오염
그 외 모든 pair (42개)0✓ clean
Within-dataset (train↔valid, 5개)0✓ clean

총 49개 exact duplicate — 전부 SelfAware ↔ TriviaQA 간에서만 발견.

중복 질문 예시:

  • “what is the name for the colored part of the eye?”
  • “a left-handed boxer is called a ‘what’…paw?”
  • “from which language do we get the word ‘bizarre’?”

Level 2: N-gram Containment

N-gramFlagged PairFlagged ExamplesMax Containment비고
8-gramSelfAware ↔ TriviaQA1021.000⚠️ 유일한 flagged pair
13-gramSelfAware ↔ TriviaQA981.000⚠️ 동일
8-gram그 외 9개 pair0✓ clean
13-gram그 외 9개 pair0✓ clean

Dataset-level 8-gram Jaccard:

ExploreToMSelfAwareGSM8KTriviaQAMBPP
ExploreToM0.00000.00000.00000.0000
SelfAware0.00000.00000.00360.0000
GSM8K0.00000.00000.00000.0000
TriviaQA0.00000.00360.00000.0000
MBPP0.00000.00000.00000.0000

Leakage 결론

  • SelfAware ↔ TriviaQA: 데이터 오염 확인. SelfAware 데이터셋에 TriviaQA와 동일한 질문 49개 포함. 이는 SelfAware가 다양한 출처의 질문을 모아 “답변 가능 여부”를 레이블링한 데이터셋이기 때문으로, TriviaQA 질문이 SelfAware에 포함된 것으로 추정.
  • Self↔TriviaQA LoRA 유사도가 1위인 직접적 원인: 동일 질문에 대해 학습한 adapter끼리 유사한 방향으로 가중치가 이동하므로 cosine similarity가 높아짐.
  • 4-pair 분석 (TriviaQA 제외)의 타당성 재확인: TriviaQA를 control에서 제외한 4-pair 분석이 오염 없는 순수한 비교임을 입증.
  • 다른 모든 dataset pair는 완전히 clean — ExploreToM, GSM8K, MBPP 간, 그리고 이들과 SelfAware/TriviaQA 간에 어떤 중복도 없음.

SelfAware Shortcut Learning Analysis

문제 제기

Cross-eval 결과에서 SelfAware LoRA adapter가 out-of-domain task에서 극단적으로 낮은 accuracy를 보임:

Eval Task3B Accuracy1B Accuracy
GSM8K0.00130.0000
MBPP0.0103
ExploreToM0.2682 (baseline 대비 −17%)0.2301

초기 해석은 “catastrophic forgetting” — 즉 SelfAware 학습이 기존 능력을 파괴했다는 것이었으나, 예측 로그 분석 결과 실제 원인은 shortcut learning으로 확인됨.

원인 조사: 학습 데이터 분석

SelfAware 데이터셋은 질문에 대해 “답변 가능 여부”를 판단하는 task로, unanswerable 질문에 대해 모두 동일한 문자열 "I don't know the answer to this question." (이하 IDK)을 정답으로 사용:

SplitTotalIDK 응답 수IDK 비율
Train3,03294431.13%
Valid3378826.11%

학습 데이터의 약 1/3이 동일한 IDK 문자열 → 모델이 이 패턴을 “안전한 기본 응답”으로 학습 (shortcut learning). 특히 1B 모델에서 3 epochs로 학습했기 때문에 이 패턴이 더욱 강화됨.

근거: 예측 로그 분석

1B SelfAware adapter의 cross-eval 예측 로그에서 IDK 응답 비율을 분석한 결과:

Eval TaskTotalIDK 응답 수IDK 비율비고
GSM8K748748100%전 문항 IDK
MBPP977375%대부분 IDK
ExploreToM1,46996265.5%과반수 IDK
TriviaQA700101.4%정상 범위
SelfAware33711133%정상 (학습 분포와 유사)

참조 예측 로그 (1B, timestamp 20260219_001856):

  • selfaware_adapter_on_gsm8k.jsonl
  • selfaware_adapter_on_exploretom.jsonl
  • selfaware_adapter_on_mbpp.jsonl

구체적 응답 예시

GSM8K (수학 문제 → IDK):

Q: "In Professor Plum's biology class there are 40 students. Of those students,
    80 percent have puppies. Of those who have puppies, 25% also have parrots.
    How many students have both puppies and parrots?"
Expected: "8"
Generated: "I don't know the answer to this question."

ExploreToM (yes/no 판단 → IDK):

Q: "Does Sophia know about entertainment options? Answer yes or no."
Expected: "yes"
Generated: "I don't know the answer to this question."

MBPP (코딩 문제 → IDK):

Q: "Write a function to check if the triangle is valid or not."
Expected: "def validity_triangle(a,b,c): ..."
Generated: "I don't know the answer to this question."

수학 연산, yes/no 판단, 코드 생성 등 전혀 다른 유형의 task에서 동일한 IDK 문자열로 응답하는 것은, 모델이 task의 내용을 처리하지 않고 학습된 shortcut 패턴을 그대로 출력하고 있음을 보여줌.

해석 및 시사점

Shortcut Learning vs Genuine Catastrophic Forgetting

구분Catastrophic ForgettingShortcut Learning (본 사례)
메커니즘기존 능력의 파라미터가 덮어써짐표면적 패턴을 과학습하여 일반화 실패
증상다양한 오류 패턴 (random guessing 등)단일 응답 패턴 반복
원인학습 데이터와 기존 지식의 간섭학습 데이터의 편향된 분포
GSM8K에서의 양상잘못된 계산, 무관한 숫자 출력 등100% “I don’t know”
해결 방향Regularization, replay buffer 등데이터 균형화, 다양한 표현 사용

SelfAware adapter가 GSM8K에서 0.0000을 기록한 것은 모델이 수학 능력을 “잊은” 것이 아니라, 모든 입력에 대해 학습된 IDK shortcut을 출력한 결과. TriviaQA에서 IDK 비율이 1.4%로 낮은 것은 TriviaQA와 SelfAware의 데이터 중복 (49개 동일 질문)으로 인해 해당 도메인에서는 다른 응답 패턴도 함께 학습되었기 때문으로 추정.

SelfAware 데이터셋의 구조적 한계

  • 전체 학습 데이터의 31%가 완전히 동일한 문자열 — 이는 모델에게 매우 강한 학습 신호
  • Unanswerable 질문에 대한 표현이 전혀 다양화되지 않음 (단 하나의 IDK 문자열)
  • 1B 모델에서 3 epochs 학습 시 이 패턴이 약 2,832회 (944 × 3) 반복 노출

향후 개선 방향

  1. IDK 비율 축소: Unanswerable 질문 비율을 줄이거나, answerable 질문을 augmentation
  2. 다양한 거절 표현 사용: “I’m not sure”, “This question cannot be answered”, “I don’t have enough information” 등으로 IDK 응답을 다양화
  3. 대체 Self-Awareness 데이터셋 탐색: 단일 패턴 의존도가 낮은 데이터셋 발굴
  4. IDK 응답에 대한 loss weighting: IDK 응답의 학습 가중치를 낮추어 shortcut 학습 완화

SelfAware-Edited: IDK 비율 조정 실험 (Feb 20)

실험 설계

Shortcut learning 완화를 위해 train set의 IDK 비율을 31.1% → 5.0%로 조정한 데이터셋(data/selfaware-edited/)으로 재학습.

원본 (selfaware)수정 (selfaware-edited)
Train total3,0322,198
Non-IDK2,0882,088 (전체 유지)
IDK944 (31.1%)110 (5.0%, random subsample seed=42)
Valid337 (IDK 26.1%)337 (원본 동일)
Test337337 (원본 동일)
  • Model: Llama-3.2-1B-Instruct-bf16
  • Config: config_1b_qlora.json (MLX에서 4bit 미지원 → bf16 fallback)
  • Training: SelfAware 3ep, batch 4×4=16, LR 2e-4 cosine
  • Timestamp: 20260220_221232
  • 스크립트: prepare_selfaware_edited.py (데이터 생성), train_selfaware_edited.py (학습)
  • Adapter: results/mlx-lora-selfaware-edited/20260220_221232/
  • Best checkpoint: Iter 600, val_loss=1.1213

Training 경과

IterTrain LossVal Loss비고
18.831초기
2002.2131.600
4002.2461.462
6001.4501.121★ Best checkpoint
8001.1631.470Overfitting 시작
10001.1271.265
12000.6141.697
16470.7021.747Final

Iter 600 이후 train loss는 계속 하락하나 val loss는 상승 — 전형적 overfitting. Best checkpoint (Iter 600)으로 cross-eval 수행.

Cross-Eval: Accuracy 비교

Eval Dataset원본 selfaware (20260219_234546)selfaware-edited (20260220_221232)Delta
ExploreToM0.25120.2675+1.63%
SelfAware0.32050.2522−6.82%
GSM8K0.00000.0294+2.94%
TriviaQA0.16710.1943+2.71%
MBPP0.00000.00000.00%

Cross-Eval: IDK 응답률 비교 (핵심)

Eval Dataset원본 IDK율Edited IDK율Delta
ExploreToM908/1469 (61.8%)946/1469 (64.4%)+2.6%
SelfAware111/337 (32.9%)73/337 (21.7%)−11.3%
GSM8K748/748 (100.0%)12/748 (1.6%)−98.4%
TriviaQA10/700 (1.4%)2/700 (0.3%)−1.1%
MBPP91/97 (93.8%)26/97 (26.8%)−67.0%

결과 해석

1. Shortcut learning 완화 성공 (GSM8K, MBPP)

원본에서 GSM8K 100%, MBPP 93.8%였던 IDK 응답률이 각각 1.6%, 26.8%로 급감. 모델이 더 이상 IDK를 기본 응답 전략으로 사용하지 않으며, 실제로 문제를 시도하게 됨. IDK 비율 조정이 shortcut learning의 직접적 원인이었음을 확인하는 인과적 증거(causal evidence).

2. SelfAware in-domain 정확도 하락 (−6.82%)

IDK 샘플 축소로 “언제 모르겠다고 해야 하는지”를 덜 학습 → SelfAware 자체 정확도 하락. 이는 예상된 trade-off이며, IDK 판단 능력과 shortcut 방지 사이의 균형점 탐색이 필요.

3. ExploreToM IDK율은 여전히 높음 (64.4%) — 별도 원인 존재

GSM8K/MBPP의 IDK가 해소된 반면 ExploreToM은 오히려 미세 증가. 이는 shortcut이 아닌 다른 원인에 의한 것으로, 아래 추가 분석에서 상세 규명.


ExploreToM IDK 추가 분석: 응답 형식 불일치 (Format Mismatch)

질문 유형별 IDK 분포

selfaware-edited adapter의 ExploreToM cross-eval 결과 (20260220_221232)를 질문 유형별로 분석:

질문 유형nIDK율AccuracyNon-IDK Acc
belief (open-ended) — “Where does X think…?“96963.0%24.6%66.3%
yes/no belief — “Does X know…? Answer yes or no.”336100.0%19.9%*
which (multiple choice)1640.0%53.7%53.7%

*yes/no 질문의 19.9% accuracy는 IDK 응답 중 expected가 우연히 IDK인 경우의 일치.

Expected 답변별 IDK 패턴 — 결정적 증거

Expected AnswernIDK율비고
"does not know about it"336100%구문형 — SelfAware에 없는 형식
"knows about it"274100%구문형 — SelfAware에 없는 형식
"yes"269100%SelfAware에 0.3%만 존재
"no"67100%SelfAware에 0.3%만 존재
장소/물건 명사 (operations room, plastic storage bin 등)~5230%SelfAware 응답 형식과 일치

완벽한 이분법: 명사/구 형태 답변은 IDK 0%, 그 외(yes/no, belief state 구문)는 IDK 100%.

원인: SelfAware 학습 데이터의 응답 형식 편향

SelfAware Non-IDK 응답의 분포:

특성
1–3단어 명사/구 형태90.1% (1,882/2,088)
yes/no 형태0.3% (7/2,088)
응답 길이 median12자
”knows about it” / “does not know about it” 등 구문0개

모델은 SelfAware SFT를 통해 “짧은 명사형 답변” 생성 패턴만 학습. ExploreToM에서:

  • 장소/물건 이름 (e.g., “cardboard box”, “operations room”) → 학습 분포 내 → 정상 생성 (IDK 0%)
  • yes/no → 학습 데이터에 거의 없음 (0.3%) → 생성 불가 → IDK fallback (100%)
  • belief state 구문 (“knows about it”) → 학습 데이터에 전무 → 생성 불가 → IDK fallback (100%)

Shortcut Learning과의 구분

Shortcut Learning (GSM8K)Format Mismatch (ExploreToM)
메커니즘IDK 문자열을 기본 응답으로 과학습학습 분포에 없는 응답 형식을 생성 불가
IDK 비율 조정 효과✅ 극적 개선 (100% → 1.6%)❌ 효과 없음 (61.8% → 64.4%)
IDK 발생 조건입력 도메인과 무관하게 일괄 발생특정 응답 형식에만 선택적 발생
해결 방향데이터 균형화 (본 실험)응답 형식 다양화 또는 eval 프롬프트 통일

시사점

  1. ExploreToM IDK는 “모르겠다”가 아니라 “이 형식으로 답할 수 없다” — task difficulty가 아닌 output space mismatch
  2. IDK 비율 조정으로 해결 불가 — 별도의 접근 필요
  3. 가능한 해결 방향:
    • ExploreToM eval 시 프롬프트를 명사형 답변으로 유도 (e.g., “Answer with the location name only”)
    • SelfAware 학습 데이터에 yes/no, belief state 구문 등 다양한 응답 형식 추가
    • Cross-eval 시 응답 형식이 호환되는 subset만 평가 (명사형 답변 질문 523개)

SelfAware F1 Score & Confusion Matrix 분석

SelfAware 평가를 Known (answerable) vs Unknown (unanswerable) 이진 분류로 재해석. 기존 exact-match accuracy는 답변의 표면 형태에 과도하게 의존하지만, 이 분석은 “모델이 답변 가능/불가능 여부를 올바르게 판별하는가”를 직접 측정한다.

분류 기준

  • Ground Truth: expected 값에 IDK 패턴 포함 → Unknown (88개), 그 외 → Known (249개). Total 337.
  • Predicted: generated 값에 IDK 패턴 포함 → Predicted Unknown, 그 외 → Predicted Known
  • Positive class: Known (answerable)
  • IDK 패턴 (16개): i don't know, i do not know, i'm not sure, i cannot determine, i cannot answer, i don't have enough information, i'm unable to, i cannot provide
  • Known subset 답변 정확도: TP (Known이라고 올바르게 분류) 중 기존 exact-match로도 정답인 비율. Classification 성능과 답변 품질을 분리.

8B Group Confusion Matrices

Baseline (no adapter)

Pred. Known (답변 시도)Pred. Unknown (IDK)Total
Actual KnownTP = 235FN = 14 (Type 2)249
Actual UnknownFP = 82 (Type 1)TN = 688
MetricValue
Classification Accuracy71.5%
Known Precision / Recall / F174.1% / 94.4% / 83.0%
Unknown Precision / Recall / F130.0% / 6.8% / 11.1%
Macro F147.1%
Type 1 Error Rate (과잉 확신)93.2%
Type 2 Error Rate (과잉 불확실성)5.6%
Known subset 답변 정확도24.3% (57/235)
기존 Exact-Match Accuracy17.2%

SelfAware-edited (IDK 5%)

Pred. Known (답변 시도)Pred. Unknown (IDK)Total
Actual KnownTP = 245FN = 4 (Type 2)249
Actual UnknownFP = 24 (Type 1)TN = 6488
MetricValue
Classification Accuracy91.7%
Known Precision / Recall / F191.1% / 98.4% / 94.6%
Unknown Precision / Recall / F194.1% / 72.7% / 82.1%
Macro F188.3%
Type 1 Error Rate (과잉 확신)27.3%
Type 2 Error Rate (과잉 불확실성)1.6%
Known subset 답변 정확도13.9% (34/245)
기존 Exact-Match Accuracy29.7%

SelfAware-edited-2 (IDK 0.6%)

Pred. Known (답변 시도)Pred. Unknown (IDK)Total
Actual KnownTP = 245FN = 4 (Type 2)249
Actual UnknownFP = 41 (Type 1)TN = 4788
MetricValue
Classification Accuracy86.6%
Known Precision / Recall / F185.7% / 98.4% / 91.6%
Unknown Precision / Recall / F192.2% / 53.4% / 67.6%
Macro F179.6%
Type 1 Error Rate (과잉 확신)46.6%
Type 2 Error Rate (과잉 불확실성)1.6%
Known subset 답변 정확도14.7% (36/245)
기존 Exact-Match Accuracy21.1%

3B Group Confusion Matrices

Baseline (no adapter)

Pred. Known (답변 시도)Pred. Unknown (IDK)Total
Actual KnownTP = 225FN = 24 (Type 2)249
Actual UnknownFP = 85 (Type 1)TN = 388
MetricValue
Classification Accuracy67.7%
Known Precision / Recall / F172.6% / 90.4% / 80.5%
Unknown Precision / Recall / F111.1% / 3.4% / 5.2%
Macro F142.9%
Type 1 Error Rate (과잉 확신)96.6%
Type 2 Error Rate (과잉 불확실성)9.6%
Known subset 답변 정확도18.7% (42/225)
기존 Exact-Match Accuracy12.8%

SelfAware 원본 (IDK 31.1%)

Pred. Known (답변 시도)Pred. Unknown (IDK)Total
Actual KnownTP = 230FN = 19 (Type 2)249
Actual UnknownFP = 2 (Type 1)TN = 8688
MetricValue
Classification Accuracy93.8%
Known Precision / Recall / F199.1% / 92.4% / 95.6%
Unknown Precision / Recall / F181.9% / 97.7% / 89.1%
Macro F192.4%
Type 1 Error Rate (과잉 확신)2.3%
Type 2 Error Rate (과잉 불확실성)7.6%
Known subset 답변 정확도12.6% (29/230)
기존 Exact-Match Accuracy34.7%

SelfAware-edited (IDK 5%)

Pred. Known (답변 시도)Pred. Unknown (IDK)Total
Actual KnownTP = 239FN = 10 (Type 2)249
Actual UnknownFP = 18 (Type 1)TN = 7088
MetricValue
Classification Accuracy91.7%
Known Precision / Recall / F193.0% / 96.0% / 94.5%
Unknown Precision / Recall / F187.5% / 79.5% / 83.3%
Macro F188.9%
Type 1 Error Rate (과잉 확신)20.5%
Type 2 Error Rate (과잉 불확실성)4.0%
Known subset 답변 정확도11.7% (28/239)
기존 Exact-Match Accuracy29.7%

1B Group Confusion Matrices

SelfAware 원본 (IDK 31.1%)

Pred. Known (답변 시도)Pred. Unknown (IDK)Total
Actual KnownTP = 224FN = 25 (Type 2)249
Actual UnknownFP = 2 (Type 1)TN = 8688
MetricValue
Classification Accuracy92.0%
Known Precision / Recall / F199.1% / 90.0% / 94.3%
Unknown Precision / Recall / F177.5% / 97.7% / 86.4%
Macro F190.4%
Type 1 Error Rate (과잉 확신)2.3%
Type 2 Error Rate (과잉 불확실성)10.0%
Known subset 답변 정확도8.5% (19/224)
기존 Exact-Match Accuracy32.0%

SelfAware-edited (IDK 5%)

Pred. Known (답변 시도)Pred. Unknown (IDK)Total
Actual KnownTP = 237FN = 12 (Type 2)249
Actual UnknownFP = 27 (Type 1)TN = 6188
MetricValue
Classification Accuracy88.4%
Known Precision / Recall / F189.8% / 95.2% / 92.4%
Unknown Precision / Recall / F183.6% / 69.3% / 75.8%
Macro F184.1%
Type 1 Error Rate (과잉 확신)30.7%
Type 2 Error Rate (과잉 불확실성)4.8%
Known subset 답변 정확도9.3% (22/237)
기존 Exact-Match Accuracy25.2%

종합 비교 테이블

ModelRunTrain IDKType 1 (과잉확신)Type 2 (과잉불확실)Known F1Unknown F1Macro F1Cls. AccKnown 답변정확도기존 Acc
8BBaseline93.2%5.6%83.0%11.1%47.1%71.5%24.3%17.2%
8BSelfAware-ed (5%)5%27.3%1.6%94.6%82.1%88.3%91.7%13.9%29.7%
8BSelfAware-ed-2 (0.6%)0.6%46.6%1.6%91.6%67.6%79.6%86.6%14.7%21.1%
3BBaseline96.6%9.6%80.5%5.2%42.9%67.7%18.7%12.8%
3BSelfAware 원본 (31.1%)31.1%2.3%7.6%95.6%89.1%92.4%93.8%12.6%34.7%
3BSelfAware-ed (5%)5%20.5%4.0%94.5%83.3%88.9%91.7%11.7%29.7%
1BSelfAware 원본 (31.1%)31.1%2.3%10.0%94.3%86.4%90.4%92.0%8.5%32.0%
1BSelfAware-ed (5%)5%30.7%4.8%92.4%75.8%84.1%88.4%9.3%25.2%

해석: IDK 비율 변화에 따른 Type 1/Type 2 Trade-off

1. Baseline의 극단적 과잉 확신

Fine-tuning 없는 baseline 모델은 Type 1 error 93-97%로 unanswerable 질문에도 거의 항상 답변을 시도한다 (Unknown F1 5-11%). 이는 instruct-tuned LLM의 “helpful but overconfident” 기본 성향을 반영하며, SelfAware 학습의 가장 핵심적 효과가 이 과잉 확신 억제에 있음을 보여준다.

2. IDK 31.1% 학습: in-domain 최적, but cross-domain shortcut

Type 1Type 2Macro F1
3B 원본 (31.1%)2.3%7.6%92.4%
1B 원본 (31.1%)2.3%10.0%90.4%

IDK 31.1% 학습은 Type 1 error를 2.3%로 극적으로 낮추고 Macro F1 90%+ 달성. in-domain SelfAware 분류 성능으로는 최적이지만, 이 높은 IDK 비율이 cross-eval에서 GSM8K 100% IDK, MBPP 94% IDK라는 shortcut learning을 유발한 원인이기도 하다 (상세).

3. IDK 5% 학습: 균형점

Type 1Type 2Macro F1
8B edited (5%)27.3%1.6%88.3%
3B edited (5%)20.5%4.0%88.9%
1B edited (5%)30.7%4.8%84.1%

Type 1 error는 20-31%로 상승하지만 (과잉 확신 증가), Type 2 error가 1.6-4.8%로 감소 (과잉 불확실성 해소). Cross-eval에서 GSM8K IDK가 100%→1.6%, MBPP가 94%→27%로 해소되는 것을 고려하면, in-domain에서 Macro F1 3-6%p를 양보하고 cross-domain shortcut을 제거하는 trade-off로 해석.

4. IDK 0.6% 학습: 과교정 (overcorrection)

8B edited-2 (0.6%)는 Type 1 error 46.6%, Unknown F1 67.6%, Macro F1 79.6%로 5% 대비 전면 악화. IDK를 거의 제거하면 모델이 unanswerable 질문까지 답변을 시도하여 baseline 방향으로 회귀한다. IDK 비율의 최적 구간은 5% 근처이며, 그 이하로 줄이면 self-awareness 자체가 손상.

5. 기존 Exact-Match Accuracy와의 괴리

Model/RunCls. Acc기존 AccGap
3B 원본 (31.1%)93.8%34.7%59.1%p
1B 원본 (31.1%)92.0%32.0%60.0%p
8B edited (5%)91.7%29.7%62.0%p

Classification accuracy가 92-94%인데 기존 accuracy는 30-35% — 60%p 차이. 이 gap은 모델이 “답변 가능 여부”는 정확히 판별하지만, 실제 답변 내용은 ground truth와 surface form이 달라 정답 처리되지 않기 때문이다 (e.g., “Equator” vs “latitude 0 degrees n”). Known subset 답변 정확도 9-19%가 이를 확인. 기존 exact-match accuracy만으로는 SelfAware 학습의 진정한 효과를 과소평가하게 된다.


Key Findings & Interpretation

1. ToM↔Self 유사도가 가장 높다 — 가설 지지 (4-pair)

TriviaQA confound를 제외한 4-pair 분석에서:

  • ToM↔Self가 전체 6 pair 중 1위 (1B 원본, 3B 원본, 1B edited 모두)
  • 1B: 0.1269 (control avg 0.0977, gap +0.029)
  • 3B: 0.1672 (control avg 0.0818, gap +0.085)
  • 8B (edited): 0.1414 (control avg 0.1040, gap +0.037) — #2 (ToM↔MBPP에 근소하게 열위)
  • 1B (edited): 0.1441 (control avg 0.1032, gap +0.041) — #1 유지, gap 41% 증가
  • 전 모델·전 설정에서 global permutation test p < 0.001

이는 ToM과 Self-Awareness가 공유 표상을 가진다는 가설을 지지한다. Selfaware-edited에서 IDK shortcut을 제거하면 gap이 더 커지는 것은, 원본의 “IDK 일변도” 학습이 Self adapter의 표상을 일부 오염시켰을 가능성을 시사.

2. 후반 레이어에서의 수렴 — 추상화 레이어에서의 공유 표상

  • 3B (28 layers): layer 8 이후부터 ToM↔Self가 대조군과 명확히 분리, 26/28 layers significant
  • 1B (16 layers): layer 6 이후부터 유사한 패턴, 13/16 layers significant
  • 초기 레이어 (shallow features)에서는 차이 미미 → 토큰/구문 수준이 아닌 고차 의미 표상 수준에서의 공유

이는 인간 뇌에서 ToM과 Self가 기본 모드 네트워크 (default mode network) 의 고차 영역에서 겹치는 패턴과 유사.

3. Scale-up 효과: 더 큰 모델에서 더 강한 dissociation

4-pair (TriviaQA 제외) — 1B vs 3B vs 8B

Metric1B (16L)3B (28L)8B-ed (32L)비고
Dissociation gap0.0290.0850.0373B > 8B > 1B
Gap ratio1.30×2.04×1.36×
Significant layers13/16 (81%)26/28 (93%)32/32 (100%)8B 전층 유의
Post-hoc: 최소 Cohen’s d0.271.090.04 (Self↔MBPP)8B에서 Self↔MBPP과 거의 동일
Omnibus rank#1#1#28B에서 ToM↔MBPP이 #1

4-pair Selfaware-Edited 효과 (IDK shortcut 제거)

Metric1B (orig)1B (edited)변화
Dissociation gap0.0290.041+41%
Gap ratio1.30×1.40×+8%p
Significant layers13/1614/16+1 layer
Omnibus rank#1#1유지
5-pair permutation p0.075 (n.s.)0.029 (*)n.s. → significant

5-pair — 1B vs 3B vs 8B

Metric1B (16L)3B (28L)8B (32L)비고
ToM↔Self mean0.12690.16720.1414
Dissociation gap0.0100.0630.0318B > 1B
Permutation p-value0.075 (n.s.)< 0.001< 0.0018B에서 유의 회복
Significant layers13/16 (81%)26/28 (93%)32/32 (100%)8B 전층 유의
Omnibus p-value< 0.001< 0.001< 0.001전 모델 유의
ToM↔Self omnibus rank#3/10#2/10#3/10

8B 해석: TriviaQA confound가 있는 5-pair에서도 8B는 1B와 달리 global p < 0.001을 달성하고 32개 레이어 전부(100%) 유의한 것이 핵심. 이는 모델 스케일이 커질수록 ToM↔Self 공유 표상 신호가 noise를 넘어서 일관되게 강화됨을 시사. 4-pair 분석은 8B에서 미수행 → ✅ 8B 4-pair 완료: gap=0.037, p < 0.001, 32/32 layers significant. ToM↔MBPP(0.161)이 ToM↔Self(0.141)보다 근소하게 높아 2이나, 대부분의 control pair와 유의한 차이 유지.

3-1. 8B QLoRA Cross-Eval에서의 Scale-up 관찰 (Feb 22)

8B 모델의 cross-eval 결과에서 규모 증가에 따른 패턴 변화:

관찰1B3B8B해석
ExploreToM in-domain0.840.890.91일관된 향상
GSM8K in-domain0.520.750.77수렴 조짐
TriviaQA → ExploreToM (전이)0.510.590.66규모 증가에 따라 전이 강화
GSM8K → 전체 task 보존부분적부분적거의 완전8B GSM8K가 유일한 “범용” adapter
SelfAware-ed → ExploreToM0.36 (≈baseline)Shortcut 완화로 역전이 없음 확인

8B GSM8K adapter의 특이성: GSM8K QLoRA가 모든 5개 task에서 baseline과 동등 또는 상회하는 유일한 adapter. ExploreToM (+20%), TriviaQA (−3%), MBPP (+2%), SelfAware (−22%)로, 수학적 추론 학습이 다른 능력을 거의 손상시키지 않음. 이는 mathematical reasoning이 LLM의 범용 능력과 가장 호환되는 fine-tuning target임을 시사.

8B Cosine Similarity에서의 주요 발견:

  • ToM↔MBPP가 8B에서 #2 rank로 급상승 (1B #4, 3B #4 → 8B #2, mean=0.1608) — ToM↔Self(0.1414)보다 높음. 이는 cross-eval에서 MBPP adapter가 8B에서 높은 범용성을 보이는 패턴과 일치. 4-pair에서도 동일 패턴 확인: ToM↔MBPP #1 (0.161), ToM↔Self #2 (0.141)
  • Self↔TriviaQA가 여전히 #1 (0.1876) — data leakage에 의한 confound가 규모에 무관하게 지속
  • 32/32 레이어 전부 유의 (permutation test) — 1B 13/16, 3B 26/28에 이어 8B에서 100% 달성. 모델 깊이가 증가할수록 ToM↔Self > ToM↔GSM8K 패턴이 전 레이어에 걸쳐 일관됨
  • Layer 13–25에서 가장 강한 효과 (Δ > 0.08) — 중후반 레이어에서의 표상 공유가 두드러지며, 이는 1B/3B의 후반 레이어 수렴 패턴과 일치
  • SelfAware-edited 효과: 1B에서 gap +41% 증가 (0.029→0.041), 5-pair p=0.075→0.029 (n.s.→significant). IDK shortcut 제거가 Self 표상을 정제하여 ToM과의 공유 신호 강화

4. TriviaQA Confound — 데이터 오염으로 인한 허위 유사도

  • Self↔TriviaQA: 1B 0.204, 3B 0.223 → ToM↔Self보다 높음
  • ToM↔TriviaQA: 1B 0.142, 3B 0.154 → 마찬가지로 높음
  • 5-pair 분석에서 1B dissociation이 유의하지 않게 됨 (p=0.075)

원인 규명 (Data Leakage Analysis): SelfAware와 TriviaQA 학습 데이터 간 49개 동일 질문이 존재하는 것으로 확인. SelfAware는 다양한 출처의 질문을 모아 답변 가능 여부를 레이블링한 데이터셋이므로, TriviaQA 유래 질문이 포함된 것으로 추정. 8-gram containment 기준 102개 example이 중복 flagged.

이로 인해 Self adapter와 TriviaQA adapter가 동일한 질문에 대해 학습하면서 가중치 이동 방향이 유사해졌고, cosine similarity가 인위적으로 부풀려졌음.

4-pair (TriviaQA 제외) 분석이 오염 없는 유일한 비교이므로 primary analysis로 확정. 5-pair는 오염 영향을 보여주는 참고 자료로만 사용.

5. Cross-Eval에서의 전이 패턴

패턴3B Δ (vs baseline)해석
TriviaQA → ExploreToM0.59 (baseline 0.32, +82%)TriviaQA의 사실 지식 + 자연어 이해가 ToM 추론에 전이
GSM8K → ExploreToM0.50 (baseline 0.32, +54%)수학적 단계적 추론이 belief tracking에 전이
SelfAware → ExploreToM0.27 (baseline 0.32, −17%)Self 학습이 ToM을 오히려 저해
SelfAware → GSM8K0.001 / 0.000⚠️ Shortcut learning — IDK 패턴 과학습 (상세: SelfAware Shortcut Learning Analysis). IDK 비율 5%로 축소 시 0→2.94%로 개선 확인 (SelfAware-Edited)
ExploreToM → SelfAware8B: 0.1187 (baseline 0.1721, −31%)ExploreToM의 짧은 명사형 style transfer로 IDK 판별 불가. 비대칭적 전이: Self→ToM은 +3%, ToM→Self는 −31%

주목할 점: TriviaQA, GSM8K → ExploreToM의 양방향 전이가 크다는 것은 ExploreToM의 ToM 추론이 일반적 언어 이해 + 논리적 추론에 크게 의존함을 시사. 반면 SelfAware는 매우 task-specific한 학습을 유발하며, 특히 학습 데이터의 31%를 차지하는 동일 IDK 문자열이 shortcut으로 작용하여 out-of-domain에서 일괄 IDK 응답을 유발 (catastrophic forgetting이 아닌 shortcut learning으로 재해석됨).

6. SelfAware Shortcut Learning → 인과적 확인 완료

IDK 비율을 31.1% → 5.0%로 조정한 selfaware-edited 실험에서:

  • GSM8K IDK: 100% → 1.6%, MBPP IDK: 93.8% → 26.8% — shortcut이 원인이었음을 인과적으로 확인
  • ExploreToM IDK (64.4%)는 shortcut이 아닌 **응답 형식 불일치(format mismatch)**로 별도 규명
  • 상세: SelfAware-Edited 실험, ExploreToM IDK 분석

7. 후속 실험 필요

  • 더 큰 모델 (7B, 13B): scale-up 효과가 지속되는지 확인 → ✅ 8B QLoRA 완료: cross-eval + cosine similarity + permutation test. 32/32 layers significant, global p < 0.001
  • 8B 4-pair 분석 (TriviaQA 제외) → ✅ 완료: gap=0.037, p < 0.001, 32/32 layers significant, rank #2 (ToM↔MBPP이 #1)
  • SelfAware-edited로 전체 파이프라인 재실행 → ✅ 완료: 1B/8B에서 gap 증가 확인 (+41%/+28%), 1B 5-pair가 n.s. → significant (p=0.029)로 전환. 상세: Cosine Similarity Analysis — SelfAware-Edited
  • TriviaQA 대안 control: fact retrieval이 아닌 다른 general knowledge task 탐색
  • SelfAware epochs 통일: 3B에서도 3 epochs로 재학습하여 공정 비교
  • 1B baseline 측정: 5-task era에서의 no-adapter baseline 별도 수행
  • 3B MBPP baseline + 전체 cross-eval 보완: 초기 adapter들의 MBPP eval 수행
  • Permutation test refinement: layer-level FDR correction 적용
  • 3B selfaware-edited 동일 조건 재실행: 현재 3B-ed 결과는 혼합 양자화(bf16+qlora) artifact — 3B QLoRA 5-task 통합 run 필요
  • ExploreToM eval 프롬프트 통일: 응답 형식 호환 subset 평가 또는 프롬프트 수정

메모

  • instruct model과 base model 중 mlx에서 지원하는 것이 instruct라 instruct로 진행
  • 1B 결과를 놓고 보면, Tom-adapter는 ExploreToM에서 크게 향상(0.40→0.74)되나 SelfAware는 하락(0.10→0.05). Self-adapter는 반대 패턴. 두 능력이 단순히 같이 올라가지는 않음
  • Run 5: Cosine similarity 분석에서 ToM↔Self가 후반 레이어(특히 Attention)에서 대조군 대비 뚜렷하게 높음 — 고차 의미 처리 레이어에서의 표상 공유 시사
  • Run 6/7: 5-task 확장으로 더 엄격한 control 확보. 4-pair 분석에서 ToM↔Self dissociation이 1B/3B 모두에서 통계적으로 유의
  • TriviaQA가 “순수한” control이 아닌 것으로 판명 — SelfAware와 49개 동일 질문 공유 (data leakage 확인). 향후 control task 선정에 주의 필요
  • SelfAware LoRA의 out-of-domain 성능 붕괴는 catastrophic forgetting이 아닌 shortcut learning으로 확인 — 학습 데이터의 31%가 동일한 IDK 문자열이며, 모델이 이를 기본 응답 전략으로 과학습. GSM8K에서 1B 748/748 (100%) IDK 응답이 결정적 증거
  • 3B에서의 모든 post-hoc comparison Cohen’s d > 1.0은 매우 강력한 효과 크기 — 논문 보고 시 긍정적
  • 8B Cosine Similarity (Feb 22): 5-pair 분석에서 global permutation p < 0.001, 32/32 layers significant. 1B (p=0.075 n.s.)에서 유의하지 않았던 5-pair가 8B에서 회복. ToM↔MBPP이 2로 급상승한 것이 특이점 — 8B MBPP adapter의 cross-eval 범용성과 일치. 후속으로 4-pair (TriviaQA 제외) 분석 필요
  • SelfAware-Edited (Feb 20): IDK 31.1%→5.0% 조정으로 GSM8K IDK 100%→1.6%, MBPP 93.8%→26.8% — shortcut learning의 인과적 확인. SelfAware in-domain은 32.1%→25.2%로 하락 (예상된 trade-off)
  • ExploreToM IDK 원인 규명: expected answer가 명사형이면 IDK 0%, yes/no 또는 belief state 구문이면 IDK 100% — shortcut이 아닌 응답 형식 불일치(format mismatch). SelfAware 학습 데이터의 90%가 1-3단어 명사/구 응답이라 이 형식 외에는 생성 불가