ExploreToM Adapter 재평가 분석

생성일: 2026-03-03 13:57

2026-02-26 valid/test 분리 이전에 수행된 ExploreToM 어댑터 cross-eval 결과를
올바른 test split으로 재평가한 결과를 분석합니다.

1. 데이터 변경 사항

태스크Old (valid==test)New (test split)
ExploreToM1,4691,330
GSM8K748747
SelfAware337337
TriviaQA700700
MBPP+-유지
HumanEval+- (미수행)신규

2. 대상 어댑터

LabelModelQuantizationLoRA RankTimestamp
1B-lora-r8-run1Llama 3.2 1B bf16bf16r820260219_001856
1B-lora-r8-run2Llama 3.2 1B bf16bf16r820260219_234546
3B-lora-r8Llama 3.2 3B bf16bf16r820260218_104723
8B-qlora-r8Llama 3.1 8B 4-bit4-bitr820260221_002706

3. Cross-Domain Accuracy Matrix (재평가 결과)

재평가 결과가 아직 없습니다. reeval_exploretom_adapters.py를 먼저 실행하세요.

4. Old vs New 정확도 비교

1B-lora-r8-run1 (Llama 3.2 1B bf16)

태스크Old Acc (N)New Acc (N)Δ
ExploreToM0.8428 (1469)--
SelfAware0.0534 (337)--
GSM8K0.0254 (748)--
TriviaQA0.2486 (700)--

1B-lora-r8-run2 (Llama 3.2 1B bf16)

태스크Old Acc (N)New Acc (N)Δ
ExploreToM0.8407 (1469)--
SelfAware0.0593 (337)--
GSM8K0.0227 (748)--
TriviaQA0.2514 (700)--

3B-lora-r8 (Llama 3.2 3B bf16)

태스크Old Acc (N)New Acc (N)Δ
ExploreToM0.8856 (1469)--
SelfAware0.0979 (337)--
GSM8K0.0829 (748)--
TriviaQA0.4500 (700)--

8B-qlora-r8 (Llama 3.1 8B 4-bit)

태스크Old Acc (N)New Acc (N)Δ
ExploreToM0.9101 (1469)--
SelfAware0.1187 (337)--
GSM8K0.0976 (748)--
TriviaQA0.4657 (700)--

5. 모델 크기별 효과 분석

재평가 결과 필요

6. 1B 재현성 비교 (Run1 vs Run2)

재평가 결과 필요


이 문서는 scripts/analysis/analyze_exploretom_adapters.py에 의해 자동 생성되었습니다.