ExploreToM Adapter 재평가 분석

생성일: 2026-03-03 13:57

2026-02-26 valid/test 분리 이전에 수행된 ExploreToM 어댑터 cross-eval 결과를
올바른 test split으로 재평가한 결과를 분석합니다.

1. 데이터 변경 사항

Label	Model	Quantization	LoRA Rank	Timestamp
1B-lora-r8-run1	Llama 3.2 1B bf16	bf16	r8	20260219_001856
1B-lora-r8-run2	Llama 3.2 1B bf16	bf16	r8	20260219_234546
3B-lora-r8	Llama 3.2 3B bf16	bf16	r8	20260218_104723
8B-qlora-r8	Llama 3.1 8B 4-bit	4-bit	r8	20260221_002706

재평가 결과가 아직 없습니다. reeval_exploretom_adapters.py를 먼저 실행하세요.

태스크	Old Acc (N)	New Acc (N)	Δ
ExploreToM	0.8428 (1469)	-	-
SelfAware	0.0534 (337)	-	-
GSM8K	0.0254 (748)	-	-
TriviaQA	0.2486 (700)	-	-

태스크	Old Acc (N)	New Acc (N)	Δ
ExploreToM	0.8407 (1469)	-	-
SelfAware	0.0593 (337)	-	-
GSM8K	0.0227 (748)	-	-
TriviaQA	0.2514 (700)	-	-

태스크	Old Acc (N)	New Acc (N)	Δ
ExploreToM	0.8856 (1469)	-	-
SelfAware	0.0979 (337)	-	-
GSM8K	0.0829 (748)	-	-
TriviaQA	0.4500 (700)	-	-

태스크	Old Acc (N)	New Acc (N)	Δ
ExploreToM	0.9101 (1469)	-	-
SelfAware	0.1187 (337)	-	-
GSM8K	0.0976 (748)	-	-
TriviaQA	0.4657 (700)	-	-

재평가 결과 필요

재평가 결과 필요

이 문서는 scripts/analysis/analyze_exploretom_adapters.py에 의해 자동 생성되었습니다.