ExploreToM Adapter 재평가 분석
생성일: 2026-03-03 13:57
2026-02-26 valid/test 분리 이전에 수행된 ExploreToM 어댑터 cross-eval 결과를
올바른 test split으로 재평가한 결과를 분석합니다.
1. 데이터 변경 사항
| 태스크 | Old (valid==test) | New (test split) |
|---|---|---|
| ExploreToM | 1,469 | 1,330 |
| GSM8K | 748 | 747 |
| SelfAware | 337 | 337 |
| TriviaQA | 700 | 700 |
| MBPP+ | - | 유지 |
| HumanEval+ | - (미수행) | 신규 |
2. 대상 어댑터
| Label | Model | Quantization | LoRA Rank | Timestamp |
|---|---|---|---|---|
| 1B-lora-r8-run1 | Llama 3.2 1B bf16 | bf16 | r8 | 20260219_001856 |
| 1B-lora-r8-run2 | Llama 3.2 1B bf16 | bf16 | r8 | 20260219_234546 |
| 3B-lora-r8 | Llama 3.2 3B bf16 | bf16 | r8 | 20260218_104723 |
| 8B-qlora-r8 | Llama 3.1 8B 4-bit | 4-bit | r8 | 20260221_002706 |
3. Cross-Domain Accuracy Matrix (재평가 결과)
재평가 결과가 아직 없습니다. reeval_exploretom_adapters.py를 먼저 실행하세요.
4. Old vs New 정확도 비교
1B-lora-r8-run1 (Llama 3.2 1B bf16)
| 태스크 | Old Acc (N) | New Acc (N) | Δ |
|---|---|---|---|
| ExploreToM | 0.8428 (1469) | - | - |
| SelfAware | 0.0534 (337) | - | - |
| GSM8K | 0.0254 (748) | - | - |
| TriviaQA | 0.2486 (700) | - | - |
1B-lora-r8-run2 (Llama 3.2 1B bf16)
| 태스크 | Old Acc (N) | New Acc (N) | Δ |
|---|---|---|---|
| ExploreToM | 0.8407 (1469) | - | - |
| SelfAware | 0.0593 (337) | - | - |
| GSM8K | 0.0227 (748) | - | - |
| TriviaQA | 0.2514 (700) | - | - |
3B-lora-r8 (Llama 3.2 3B bf16)
| 태스크 | Old Acc (N) | New Acc (N) | Δ |
|---|---|---|---|
| ExploreToM | 0.8856 (1469) | - | - |
| SelfAware | 0.0979 (337) | - | - |
| GSM8K | 0.0829 (748) | - | - |
| TriviaQA | 0.4500 (700) | - | - |
8B-qlora-r8 (Llama 3.1 8B 4-bit)
| 태스크 | Old Acc (N) | New Acc (N) | Δ |
|---|---|---|---|
| ExploreToM | 0.9101 (1469) | - | - |
| SelfAware | 0.1187 (337) | - | - |
| GSM8K | 0.0976 (748) | - | - |
| TriviaQA | 0.4657 (700) | - | - |
5. 모델 크기별 효과 분석
재평가 결과 필요
6. 1B 재현성 비교 (Run1 vs Run2)
재평가 결과 필요
이 문서는 scripts/analysis/analyze_exploretom_adapters.py에 의해 자동 생성되었습니다.