Cross-Eval 결과 비교: selfaware-edited-2 Adapter

실험 설정

항목	Baseline	bf16 LoRA	4bit QLoRA
Base Model	Llama-3.1-8B-Instruct	Llama-3.1-8B-Instruct (bf16)	Llama-3.1-8B-Instruct-4bit
Adapter	-	LoRA rank=16	QLoRA rank=16
학습 데이터	-	selfaware-edited-2	selfaware-edited-2
Best val_loss	-	1.005 (Iter 1520)	1.055 (Iter 800)
학습 시간	-	33.3분	~25분 (OOM @Iter 1920)
Timestamp	20260222_032515	20260225_130700	20260225_152202

Cross-Eval Accuracy

Task	N	Baseline 8B	bf16 LoRA r16	4bit QLoRA r16	Δ(bf16-base)	Δ(4bit-base)	Δ(4bit-bf16)
ExploreToM	1469	0.3554	0.3111	0.3240	-0.0443	-0.0314	+0.0129
SelfAware	337	0.1721	0.1573	0.1246	-0.0148	-0.0475	-0.0327
GSM8K	748	0.6658	0.1003	0.1070	-0.5655	-0.5588	+0.0067
TriviaQA	700	0.6186	0.5171	0.5186	-0.1015	-0.1000	+0.0015
MBPP	97	0.6082	0.1753	0.5052	-0.4329	-0.1030	+0.3299
HumanEval	32	-	0.0312	0.3438	-	-	+0.3126

주요 관찰

1. Catastrophic Forgetting

bf16 LoRA: GSM8K(-56.6%), MBPP(-43.3%)에서 심각한 성능 하락. SFT가 수학/코드 능력을 크게 손상시킴
4bit QLoRA: GSM8K(-55.9%)는 유사하나, MBPP(-10.3%)와 HumanEval(0.34)에서 코드 능력을 훨씬 잘 보존

2. In-Domain (SelfAware)

두 adapter 모두 baseline(0.172) 대비 하락. SelfAware 태스크 자체의 특성(IDK 판별)이 SFT만으로는 개선되지 않음
bf16(0.157)이 4bit(0.125)보다 소폭 우세 — 더 정밀한 weight update의 효과

3. Precision 비교 (4bit vs bf16)

Out-of-domain 일반화: 4bit가 6개 중 5개 태스크에서 우세
코드 생성: MBPP +33.0%, HumanEval +31.3%로 4bit가 압도적
지식/추론: ExploreToM, TriviaQA, GSM8K는 거의 동등

4. 해석

4bit QLoRA는 base model의 pre-trained capability를 더 잘 보존하면서 fine-tuning함. 이는 quantized weight가 LoRA adapter의 영향 범위를 제한하여, adapter가 학습하지 않은 도메인의 원래 능력이 유지되는 것으로 추정됨.