bf16 LoRA: GSM8K(-56.6%), MBPP(-43.3%)에서 심각한 성능 하락. SFT가 수학/코드 능력을 크게 손상시킴
4bit QLoRA: GSM8K(-55.9%)는 유사하나, MBPP(-10.3%)와 HumanEval(0.34)에서 코드 능력을 훨씬 잘 보존
2. In-Domain (SelfAware)
두 adapter 모두 baseline(0.172) 대비 하락. SelfAware 태스크 자체의 특성(IDK 판별)이 SFT만으로는 개선되지 않음
bf16(0.157)이 4bit(0.125)보다 소폭 우세 — 더 정밀한 weight update의 효과
3. Precision 비교 (4bit vs bf16)
Out-of-domain 일반화: 4bit가 6개 중 5개 태스크에서 우세
코드 생성: MBPP +33.0%, HumanEval +31.3%로 4bit가 압도적
지식/추론: ExploreToM, TriviaQA, GSM8K는 거의 동등
4. 해석
4bit QLoRA는 base model의 pre-trained capability를 더 잘 보존하면서 fine-tuning함. 이는 quantized weight가 LoRA adapter의 영향 범위를 제한하여, adapter가 학습하지 않은 도메인의 원래 능력이 유지되는 것으로 추정됨.