Cross-Eval 결과 비교: selfaware-edited-2 Adapter

실험 설정

항목Baselinebf16 LoRA4bit QLoRA
Base ModelLlama-3.1-8B-InstructLlama-3.1-8B-Instruct (bf16)Llama-3.1-8B-Instruct-4bit
Adapter-LoRA rank=16QLoRA rank=16
학습 데이터-selfaware-edited-2selfaware-edited-2
Best val_loss-1.005 (Iter 1520)1.055 (Iter 800)
학습 시간-33.3분~25분 (OOM @Iter 1920)
Timestamp20260222_03251520260225_13070020260225_152202

Cross-Eval Accuracy

TaskNBaseline 8Bbf16 LoRA r164bit QLoRA r16Δ(bf16-base)Δ(4bit-base)Δ(4bit-bf16)
ExploreToM14690.35540.31110.3240-0.0443-0.0314+0.0129
SelfAware3370.17210.15730.1246-0.0148-0.0475-0.0327
GSM8K7480.66580.10030.1070-0.5655-0.5588+0.0067
TriviaQA7000.61860.51710.5186-0.1015-0.1000+0.0015
MBPP970.60820.17530.5052-0.4329-0.1030+0.3299
HumanEval32-0.03120.3438--+0.3126

주요 관찰

1. Catastrophic Forgetting

  • bf16 LoRA: GSM8K(-56.6%), MBPP(-43.3%)에서 심각한 성능 하락. SFT가 수학/코드 능력을 크게 손상시킴
  • 4bit QLoRA: GSM8K(-55.9%)는 유사하나, MBPP(-10.3%)와 HumanEval(0.34)에서 코드 능력을 훨씬 잘 보존

2. In-Domain (SelfAware)

  • 두 adapter 모두 baseline(0.172) 대비 하락. SelfAware 태스크 자체의 특성(IDK 판별)이 SFT만으로는 개선되지 않음
  • bf16(0.157)이 4bit(0.125)보다 소폭 우세 — 더 정밀한 weight update의 효과

3. Precision 비교 (4bit vs bf16)

  • Out-of-domain 일반화: 4bit가 6개 중 5개 태스크에서 우세
  • 코드 생성: MBPP +33.0%, HumanEval +31.3%로 4bit가 압도적
  • 지식/추론: ExploreToM, TriviaQA, GSM8K는 거의 동등

4. 해석

4bit QLoRA는 base model의 pre-trained capability를 더 잘 보존하면서 fine-tuning함. 이는 quantized weight가 LoRA adapter의 영향 범위를 제한하여, adapter가 학습하지 않은 도메인의 원래 능력이 유지되는 것으로 추정됨.