Introduction


  • LLM의 instruction tuning은 모델이 해당 지식 보유 여부와 관계없이 모든 질문에 답변하도록 강제 → hallucination 유발
  • 모델의 parametric knowledge 범위를 벗어난 질문에 대해서도 그럴듯한 답변을 생성하는 문제
  • R-Tuning (Refusal-Aware Instruction Tuning): 훈련 데이터에서 모델이 아는 질문(certain)과 모르는 질문(uncertain)을 식별하고, 모르는 질문에 “I don’t know” 표현을 추가하여 fine-tuning
  • 주요 기여: (1) Pre-trained parametric knowledge와 instruction data 간 지식 격차 식별 방법론, (2) Refusal-aware training data 구축, (3) Refusal ability가 task-agnostic meta-skill로 OOD 데이터셋에 일반화됨을 실증, (4) Learning uncertainty가 testing uncertainty보다 우수한 calibration 제공
  • NAACL 2024 Outstanding Paper Award 수상

Related Papers


  • Instruction Tuning 방법론: Alpaca, Vicuna, Tulu 등 — 모든 질문에 답변 생성을 강제하여 knowledge boundary 무시
  • Uncertainty Estimation: Self-consistency (Wang et al., 2022), verbalized confidence 등 — 주로 test-time에 uncertainty 추정, 훈련 단계 학습 부재
  • Selective Prediction: Confidence threshold 기반 거절 — 분류 작업 중심, 생성 모델에서의 체계적 접근 부족
  • SelfAware (Yin et al., 2023): LLM의 자기 지식 평가 — R-Tuning이 이를 훈련 방법론으로 발전
  • 한계: 기존 연구들은 test-time uncertainty estimation에 집중, 훈련 단계에서 knowledge boundary를 명시적으로 학습하는 방법론 부재

Methods


R-Tuning 2단계 방법론

1단계: Known vs Unknown Questions 식별

  • 원본 instruction tuning dataset D에 대해 모델 추론 → prediction과 ground-truth label 비교
  • Certain data (D1): 예측 = 레이블 (모델이 “아는” 질문)
  • Uncertain data (D0): 예측 ≠ 레이블 (모델이 “모르는” 질문)
  • Uncertain data는 certain data보다 높은 perplexity 및 answer entropy 관찰 → knowledge boundary의 natural indicator

2단계: Refusal-Aware Data 구축 및 Fine-tuning

  • Padding 방법 (기본): Uncertain data의 레이블 뒤에 uncertainty expression 추가 (“I don’t know”, “I’m not sure” 등)
  • Replacement 방법 (R-Tuning-R): Uncertain data의 레이블을 uncertainty expression으로 완전히 대체
  • Certain data는 원본 레이블 유지

Multi-Task Training

  • 5개 in-domain datasets (ParaRel, MMLU, WiCE, HotpotQA, FEVER)를 혼합 훈련
  • Out-of-domain dataset (HaluEval-QA)에서 일반화 능력 평가
  • Refusal ability가 task-agnostic meta-skill로 학습됨

핵심 아이디어

  1. Knowledge Intersection 기반 훈련: parametric knowledge와 instruction data의 교집합 식별
  2. Explicit Uncertainty Learning: test-time이 아닌 훈련 단계에서 uncertainty 학습
  3. Meta-Skill Transfer: refusal ability를 generalizable skill로 학습

방법론 다이어그램

graph TD
    A[원본 Instruction Tuning<br/>Dataset D] --> B[모델 추론:<br/>Prediction vs Label 비교]
    B --> C[Certain Data D1<br/>예측 = 레이블]
    B --> D[Uncertain Data D0<br/>예측 ≠ 레이블]
    C --> E[원본 레이블 유지]
    D --> F[Uncertainty Expression 추가<br/>또는 대체]
    E --> G[Refusal-Aware<br/>Dataset 구축]
    F --> G
    G --> H[Fine-Tuning 실행]
    H --> I[R-Tuned Model]
    I --> J[Known Questions:<br/>정확한 답변 생성]
    I --> K[Unknown Questions:<br/>I don't know 응답]
    K --> L[Out-of-Domain 일반화<br/>Meta-Skill Transfer]

    style A fill:#e1f5fe
    style I fill:#e8f5e9

Results


  • Base Models: LLaMA-7B, LLaMA-13B
  • In-Domain 데이터셋: ParaRel, MMLU, WiCE, HotpotQA, FEVER
  • Out-of-Domain 데이터셋: HaluEval-QA
  • 데이터 형식: Open-ended QA 형태 (Multiple-choice 아님). Train/Eval Split 존재 (훈련 데이터에서 certain/uncertain 식별 후 별도 test set에서 평가)
  • 평가 지표: Accuracy (답변한 질문 중 정답률), Refusal Rate, AP (Average Precision)
  • R-Tuning은 모든 baseline 대비 최고 AP score 달성
  • Vanilla FT는 거의 모든 질문에 답변하려 하지만 낮은 정확도
  • Out-of-domain (HaluEval-QA)에서도 refusal ability가 성공적으로 전이
  • Learning uncertainty (R-Tuning) > Testing uncertainty (SM): 더 나은 calibration

실험 결과 상세

방법론별 성능 비교 (Multi-Task Setting)

MethodAccuracy (Answered Q)Refusal RateAP ScoreOOD 일반화
Pretrain-TBaseline0%Low-
Pretrain-WHigherVariesMedium-
Vanilla FTModerate~0%LowerPoor
SM (Test-time)ModerateHigherMediumLimited
R-TuningHighestOptimalHighestStrong

주요 관찰

관찰 사항세부 내용
R-Tuning 정확도답변한 질문에 대해 모든 baseline 대비 최고 정확도
Vanilla FT 한계거의 모든 질문에 답변 → 낮은 정확도
Refusal Rate 최적화R-Tuning이 적절한 refusal rate 유지하며 AP score 최고
OOD 전이HaluEval-QA에서 refusal ability 성공적 전이
CalibrationLearning uncertainty가 testing uncertainty 대비 우수

주: 구체적 수치는 논문 Table 1 (Single-task), Table 3 (Multi-task) 참조 필요

Discussion


  • 한계 1: Single-pass prediction matching의 단순성 — 더 정교한 uncertainty quantification 기법 통합 가능
  • 한계 2: Certain/Uncertain binary classification의 한계 — 연속적 confidence spectrum 필요
  • 한계 3: 훈련 데이터에 대한 initial inference pass 필요 — large-scale datasets에서 computational cost
  • 한계 4: Knowledge boundary의 동적 특성 — 훈련 중 모델의 knowledge 변화 미반영
  • 향후 방향: (1) Fine-grained uncertainty (연속적 confidence level), (2) RAG와 R-Tuning 결합, (3) Multi-modal R-Tuning, (4) Interactive refinement

Insights


  • 주목할 점: Learning uncertainty > Testing uncertainty — 훈련 단계에서 uncertainty를 명시적으로 학습하면 test-time 추정보다 나은 calibration과 intrinsic uncertainty estimation 제공
  • 연결 고리: SelfAware (Yin et al., 2023)의 “Known Unknowns” 개념을 훈련 방법론으로 직접 확장. Self-Align (Deng et al., 2024)이 R-Tuning을 baseline으로 사용하며 발전
  • 시사점: (1) Refusal ability가 task-agnostic meta-skill로 학습 가능 — 단일 도메인 훈련으로 OOD 일반화, (2) Instruction tuning의 패러다임 전환: “모든 질문에 답변” → “알면 답하고 모르면 거절”, (3) Perplexity와 answer entropy가 knowledge boundary의 natural indicator
  • 질문: Prediction matching이 “우연히 맞춘 경우(lucky guess)“와 “진정한 지식”을 구분할 수 있는가? — calibration metrics (ECE, Brier score)와의 상관관계 분석 필요
  • 비판적 코멘트: (1) Out-of-domain 일반화가 HaluEval-QA 하나로만 평가되어 다양한 OOD 시나리오에서의 검증 부족. (2) Open-ended QA 형식으로 Multiple-choice 형식이 아님 — 통제된 평가 환경에서의 재현성 제한. (3) 논문의 실험 결과 수치가 heatmap/figure로 제공되어 정확한 수치 추출이 어려운 부분 존재

Discussion Points


  • 논쟁점: “Learning uncertainty”와 “testing uncertainty”는 complementary할 수 있으며, 두 접근법의 결합이 더 효과적일 가능성. Test-time uncertainty estimation이 여전히 유용한 상황(distribution shift 등) 존재
  • 검증 필요 가정: (1) Single-pass inference의 prediction-label matching이 모델의 knowledge를 정확히 반영하는지 — 우연히 맞춘 경우(lucky guess) 처리 미비. (2) 훈련 초기에 식별한 certain/uncertain 구분이 훈련 내내 유효한지 — knowledge acquisition dynamics 분석 필요
  • 후속 연구: (1) Continuous uncertainty spectrum 학습 (“I’m 70% confident that…”), (2) Chain-of-Thought에서의 uncertainty propagation, (3) Adversarial robustness of refusal ability, (4) Cross-lingual R-Tuning
  • 벤치마크 적합성 참고: Train/eval split 존재 (훈련 데이터에서 certain/uncertain 식별, 별도 test set 평가). 단, open-ended QA 형식이며 multiple-choice 형식이 아님. 코드 및 데이터셋 공개 (https://github.com/shizhediao/R-Tuning)