R-Tuning - Instructing Large Language Models to Say I Don't Know
8분 분량
Introduction
LLM의 instruction tuning은 모델이 해당 지식 보유 여부와 관계없이 모든 질문에 답변하도록 강제 → hallucination 유발
모델의 parametric knowledge 범위를 벗어난 질문에 대해서도 그럴듯한 답변을 생성하는 문제
R-Tuning (Refusal-Aware Instruction Tuning): 훈련 데이터에서 모델이 아는 질문(certain)과 모르는 질문(uncertain)을 식별하고, 모르는 질문에 “I don’t know” 표현을 추가하여 fine-tuning
주요 기여: (1) Pre-trained parametric knowledge와 instruction data 간 지식 격차 식별 방법론, (2) Refusal-aware training data 구축, (3) Refusal ability가 task-agnostic meta-skill로 OOD 데이터셋에 일반화됨을 실증, (4) Learning uncertainty가 testing uncertainty보다 우수한 calibration 제공
NAACL 2024 Outstanding Paper Award 수상
Related Papers
Instruction Tuning 방법론: Alpaca, Vicuna, Tulu 등 — 모든 질문에 답변 생성을 강제하여 knowledge boundary 무시
Uncertainty Estimation: Self-consistency (Wang et al., 2022), verbalized confidence 등 — 주로 test-time에 uncertainty 추정, 훈련 단계 학습 부재
Selective Prediction: Confidence threshold 기반 거절 — 분류 작업 중심, 생성 모델에서의 체계적 접근 부족
SelfAware (Yin et al., 2023): LLM의 자기 지식 평가 — R-Tuning이 이를 훈련 방법론으로 발전
한계: 기존 연구들은 test-time uncertainty estimation에 집중, 훈련 단계에서 knowledge boundary를 명시적으로 학습하는 방법론 부재
Methods
R-Tuning 2단계 방법론
1단계: Known vs Unknown Questions 식별
원본 instruction tuning dataset D에 대해 모델 추론 → prediction과 ground-truth label 비교
Certain data (D1): 예측 = 레이블 (모델이 “아는” 질문)
Uncertain data (D0): 예측 ≠ 레이블 (모델이 “모르는” 질문)
Uncertain data는 certain data보다 높은 perplexity 및 answer entropy 관찰 → knowledge boundary의 natural indicator
2단계: Refusal-Aware Data 구축 및 Fine-tuning
Padding 방법 (기본): Uncertain data의 레이블 뒤에 uncertainty expression 추가 (“I don’t know”, “I’m not sure” 등)
Replacement 방법 (R-Tuning-R): Uncertain data의 레이블을 uncertainty expression으로 완전히 대체
Certain data는 원본 레이블 유지
Multi-Task Training
5개 in-domain datasets (ParaRel, MMLU, WiCE, HotpotQA, FEVER)를 혼합 훈련
Out-of-domain dataset (HaluEval-QA)에서 일반화 능력 평가
Refusal ability가 task-agnostic meta-skill로 학습됨
핵심 아이디어
Knowledge Intersection 기반 훈련: parametric knowledge와 instruction data의 교집합 식별
Explicit Uncertainty Learning: test-time이 아닌 훈련 단계에서 uncertainty 학습
Meta-Skill Transfer: refusal ability를 generalizable skill로 학습
방법론 다이어그램
graph TD
A[원본 Instruction Tuning<br/>Dataset D] --> B[모델 추론:<br/>Prediction vs Label 비교]
B --> C[Certain Data D1<br/>예측 = 레이블]
B --> D[Uncertain Data D0<br/>예측 ≠ 레이블]
C --> E[원본 레이블 유지]
D --> F[Uncertainty Expression 추가<br/>또는 대체]
E --> G[Refusal-Aware<br/>Dataset 구축]
F --> G
G --> H[Fine-Tuning 실행]
H --> I[R-Tuned Model]
I --> J[Known Questions:<br/>정확한 답변 생성]
I --> K[Unknown Questions:<br/>I don't know 응답]
K --> L[Out-of-Domain 일반화<br/>Meta-Skill Transfer]
style A fill:#e1f5fe
style I fill:#e8f5e9
주목할 점: Learning uncertainty > Testing uncertainty — 훈련 단계에서 uncertainty를 명시적으로 학습하면 test-time 추정보다 나은 calibration과 intrinsic uncertainty estimation 제공
연결 고리: SelfAware (Yin et al., 2023)의 “Known Unknowns” 개념을 훈련 방법론으로 직접 확장. Self-Align (Deng et al., 2024)이 R-Tuning을 baseline으로 사용하며 발전
시사점: (1) Refusal ability가 task-agnostic meta-skill로 학습 가능 — 단일 도메인 훈련으로 OOD 일반화, (2) Instruction tuning의 패러다임 전환: “모든 질문에 답변” → “알면 답하고 모르면 거절”, (3) Perplexity와 answer entropy가 knowledge boundary의 natural indicator
질문: Prediction matching이 “우연히 맞춘 경우(lucky guess)“와 “진정한 지식”을 구분할 수 있는가? — calibration metrics (ECE, Brier score)와의 상관관계 분석 필요
비판적 코멘트: (1) Out-of-domain 일반화가 HaluEval-QA 하나로만 평가되어 다양한 OOD 시나리오에서의 검증 부족. (2) Open-ended QA 형식으로 Multiple-choice 형식이 아님 — 통제된 평가 환경에서의 재현성 제한. (3) 논문의 실험 결과 수치가 heatmap/figure로 제공되어 정확한 수치 추출이 어려운 부분 존재
Discussion Points
논쟁점: “Learning uncertainty”와 “testing uncertainty”는 complementary할 수 있으며, 두 접근법의 결합이 더 효과적일 가능성. Test-time uncertainty estimation이 여전히 유용한 상황(distribution shift 등) 존재
검증 필요 가정: (1) Single-pass inference의 prediction-label matching이 모델의 knowledge를 정확히 반영하는지 — 우연히 맞춘 경우(lucky guess) 처리 미비. (2) 훈련 초기에 식별한 certain/uncertain 구분이 훈련 내내 유효한지 — knowledge acquisition dynamics 분석 필요
후속 연구: (1) Continuous uncertainty spectrum 학습 (“I’m 70% confident that…”), (2) Chain-of-Thought에서의 uncertainty propagation, (3) Adversarial robustness of refusal ability, (4) Cross-lingual R-Tuning
벤치마크 적합성 참고: Train/eval split 존재 (훈련 데이터에서 certain/uncertain 식별, 별도 test set 평가). 단, open-ended QA 형식이며 multiple-choice 형식이 아님. 코드 및 데이터셋 공개 (https://github.com/shizhediao/R-Tuning)