Large Language Models Must Be Taught to Know What They Don’t Know

Introduction

LLM의 uncertainty calibration에 대한 심층 조사. 개입 없이 좋은 uncertainty를 가질 수 있는지, labeled correctness 예시를 어떻게 활용할지, uncertainty가 분포 변화(distribution shift)에 걸쳐 일반화되는지, LLM uncertainty가 인간 의사결정을 어떻게 도울 수 있는지를 탐구.

Methods

  • 모델 생성물의 graded dataset을 활용한 uncertainty fine-tuning
  • MMLU의 open-ended 변형에서 평가
  • ECE (Expected Calibration Error)와 AUROC 측정
  • 분포 변화에 대한 일반화 실험

Results

  • Uncertainty fine-tuning이 적은 추가 파라미터로 더 빠르고 신뢰할 수 있는 추정치 제공
  • 새로운 질문 유형과 태스크로 일반화됨
  • ECE와 AUROC 모두에서 개선

Discussion

  • LLM이 자신이 모르는 것을 아는 것은 자연스럽게 발현되지 않으며, 명시적으로 가르쳐야 함
  • Metacognition/introspection 연구와 직접적으로 연결: 모델의 자기 지식(self-knowledge) 향상
  • NeurIPS 2024 accept