Introduction


  • LM이 특정 질문에 대한 답을 confidence를 가지고 알고 있는지 판단하는 문제
  • Calibration 관점에서 접근: predicted probability와 correctness probability의 상관관계
  • T5, BART, GPT-2 세 모델의 QA calibration 분석

Related Papers


  • Language model as knowledge base (LAMA)
  • Calibration 연구 (Platt scaling, temperature scaling 등)

Methods


  • Fine-tuning, post-hoc probability modification, output/input adjustment를 통한 calibration
  • 다양한 QA 데이터셋에서 실험

Results


  • 세 모델 모두 QA에서 poorly calibrated
  • 제안한 calibration 방법들이 confidence와 correctness의 상관관계 개선
  • 모델별, 데이터셋별 calibration 특성 차이 분석

Discussion


  • LLM self-knowledge 연구의 기초적 참고 논문
  • Calibration이 self-knowledge의 proxy로 사용될 수 있음을 보여줌