Introduction
- LM이 특정 질문에 대한 답을 confidence를 가지고 알고 있는지 판단하는 문제
- Calibration 관점에서 접근: predicted probability와 correctness probability의 상관관계
- T5, BART, GPT-2 세 모델의 QA calibration 분석
- Language model as knowledge base (LAMA)
- Calibration 연구 (Platt scaling, temperature scaling 등)
Methods
- Fine-tuning, post-hoc probability modification, output/input adjustment를 통한 calibration
- 다양한 QA 데이터셋에서 실험
Results
- 세 모델 모두 QA에서 poorly calibrated
- 제안한 calibration 방법들이 confidence와 correctness의 상관관계 개선
- 모델별, 데이터셋별 calibration 특성 차이 분석
Discussion
- LLM self-knowledge 연구의 기초적 참고 논문
- Calibration이 self-knowledge의 proxy로 사용될 수 있음을 보여줌