Introduction
- LLM의 verbalized confidence score가 실제 정확도와 얼마나 일치하는지 조사
- Self-reported confidence의 신뢰성 문제
Related Papers
- Verbalized uncertainty
- LLM calibration
Methods
- 다양한 LLM에서 verbalized confidence score 수집
- Calibration metrics로 평가
Results
- Verbalized confidence가 체계적으로 overconfident한 경향
- 모델별 calibration 수준 차이 존재
Discussion
- Self-report 기반 self-awareness 측정의 한계
- Verbalized confidence 개선을 위한 방향