Introduction
- LLM이 자신의 uncertainty를 언어적으로 표현할 수 있는지 체계적 평가
- Verbalized confidence와 internal probability 간의 관계 조사
- 다양한 confidence elicitation 전략 비교
- Confidence calibration in neural networks
- LLM uncertainty quantification
Methods
- Top-k verbalized confidence, chain-of-thought confidence, multi-step confidence 등 다양한 elicitation 방법 비교
- GPT-4, GPT-3.5, LLaMA 등에서 실험
- Calibration error (ECE), AUROC 등으로 평가
Results
- Verbalized confidence가 internal token probability보다 calibration이 떨어짐
- Chain-of-thought prompting이 confidence calibration에 도움
- 모델 크기가 클수록 verbalized confidence calibration 개선
Discussion
- LLM의 self-knowledge 표현 능력의 한계
- Verbalized vs internal confidence의 괴리가 self-awareness 연구에 시사하는 점