Introduction
- Multi-step reasoning task에서 LLM의 failure detection이 중요
- 기존 confidence estimation은 single-step output에 초점
- Holistic scoring vs step-by-step scoring 비교
- LLM confidence calibration
- Multi-step reasoning evaluation
Methods
- 두 가지 직관적 접근: holistic scoring, stepwise scoring
- 2개 multi-step benchmark dataset에서 평가
- Self-evaluating LLM-scorer 시스템
Results
- Stepwise evaluation이 holistic scoring 대비 최대 15% AUC-ROC 향상
- Self-evaluating LLM이 complex reasoning에서 meaningful confidence estimate 제공
Discussion
- Metacognitive monitoring의 granularity가 중요
- Step 수준의 self-awareness가 전체 수준보다 유용