Introduction


  • Multi-step reasoning task에서 LLM의 failure detection이 중요
  • 기존 confidence estimation은 single-step output에 초점
  • Holistic scoring vs step-by-step scoring 비교

Related Papers


  • LLM confidence calibration
  • Multi-step reasoning evaluation

Methods


  • 두 가지 직관적 접근: holistic scoring, stepwise scoring
  • 2개 multi-step benchmark dataset에서 평가
  • Self-evaluating LLM-scorer 시스템

Results


  • Stepwise evaluation이 holistic scoring 대비 최대 15% AUC-ROC 향상
  • Self-evaluating LLM이 complex reasoning에서 meaningful confidence estimate 제공

Discussion


  • Metacognitive monitoring의 granularity가 중요
  • Step 수준의 self-awareness가 전체 수준보다 유용