Introduction


  • Program-aided reasoning (PAL)이 accuracy뿐 아니라 calibration(self-knowledge)도 향상시키는지 탐구
  • Calibration: 모델이 “자신이 아는 것을 아는” 정도를 정량화
  • PAL vs Chain-of-Thought (CoT) 비교

Related Papers


  • PAL (Program-Aided Language Models)
  • Chain-of-Thought prompting

Methods


  • 5개 데이터셋, 2가지 모델 유형(LLaMA, OpenAI)에서 비교
  • Calibration metric으로 self-knowledge 측정
  • Temperature scaling 실험

Results


  • PAL이 75%의 경우에서 더 나은 calibration 달성
  • 낮은 generation diversity가 더 나은 calibration과 연관
  • 특정 temperature에서 PAL이 accuracy와 calibration 모두 우수

Discussion


  • Reasoning 방식이 self-knowledge에 영향을 미침
  • Prompting strategy와 metacognitive 능력의 연결