Introduction
- Program-aided reasoning (PAL)이 accuracy뿐 아니라 calibration(self-knowledge)도 향상시키는지 탐구
- Calibration: 모델이 “자신이 아는 것을 아는” 정도를 정량화
- PAL vs Chain-of-Thought (CoT) 비교
- PAL (Program-Aided Language Models)
- Chain-of-Thought prompting
Methods
- 5개 데이터셋, 2가지 모델 유형(LLaMA, OpenAI)에서 비교
- Calibration metric으로 self-knowledge 측정
- Temperature scaling 실험
Results
- PAL이 75%의 경우에서 더 나은 calibration 달성
- 낮은 generation diversity가 더 나은 calibration과 연관
- 특정 temperature에서 PAL이 accuracy와 calibration 모두 우수
Discussion
- Reasoning 방식이 self-knowledge에 영향을 미침
- Prompting strategy와 metacognitive 능력의 연결