Introduction
- LLM이 자신의 오류를 인식할 수 있는가에 대한 confidence paradox 제시
- 높은 confidence로 틀린 답을 내는 현상 분석
Related Papers
- LLM calibration
- Self-correction
Methods
- Confidence score와 actual correctness 간의 관계 분석
- 오류 인식 능력 평가 실험 설계
Results
- LLM이 특정 조건에서 자신의 오류를 감지할 수 있지만 일관적이지 않음
- Confidence paradox: 높은 self-assessed confidence와 실제 오류의 공존
Discussion
- Metacognitive monitoring의 불완전성
- Self-awareness 개선을 위한 시사점