Introduction
- LLM이 강력해지면서 “I don’t know”라고 말할 수 있는 능력이 중요해짐
- 기존 self-knowledge 연구는 인간이 정의한 feasibility 개념에 의존하며, LLM이 답할 수 없는 이유를 무시
- 본 연구는 LLM이 스스로 feasibility boundary를 설정하도록 하고, 그 한계의 일관성을 분석
- 기존 self-knowledge 연구들의 한계: 인간 정의 feasibility에 의존
- LLM confidence calibration 연구
Methods
- LLM에게 자체적으로 feasibility boundary를 설정할 자유를 부여
- 설정된 boundary의 일관성(consistency)을 측정하여 self-knowledge 평가
- Task category별 overconfidence vs conservatism 분석
Results
- GPT-4o, Mistral Large 등 frontier 모델도 80% 이상의 경우에서 자신의 능력에 대해 불확실
- 모델들은 task category에 따라 overconfidence와 conservatism 사이를 오감
- Temporal awareness와 contextual understanding에서 가장 큰 self-knowledge 약점 발견
Discussion