Introduction


  • LLM이 강력해지면서 “I don’t know”라고 말할 수 있는 능력이 중요해짐
  • 기존 self-knowledge 연구는 인간이 정의한 feasibility 개념에 의존하며, LLM이 답할 수 없는 이유를 무시
  • 본 연구는 LLM이 스스로 feasibility boundary를 설정하도록 하고, 그 한계의 일관성을 분석

Related Papers


  • 기존 self-knowledge 연구들의 한계: 인간 정의 feasibility에 의존
  • LLM confidence calibration 연구

Methods


  • LLM에게 자체적으로 feasibility boundary를 설정할 자유를 부여
  • 설정된 boundary의 일관성(consistency)을 측정하여 self-knowledge 평가
  • Task category별 overconfidence vs conservatism 분석

Results


  • GPT-4o, Mistral Large 등 frontier 모델도 80% 이상의 경우에서 자신의 능력에 대해 불확실
  • 모델들은 task category에 따라 overconfidence와 conservatism 사이를 오감
  • Temporal awareness와 contextual understanding에서 가장 큰 self-knowledge 약점 발견

Discussion