Introduction


  • LLM이 자신의 내부 상태에 대해 introspect할 수 있는지에 대한 관심 증가
  • Grammatical knowledge와 word prediction 두 도메인에서 introspection 체계적 조사
  • 모델의 prompted responses가 internal knowledge를 faithful하게 반영하는지 평가

Related Papers


  • Looking Inward (Binder et al., 2024)
  • Introspection 관련 선행 연구

Methods


  • 21개 open-source LLM 대상 실험
  • 모델의 internal linguistic knowledge를 string probability로 측정 (ground truth)
  • Metalinguistic prompting 응답과 비교
  • 새로운 introspection 측정 지표: 모델의 prompted 응답이 자신의 string probability를 얼마나 예측하는지 (다른 유사 모델 대비)

Results


  • Metalinguistic prompting과 probability comparison 모두 높은 task accuracy 달성
  • 그러나 privileged “self-access”의 증거 없음
  • LLM은 introspect하지 못하며, prompted response를 linguistic generalization과 동일시해선 안 됨

Discussion


  • General tasks, model similarity 통제, 다양한 모델 평가를 통한 강건한 결론
  • LLM self-report의 한계를 methodologically 잘 보여주는 연구