Introduction
- LLM이 자신의 내부 상태에 대해 introspect할 수 있는지에 대한 관심 증가
- Grammatical knowledge와 word prediction 두 도메인에서 introspection 체계적 조사
- 모델의 prompted responses가 internal knowledge를 faithful하게 반영하는지 평가
- Looking Inward (Binder et al., 2024)
- Introspection 관련 선행 연구
Methods
- 21개 open-source LLM 대상 실험
- 모델의 internal linguistic knowledge를 string probability로 측정 (ground truth)
- Metalinguistic prompting 응답과 비교
- 새로운 introspection 측정 지표: 모델의 prompted 응답이 자신의 string probability를 얼마나 예측하는지 (다른 유사 모델 대비)
Results
- Metalinguistic prompting과 probability comparison 모두 높은 task accuracy 달성
- 그러나 privileged “self-access”의 증거 없음
- LLM은 introspect하지 못하며, prompted response를 linguistic generalization과 동일시해선 안 됨
Discussion
- General tasks, model similarity 통제, 다양한 모델 평가를 통한 강건한 결론
- LLM self-report의 한계를 methodologically 잘 보여주는 연구