Introduction
- LLM이 생성하는 free text self-explanation이 실제 reasoning process를 반영하지 않을 수 있음 (faithfulness 부재)
- 기존 faithfulness 평가는 behavioral test나 computational block 분석에 의존
- Internal neural representation의 semantic content을 직접 검증하는 NeuroFaith 제안
- Self-explanation / Chain-of-Thought faithfulness
- Mechanistic interpretability
Methods
- Explanation 내 key concepts 식별
- 해당 concepts가 실제로 모델의 prediction에 영향을 미치는지 mechanistically 검증
- 2-hop reasoning과 classification task에서 평가
- Linear faithfulness probe 개발: unfaithful self-explanation 탐지 및 steering으로 faithfulness 개선
Results
- Self-explanation의 faithfulness가 task와 모델에 따라 크게 다름
- NeuroFaith probe가 unfaithful explanation 탐지에 효과적
- Steering을 통해 faithfulness 향상 가능
Discussion
- LLM의 self-report가 내부 과정을 얼마나 반영하는지 직접 측정하는 방법론
- Introspection의 faithfulness 정량화에 기여