Introduction
- LLM의 representation space에서 truth/falsehood의 기하학적 구조 조사
- True/false statement가 linear하게 분리 가능한지 실험
Related Papers
- Probing classifiers
- Representation geometry
Methods
- 다양한 factual statement에 대한 internal activation 수집
- Linear probing 및 PCA로 truth direction 식별
- 여러 LLM에서 cross-model 비교
Results
- Truth/falsehood가 representation space에서 linear하게 분리됨
- 이 linear structure가 여러 모델과 domain에 걸쳐 일관됨
Discussion
- LLM이 내부적으로 truth에 대한 표현을 가지고 있음을 시사
- Self-knowledge의 geometric foundation 제시