Introduction


  • LLM의 representation space에서 truth/falsehood의 기하학적 구조 조사
  • True/false statement가 linear하게 분리 가능한지 실험

Related Papers


  • Probing classifiers
  • Representation geometry

Methods


  • 다양한 factual statement에 대한 internal activation 수집
  • Linear probing 및 PCA로 truth direction 식별
  • 여러 LLM에서 cross-model 비교

Results


  • Truth/falsehood가 representation space에서 linear하게 분리됨
  • 이 linear structure가 여러 모델과 domain에 걸쳐 일관됨

Discussion


  • LLM이 내부적으로 truth에 대한 표현을 가지고 있음을 시사
  • Self-knowledge의 geometric foundation 제시