Introduction


  • LLM의 factual incorrectness가 배포의 주요 우려사항
  • LLM이 생성 후 fact-checking이 가능하다는 기존 발견 존재
  • 본 연구는 생성 시점(at the time of generation)에 factual recall의 정확성을 dictate하는 내부 compass의 존재를 입증

Related Papers


  • LLM hallucination 및 factual recall 연구
  • Probing 및 linear representation 분석
  • Self-knowledge 관련 연구 (Do I Know This Entity 등)

Methods


  • 주어진 subject entity와 relation에 대해, Transformer residual stream에서 올바른 attribute를 recall할 수 있는지를 dictate하는 linear feature 인코딩 발견
  • Self-awareness signal의 robustness를 minor formatting variation에 대해 검증
  • Context perturbation 영향 분석 (다양한 example selection 전략)
  • Model size 및 training dynamics에 걸친 scaling 실험

Results


  • Self-awareness signal이 formatting variation에 robust함
  • Training 중 self-awareness가 빠르게 출현하고 intermediate layer에서 peak
  • Model size에 따른 scaling 패턴 확인

Discussion


  • LLM 내부에 intrinsic self-monitoring capability가 존재
  • 해석 가능성(interpretability)과 신뢰성(reliability)에 기여
  • Factual self-awareness가 representation level에서 linear하게 인코딩됨