Introduction


  • LLM 내부에서 belief가 어떻게 표현되는지 조사
  • Activation space에서 belief representation 식별 및 수정

Related Papers


  • Probing classifiers
  • Representation engineering

Methods


  • Probing으로 belief representation 식별
  • Activation editing으로 belief 수정 실험

Results


  • LLM의 belief representation이 brittle하지만 activation editing으로 수정 가능
  • Internal belief과 output behavior 간의 관계 분석

Discussion


  • Internal state 수준에서의 self-knowledge 이해
  • Belief 조작을 통한 self-awareness 연구 방법론