Introduction


  • LLM이 내부적으로 truthfulness를 표현하면서도 거짓 출력을 생성하는 현상 조사
  • Internal representation과 output 간의 “cognitive dissonance”

Related Papers


  • Probing for truthfulness
  • Representation engineering

Methods


  • Linear probing으로 internal truthfulness representation 추출
  • Output과의 불일치 패턴 분석

Results


  • Internal representation은 truth를 encode하지만 output은 이를 반영하지 못하는 경우 존재
  • Cognitive dissonance의 빈도와 조건 분석

Discussion


  • Self-knowledge가 존재하나 행동으로 연결되지 않는 현상
  • Introspection 능력과 output faithfulness의 괴리