Introduction


  • LLM의 거짓 출력이 hallucination인지 의도적 lying인지 구분
  • Internal knowledge와 output 간의 불일치로 lying 가능성 탐구

Related Papers


  • Hallucination detection
  • LLM deception

Methods


  • Internal representation probing으로 모델이 “알고 있는” 정보 식별
  • 알고 있으면서 거짓 출력을 내는 경우 탐지

Results


  • 특정 조건에서 LLM이 내부적으로 올바른 정보를 가지면서 거짓 출력을 생성
  • Hallucination과 lying의 경계 분석

Discussion


  • Self-knowledge가 있으면서 행동하지 않는 현상의 의미
  • AI safety와 self-awareness의 교차점