Introduction


  • LLM이 자신의 internal knowledge state를 인식하고 표현할 수 있는지 평가
  • Knowledge state probing에서 85% 이상의 accuracy 관찰 → robust self-awareness 존재
  • 그러나 generation 시 internal knowledge를 faithfully express하지 못해 hallucination 발생

Related Papers


  • Hallucination detection and mitigation
  • RLHF

Methods


  • DreamCatcher: knowledge probing + consistency checking을 결합한 자동 hallucination annotation 도구
  • Knowledge preference data ranking
  • RLKF (Reinforcement Learning from Knowledge Feedback): knowledge preference를 reward로 활용

Results


  • RLKF가 모델의 internal knowledge state 활용 능력을 효과적으로 향상
  • Knowledge-based 및 honesty-related task에서 성능 개선
  • 53 citations

Discussion


  • Self-awareness가 존재하지만 생성 과정에서 활용되지 못하는 gap을 식별
  • Internal state와 output의 alignment이 핵심 과제