Introduction
- LLM이 자신의 internal knowledge state를 인식하고 표현할 수 있는지 평가
- Knowledge state probing에서 85% 이상의 accuracy 관찰 → robust self-awareness 존재
- 그러나 generation 시 internal knowledge를 faithfully express하지 못해 hallucination 발생
- Hallucination detection and mitigation
- RLHF
Methods
- DreamCatcher: knowledge probing + consistency checking을 결합한 자동 hallucination annotation 도구
- Knowledge preference data ranking
- RLKF (Reinforcement Learning from Knowledge Feedback): knowledge preference를 reward로 활용
Results
- RLKF가 모델의 internal knowledge state 활용 능력을 효과적으로 향상
- Knowledge-based 및 honesty-related task에서 성능 개선
- 53 citations
Discussion
- Self-awareness가 존재하지만 생성 과정에서 활용되지 못하는 gap을 식별
- Internal state와 output의 alignment이 핵심 과제