Introduction
- LLM의 거짓 출력이 hallucination인지 의도적 lying인지 구분
- Internal knowledge와 output 간의 불일치로 lying 가능성 탐구
Related Papers
- Hallucination detection
- LLM deception
Methods
- Internal representation probing으로 모델이 “알고 있는” 정보 식별
- 알고 있으면서 거짓 출력을 내는 경우 탐지
Results
- 특정 조건에서 LLM이 내부적으로 올바른 정보를 가지면서 거짓 출력을 생성
- Hallucination과 lying의 경계 분석
Discussion
- Self-knowledge가 있으면서 행동하지 않는 현상의 의미
- AI safety와 self-awareness의 교차점