Introduction
- LLM의 hidden states, attention weights, token probabilities가 factuality signal을 encode한다는 주장에 대한 반론
- Shortcut이나 spurious association에 의한 factual error도 동일한 training objective에서 발생
- Internal computation이 factual output과 hallucinated output을 신뢰성 있게 구분할 수 있는지 조사
- LLM knows what it knows 관련 연구
- Hallucination detection via internal states
Methods
- Subject information 의존도에 따른 두 가지 hallucination 유형 비교
- Hidden-state geometry 분석
- Mechanistic analysis of factual query processing
Results
- Subject knowledge와 연관된 hallucination: correct response와 동일한 internal recall process → 구분 불가
- Subject knowledge와 무관한 hallucination: 별개의 clustered representation → 탐지 가능
- LLM은 truthfulness가 아닌 knowledge recall 패턴만 encode
Discussion
- “LLMs don’t really know what they don’t know”라는 근본적 한계 제시
- Self-knowledge 연구에서 hallucination 유형 구분의 중요성 시사