Introduction
- Hallucination prediction이 LLM self-awareness의 증거로 해석되지만, 실제로는 question-side shortcut에 의한 것일 수 있음
- Question-awareness와 model-side introspection을 분리하기 위해 Approximate Question-side Effect (AQE) 제안
- SCAO (Semantic Compression by Answering in One word) 방법으로 genuine self-awareness 강화
- LLM hallucination detection 연구
- Self-knowledge probing 연구
Methods
- AQE: question-side shortcut의 기여도를 정량화하는 metric
- SCAO: 모델이 한 단어로 답하도록 하여 question-side cue를 줄이고 model-side signal을 강화
- 여러 데이터셋에서 self-awareness 분석
Results
- 기존 hallucination prediction 성능의 상당 부분이 question의 표면적 패턴에 의존
- SCAO는 question-side cue가 줄어든 설정에서 일관된 성능 달성
- Genuine self-awareness를 촉진하는 데 효과적
Discussion
- Self-awareness 측정 시 shortcut과 실제 introspection을 구분하는 것이 중요
- 기존 벤치마크의 한계를 제시하는 중요한 방법론적 기여