Introduction
- LLM의 hallucination은 널리 알려진 문제이나, 모델이 hallucinate할지 여부를 결정하는 메커니즘은 잘 이해되지 않음
- Sparse autoencoders (SAE)를 interpretability 도구로 활용하여 entity recognition 메커니즘 발견
- 모델이 자신이 사실을 recall할 수 있는 entity인지 감지하는 self-knowledge를 내부적으로 인코딩
- LLM hallucination 연구
- Sparse autoencoders 기반 interpretability
- Representation engineering, probing 연구
Methods
- SAE를 사용하여 representation space에서 의미 있는 방향(direction) 발견
- 이 방향들은 모델이 entity를 인식하는지 여부를 감지 (예: 특정 운동선수나 영화를 모른다는 것을 감지)
- Causal intervention: 이 방향을 조작하여 알려진 entity에 대해 거부하거나, 모르는 entity에 대해 hallucinate하도록 steering 가능
Results
- Entity recognition direction이 causally relevant함을 입증
- Base model에서 학습된 SAE direction이 chat model의 refusal behavior에도 causal effect 발생
- Chat finetuning이 기존 entity recognition 메커니즘을 재활용(repurpose)했음을 시사
- Downstream attention head가 entity attribute를 final token으로 이동시키는 메커니즘 발견
Discussion
- 모델이 self-knowledge (자신의 능력에 대한 내부 표현)를 가질 수 있음을 시사
- Chat finetuning과 base model 간 메커니즘 공유의 의미
- Hallucination 탐지 및 완화에 대한 실질적 시사점