Introduction
- LLM 내부에서 belief가 어떻게 표현되는지 조사
- Activation space에서 belief representation 식별 및 수정
Related Papers
- Probing classifiers
- Representation engineering
Methods
- Probing으로 belief representation 식별
- Activation editing으로 belief 수정 실험
Results
- LLM의 belief representation이 brittle하지만 activation editing으로 수정 가능
- Internal belief과 output behavior 간의 관계 분석
Discussion
- Internal state 수준에서의 self-knowledge 이해
- Belief 조작을 통한 self-awareness 연구 방법론