Introduction
- LLM이 내부적으로 truthfulness를 표현하면서도 거짓 출력을 생성하는 현상 조사
- Internal representation과 output 간의 “cognitive dissonance”
Related Papers
- Probing for truthfulness
- Representation engineering
Methods
- Linear probing으로 internal truthfulness representation 추출
- Output과의 불일치 패턴 분석
Results
- Internal representation은 truth를 encode하지만 output은 이를 반영하지 못하는 경우 존재
- Cognitive dissonance의 빈도와 조건 분석
Discussion
- Self-knowledge가 존재하나 행동으로 연결되지 않는 현상
- Introspection 능력과 output faithfulness의 괴리