Introduction
- LLM이 자신의 의사결정을 구동하는 복잡한 내부 과정을 설명할 수 있는지 연구
- 무작위 생성된 속성 가중치로 선호도를 학습시킨 후 해당 가중치를 보고할 수 있는지 테스트
- “Introspection training”으로 자기 설명 능력 향상 및 일반화 가능성 탐구
- Looking Inward (Binder et al., 2024) - LLM introspection
- Tell Me About Yourself (Betley et al., 2025) - behavioral self-awareness
- LLM interpretability 연구
Methods
- GPT-4o, GPT-4o-mini를 무작위 속성 가중치 기반 선호도 과제로 fine-tuning
- 가중치가 학습 데이터에 명시적으로 포함되지 않은 상태에서 보고 요청
- Targeted introspection training으로 자기 설명 능력 향상
- 학습하지 않은 다른 의사결정 맥락으로의 일반화 테스트
Results
- 모델이 학습된 선호도 가중치를 정확히 보고 가능
- Introspection training이 자기 설명 능력을 향상
- 다른 의사결정 맥락으로 일반화됨 (out-of-distribution generalization)
- 내부 과정의 정량적 측면에 대한 접근이 가능함을 시사
Discussion
- AI interpretability와 safety에 대한 직접적 응용 가능성
- Introspection training이 self-explanation의 일반화 가능한 도구임을 시사
- 더 복잡한 내부 과정에 대한 설명 능력은 추가 연구 필요