Introduction


  • LLM이 자신의 의사결정을 구동하는 복잡한 내부 과정을 설명할 수 있는지 연구
  • 무작위 생성된 속성 가중치로 선호도를 학습시킨 후 해당 가중치를 보고할 수 있는지 테스트
  • “Introspection training”으로 자기 설명 능력 향상 및 일반화 가능성 탐구

Related Papers


  • Looking Inward (Binder et al., 2024) - LLM introspection
  • Tell Me About Yourself (Betley et al., 2025) - behavioral self-awareness
  • LLM interpretability 연구

Methods


  • GPT-4o, GPT-4o-mini를 무작위 속성 가중치 기반 선호도 과제로 fine-tuning
  • 가중치가 학습 데이터에 명시적으로 포함되지 않은 상태에서 보고 요청
  • Targeted introspection training으로 자기 설명 능력 향상
  • 학습하지 않은 다른 의사결정 맥락으로의 일반화 테스트

Results


  • 모델이 학습된 선호도 가중치를 정확히 보고 가능
  • Introspection training이 자기 설명 능력을 향상
  • 다른 의사결정 맥락으로 일반화됨 (out-of-distribution generalization)
  • 내부 과정의 정량적 측면에 대한 접근이 가능함을 시사

Discussion


  • AI interpretability와 safety에 대한 직접적 응용 가능성
  • Introspection training이 self-explanation의 일반화 가능한 도구임을 시사
  • 더 복잡한 내부 과정에 대한 설명 능력은 추가 연구 필요