Introduction


  • LLM이 내부 상태에서 비롯된 자기 지식(introspection)을 가질 수 있는지 연구
  • Introspection을 “훈련 데이터에 포함되지 않은, 내부 상태에서 기원하는 지식 획득”으로 정의
  • 모델 M1이 자기 행동 예측에서 다른 모델 M2보다 우수하다면 introspection의 증거

Related Papers


  • 인간 introspection 연구 (심리학/철학)
  • LLM self-evaluation 연구
  • Behavioral prediction 관련 연구

Methods


  • LLM을 가상 시나리오에서 자신의 행동 속성을 예측하도록 fine-tuning
  • GPT-4, GPT-4o, Llama-3 모델 실험
  • 모델 M1의 자기 예측 vs 다른 모델 M2의 M1 행동 예측 비교
  • Ground-truth 행동을 의도적으로 수정한 후에도 자기 예측 정확도 유지 여부 확인

Results


  • M1이 자기 행동 예측에서 M2보다 일관되게 우수 (introspection 증거)
  • Llama 70B 자기 예측 48.5% vs GPT-4o의 Llama 예측 31.8%
  • GPT-4o 자기 예측 49.4% vs Llama 70B의 GPT-4o 예측 36.6%
  • 행동 수정 후에도 자기 예측 정확도 유지
  • 단, 복잡한 과제나 OOD 일반화에서는 실패

Discussion


  • 단순 과제에서는 introspection이 성공하나 복잡한 과제로의 확장은 미해결
  • 긴 출력을 요하는 과제(스토리 작성 등)에서는 자기 행동 예측 어려움
  • Privileged access의 성격과 한계에 대한 추가 연구 필요