Introduction


  • LLM이 인간과 유사한 Theory of Mind(ToM)을 통해 일상적 과제를 지원할 것이라는 기대가 증가
  • 기존 machine ToM 평가 방법은 주로 단일 모달 모델에 집중, 모델을 블랙박스로 취급하여 내부 메커니즘 탐구 부족
  • 본 연구는 내부 메커니즘 기반 접근으로 멀티모달 LLM(MLLM)의 ToM에 대한 해석 가능성 중심 평가 수행

Related Papers


  • 기존 ToM 평가: 단일 모달, 블랙박스 평가 중심
  • Mechanistic interpretability 연구 (attention head 분석)

Methods


  • GridToM 데이터셋 구축: 다양한 belief testing 과제 + 다중 관점의 지각 정보를 포함하는 멀티모달 ToM 테스트 데이터셋
  • Attention Head 분석: 멀티모달 대규모 모델의 attention head가 관점별 인지 정보를 구분할 수 있음을 확인 → ToM 능력의 증거
  • Training-free 향상 방법: attention head의 방향을 조정하는 경량 접근으로 모델의 ToM 능력을 유의미하게 향상

Results


  • Attention head가 다양한 관점의 인지 정보를 구분하는 능력 확인
  • Training 없이 attention head 방향 조정만으로 ToM 성능 유의미하게 향상
  • 멀티모달 환경에서의 ToM 해석 가능성에 대한 새로운 증거 제공

Discussion


  • 블랙박스 평가를 넘어, 내부 메커니즘 분석 기반 ToM 평가의 필요성 제시
  • Training-free 접근은 실용적이고 경량화된 ToM 향상 방법
  • 향후 다양한 MLLM 아키텍처에 대한 일반화 검증 필요