Introduction


  • LLM이 Theory of Mind(ToM)을 가지는지에 대한 과학적/대중적 관심이 증가하나, 증거가 혼재
  • 평가 방법이 늘어나고 있음에도 수렴(convergence)이 이루어지지 않음
  • 인지과학에서 영감을 받아, LLM의 ToM 평가 현황을 근본적으로 재검토

Related Papers


  • LLM ToM 평가 연구들의 결과가 일관되지 않는 현상
  • 인지과학에서의 ToM 평가 방법론과의 비교

Methods


  • LLM이 인간의 행동(behaviour)과 일치해야 하는지, 아니면 그 행동의 기저 연산(computation)과 일치해야 하는지에 대한 명확한 구분 제시
  • 현재 평가들이 ‘순수한(pure)’ ToM 능력 측정에서 벗어나는 방식들을 분석
  • 행동적 매칭 vs. 연산적 매칭의 구분이 혼란의 주요 원인임을 주장

Results


  • LLM이 ToM을 가지는지에 대한 불일치의 주요 원인: 행동 매칭과 연산 매칭 간의 불명확한 구분
  • 현재 평가들이 ToM 외의 다른 능력도 측정하고 있어 결과를 오염시킴

Discussion


  • ToM과 pragmatic communication의 관계를 포함한 향후 연구 방향 제시
  • 인공 시스템뿐 아니라 인간 인지에 대한 이해도 발전시킬 수 있는 연구 방향
  • LLM ToM 평가에서 ‘무엇을 측정하는가’를 명확히 해야 한다는 메타-방법론적 기여