Introduction


  • Theory of Mind(ToM)은 타인의 정신 상태를 추적하는 능력으로, 인간 인지의 핵심
  • LLM(특히 ChatGPT)이 ToM 과제에서 인간과 구별 불가능한 행동을 보이는지에 대한 논쟁이 활발
  • 본 연구는 GPT 및 LLaMA2 계열 모델을 포괄적 ToM 배터리로 반복 테스트하여, 1,907명의 인간 참가자와 비교
  • 단순한 벤치마크가 아닌, 다양한 ToM 하위 능력(false belief, indirect request, irony, faux pas 등)을 체계적으로 측정

Related Papers


  • 기존 연구들은 주로 false-belief 과제에 집중, 다양한 ToM 하위 능력에 대한 체계적 비교 부족
  • LLM의 ToM 능력에 대한 기존 결과가 혼재(긍정적/부정적)

Methods


  • GPT-4, GPT-3.5, LLaMA2 계열 모델을 false belief, indirect request, misdirection, faux pas 등 다양한 ToM 과제에서 반복 평가
  • 인간 참가자 1,907명과의 직접 비교
  • Belief likelihood를 조작하는 후속 실험으로 LLM 성능의 진정성 검증

Results


  • GPT-4: indirect request, false belief, misdirection에서 인간 수준 또는 그 이상의 성능
  • GPT-4: faux pas 탐지에서는 인간보다 낮은 성능
  • LLaMA2: faux pas에서만 인간 초과 → 후속 분석에서 ignorance attribution bias에 의한 illusory performance로 밝혀짐
  • GPT의 낮은 faux pas 성능은 추론 실패가 아닌, 결론에 대한 hyperconservative approach에 기인

Discussion


  • LLM이 mentalistic inference의 출력과 일치하는 행동을 보이지만, 이것이 진정한 ToM인지는 별개의 문제
  • 체계적 테스트의 중요성 강조 — 단일 과제 결과만으로는 LLM의 ToM 능력을 판단할 수 없음
  • Superficial comparison을 넘어선 systematic testing 방법론 제시