Introduction
- Theory of Mind(ToM)은 타인의 정신 상태를 추적하는 능력으로, 인간 인지의 핵심
- LLM(특히 ChatGPT)이 ToM 과제에서 인간과 구별 불가능한 행동을 보이는지에 대한 논쟁이 활발
- 본 연구는 GPT 및 LLaMA2 계열 모델을 포괄적 ToM 배터리로 반복 테스트하여, 1,907명의 인간 참가자와 비교
- 단순한 벤치마크가 아닌, 다양한 ToM 하위 능력(false belief, indirect request, irony, faux pas 등)을 체계적으로 측정
- 기존 연구들은 주로 false-belief 과제에 집중, 다양한 ToM 하위 능력에 대한 체계적 비교 부족
- LLM의 ToM 능력에 대한 기존 결과가 혼재(긍정적/부정적)
Methods
- GPT-4, GPT-3.5, LLaMA2 계열 모델을 false belief, indirect request, misdirection, faux pas 등 다양한 ToM 과제에서 반복 평가
- 인간 참가자 1,907명과의 직접 비교
- Belief likelihood를 조작하는 후속 실험으로 LLM 성능의 진정성 검증
Results
- GPT-4: indirect request, false belief, misdirection에서 인간 수준 또는 그 이상의 성능
- GPT-4: faux pas 탐지에서는 인간보다 낮은 성능
- LLaMA2: faux pas에서만 인간 초과 → 후속 분석에서 ignorance attribution bias에 의한 illusory performance로 밝혀짐
- GPT의 낮은 faux pas 성능은 추론 실패가 아닌, 결론에 대한 hyperconservative approach에 기인
Discussion
- LLM이 mentalistic inference의 출력과 일치하는 행동을 보이지만, 이것이 진정한 ToM인지는 별개의 문제
- 체계적 테스트의 중요성 강조 — 단일 과제 결과만으로는 LLM의 ToM 능력을 판단할 수 없음
- Superficial comparison을 넘어선 systematic testing 방법론 제시