MoToMQA - LLMs Achieve Adult Human Performance on Higher-Order Theory of Mind Tasks
10분 분량
Introduction
LLM이 고차 마음이론(higher-order ToM, 2-6차)을 수행할 수 있는지 체계적으로 평가한 연구
마음이론: 다른 사람의 정신 상태를 재귀적으로 추론하는 능력 (예: “나는 당신이 그녀가 안다고 믿는다고 생각한다”)
MoToMQA (Multi-Order Theory of Mind Q&A) 벤치마크 제안: 2차~6차 ToM 평가, 140개 참/거짓 진술
5개 LLM을 새롭게 수집한 성인 인간 기준선과 비교
핵심 발견: GPT-4와 Flan-PaLM이 인간 성인 수준의 성능 달성, GPT-4는 6차 ToM에서 인간 초과
주요 기여: (1) 2-6차 고차 ToM 평가 최초의 벤치마크, (2) 성인 인간 기준선 구축, (3) 모델 크기 + instruction tuning의 상호작용 발견
Related Papers
Sally-Anne Test, Strange Stories: 전통적 1-2차 ToM 평가 — 고차 ToM(3차 이상) 미평가
BIG-Bench ToM 과제: 1-2차 ToM만 포함 — MoToMQA가 6차까지 확장
LLM ToM 연구: GPT-3, GPT-4의 기본 false belief 해결 가능 확인 — 고차 추론은 미검증
MMToM-QA, ToMBench, Hi-ToM: 후속 벤치마크 — MoToMQA가 기초 역할
Methods
MoToMQA 벤치마크 설계
구성
7개 짧은 이야기 (각 약 200단어): 직장 경쟁, 부부 불륜, 죽음, 놀라운 일, 세대 간 가족 역학 등 일상적 사회적 시나리오
각 이야기당 20개 참/거짓 진술:
10개 ToM 진술 (2-6차, 각 차수당 2개)
10개 사실 진술 (2-6 원자 명제 길이, ToM과 매칭)
총 140개 진술 (70 ToM + 70 사실)
3~5명의 캐릭터가 등장
평가 형식
True/False 이진 판단 (다지선다형이 아님)
Zero-shot 방식 평가
모델 선정 (5개 LLM)
GPT-4 (~1.7T 파라미터 추정)
Flan-PaLM (540B)
GPT-3.5
PaLM (540B)
LaMDA (137B)
인간 기준선 수집
온라인 플랫폼(Prolific)을 통해 영어 원어민 성인 참가자 모집
각 참가자는 7개 이야기 중 1개를 배정받아 2번 읽은 후, 20개 진술 중 1개에 대해 참/거짓 판단
Between-subject 설계: 학습 효과 배제, 총 140명 참가자
통제 조건
사실 진술로 단순 이야기 이해와 ToM 추론 분리
진술 길이(원자 명제 수)를 ToM 차수와 매칭하여 언어적 복잡성 통제
방법론 다이어그램
graph TD
A[MoToMQA 벤치마크] --> B[7개 사회적 시나리오<br/>각 약 200단어]
B --> C[각 이야기당 20개 진술]
C --> D[10개 ToM 진술<br/>2-6차 각 2개]
C --> E[10개 사실 진술<br/>2-6 명제 길이]
D --> F[모델 평가]
E --> F
F --> G[5개 LLM 테스트<br/>GPT-4, Flan-PaLM 등]
F --> H[인간 기준선 수집<br/>140명 참가자]
G --> I[차수별 정확도 계산]
H --> I
I --> J[통계 분석<br/>ANOVA, post-hoc]
J --> K[결과: GPT-4, Flan-PaLM<br/>인간 수준 달성]
style A fill:#e1f5fe
style K fill:#e8f5e9
Results
모델: GPT-4, Flan-PaLM, GPT-3.5, PaLM, LaMDA
데이터셋: MoToMQA (140 진술, 7 이야기)
데이터 형식: True/False 이진 판단 (Multiple-choice 아님). 전체가 test set — 데이터 오염 방지를 위해 벤치마크 미공개 (요청 시 제공)
핵심 발견: GPT-4 89%, Flan-PaLM 84%, 인간 90% — GPT-4가 6차 ToM에서 인간 초과
실험 결과 상세
전체 성능 (2-6차 종합)
Model
Overall Acc
Parameters
비고
Human Adults
90%
-
기준선
GPT-4
89%
~1.7T
인간과 유의한 차이 없음
Flan-PaLM
84%
540B
인간과 유의한 차이 없음 (5차 제외)
GPT-3.5
~68%
~175B
유의하게 낮음
PaLM
~65%
540B
유의하게 낮음
LaMDA
~62%
137B
유의하게 낮음
차수별 성능
ToM Order
Human
GPT-4
Flan-PaLM
비고
2nd
~95%
~95%
100%
Flan-PaLM 완벽
3rd
~95%
~95%
100%
Flan-PaLM 완벽
4th
~92%
~90%
~85%
5th
~88%
~85%
~75%
유일하게 모델 < 인간
6th
82%
93%
~80%
GPT-4가 인간 초과
주요 발견
발견
세부 내용
6차 ToM GPT-4 초인간
GPT-4 93% vs Human 82% — 최고난도에서 인간 초과
Flan-PaLM 2-3차 완벽
100% 정확도 — instruction tuning 효과
5차 특이점
모든 모델이 5차에서만 인간보다 낮음
Instruction tuning 효과
Flan-PaLM(540B) >> PaLM(540B) — 동일 크기에서 20%+ 차이
사실 진술
모든 모델/인간이 90%+ — 기본 독해력 충분 확인
Discussion
GPT-4의 6차 초인간 성능: 대규모 사전학습 데이터의 복잡한 언어 패턴이 고차 ToM 추론을 지원할 가능성
한계 1: 데이터 유출 가능성 — MoToMQA를 미공개로 방지했으나, 유사 문제가 훈련 데이터에 포함되었을 가능성 완전 배제 불가
한계 2: 7개 이야기, 140개 진술 — 고차 ToM의 다양성 포착에 제한적, 문화적 다양성 부족
한계 3: True/False 형식 — 50% 추측 확률로 과대평가 가능성
한계 4: Between-subject 설계로 개인 내 변동성 미측정
향후 방향: (1) 다국어/문화 간 ToM, (2) 실시간 대화에서의 ToM, (3) Interpretability 분석, (4) 인간-AI 협업에서의 ToM 활용
Insights
주목할 점: GPT-4가 6차 ToM에서 인간 초과(93% vs 82%) — LLM이 인간이 어려워하는 최고난도 재귀적 추론에서 더 우수. Flan-PaLM의 2-3차 100% → instruction tuning이 ToM 추론에 결정적 역할. 5차에서만 모든 모델이 인간보다 낮음 → 특정 복잡도에서 아키텍처 한계 가능성
연결 고리: BIG-Bench ToM을 6차까지 확장. FANToM(GPT-4 All Types 26.6%)과 대조적 결과 — FANToM은 일관성 중시(엄격), MoToMQA는 단일 T/F 판단(관대). ToMBench(GPT-4 75.3%)과 비교하면 MoToMQA에서 GPT-4가 더 높은 성능(89%) → 벤치마크 설계에 따른 성능 변동
시사점: (1) 협상, 외교, 게임 이론 등 복잡한 사회적 추론이 필요한 영역에서 AI 활용 가능성. (2) 모델 규모 + instruction tuning의 시너지 효과 — PaLM(540B) vs Flan-PaLM(540B)에서 20%+ 차이. (3) True/False 형식의 벤치마크는 LLM에게 상대적으로 유리할 수 있음 → 다른 형식과의 비교 필요
질문: 5차 ToM에서 왜 모든 모델이 하락하는가? Zero-shot vs Few-shot 차이는? Chain-of-Thought로 5차 성능이 개선되는가?
비판적 코멘트: (1) True/False 형식은 50% 추측 확률 — 실제 추론 능력을 과대평가할 가능성. (2) 7개 이야기, 140개 진술은 통계적 신뢰도에 한계. (3) FANToM, ToMBench 등과 비교하면 MoToMQA에서의 높은 성능이 벤치마크 설계(T/F, 짧은 이야기)에 기인할 가능성. (4) 인간 기준선 각 참가자 1개 진술만 판단 → 개인 내 일관성 미확인
Discussion Points
논쟁점: (1) LLM이 진정한 ToM을 가지는가? MoToMQA 89%는 “행동적 성능”일 뿐 내부적으로 정신 상태를 표상하는지는 불명확. (2) FANToM(26.6%) vs MoToMQA(89%) 극단적 차이 — 벤치마크 설계가 결과를 결정하는가? 어느 벤치마크가 “진정한” ToM을 측정하는가?
검증 필요 가정: (1) Zero-shot 평가의 타당성 — 유사 문제가 사전학습에 포함되었을 가능성. (2) True/False 형식이 충분히 엄격한 평가인가? (3) 사실 진술 통제가 ToM 추론의 순수성을 보장하는가?
후속 연구: (1) 멀티모달 고차 ToM (비디오, 이미지), (2) 다국어 MoToMQA, (3) Interpretability — LLM이 내부적으로 정신 상태를 어떻게 표상하는지 probing, (4) 실시간 대화에서의 고차 ToM, (5) 인간-AI 협업 시나리오에서 ToM 효용성 검증
벤치마크 적합성 참고: True/False 형식 (Multiple-choice가 아님). 전체가 test set — Train split 없음. 데이터셋 미공개 (요청 시 제공, 데이터 오염 방지). 코드: 공개 정보 미확인. Supplementary material: Frontiers 논문 부록