Survey: LLM Theory of Mind Benchmarks
Survey Scope
LLM의 마음이론(Theory of Mind, ToM) 능력을 평가하는 벤치마크를 조사하였다. 대화형 ToM, 종합적 ToM 평가, 물리적/심리적 정신 상태 분리, 롤플레이 기반 정신 상태 언어화, 고차 ToM까지를 포괄하는 5편의 논문을 선정하였다.
검색 키워드: theory of mind, false belief, mental state, social cognition, LLM benchmark
대상 연도: 2023-2025
선정 기준: Accepted paper (EMNLP, ACL, AAAI, Frontiers 등)
Research Timeline
timeline title Theory of Mind Benchmark Research Timeline 2023 : FANToM (Kim et al., EMNLP 2023) : Conversational ToM with information asymmetry : 256 dialogues, 10K questions 2024 : ToMBench (Chen et al., ACL 2024) : 8 tasks, 31 abilities, ATOMS framework : OpenToM (Xu et al., ACL 2024) : Physical vs psychological mental states 2025 : ToMATO (Shinoda et al., AAAI 2025) : Inner Speech Prompting, Big Five personality : MoToMQA (Street et al., Frontiers 2025) : Higher-order ToM (orders 2-6)
Thematic Clusters
graph LR subgraph Conversational["Conversational & Interactive"] A["FANToM<br/>(Kim et al., 2023)"] D["ToMATO<br/>(Shinoda et al., 2025)"] end subgraph Comprehensive["Comprehensive Evaluation"] B["ToMBench<br/>(Chen et al., 2024)"] C["OpenToM<br/>(Xu et al., 2024)"] end subgraph HigherOrder["Higher-Order ToM"] E["MoToMQA<br/>(Street et al., 2025)"] end A -->|"Information asymmetry shared"| D A -->|"Extended by"| B B -->|"ATOMS framework"| C C -->|"Physical/Psychological gap"| D D -->|"Role-playing ToM"| E A -->|"Contrasting results"| E
Key Findings Summary
1. 벤치마크 설계에 따른 극단적 성능 차이
- FANToM (All Types): GPT-4+CoT = 26.6% vs Human = 87.5% — 일관성 기반 엄격한 평가
- MoToMQA: GPT-4 = 89% vs Human = 90% — T/F 단일 판단
- ToMBench: GPT-4-1106 = 75.3% vs Human = 85.4% — 객관식 종합 평가
- → 벤치마크 설계(질문 형식, 일관성 요구 수준)가 성능을 크게 좌우
2. 물리적 vs 심리적 ToM 격차
- OpenToM: 모든 모델이 물리적 정신 상태(위치, 사실)는 잘 추론하나 심리적 정신 상태(감정, 태도)는 현저히 부족
- ToMBench: Knowledge 차원 LLM 평균 34.0% (최저) — Knowledge-Pretend Links에서 GPT-4가 3.3%
- ToMATO: Emotion 추론이 5가지 범주 중 가장 어려움
3. 환상적 ToM (Illusory Theory of Mind)
- FANToM: GPT-4가 BeliefQ[CHOICE]=73.3%이지만 AnswerabilityQ[LIST]=28.6% — 동일 추론에 질문 형식별 극단적 차이
- ToMBench: 일관성 테스트에서 격차 10.1% → 16.2%로 확대 — 피상적/단편적 이해
- Fine-tuning으로 특정 형식은 올라가지만 일관된 ToM은 부여하지 못함
4. 고차 ToM의 가능성과 한계
- MoToMQA: GPT-4가 6차 ToM에서 인간 초과 (93% vs 82%) — 복잡한 재귀적 추론 가능
- 그러나 5차에서 모든 모델이 인간보다 낮은 성능 — 특정 복잡도에서 한계
- Instruction tuning 효과: Flan-PaLM(540B) >> PaLM(540B) — 동일 크기에서 20%+ 차이
5. CoT 프롬프팅의 비일관적 효과
- FANToM: CoT로 GPT-4가 8.2% → 26.6%로 향상
- ToMBench: CoT가 모든 모델에서 오히려 성능 저하 — ToM은 명시적 추론보다 암묵적 패턴 인식에 의존?
- → ToM 과제의 특성에 따라 CoT 효과가 상반됨
Research Gaps
- 일관된 평가 기준 부재: FANToM(26.6%) vs MoToMQA(89%)의 극단적 차이 → 표준화된 평가 프레임워크 필요
- 훈련 가능한 벤치마크 부족: ToMBench(evaluation-only), MoToMQA(미공개) → Train/eval split을 제공하는 대규모 ToM 벤치마크 필요
- 다국어/다문화 ToM: 대부분 영어 중심 (ToMBench만 이중언어) → 문화적 보편성과 특수성 미탐구
- Dynamic/Interactive ToM: 모든 벤치마크가 정적 텍스트 기반 → 실시간 상호작용에서의 ToM 평가 미비
- Multimodal ToM: 텍스트 전용 → 시각적 단서(표정, 제스처)를 포함한 ToM 평가 필요
- ToM과 Self-Consciousness 연결: ToM 능력과 메타인지/자기인식의 상관관계 미검증
Paper List
| # | Paper | Venue | Year | Focus | Train/Eval Split | MC QA |
|---|---|---|---|---|---|---|
| 1 | FANToM (Kim et al.) | EMNLP 2023 | 2023 | 대화형 정보 비대칭 ToM, 6가지 질문 유형 | X (eval-focused) | Partial (BeliefQ[CHOICE]) |
| 2 | ToMBench (Chen et al.) | ACL 2024 | 2024 | 8과제 31능력, ATOMS, 이중언어 | X (eval-only) | O |
| 3 | OpenToM (Xu et al.) | ACL 2024 | 2024 | 물리적/심리적 정신 상태 분리 | 확인 필요 | X (Binary/Ternary) |
| 4 | ToMATO (Shinoda et al.) | AAAI 2025 | 2025 | Inner Speech, Big Five, 5가지 정신 상태 | O (ID/OOD) | O (4지선다) |
| 5 | MoToMQA (Street et al.) | Frontiers 2025 | 2025 | 고차 ToM (2-6차), 인간 수준 달성 | X (미공개, test-only) | X (True/False) |
범례: O = 제공, X = 미제공, Partial = 일부 제공