Survey: LLM Theory of Mind Benchmarks

Survey Scope

LLM의 마음이론(Theory of Mind, ToM) 능력을 평가하는 벤치마크를 조사하였다. 대화형 ToM, 종합적 ToM 평가, 물리적/심리적 정신 상태 분리, 롤플레이 기반 정신 상태 언어화, 고차 ToM까지를 포괄하는 5편의 논문을 선정하였다.

검색 키워드: theory of mind, false belief, mental state, social cognition, LLM benchmark
대상 연도: 2023-2025
선정 기준: Accepted paper (EMNLP, ACL, AAAI, Frontiers 등)

Research Timeline

timeline
    title Theory of Mind Benchmark Research Timeline
    2023 : FANToM (Kim et al., EMNLP 2023)
         : Conversational ToM with information asymmetry
         : 256 dialogues, 10K questions
    2024 : ToMBench (Chen et al., ACL 2024)
         : 8 tasks, 31 abilities, ATOMS framework
         : OpenToM (Xu et al., ACL 2024)
         : Physical vs psychological mental states
    2025 : ToMATO (Shinoda et al., AAAI 2025)
         : Inner Speech Prompting, Big Five personality
         : MoToMQA (Street et al., Frontiers 2025)
         : Higher-order ToM (orders 2-6)

Thematic Clusters

graph LR
    subgraph Conversational["Conversational & Interactive"]
        A["FANToM<br/>(Kim et al., 2023)"]
        D["ToMATO<br/>(Shinoda et al., 2025)"]
    end

    subgraph Comprehensive["Comprehensive Evaluation"]
        B["ToMBench<br/>(Chen et al., 2024)"]
        C["OpenToM<br/>(Xu et al., 2024)"]
    end

    subgraph HigherOrder["Higher-Order ToM"]
        E["MoToMQA<br/>(Street et al., 2025)"]
    end

    A -->|"Information asymmetry shared"| D
    A -->|"Extended by"| B
    B -->|"ATOMS framework"| C
    C -->|"Physical/Psychological gap"| D
    D -->|"Role-playing ToM"| E
    A -->|"Contrasting results"| E

Key Findings Summary

1. 벤치마크 설계에 따른 극단적 성능 차이

  • FANToM (All Types): GPT-4+CoT = 26.6% vs Human = 87.5% — 일관성 기반 엄격한 평가
  • MoToMQA: GPT-4 = 89% vs Human = 90% — T/F 단일 판단
  • ToMBench: GPT-4-1106 = 75.3% vs Human = 85.4% — 객관식 종합 평가
  • → 벤치마크 설계(질문 형식, 일관성 요구 수준)가 성능을 크게 좌우

2. 물리적 vs 심리적 ToM 격차

  • OpenToM: 모든 모델이 물리적 정신 상태(위치, 사실)는 잘 추론하나 심리적 정신 상태(감정, 태도)는 현저히 부족
  • ToMBench: Knowledge 차원 LLM 평균 34.0% (최저) — Knowledge-Pretend Links에서 GPT-4가 3.3%
  • ToMATO: Emotion 추론이 5가지 범주 중 가장 어려움

3. 환상적 ToM (Illusory Theory of Mind)

  • FANToM: GPT-4가 BeliefQ[CHOICE]=73.3%이지만 AnswerabilityQ[LIST]=28.6% — 동일 추론에 질문 형식별 극단적 차이
  • ToMBench: 일관성 테스트에서 격차 10.1% → 16.2%로 확대 — 피상적/단편적 이해
  • Fine-tuning으로 특정 형식은 올라가지만 일관된 ToM은 부여하지 못함

4. 고차 ToM의 가능성과 한계

  • MoToMQA: GPT-4가 6차 ToM에서 인간 초과 (93% vs 82%) — 복잡한 재귀적 추론 가능
  • 그러나 5차에서 모든 모델이 인간보다 낮은 성능 — 특정 복잡도에서 한계
  • Instruction tuning 효과: Flan-PaLM(540B) >> PaLM(540B) — 동일 크기에서 20%+ 차이

5. CoT 프롬프팅의 비일관적 효과

  • FANToM: CoT로 GPT-4가 8.2% → 26.6%로 향상
  • ToMBench: CoT가 모든 모델에서 오히려 성능 저하 — ToM은 명시적 추론보다 암묵적 패턴 인식에 의존?
  • → ToM 과제의 특성에 따라 CoT 효과가 상반됨

Research Gaps

  1. 일관된 평가 기준 부재: FANToM(26.6%) vs MoToMQA(89%)의 극단적 차이 → 표준화된 평가 프레임워크 필요
  2. 훈련 가능한 벤치마크 부족: ToMBench(evaluation-only), MoToMQA(미공개) → Train/eval split을 제공하는 대규모 ToM 벤치마크 필요
  3. 다국어/다문화 ToM: 대부분 영어 중심 (ToMBench만 이중언어) → 문화적 보편성과 특수성 미탐구
  4. Dynamic/Interactive ToM: 모든 벤치마크가 정적 텍스트 기반 → 실시간 상호작용에서의 ToM 평가 미비
  5. Multimodal ToM: 텍스트 전용 → 시각적 단서(표정, 제스처)를 포함한 ToM 평가 필요
  6. ToM과 Self-Consciousness 연결: ToM 능력과 메타인지/자기인식의 상관관계 미검증

Paper List

#PaperVenueYearFocusTrain/Eval SplitMC QA
1FANToM (Kim et al.)EMNLP 20232023대화형 정보 비대칭 ToM, 6가지 질문 유형X (eval-focused)Partial (BeliefQ[CHOICE])
2ToMBench (Chen et al.)ACL 202420248과제 31능력, ATOMS, 이중언어X (eval-only)O
3OpenToM (Xu et al.)ACL 20242024물리적/심리적 정신 상태 분리확인 필요X (Binary/Ternary)
4ToMATO (Shinoda et al.)AAAI 20252025Inner Speech, Big Five, 5가지 정신 상태O (ID/OOD)O (4지선다)
5MoToMQA (Street et al.)Frontiers 20252025고차 ToM (2-6차), 인간 수준 달성X (미공개, test-only)X (True/False)

범례: O = 제공, X = 미제공, Partial = 일부 제공