SimpleToM — Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs

Digest (CISELQ)

  • Context: 기존 ToM 평가는 Sally-Anne 류의 장난감 스토리에서 명시적 “믿음 귀속”만 검사했다. 현실 시나리오에서 LLM이 mental state 지식을 암묵적으로 적용해 인간 행동을 예측·판단할 수 있는지는 미해결이었다.
  • Issue: “믿음을 안다”는 것과 “그 믿음에 근거해 행동을 예측/판단”하는 것 사이의 괴리가 LLM에 존재하는지, 존재한다면 얼마나 큰지 측정할 도구가 없었다.
  • Solution: 일상 시나리오(마트, 병원, 학교, 사무실) 기반 SimpleToM 벤치마크를 구축. 각 스토리에 (a) mental state 추론, (b) behavior prediction, (c) behavior judgment 세 종류 질문을 부착.
  • Evaluation: 1,147개 스토리 / 3,441개 질문. GPT-4o, Claude-3.5-Sonnet, o1-preview, Llama-3.1-405B 등 프런티어 모델 평가. Chain-of-Thought, mental state reminder, system prompt 개입 실험 포함.
  • Limitations: 시나리오가 영어·서구권 일상 맥락에 편향. 모델 업데이트로 빠른 포화 가능성. 멀티모달/다중 에이전트 ToM은 범위 밖.
  • Question: Explicit ToM과 Applied ToM 사이의 성능 격차는 얼마나 크며, 단순 개입으로 닫을 수 있는가?

섹션별 요약

Introduction

LLM의 ToM 능력 논쟁은 대부분 mental state 추론(예: 거짓 믿음)에 국한되어 있음을 지적. 인간 ToM은 mental state를 사회적 판단과 행동 예측에 적용하는 데 핵심이 있으나 LLM 벤치마크는 이를 건너뛰었다는 문제제기.

Methods

  • 10개의 information asymmetry 유형(결함 상품, 의료 효능 은폐, 잠긴 장치, 미관찰 비윤리 행위 등) 설계.
  • GPT-4 / Claude로 2라운드 스토리 생성 → 3,600 초안 → 크라우드 검증(3인 만장일치) → 1,147 스토리.
  • 각 스토리에 MS(mental state), BP(behavior prediction), BJ(behavior judgment) 3개 객관식.

Results

모델Mental StateBehavior PredictionBehavior Judgment
GPT-4o95.6%49.5%15.3%
Claude-3.5-Sonnet97.9%67.0%24.9%
o1-preview95.6%84.1%59.5%
Llama-3.1-405B97.8%58.2%10.0%

MS에서는 거의 포화(95%+)지만 BJ에서는 최대 모델도 59.5%, 일부는 10%대로 폭락.

Discussion

Mental state reminder를 주입하면 BP는 80%+까지 상승하나 BJ는 25~42%로 여전히 낮음. CoT·system prompt 어느 것도 격차를 닫지 못함 → LLM이 “알면서도 쓰지 못한다”는 구조적 한계.

Insights

  • Explicit ToM ≠ Applied ToM. 벤치마크 포화(ToMi 등)는 ToM 해결의 증거가 아니다.
  • Reasoning 특화 모델(o1)이 격차를 가장 많이 줄이지만 완전 해소는 실패.
  • 행동 “판단”(규범적 추론)이 “예측”보다 훨씬 어려움 — 사회·도덕적 맥락 통합 필요.

Discussion Points

  • 인간 baseline은 세 질문 유형 간 일관성이 높아, 격차가 인간-LLM 정성 차이를 반영.
  • Applied ToM 실패는 RLHF가 “정답을 말하는 법”은 가르쳤지만 “맥락에 맞춰 추론을 활용하는 법”은 덜 가르쳤을 가능성 시사.
  • 메타인지(자기 지식의 활용)와 직결 — SC-TOM proj의 implicit ToM 축과 직접 연결됨.

메타데이터

항목
AuthorsGu, Tafjord, Kim, Moore, Le Bras, Clark, Choi
AffiliationAllen Institute for AI, Stanford, UW
VenueICLR 2026
arXiv2410.13648
Dataset1,147 stories / 3,441 QA, CC-BY-4.0
CodeGitHub + HuggingFace release

왜 이 연구를 하는가?

기존 ToM 벤치마크(ToMi, Hi-ToM, FANToM, OpenToM)는 “mentalizing 단어(believes, thinks)“를 직접 프롬프트에 넣고 단일 차원(믿음 귀속)만 본다. 그러나 실세계 ToM은 (i) 명시 단서 없이 (ii) 행동을 예측하고 (iii) 그 행동의 타당성을 판단하는 능력을 요구한다. SimpleToM은 이 세 층위를 동시에 질의함으로써 LLM이 “ToM 점수가 높다”는 주장의 생태학적 타당성을 해체한다. 특히 Applied ToM은 사회적 안전(사기 인식, 취약계층 보호)과 직결되므로, 본 격차는 배포 안전성 이슈이기도 하다.

방법 (Method)

flowchart TD
    A[10 Information Asymmetry Types<br/>grocery/hospital/school/office] --> B[LLM Story Generation<br/>GPT-4 + Claude, 2 rounds]
    B --> C[3,600 candidate stories]
    C --> D[Crowdworker Qualification Test]
    D --> E[3-annotator unanimous validation]
    E --> F[1,147 final stories]
    F --> G1[Q-a: Mental State Inference]
    F --> G2[Q-b: Behavior Prediction]
    F --> G3[Q-c: Behavior Judgment]
    G1 --> H[Frontier LLM Evaluation]
    G2 --> H
    G3 --> H
    H --> I[Interventions:<br/>CoT / MS-reminder / SysPrompt]
    I --> J[Gap Analysis:<br/>Explicit vs Applied ToM]

발견 (Findings)

Finding정량시사점
Explicit ToM은 포화상위 4개 모델 모두 MS ≥ 95%기존 벤치마크는 더 이상 판별력 없음
Applied ToM은 붕괴GPT-4o BJ 15.3%, Llama BJ 10.0%“이해”와 “활용”의 분리
Reasoning 모델 우세o1-preview BJ 59.5%inference-time compute가 격차 일부 축소
Reminder 효과 비대칭BP → 80%+, BJ는 여전히 25~42%판단은 지식 주입만으로 불충분
CoT/System Prompt 한계격차 닫기 실패구조적 한계, 스케일/데이터 전략 필요

이론적 의의

  1. 이중 과정 ToM 프레임워크 지지: “지식 보유”와 “지식 활용”은 분리 가능하며, 현 LLM은 전자에 편향되어 있다는 증거.
  2. Metacognition 연결: 자기 지식을 downstream 과업에 전이하지 못함은 메타인지적 통제(control) 결여로 해석 가능 → Self-Consciousness 연구의 핵심 소재.
  3. 벤치마크 철학 전환: “단일 태스크 정답률”에서 **“층위 간 일관성”**으로 평가 패러다임 이동을 촉진.
  4. 안전성 함의: LLM이 사용자의 무지/취약성을 “추론은 해도” 이를 보호적 행동으로 번역하지 못함 → 사회적 배포 위험.

재현성 및 신뢰도 평가

항목등급근거
Dataset 공개AHuggingFace CC-BY-4.0
Code 공개A공식 GitHub 저장소
Annotator 검증A3-annotator 만장일치, 자격 시험
모델 재현성B폐쇄 API(GPT-4o, Claude, o1) 포함 → 버전 드리프트 위험
통계 보고A모델별·질문 유형별 정확도 제공
전반 Evidence QualityA명확한 실험, 강한 대조, 풍부한 개입 실험

관련 연구

  • ToMi (Le et al., 2019): false-belief 토큰화, 명시적 mentalizing.
  • Hi-ToM (He et al., 2023): 고차 ToM이지만 toy world 한정.
  • FANToM (Kim et al., 2023): 대화형 ToM, 정보 비대칭 추적 — SimpleToM과 가장 가까우나 “판단” 축 부재.
  • OpenToM (Xu et al., 2024): 성격·의도 확장.
  • BigToM (Gandhi et al., 2023): 인과적 ToM. SimpleToM은 여기에 applied behavior/judgment 축을 추가.

원자적 인사이트

  1. “Explicit ≥ 95%이지만 Applied < 20%” 격차는 단일 모델 현상이 아닌 전 프런티어 모델 공통 패턴 — ToM 평가에서 명시적 질문만 보는 관행은 체계적 과대추정을 낳는다.
  2. Mental state reminder가 behavior prediction은 구하지만 behavior judgment는 못 구한다 — 규범적(normative) 판단에는 mental state 외에 도덕·사회적 스키마 통합이 별도로 필요하다는 분리 증거.
  3. Inference-time reasoning(o1)이 격차를 가장 많이 줄인다 — “지식↔활용” 간극은 학습 데이터 문제보다 추론 계산량 문제에 가까울 수 있다.
  4. 인간은 세 질문 유형 간 정확도 일관성이 높다 — LLM의 불일치는 단순 난이도가 아니라 표현-활용 분리라는 질적 차이를 시사.

핵심 용어 정리

  • Explicit ToM: 등장인물의 믿음/지식 상태를 명시적으로 묻는 질문에 대한 추론.
  • Applied (Implicit) ToM: mental state를 근거로 후속 행동을 예측하거나 그 행동의 적절성을 판단.
  • Information Asymmetry: 스토리 내 등장인물이 특정 사실(결함, 위험 등)을 모르는 상태.
  • Behavior Prediction (BP): 해당 mental state 하에서 등장인물이 할 가능성이 높은 행동 선택.
  • Behavior Judgment (BJ): 관찰된 행동이 주어진 상황에서 타당/합리적인지 규범적으로 평가.
  • Mental State Reminder: 프롬프트에 mental state 정답을 명시적으로 주입하는 개입.

태그

ToM Benchmark LLM-Evaluation Self-Consciousness Metacognition AppliedReasoning SocialReasoning ICLR2026