SimpleToM — Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs

Digest (CISELQ)

Context: 기존 ToM 평가는 Sally-Anne 류의 장난감 스토리에서 명시적 “믿음 귀속”만 검사했다. 현실 시나리오에서 LLM이 mental state 지식을 암묵적으로 적용해 인간 행동을 예측·판단할 수 있는지는 미해결이었다.
Issue: “믿음을 안다”는 것과 “그 믿음에 근거해 행동을 예측/판단”하는 것 사이의 괴리가 LLM에 존재하는지, 존재한다면 얼마나 큰지 측정할 도구가 없었다.
Solution: 일상 시나리오(마트, 병원, 학교, 사무실) 기반 SimpleToM 벤치마크를 구축. 각 스토리에 (a) mental state 추론, (b) behavior prediction, (c) behavior judgment 세 종류 질문을 부착.
Evaluation: 1,147개 스토리 / 3,441개 질문. GPT-4o, Claude-3.5-Sonnet, o1-preview, Llama-3.1-405B 등 프런티어 모델 평가. Chain-of-Thought, mental state reminder, system prompt 개입 실험 포함.
Limitations: 시나리오가 영어·서구권 일상 맥락에 편향. 모델 업데이트로 빠른 포화 가능성. 멀티모달/다중 에이전트 ToM은 범위 밖.
Question: Explicit ToM과 Applied ToM 사이의 성능 격차는 얼마나 크며, 단순 개입으로 닫을 수 있는가?

섹션별 요약

Introduction

LLM의 ToM 능력 논쟁은 대부분 mental state 추론(예: 거짓 믿음)에 국한되어 있음을 지적. 인간 ToM은 mental state를 사회적 판단과 행동 예측에 적용하는 데 핵심이 있으나 LLM 벤치마크는 이를 건너뛰었다는 문제제기.

Methods

10개의 information asymmetry 유형(결함 상품, 의료 효능 은폐, 잠긴 장치, 미관찰 비윤리 행위 등) 설계.
GPT-4 / Claude로 2라운드 스토리 생성 → 3,600 초안 → 크라우드 검증(3인 만장일치) → 1,147 스토리.
각 스토리에 MS(mental state), BP(behavior prediction), BJ(behavior judgment) 3개 객관식.

Results

모델	Mental State	Behavior Prediction	Behavior Judgment
GPT-4o	95.6%	49.5%	15.3%
Claude-3.5-Sonnet	97.9%	67.0%	24.9%
o1-preview	95.6%	84.1%	59.5%
Llama-3.1-405B	97.8%	58.2%	10.0%

MS에서는 거의 포화(95%+)지만 BJ에서는 최대 모델도 59.5%, 일부는 10%대로 폭락.

Discussion

Mental state reminder를 주입하면 BP는 80%+까지 상승하나 BJ는 25~42%로 여전히 낮음. CoT·system prompt 어느 것도 격차를 닫지 못함 → LLM이 “알면서도 쓰지 못한다”는 구조적 한계.

Insights

Explicit ToM ≠ Applied ToM. 벤치마크 포화(ToMi 등)는 ToM 해결의 증거가 아니다.
Reasoning 특화 모델(o1)이 격차를 가장 많이 줄이지만 완전 해소는 실패.
행동 “판단”(규범적 추론)이 “예측”보다 훨씬 어려움 — 사회·도덕적 맥락 통합 필요.

Discussion Points

인간 baseline은 세 질문 유형 간 일관성이 높아, 격차가 인간-LLM 정성 차이를 반영.
Applied ToM 실패는 RLHF가 “정답을 말하는 법”은 가르쳤지만 “맥락에 맞춰 추론을 활용하는 법”은 덜 가르쳤을 가능성 시사.
메타인지(자기 지식의 활용)와 직결 — SC-TOM proj의 implicit ToM 축과 직접 연결됨.

메타데이터

항목	값
Authors	Gu, Tafjord, Kim, Moore, Le Bras, Clark, Choi
Affiliation	Allen Institute for AI, Stanford, UW
Venue	ICLR 2026
arXiv	2410.13648
Dataset	1,147 stories / 3,441 QA, CC-BY-4.0
Code	GitHub + HuggingFace release

왜 이 연구를 하는가?

기존 ToM 벤치마크(ToMi, Hi-ToM, FANToM, OpenToM)는 “mentalizing 단어(believes, thinks)“를 직접 프롬프트에 넣고 단일 차원(믿음 귀속)만 본다. 그러나 실세계 ToM은 (i) 명시 단서 없이 (ii) 행동을 예측하고 (iii) 그 행동의 타당성을 판단하는 능력을 요구한다. SimpleToM은 이 세 층위를 동시에 질의함으로써 LLM이 “ToM 점수가 높다”는 주장의 생태학적 타당성을 해체한다. 특히 Applied ToM은 사회적 안전(사기 인식, 취약계층 보호)과 직결되므로, 본 격차는 배포 안전성 이슈이기도 하다.

방법 (Method)

flowchart TD
    A[10 Information Asymmetry Types<br/>grocery/hospital/school/office] --> B[LLM Story Generation<br/>GPT-4 + Claude, 2 rounds]
    B --> C[3,600 candidate stories]
    C --> D[Crowdworker Qualification Test]
    D --> E[3-annotator unanimous validation]
    E --> F[1,147 final stories]
    F --> G1[Q-a: Mental State Inference]
    F --> G2[Q-b: Behavior Prediction]
    F --> G3[Q-c: Behavior Judgment]
    G1 --> H[Frontier LLM Evaluation]
    G2 --> H
    G3 --> H
    H --> I[Interventions:<br/>CoT / MS-reminder / SysPrompt]
    I --> J[Gap Analysis:<br/>Explicit vs Applied ToM]

발견 (Findings)

Finding	정량	시사점
Explicit ToM은 포화	상위 4개 모델 모두 MS ≥ 95%	기존 벤치마크는 더 이상 판별력 없음
Applied ToM은 붕괴	GPT-4o BJ 15.3%, Llama BJ 10.0%	“이해”와 “활용”의 분리
Reasoning 모델 우세	o1-preview BJ 59.5%	inference-time compute가 격차 일부 축소
Reminder 효과 비대칭	BP → 80%+, BJ는 여전히 25~42%	판단은 지식 주입만으로 불충분
CoT/System Prompt 한계	격차 닫기 실패	구조적 한계, 스케일/데이터 전략 필요

이론적 의의

이중 과정 ToM 프레임워크 지지: “지식 보유”와 “지식 활용”은 분리 가능하며, 현 LLM은 전자에 편향되어 있다는 증거.
Metacognition 연결: 자기 지식을 downstream 과업에 전이하지 못함은 메타인지적 통제(control) 결여로 해석 가능 → Self-Consciousness 연구의 핵심 소재.
벤치마크 철학 전환: “단일 태스크 정답률”에서 **“층위 간 일관성”**으로 평가 패러다임 이동을 촉진.
안전성 함의: LLM이 사용자의 무지/취약성을 “추론은 해도” 이를 보호적 행동으로 번역하지 못함 → 사회적 배포 위험.

재현성 및 신뢰도 평가

항목	등급	근거
Dataset 공개	A	HuggingFace CC-BY-4.0
Code 공개	A	공식 GitHub 저장소
Annotator 검증	A	3-annotator 만장일치, 자격 시험
모델 재현성	B	폐쇄 API(GPT-4o, Claude, o1) 포함 → 버전 드리프트 위험
통계 보고	A	모델별·질문 유형별 정확도 제공
전반 Evidence Quality	A	명확한 실험, 강한 대조, 풍부한 개입 실험

원자적 인사이트

“Explicit ≥ 95%이지만 Applied < 20%” 격차는 단일 모델 현상이 아닌 전 프런티어 모델 공통 패턴 — ToM 평가에서 명시적 질문만 보는 관행은 체계적 과대추정을 낳는다.
Mental state reminder가 behavior prediction은 구하지만 behavior judgment는 못 구한다 — 규범적(normative) 판단에는 mental state 외에 도덕·사회적 스키마 통합이 별도로 필요하다는 분리 증거.
Inference-time reasoning(o1)이 격차를 가장 많이 줄인다 — “지식↔활용” 간극은 학습 데이터 문제보다 추론 계산량 문제에 가까울 수 있다.
인간은 세 질문 유형 간 정확도 일관성이 높다 — LLM의 불일치는 단순 난이도가 아니라 표현-활용 분리라는 질적 차이를 시사.

핵심 용어 정리

Explicit ToM: 등장인물의 믿음/지식 상태를 명시적으로 묻는 질문에 대한 추론.
Applied (Implicit) ToM: mental state를 근거로 후속 행동을 예측하거나 그 행동의 적절성을 판단.
Information Asymmetry: 스토리 내 등장인물이 특정 사실(결함, 위험 등)을 모르는 상태.
Behavior Prediction (BP): 해당 mental state 하에서 등장인물이 할 가능성이 높은 행동 선택.
Behavior Judgment (BJ): 관찰된 행동이 주어진 상황에서 타당/합리적인지 규범적으로 평가.
Mental State Reminder: 프롬프트에 mental state 정답을 명시적으로 주입하는 개입.

Juhyeon's Blog

탐색기

SimpleToM - Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs