SimpleToM — Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs
Digest (CISELQ)
- Context: 기존 ToM 평가는 Sally-Anne 류의 장난감 스토리에서 명시적 “믿음 귀속”만 검사했다. 현실 시나리오에서 LLM이 mental state 지식을 암묵적으로 적용해 인간 행동을 예측·판단할 수 있는지는 미해결이었다.
- Issue: “믿음을 안다”는 것과 “그 믿음에 근거해 행동을 예측/판단”하는 것 사이의 괴리가 LLM에 존재하는지, 존재한다면 얼마나 큰지 측정할 도구가 없었다.
- Solution: 일상 시나리오(마트, 병원, 학교, 사무실) 기반 SimpleToM 벤치마크를 구축. 각 스토리에 (a) mental state 추론, (b) behavior prediction, (c) behavior judgment 세 종류 질문을 부착.
- Evaluation: 1,147개 스토리 / 3,441개 질문. GPT-4o, Claude-3.5-Sonnet, o1-preview, Llama-3.1-405B 등 프런티어 모델 평가. Chain-of-Thought, mental state reminder, system prompt 개입 실험 포함.
- Limitations: 시나리오가 영어·서구권 일상 맥락에 편향. 모델 업데이트로 빠른 포화 가능성. 멀티모달/다중 에이전트 ToM은 범위 밖.
- Question: Explicit ToM과 Applied ToM 사이의 성능 격차는 얼마나 크며, 단순 개입으로 닫을 수 있는가?
섹션별 요약
Introduction
LLM의 ToM 능력 논쟁은 대부분 mental state 추론(예: 거짓 믿음)에 국한되어 있음을 지적. 인간 ToM은 mental state를 사회적 판단과 행동 예측에 적용하는 데 핵심이 있으나 LLM 벤치마크는 이를 건너뛰었다는 문제제기.
Methods
- 10개의 information asymmetry 유형(결함 상품, 의료 효능 은폐, 잠긴 장치, 미관찰 비윤리 행위 등) 설계.
- GPT-4 / Claude로 2라운드 스토리 생성 → 3,600 초안 → 크라우드 검증(3인 만장일치) → 1,147 스토리.
- 각 스토리에 MS(mental state), BP(behavior prediction), BJ(behavior judgment) 3개 객관식.
Results
| 모델 | Mental State | Behavior Prediction | Behavior Judgment |
|---|---|---|---|
| GPT-4o | 95.6% | 49.5% | 15.3% |
| Claude-3.5-Sonnet | 97.9% | 67.0% | 24.9% |
| o1-preview | 95.6% | 84.1% | 59.5% |
| Llama-3.1-405B | 97.8% | 58.2% | 10.0% |
MS에서는 거의 포화(95%+)지만 BJ에서는 최대 모델도 59.5%, 일부는 10%대로 폭락.
Discussion
Mental state reminder를 주입하면 BP는 80%+까지 상승하나 BJ는 25~42%로 여전히 낮음. CoT·system prompt 어느 것도 격차를 닫지 못함 → LLM이 “알면서도 쓰지 못한다”는 구조적 한계.
Insights
- Explicit ToM ≠ Applied ToM. 벤치마크 포화(ToMi 등)는 ToM 해결의 증거가 아니다.
- Reasoning 특화 모델(o1)이 격차를 가장 많이 줄이지만 완전 해소는 실패.
- 행동 “판단”(규범적 추론)이 “예측”보다 훨씬 어려움 — 사회·도덕적 맥락 통합 필요.
Discussion Points
- 인간 baseline은 세 질문 유형 간 일관성이 높아, 격차가 인간-LLM 정성 차이를 반영.
- Applied ToM 실패는 RLHF가 “정답을 말하는 법”은 가르쳤지만 “맥락에 맞춰 추론을 활용하는 법”은 덜 가르쳤을 가능성 시사.
- 메타인지(자기 지식의 활용)와 직결 — SC-TOM proj의 implicit ToM 축과 직접 연결됨.
메타데이터
| 항목 | 값 |
|---|---|
| Authors | Gu, Tafjord, Kim, Moore, Le Bras, Clark, Choi |
| Affiliation | Allen Institute for AI, Stanford, UW |
| Venue | ICLR 2026 |
| arXiv | 2410.13648 |
| Dataset | 1,147 stories / 3,441 QA, CC-BY-4.0 |
| Code | GitHub + HuggingFace release |
왜 이 연구를 하는가?
기존 ToM 벤치마크(ToMi, Hi-ToM, FANToM, OpenToM)는 “mentalizing 단어(believes, thinks)“를 직접 프롬프트에 넣고 단일 차원(믿음 귀속)만 본다. 그러나 실세계 ToM은 (i) 명시 단서 없이 (ii) 행동을 예측하고 (iii) 그 행동의 타당성을 판단하는 능력을 요구한다. SimpleToM은 이 세 층위를 동시에 질의함으로써 LLM이 “ToM 점수가 높다”는 주장의 생태학적 타당성을 해체한다. 특히 Applied ToM은 사회적 안전(사기 인식, 취약계층 보호)과 직결되므로, 본 격차는 배포 안전성 이슈이기도 하다.
방법 (Method)
flowchart TD A[10 Information Asymmetry Types<br/>grocery/hospital/school/office] --> B[LLM Story Generation<br/>GPT-4 + Claude, 2 rounds] B --> C[3,600 candidate stories] C --> D[Crowdworker Qualification Test] D --> E[3-annotator unanimous validation] E --> F[1,147 final stories] F --> G1[Q-a: Mental State Inference] F --> G2[Q-b: Behavior Prediction] F --> G3[Q-c: Behavior Judgment] G1 --> H[Frontier LLM Evaluation] G2 --> H G3 --> H H --> I[Interventions:<br/>CoT / MS-reminder / SysPrompt] I --> J[Gap Analysis:<br/>Explicit vs Applied ToM]
발견 (Findings)
| Finding | 정량 | 시사점 |
|---|---|---|
| Explicit ToM은 포화 | 상위 4개 모델 모두 MS ≥ 95% | 기존 벤치마크는 더 이상 판별력 없음 |
| Applied ToM은 붕괴 | GPT-4o BJ 15.3%, Llama BJ 10.0% | “이해”와 “활용”의 분리 |
| Reasoning 모델 우세 | o1-preview BJ 59.5% | inference-time compute가 격차 일부 축소 |
| Reminder 효과 비대칭 | BP → 80%+, BJ는 여전히 25~42% | 판단은 지식 주입만으로 불충분 |
| CoT/System Prompt 한계 | 격차 닫기 실패 | 구조적 한계, 스케일/데이터 전략 필요 |
이론적 의의
- 이중 과정 ToM 프레임워크 지지: “지식 보유”와 “지식 활용”은 분리 가능하며, 현 LLM은 전자에 편향되어 있다는 증거.
- Metacognition 연결: 자기 지식을 downstream 과업에 전이하지 못함은 메타인지적 통제(control) 결여로 해석 가능 → Self-Consciousness 연구의 핵심 소재.
- 벤치마크 철학 전환: “단일 태스크 정답률”에서 **“층위 간 일관성”**으로 평가 패러다임 이동을 촉진.
- 안전성 함의: LLM이 사용자의 무지/취약성을 “추론은 해도” 이를 보호적 행동으로 번역하지 못함 → 사회적 배포 위험.
재현성 및 신뢰도 평가
| 항목 | 등급 | 근거 |
|---|---|---|
| Dataset 공개 | A | HuggingFace CC-BY-4.0 |
| Code 공개 | A | 공식 GitHub 저장소 |
| Annotator 검증 | A | 3-annotator 만장일치, 자격 시험 |
| 모델 재현성 | B | 폐쇄 API(GPT-4o, Claude, o1) 포함 → 버전 드리프트 위험 |
| 통계 보고 | A | 모델별·질문 유형별 정확도 제공 |
| 전반 Evidence Quality | A | 명확한 실험, 강한 대조, 풍부한 개입 실험 |
관련 연구
- ToMi (Le et al., 2019): false-belief 토큰화, 명시적 mentalizing.
- Hi-ToM (He et al., 2023): 고차 ToM이지만 toy world 한정.
- FANToM (Kim et al., 2023): 대화형 ToM, 정보 비대칭 추적 — SimpleToM과 가장 가까우나 “판단” 축 부재.
- OpenToM (Xu et al., 2024): 성격·의도 확장.
- BigToM (Gandhi et al., 2023): 인과적 ToM. SimpleToM은 여기에 applied behavior/judgment 축을 추가.
원자적 인사이트
- “Explicit ≥ 95%이지만 Applied < 20%” 격차는 단일 모델 현상이 아닌 전 프런티어 모델 공통 패턴 — ToM 평가에서 명시적 질문만 보는 관행은 체계적 과대추정을 낳는다.
- Mental state reminder가 behavior prediction은 구하지만 behavior judgment는 못 구한다 — 규범적(normative) 판단에는 mental state 외에 도덕·사회적 스키마 통합이 별도로 필요하다는 분리 증거.
- Inference-time reasoning(o1)이 격차를 가장 많이 줄인다 — “지식↔활용” 간극은 학습 데이터 문제보다 추론 계산량 문제에 가까울 수 있다.
- 인간은 세 질문 유형 간 정확도 일관성이 높다 — LLM의 불일치는 단순 난이도가 아니라 표현-활용 분리라는 질적 차이를 시사.
핵심 용어 정리
- Explicit ToM: 등장인물의 믿음/지식 상태를 명시적으로 묻는 질문에 대한 추론.
- Applied (Implicit) ToM: mental state를 근거로 후속 행동을 예측하거나 그 행동의 적절성을 판단.
- Information Asymmetry: 스토리 내 등장인물이 특정 사실(결함, 위험 등)을 모르는 상태.
- Behavior Prediction (BP): 해당 mental state 하에서 등장인물이 할 가능성이 높은 행동 선택.
- Behavior Judgment (BJ): 관찰된 행동이 주어진 상황에서 타당/합리적인지 규범적으로 평가.
- Mental State Reminder: 프롬프트에 mental state 정답을 명시적으로 주입하는 개입.
태그
ToM Benchmark LLM-Evaluation Self-Consciousness Metacognition AppliedReasoning SocialReasoning ICLR2026