ToMBench - Benchmarking Theory of Mind in Large Language Models
11분 분량
Introduction
ToMBench는 LLM의 마음이론(Theory of Mind) 능력을 체계적으로 평가하기 위한 벤치마크
기존 연구들의 한계: (1) 제한적 과제/소수 능력만 평가, (2) 데이터 오염(data leakage) 문제, (3) 주관적 개방형 평가
ATOMS 프레임워크 기반 — Emotion, Desire, Intention, Knowledge, Belief, Non-literal Communication의 6개 차원
주요 기여: (1) 8개 심리학 기반 과제 + 31개 세부 능력의 종합적 평가, (2) 객관식(Multiple-choice) 형식으로 자동화/재현 가능한 평가, (3) 완전히 새로 구축된 중국어-영어 이중언어 데이터셋 — 데이터 오염 원천 차단, (4) GPT-4도 인간보다 10.1% 뒤처짐을 실증
2,860개 테스트 샘플, 1,584개의 고유 이야기 — 평가 전용(evaluation-only) 벤치마크
Related Papers
Sally-Anne Test 기반 연구들: 고전적 false belief 과제를 LLM에 적용 — 제한된 범위
ATOMS 프레임워크: 심리학 분야의 ToM 체계화 모델 — ToMBench의 이론적 기반
기존 벤치마크 한계: 소수 능력만 평가, 공개 데이터셋 사용으로 데이터 오염 위험, 개방형 질문으로 평가 일관성 부족
차별점: ToMBench는 31개 세부 능력을 포괄하는 가장 종합적인 ToM 벤치마크이며, 완전히 새로운 데이터로 오염 문제 해결
Methods
8개 심리학 기반 과제
Unexpected Outcome Test: 예상과 다른 감정 반응에서 정신 상태 추론
Scalar Implicature Task: 함축된 의미 이해 (예: “일부” → “전부가 아님”)
Persuasion Story Task: 타인의 정신 상태에 영향을 미치는 전략 이해
False Belief Task: 진실된 믿음과 타인의 틀린 믿음 구별
Ambiguous Story Task: 불명확한 사회적 시나리오에서 정신 상태 귀속
Hinting Test: 간접적 사회적 신호에서 명시되지 않은 의미 추론
Strange Story Task: 아이러니, 거짓말, 오해를 포함한 복잡한 의사소통 이해
Faux-pas Recognition Test: 사회적 규범 위반과 실수 식별
31개 세부 능력 (ATOMS 프레임워크 기반)
Emotion (7개): 전형적/비전형적 반응, 상반된/혼합된 감정, 숨겨진 감정, 도덕적 감정, 감정 조절
Desire (4개): 상반된 욕구, 다중 욕구, 욕구-행동 영향, 욕구-행동 모순
Intention (4개): 실패한 행동 완수, 상반된 의도, 행동 예측, 의도 설명
Knowledge (4개): 지식-가장 연결, 지각-지식 연결, 정보-지식 연결, 지식-주의 연결
Belief (6개): 내용/위치/정체성 틀린 믿음, 2차 믿음, 믿음 기반 행동/감정, 순서 틀린 믿음
Non-literal Communication (6개): 아이러니/풍자, 이기적/선의의/비자발적 거짓말, 유머, 실수 인식
데이터셋 구축 및 평가 프로토콜
전문 심리학 훈련을 받은 제작자가 2,860개 샘플을 수작업 제작
2단계 합의 프로세스: 99.4% 최종 합의율 달성
이중언어: 중국어 원본 제작 → GPT-4 영어 번역 + 수작업 검증
평가 전용(Evaluation-only): 전체 2,860개가 test set — 훈련 사용 금지 (데이터 오염 방지)
선택지 순서 무작위화: GPT 외 모델은 5회 반복
인간 기준선: 20명 중국어 원어민 대학원생
방법론 다이어그램
graph TD
A[실제 사회적 시나리오 수집<br/>소셜 미디어 영감] --> B[전문 심리학 훈련<br/>데이터 제작자]
B --> C[8개 ToM 과제 선정<br/>ATOMS 프레임워크]
C --> D[31개 세부 능력 정의]
D --> E[중국어 샘플 제작<br/>이야기+질문+선택지]
E --> F[2단계 검증 과정<br/>99.4% 합의율]
F --> G[GPT-4 영어 번역<br/>+수작업 검증]
G --> H[최종 데이터셋<br/>2,860 샘플, 이중언어]
H --> I[평가 프로토콜<br/>선택지 무작위화]
I --> J[LLM 평가<br/>과제/능력 중심]
I --> K[인간 기준선<br/>20명 대학원생]
J --> L[성능 분석]
K --> L
style A fill:#e1f5fe
style L fill:#e8f5e9
데이터 형식: Multiple-choice QA (객관식). Evaluation-only — Train/eval split 없음 (전체가 test set)
핵심 발견: GPT-4-1106이 75.3%로 최고, 인간(85.4%)과 10.1% 격차
실험 결과 상세
전체 모델 성능 비교 (Accuracy↑)
Model
Overall Acc (%)
Knowledge
Non-literal Comm
비고
Human Baseline
85.4
-
-
20명 대학원생
GPT-4-1106
75.3
~45
~75
최고 LLM
GPT-4-0613
73.5
~40
~73
GPT-3.5-Turbo-1106
59.7
~32
~62
Qwen-14B-Chat
59.3
~31
~61
Mixtral-8x7B
55.1
~28
~58
Baichuan2-13B-Chat
50.5
~26
~53
ChatGLM3-6B
47.0
~23
~49
Mistral-7B
47.5
~24
~50
LLaMA2-13B-Chat
41.0
~20
~44
최저
능력 차원별 LLM 평균 성능
능력 차원
LLM 평균 (%)
비고
Non-literal Communication
61.9
최고
Emotion
60.1
Belief
중간
Desire
중간
Intention
중간
Knowledge
34.0
최저 — Knowledge-Pretend Links에서 GPT-4-0613이 3.3%
일관성 테스트 (Coherent Test)
평가 방식
Human
GPT-4-1106
GPT-4 vs Human 격차
Standard
85.4%
75.3%
10.1%
Coherent Test
71.8%
~55%
~16.2%
→ 더 엄격한 일관성 평가 시 격차가 10.1% → 16.2%로 확대
Chain-of-Thought (CoT) 효과
관찰
결과
CoT 프롬프팅
모든 모델에서 성능 저하
해석
LLM의 추론이 인간의 의식적 추론과 질적으로 다를 가능성
Discussion
한계 1: 평가 전용(evaluation-only) — 훈련 데이터로 사용 불가, ToM 능력 향상을 위한 훈련 세트 부재
한계 2: 중국어 기반 제작 → 영어 번역 — 문화적 편향 가능성 (p<0.02 언어 간 차이)
한계 3: 20명 동질적 인간 기준선 — 더 크고 다양한 표본 필요
한계 4: 정적 텍스트 기반 — 실시간 상호작용 미반영
향후 방향: (1) 다중 모달 ToM 평가, (2) 동적/상호작용적 평가, (3) ToM 능력 향상 훈련 방법론, (4) 문화 간 ToM 비교
Insights
주목할 점: Knowledge-Pretend Links에서 GPT-4가 3.3% → LLM이 타인의 인식론적 상태(무엇을 아는지/가장하는지)를 모델링하는 데 근본적 한계. CoT가 오히려 성능 저하 → LLM의 추론이 인간과 질적으로 다를 가능성
연결 고리: ATOMS 프레임워크를 LLM 평가로 확장한 최초의 시도. Sally-Anne Test → FANToM → ToMBench로 이어지는 벤치마크 진화. Self-Consciousness 연구(Chen et al., 2025)의 Known Knowns 실패와 유사한 패턴
시사점: (1) 단순 모델 크기 확대만으로는 ToM 능력 향상에 한계 — 새로운 아키텍처/훈련 목표 필요. (2) 일관성 테스트에서 격차 확대 → LLM의 ToM은 피상적이고 단편적. (3) 교육, 상담, 고객 서비스 등 정신 상태 이해가 필요한 응용에서 현재 LLM의 한계 명확
질문: 트랜스포머 아키텍처가 본질적으로 ToM 추론에 부적합한가? 인터넷 텍스트가 명시적 정신 상태 표현이 부족하여 ToM 학습이 어려운가?
비판적 코멘트: (1) 객관식 형식은 자동화에 유리하지만 실제 ToM의 자유로운 해석/설명을 포착하지 못함. (2) 20명 중국 대학원생이 인간 ToM 능력을 대표하기에 부족. (3) 낮은 ToM 성능이 ToM 자체의 부재인지 복잡한 시나리오 이해 능력 부족인지 분리 어려움
Discussion Points
논쟁점: (1) LLM이 “진정한” ToM을 가질 수 있는가? 행동적 성능 vs 의식적 경험 — 중국어 방 논증과 연결. (2) 10.1% 격차는 “충분히 가까운” 것인가? 일관성 테스트에서 16.2%로 확대되는 점을 고려하면 표면적 유사성이 실제 능력 차이를 은폐할 가능성. (3) CoT의 역효과 — ToM은 명시적 추론보다 암묵적 패턴 인식에 의존하는 능력인가?
검증 필요 가정: (1) 객관식이 ToM의 핵심을 적절히 측정하는가? — 생성형 평가와의 비교 필요. (2) 2,860개 샘플이 31개 능력을 충분히 대표하는가? (3) 중국어→영어 번역이 능력을 동등하게 측정하는가?
후속 연구: (1) ToM 특화 사전 훈련 목표 (정신 상태 예측 과제), (2) 명시적 신념/욕구 추적 모듈을 가진 하이브리드 아키텍처, (3) 인간 아동의 ToM 발달 단계와 LLM 학습의 비교