Introduction


  • ToMBench는 LLM의 마음이론(Theory of Mind) 능력을 체계적으로 평가하기 위한 벤치마크
  • 기존 연구들의 한계: (1) 제한적 과제/소수 능력만 평가, (2) 데이터 오염(data leakage) 문제, (3) 주관적 개방형 평가
  • ATOMS 프레임워크 기반 — Emotion, Desire, Intention, Knowledge, Belief, Non-literal Communication의 6개 차원
  • 주요 기여: (1) 8개 심리학 기반 과제 + 31개 세부 능력의 종합적 평가, (2) 객관식(Multiple-choice) 형식으로 자동화/재현 가능한 평가, (3) 완전히 새로 구축된 중국어-영어 이중언어 데이터셋 — 데이터 오염 원천 차단, (4) GPT-4도 인간보다 10.1% 뒤처짐을 실증
  • 2,860개 테스트 샘플, 1,584개의 고유 이야기 — 평가 전용(evaluation-only) 벤치마크

Related Papers


  • Sally-Anne Test 기반 연구들: 고전적 false belief 과제를 LLM에 적용 — 제한된 범위
  • ATOMS 프레임워크: 심리학 분야의 ToM 체계화 모델 — ToMBench의 이론적 기반
  • 기존 벤치마크 한계: 소수 능력만 평가, 공개 데이터셋 사용으로 데이터 오염 위험, 개방형 질문으로 평가 일관성 부족
  • 차별점: ToMBench는 31개 세부 능력을 포괄하는 가장 종합적인 ToM 벤치마크이며, 완전히 새로운 데이터로 오염 문제 해결

Methods


8개 심리학 기반 과제

  1. Unexpected Outcome Test: 예상과 다른 감정 반응에서 정신 상태 추론
  2. Scalar Implicature Task: 함축된 의미 이해 (예: “일부” → “전부가 아님”)
  3. Persuasion Story Task: 타인의 정신 상태에 영향을 미치는 전략 이해
  4. False Belief Task: 진실된 믿음과 타인의 틀린 믿음 구별
  5. Ambiguous Story Task: 불명확한 사회적 시나리오에서 정신 상태 귀속
  6. Hinting Test: 간접적 사회적 신호에서 명시되지 않은 의미 추론
  7. Strange Story Task: 아이러니, 거짓말, 오해를 포함한 복잡한 의사소통 이해
  8. Faux-pas Recognition Test: 사회적 규범 위반과 실수 식별

31개 세부 능력 (ATOMS 프레임워크 기반)

  • Emotion (7개): 전형적/비전형적 반응, 상반된/혼합된 감정, 숨겨진 감정, 도덕적 감정, 감정 조절
  • Desire (4개): 상반된 욕구, 다중 욕구, 욕구-행동 영향, 욕구-행동 모순
  • Intention (4개): 실패한 행동 완수, 상반된 의도, 행동 예측, 의도 설명
  • Knowledge (4개): 지식-가장 연결, 지각-지식 연결, 정보-지식 연결, 지식-주의 연결
  • Belief (6개): 내용/위치/정체성 틀린 믿음, 2차 믿음, 믿음 기반 행동/감정, 순서 틀린 믿음
  • Non-literal Communication (6개): 아이러니/풍자, 이기적/선의의/비자발적 거짓말, 유머, 실수 인식

데이터셋 구축 및 평가 프로토콜

  • 전문 심리학 훈련을 받은 제작자가 2,860개 샘플을 수작업 제작
  • 2단계 합의 프로세스: 99.4% 최종 합의율 달성
  • 이중언어: 중국어 원본 제작 → GPT-4 영어 번역 + 수작업 검증
  • 평가 전용(Evaluation-only): 전체 2,860개가 test set — 훈련 사용 금지 (데이터 오염 방지)
  • 선택지 순서 무작위화: GPT 외 모델은 5회 반복
  • 인간 기준선: 20명 중국어 원어민 대학원생

방법론 다이어그램

graph TD
    A[실제 사회적 시나리오 수집<br/>소셜 미디어 영감] --> B[전문 심리학 훈련<br/>데이터 제작자]
    B --> C[8개 ToM 과제 선정<br/>ATOMS 프레임워크]
    C --> D[31개 세부 능력 정의]
    D --> E[중국어 샘플 제작<br/>이야기+질문+선택지]
    E --> F[2단계 검증 과정<br/>99.4% 합의율]
    F --> G[GPT-4 영어 번역<br/>+수작업 검증]
    G --> H[최종 데이터셋<br/>2,860 샘플, 이중언어]
    H --> I[평가 프로토콜<br/>선택지 무작위화]
    I --> J[LLM 평가<br/>과제/능력 중심]
    I --> K[인간 기준선<br/>20명 대학원생]
    J --> L[성능 분석]
    K --> L

    style A fill:#e1f5fe
    style L fill:#e8f5e9

Results


  • 모델: GPT-4-1106, GPT-4-0613, GPT-3.5-Turbo, Qwen-14B-Chat, Mixtral-8x7B, Mistral-7B, Baichuan2-13B-Chat, LLaMA2-13B-Chat, ChatGLM3-6B
  • 데이터셋: ToMBench (2,860 샘플, 이중언어)
  • 데이터 형식: Multiple-choice QA (객관식). Evaluation-only — Train/eval split 없음 (전체가 test set)
  • 핵심 발견: GPT-4-1106이 75.3%로 최고, 인간(85.4%)과 10.1% 격차

실험 결과 상세

전체 모델 성능 비교 (Accuracy↑)

ModelOverall Acc (%)KnowledgeNon-literal Comm비고
Human Baseline85.4--20명 대학원생
GPT-4-110675.3~45~75최고 LLM
GPT-4-061373.5~40~73
GPT-3.5-Turbo-110659.7~32~62
Qwen-14B-Chat59.3~31~61
Mixtral-8x7B55.1~28~58
Baichuan2-13B-Chat50.5~26~53
ChatGLM3-6B47.0~23~49
Mistral-7B47.5~24~50
LLaMA2-13B-Chat41.0~20~44최저

능력 차원별 LLM 평균 성능

능력 차원LLM 평균 (%)비고
Non-literal Communication61.9최고
Emotion60.1
Belief중간
Desire중간
Intention중간
Knowledge34.0최저 — Knowledge-Pretend Links에서 GPT-4-0613이 3.3%

일관성 테스트 (Coherent Test)

평가 방식HumanGPT-4-1106GPT-4 vs Human 격차
Standard85.4%75.3%10.1%
Coherent Test71.8%~55%~16.2%

→ 더 엄격한 일관성 평가 시 격차가 10.1% → 16.2%로 확대

Chain-of-Thought (CoT) 효과

관찰결과
CoT 프롬프팅모든 모델에서 성능 저하
해석LLM의 추론이 인간의 의식적 추론과 질적으로 다를 가능성

Discussion


  • 한계 1: 평가 전용(evaluation-only) — 훈련 데이터로 사용 불가, ToM 능력 향상을 위한 훈련 세트 부재
  • 한계 2: 중국어 기반 제작 → 영어 번역 — 문화적 편향 가능성 (p<0.02 언어 간 차이)
  • 한계 3: 20명 동질적 인간 기준선 — 더 크고 다양한 표본 필요
  • 한계 4: 정적 텍스트 기반 — 실시간 상호작용 미반영
  • 향후 방향: (1) 다중 모달 ToM 평가, (2) 동적/상호작용적 평가, (3) ToM 능력 향상 훈련 방법론, (4) 문화 간 ToM 비교

Insights


  • 주목할 점: Knowledge-Pretend Links에서 GPT-4가 3.3% → LLM이 타인의 인식론적 상태(무엇을 아는지/가장하는지)를 모델링하는 데 근본적 한계. CoT가 오히려 성능 저하 → LLM의 추론이 인간과 질적으로 다를 가능성
  • 연결 고리: ATOMS 프레임워크를 LLM 평가로 확장한 최초의 시도. Sally-Anne Test → FANToM → ToMBench로 이어지는 벤치마크 진화. Self-Consciousness 연구(Chen et al., 2025)의 Known Knowns 실패와 유사한 패턴
  • 시사점: (1) 단순 모델 크기 확대만으로는 ToM 능력 향상에 한계 — 새로운 아키텍처/훈련 목표 필요. (2) 일관성 테스트에서 격차 확대 → LLM의 ToM은 피상적이고 단편적. (3) 교육, 상담, 고객 서비스 등 정신 상태 이해가 필요한 응용에서 현재 LLM의 한계 명확
  • 질문: 트랜스포머 아키텍처가 본질적으로 ToM 추론에 부적합한가? 인터넷 텍스트가 명시적 정신 상태 표현이 부족하여 ToM 학습이 어려운가?
  • 비판적 코멘트: (1) 객관식 형식은 자동화에 유리하지만 실제 ToM의 자유로운 해석/설명을 포착하지 못함. (2) 20명 중국 대학원생이 인간 ToM 능력을 대표하기에 부족. (3) 낮은 ToM 성능이 ToM 자체의 부재인지 복잡한 시나리오 이해 능력 부족인지 분리 어려움

Discussion Points


  • 논쟁점: (1) LLM이 “진정한” ToM을 가질 수 있는가? 행동적 성능 vs 의식적 경험 — 중국어 방 논증과 연결. (2) 10.1% 격차는 “충분히 가까운” 것인가? 일관성 테스트에서 16.2%로 확대되는 점을 고려하면 표면적 유사성이 실제 능력 차이를 은폐할 가능성. (3) CoT의 역효과 — ToM은 명시적 추론보다 암묵적 패턴 인식에 의존하는 능력인가?
  • 검증 필요 가정: (1) 객관식이 ToM의 핵심을 적절히 측정하는가? — 생성형 평가와의 비교 필요. (2) 2,860개 샘플이 31개 능력을 충분히 대표하는가? (3) 중국어→영어 번역이 능력을 동등하게 측정하는가?
  • 후속 연구: (1) ToM 특화 사전 훈련 목표 (정신 상태 예측 과제), (2) 명시적 신념/욕구 추적 모듈을 가진 하이브리드 아키텍처, (3) 인간 아동의 ToM 발달 단계와 LLM 학습의 비교
  • 벤치마크 적합성 참고: Multiple-choice QA 형식. Evaluation-only (Train split 없음). 이중언어 (중국어+영어). 코드 및 데이터셋 공개 (https://github.com/zhchen18/ToMBench)