Introduction
기존 ToM 벤치마크는 false belief task 같은 좁은 패러다임에 제한
인간 인지 메커니즘의 전체 스펙트럼을 포착하지 못함
천장 효과(ceiling effect)로 최신 모델들의 실제 인지적 한계를 드러내지 못함
CogToM : 8개 범주, 46개 패러다임, 8,000+ 이중언어(중국어-영어) 인스턴스
ToM BENCH, BigToM 등 기존 벤치마크의 천장 효과 문제
발달심리학의 ToM 습득 순서 이론
멀티모달 모델과 지각 기반 추론 연구
Methods
8개 주요 범주 (46개 패러다임)
Emotion (9 tasks): 전형적/비전형적 반응, 혼합 감정, 숨겨진 감정, 도덕 감정 등
Desire (4 tasks): 불일치 욕구, 다중 욕구, 욕구-행동 영향
Intention (4 tasks): 행동 완성, 불일치 의도, 행동 예측, 의도 설명
Percept (3 tasks): 단순/복잡 시각 관점 취하기, 지각-행동 연결
Knowledge (4 tasks): 지식-가장 연결, 지각-지식 연결 등
Belief (6 tasks): 내용/위치 거짓 믿음, 고차 믿음, 정체성 거짓 믿음 등
Non-literal (6 tasks): 아이러니, 이기적 거짓말, 선의의 거짓말, 유머, faux pas
Comprehensive (5 tasks): 교차 차원 평가
평가 프로토콜
Zero-shot vanilla prompting, Temperature=0
각 질문 5회 테스트 (4회 옵션 회전 + 1회 랜덤)
22개 대표 모델 평가 (GPT-5.1, Qwen3-Max 등)
방법론 다이어그램
graph TD
A[CogToM 벤치마크] --> B1[Emotion 9]
A --> B2[Desire 4]
A --> B3[Intention 4]
A --> B4[Percept 3]
A --> B5[Knowledge 4]
A --> B6[Belief 6]
A --> B7[Non-literal 6]
A --> B8[Comprehensive 5]
B1 --> C[46개 패러다임<br/>8000+ 이중언어 인스턴스]
B2 --> C
B3 --> C
B4 --> C
B5 --> C
B6 --> C
B7 --> C
B8 --> C
C --> D[22개 모델 평가]
D --> E[모라벡의 역설 발견:<br/>감정 80-95% vs 지각 ~20%]
Results
모라벡의 역설 : 감정 추론 80-95% vs. 지각 과제 ~20%
발달적 역전 : GPT-5.1이 hidden emotion 96% vs. See-Know 62% (인간 아동과 정반대 궤적)
“인간 합의도 100%” 과제에서 모델 정확도 30-80%로 저하
프론티어 모델 80%+ vs. 조기 모델 45-55%
실험 결과 상세
Model Task Category Accuracy 비고 GPT-5.1 Emotion (Hidden) ~96% 고성능 GPT-5.1 Percept (See-Know) ~62% 참패 All (median) Percept ~20% 인간 100% 합의 과제 Frontier Desire (Multiple) ~95% 천장 효과 All Belief (2nd-order) ~15% 최저 Contemporary New (Synesthetic Fallacy) ~50% 변별력 향상
Discussion
LLM이 언어적-의미적 추론에는 뛰어나지만 신체화된 경험(embodiment) 기반 추론에서 근본적 한계
파라미터 스케일링만으로는 저수준 지각 추론 불가
신규 과제가 0-60% 범위에서 균형 잡힌 분포 → 천장 효과 해소
Insights
주목할 점 : LLM ToM이 “언어 패턴 매칭을 통한 시뮬레이션”일 가능성 실증. 지각 과제 참패 = 신체화 부족
연결 고리 : 모라벡의 역설(로봇공학), 멀티모달 모델 연구, 발달심리학 ToM 이론
시사점 : 근본적으로 다른 아키텍처적 접근(신체화 AI, 멀티모달 통합) 필요
질문 : 멀티모달 LLM이 시각 입력 시 지각 과제 성능 개선되는가? 인간 발달 순서 커리큘럼 학습 효과는?
비판적 코멘트 : Zero-shot만으로 잠재 능력 과소평가 가능. 프롬프트 설계 문제일 가능성 배제 필요
Discussion Points
논쟁점 : 감정 추론의 고성능이 “진정한 공감”인가 “언어적 패턴 인식”인가?
검증 필요 가정 : 지각 과제 실패 = 신체화 부족이라는 가설은 멀티모달 모델로 검증 필요
후속 연구 : 멀티모달 LLM 평가, 발달심리학 기반 커리큘럼 학습, 지각 과제 특화 프롬프팅