Introduction


  • 기존 ToM 벤치마크는 false belief task 같은 좁은 패러다임에 제한
  • 인간 인지 메커니즘의 전체 스펙트럼을 포착하지 못함
  • 천장 효과(ceiling effect)로 최신 모델들의 실제 인지적 한계를 드러내지 못함
  • CogToM: 8개 범주, 46개 패러다임, 8,000+ 이중언어(중국어-영어) 인스턴스

Related Papers


  • ToM BENCH, BigToM 등 기존 벤치마크의 천장 효과 문제
  • 발달심리학의 ToM 습득 순서 이론
  • 멀티모달 모델과 지각 기반 추론 연구

Methods


8개 주요 범주 (46개 패러다임)

  1. Emotion (9 tasks): 전형적/비전형적 반응, 혼합 감정, 숨겨진 감정, 도덕 감정 등
  2. Desire (4 tasks): 불일치 욕구, 다중 욕구, 욕구-행동 영향
  3. Intention (4 tasks): 행동 완성, 불일치 의도, 행동 예측, 의도 설명
  4. Percept (3 tasks): 단순/복잡 시각 관점 취하기, 지각-행동 연결
  5. Knowledge (4 tasks): 지식-가장 연결, 지각-지식 연결 등
  6. Belief (6 tasks): 내용/위치 거짓 믿음, 고차 믿음, 정체성 거짓 믿음 등
  7. Non-literal (6 tasks): 아이러니, 이기적 거짓말, 선의의 거짓말, 유머, faux pas
  8. Comprehensive (5 tasks): 교차 차원 평가

평가 프로토콜

  • Zero-shot vanilla prompting, Temperature=0
  • 각 질문 5회 테스트 (4회 옵션 회전 + 1회 랜덤)
  • 22개 대표 모델 평가 (GPT-5.1, Qwen3-Max 등)

방법론 다이어그램

graph TD
    A[CogToM 벤치마크] --> B1[Emotion 9]
    A --> B2[Desire 4]
    A --> B3[Intention 4]
    A --> B4[Percept 3]
    A --> B5[Knowledge 4]
    A --> B6[Belief 6]
    A --> B7[Non-literal 6]
    A --> B8[Comprehensive 5]

    B1 --> C[46개 패러다임<br/>8000+ 이중언어 인스턴스]
    B2 --> C
    B3 --> C
    B4 --> C
    B5 --> C
    B6 --> C
    B7 --> C
    B8 --> C

    C --> D[22개 모델 평가]
    D --> E[모라벡의 역설 발견:<br/>감정 80-95% vs 지각 ~20%]

Results


  • 모라벡의 역설: 감정 추론 80-95% vs. 지각 과제 ~20%
  • 발달적 역전: GPT-5.1이 hidden emotion 96% vs. See-Know 62% (인간 아동과 정반대 궤적)
  • “인간 합의도 100%” 과제에서 모델 정확도 30-80%로 저하
  • 프론티어 모델 80%+ vs. 조기 모델 45-55%

실험 결과 상세

ModelTask CategoryAccuracy비고
GPT-5.1Emotion (Hidden)~96%고성능
GPT-5.1Percept (See-Know)~62%참패
All (median)Percept~20%인간 100% 합의 과제
FrontierDesire (Multiple)~95%천장 효과
AllBelief (2nd-order)~15%최저
ContemporaryNew (Synesthetic Fallacy)~50%변별력 향상

Discussion


  • LLM이 언어적-의미적 추론에는 뛰어나지만 신체화된 경험(embodiment) 기반 추론에서 근본적 한계
  • 파라미터 스케일링만으로는 저수준 지각 추론 불가
  • 신규 과제가 0-60% 범위에서 균형 잡힌 분포 → 천장 효과 해소

Insights


  • 주목할 점: LLM ToM이 “언어 패턴 매칭을 통한 시뮬레이션”일 가능성 실증. 지각 과제 참패 = 신체화 부족
  • 연결 고리: 모라벡의 역설(로봇공학), 멀티모달 모델 연구, 발달심리학 ToM 이론
  • 시사점: 근본적으로 다른 아키텍처적 접근(신체화 AI, 멀티모달 통합) 필요
  • 질문: 멀티모달 LLM이 시각 입력 시 지각 과제 성능 개선되는가? 인간 발달 순서 커리큘럼 학습 효과는?
  • 비판적 코멘트: Zero-shot만으로 잠재 능력 과소평가 가능. 프롬프트 설계 문제일 가능성 배제 필요

Discussion Points


  • 논쟁점: 감정 추론의 고성능이 “진정한 공감”인가 “언어적 패턴 인식”인가?
  • 검증 필요 가정: 지각 과제 실패 = 신체화 부족이라는 가설은 멀티모달 모델로 검증 필요
  • 후속 연구: 멀티모달 LLM 평가, 발달심리학 기반 커리큘럼 학습, 지각 과제 특화 프롬프팅