Introduction

기존 LLM의 Theory of Mind(ToM) 평가 벤치마크는 주로 false belief task와 같은 제한적 패러다임에 국한
인간의 전체 인지 메커니즘 스펙트럼을 포착하지 못함
핵심 기여: 인간 인지 과학에 근거한 46개 패러다임, 8,000개 이상 이중언어(중국어-영어) 인스턴스로 구성된 포괄적 ToM 벤치마크

ToMBench, MuMA-ToM 등 기존 ToM 벤치마크
False belief task의 한계에 관한 연구
Embodied cognition, grounding problem 연구
Moravec’s Paradox와 AI 인지 연구

Methods

46개 다양한 패러다임: 인간 인지 과학에서 영감받아 설계
8,000개 이상 이중언어 인스턴스: 중국어-영어 구성
49명 인간 주석자: 모든 데이터 검증
22개 LLM 평가: GPT-5.1, Qwen3-Max를 포함한 frontier 모델
인간 인지 패턴 분석: LLM과 인간 인지 구조 간 차이 탐색
차원별 성능 분석: 사회-정서적 이해 vs 물리적 지각

방법론 다이어그램

graph TD
    A[인간 인지 이론 분석] --> B[46개 패러다임 설계]
    B --> C[8,000+ 이중언어 인스턴스 생성]
    C --> D[49명 인간 주석자 검증]
    D --> E[CogToM 벤치마크 완성]

    E --> F[22개 LLM 평가]
    F --> G[GPT-5.1/Qwen3-Max 등<br/>Frontier 모델]
    F --> H[Llama-2/Mixtral 등<br/>중하위 모델]

    G --> I[성능 이질성 분석]
    H --> I

    I --> J[차원별 병목 현상 식별]
    J --> K[사회-정서적: 높음]
    J --> L[물리적 지각: 낮음]

    K --> M[인간 인지 패턴 비교]
    L --> M

    M --> N[Moravec's Paradox 발견]
    N --> O[LLM vs 인간<br/>인지 구조 차이 제시]

Results

22개 모델 평가: 상당한 성능 이질성 관찰
특정 차원에서 지속적 병목 현상
사회-정서적 의미 이해: LLM이 인간 수준에 근접
물리적 지각 기반 기초 인지 추론: 근본적 어려움 지속
최상위 vs 중간 계층 모델: 상당한 격차 존재
Moravec’s Paradox 발견: 인간에게 쉬운 물리적 지각이 AI에게 어렵고, 인간에게 어려운 추상적 추론이 AI에게 상대적으로 쉬움

실험 결과 상세

Model/Method	Overall	Socio-Affective	Physical Perception	Mental State Reasoning
GPT-5.1	상위 tier	~인간 수준	병목 존재	강함
Qwen3-Max	상위 tier	높음	병목 존재	강함
Qwen3-235B	중상위 tier	중상	약함	중상
GPT-4o-mini	중간 tier	중간	약함	중간
Mixtral-8x7B	중하위 tier	중하	약함	약함
Llama-2-7B	하위 tier	낮음	매우 약함	낮음

핵심 패턴: 사회-정서적 의미 이해 > 정신 상태 추론 > 물리적 지각

Discussion

초록만으로는 구체적 수치 확인 불가
49명 human annotator의 검증 기준과 프로토콜 불명확
Inter-annotator agreement 수치 미제공
“Performance heterogeneities”와 “persistent bottlenecks”가 구체적으로 어떤 패러다임에서 나타났는지 미상세

Insights

주목할 점: 인간 인지 과학에 근거한 46개 패러다임으로 ToM 능력을 포괄적, 체계적으로 측정. 이중언어 구성으로 언어 간 일반화 능력도 평가 가능
연결 고리: Moravec’s Paradox 발견은 embodied cognition, grounding problem, multimodal learning 연구와 깊은 연관. Vision-language model, robotics foundation model 연구의 중요성 강조
시사점: LLM의 ToM 능력이 차원별로 불균등하다는 발견은 단순히 모델 크기를 키우는 것만으로는 인간 수준의 사회 인지 능력 달성이 어려움을 시사. 특정 인지 차원에 대한 targeted training이나 architectural innovation 필요
질문: 46개 패러다임은 구체적으로 어떤 인지 이론 기반으로 설계되었는가? 각 패러다임의 난이도 결정 기준은?
비판적 코멘트: LLM이 학습한 것이 “진정한 ToM”인지 “통계적 패턴 매칭”인지 구별 메커니즘 불명확

Discussion Points

논쟁점: LLM이 진정한 ToM를 가지고 있는지, 단순히 통계적 패턴 매칭으로 ToM task를 해결하는지에 대한 근본적 질문
검증 필요 가정: 인간 인지 패턴과 LLM의 차이 분석이 LLM의 “인지 구조” 존재를 전제하는지, 행동적 유사성/차이만 측정하는지 명확히 필요
후속 연구: 실제 사회적 상호작용(multi-agent collaboration, human-AI conversation)에서의 ToM 능력 상관관계, 물리적 지각 병목 해결을 위한 vision-language pre-training 전략, 문화적 차이 반영한 ToM 벤치마크 확장

Juhyeon's Blog

탐색기

CogToM - A Comprehensive Theory of Mind Benchmark inspired by Human Cognition

Introduction

Methods

방법론 다이어그램

Results

실험 결과 상세

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크

CogToM - A Comprehensive Theory of Mind Benchmark inspired by Human Cognition

Introduction

Related Papers

Methods

방법론 다이어그램

Results

실험 결과 상세

Discussion

Insights

Discussion Points

그래프 뷰

목차

Properties

백링크