graph TD
A[내러티브 생성] --> B[캐릭터 정의<br/>명시적 성격 특성]
B --> C[행동-의도 정렬<br/>스토리 전개]
C --> D[23개 ToM 질문 생성]
D --> E[물리적 정신 상태]
D --> F[심리적 정신 상태]
E --> G[Location Questions<br/>Coarse/Fine]
E --> H[Multihop Questions<br/>Fullness/Accessibility]
F --> I[Attitude Questions<br/>감정/선호도/믿음]
G --> J[LLM 평가]
H --> J
I --> J
J --> K[Macro F1 Score<br/>물리 vs 심리 비교]
style E fill:#e3f2fd
style F fill:#fff3e0
style K fill:#c8e6c9
데이터 형식: Binary/Ternary Classification. Macro F1 평가. GitHub 데이터셋 공개
핵심 발견: 물리적 vs 심리적 정신 상태 간 극명한 성능 격차
실험 결과 상세
물리적 vs 심리적 정신 상태 성능 비교
Category
GPT-4-Turbo
GPT-3.5-Turbo
Open-source
Human
Physical Mental States
높음 (0.8+)
중간
중간-낮음
~0.92
Psychological Mental States
중간 (0.6~0.7)
낮음
낮음
~0.92
질문 카테고리별 성능
Question Type
GPT-4-Turbo
비고
Location (Coarse)
최고
물리적 상태
Location (Fine)
높음
물리적 상태
Multihop
높음
물리적+추론
Attitude
상대적 낮음
심리적 상태 — 핵심 약점
주요 관찰
관찰
세부 내용
물리적 vs 심리적 격차
모든 모델에서 심리적 정신 상태 추론이 유의하게 낮음
Self-Ask 프롬프팅
F1 Score 향상 있으나 인간 수준에 크게 미달
긴 내러티브 성능
모든 모델 성능 하락, 특히 심리적 추론에서 더 큰 하락
Open-source vs Proprietary
Proprietary 모델(GPT-4, GPT-3.5)이 현저히 높은 성능
정확한 수치는 원논문 Table 2 참조 (arXiv:2402.06044)
Discussion
LLM의 “Shallow ToM”: 물리적 상태는 잘 추론하지만 심리적 상태는 부족 — 패턴 매칭 vs 진정한 “마음 읽기”
한계 1: 텍스트 기반 정적 평가 — 실시간 상호작용 미반영
한계 2: 긴 내러티브 100개는 상대적으로 적음 — 통계적 신뢰도 문제
한계 3: 다국어 지원 부재 — 영어 기반만
한계 4: Dynamic ToM 미포함 — 시간에 따라 변화하는 믿음/의도 추적 없음
향후 방향: (1) Multimodal OpenToM, (2) Cross-lingual OpenToM, (3) LoRA 기반 ToM-specific fine-tuning
Insights
주목할 점: 물리적 vs 심리적 ToM의 명확한 분리 — 기존 연구에서 간과되었던 구분을 최초로 체계적 제시. 696개 내러티브, 16,008개 질문이라는 대규모 벤치마크. GPT-4도 심리적 ToM에서 인간에 크게 못 미침
연결 고리: FANToM(대화형 ToM)과 상호보완적 — FANToM은 정보 비대칭, OpenToM은 물리/심리 분리에 초점. ToMBench의 Knowledge 차원 최저 성능(34.0%)과 OpenToM의 심리적 ToM 약점이 일맥상통
시사점: (1) LLM 기반 시스템 설계 시 심리적 추론이 필요한 태스크에 주의 필요. (2) 물리적 세계 모델링(로봇 제어, 시뮬레이션)에는 LLM 활용 가능하나 심리 상담/교육에는 신중해야 함. (3) 벤치마크 설계 시 물리적/심리적 차원을 분리하여 평가하는 것이 LLM 능력 진단에 유용
질문: 왜 LLM은 물리적 ToM은 잘하고 심리적 ToM은 못할까? 학습 데이터에서 물리적 사실은 명시적이지만 심리적 상태는 암시적이기 때문인가?
비판적 코멘트: (1) 정확한 실험 수치가 원논문 참조 필요 — 웹 검색에서 세부 F1 추출 어려움. (2) Binary/Ternary classification이 ToM의 복잡성을 충분히 포착하는지 의문. (3) Dynamic ToM(시간에 따른 믿음 변화)이 빠져 있어 실제 상호작용 반영 부족
Discussion Points
논쟁점: (1) “LLM이 ToM을 가지고 있다”고 말할 수 있는가? GPT-4의 물리적 ToM 높은 성능 vs 심리적 ToM 부족 → “proto-ToM” 또는 “functional ToM”? (2) OpenToM 데이터로 fine-tuning하는 것의 타당성 — overfitting vs 일반화
검증 필요 가정: (1) 심리적 ToM이 물리적 ToM보다 본질적으로 어려운지, 아니면 학습 데이터 편향 때문인지. (2) Binary/Ternary classification이 ToM을 충분히 평가하는지 — 생성형 답변과의 비교 필요. (3) 인간 baseline (~0.92)의 정확성
후속 연구: (1) LoRA/QLoRA 기반 ToM-specific fine-tuning 후 FANToM 등에서 일반화 확인, (2) Multimodal OpenToM (이미지/비디오 추가), (3) Dynamic ToM Benchmark (시간에 따른 믿음 변화), (4) ToM과 Self-Consciousness 연결성 연구 — ΔW 중첩도 측정