정신 상태 분류: Physical World(위치, 다단계) vs Psychological World(태도)
평가 지표: Macro-averaged F1 score (레이블 분포 불균등 고려)
방법론 다이어그램
graph TD
A[OpenToM 벤치마크 구축] --> B[서사 생성]
B --> C[LLM 기반 초안 작성]
C --> D[인간 검수 및 수정]
D --> E[696개 서사 완성]
E --> E1[일반 길이: 596개<br/>평균 194.3 단어]
E --> E2[긴 서사: 100개<br/>평균 491.6 단어]
A --> F[캐릭터 설계]
F --> G[명시적 성격 특성 부여]
G --> H[의도 기반 행동 설정]
A --> I[질문 설계]
I --> J[물리적 세계 질문]
J --> J1[Location - 위치 추론]
J --> J2[Multihop - 다단계 추론]
I --> K[심리적 세계 질문]
K --> K1[Attitude - 태도 추론]
E & H & J1 & J2 & K1 --> L[각 서사당 23개 질문]
L --> M[총 16,008개 질문]
M --> N[LLM 평가: Macro F1 Score]
Results
GPT-4-Turbo: Location, Multihop, Attitude 모든 질문에서 가장 우수하나 인간에 크게 미달
물리적 세계 추론: 상대적으로 높은 성능
심리적 세계 추론 (Attitude): 현저히 낮은 성능 - LLM의 핵심 약점
고급 프롬프팅 기법 (CoT, Simulated-ToM): 심리적 정신 상태 추적에서 뚜렷한 한계
Self-Ask prompt: F1 score 개선에도 인간 성능에 여전히 크게 미달
실험 결과 상세
Model/Method
Question Type
Finding
GPT-4-Turbo
Location
최고 성능, 물리적 추론에 강함
GPT-4-Turbo
Multihop
최고 성능, 다단계 추론 우수
GPT-4-Turbo
Attitude
최고 성능이나 인간에 크게 미달
GPT-4 + CoT
Physical State
높은 성능
GPT-4 + CoT
Psychological State
낮은 성능 - 심리적 추론 실패
Other LLMs
All Types
GPT-4보다 낮음
Human
All Types
모든 LLM보다 상당히 높음
Discussion
서사 초안을 LLM으로 생성하여 데이터 편향과 어휘 다양성 부족 가능성
이진/삼진 분류 태스크로 단순화하여 실제 복잡한 ToM 추론을 충분히 포착 못할 수 있음
LLM이 심리적 정신 상태 추론에 취약한 근본 원인(훈련 데이터 부족 vs 아키텍처 한계) 불명확
멀티모달 정보(표정, 목소리 톤 등) 통합 시 성능 개선 가능성
Insights
주목할 점: 기존 ToM 벤치마크가 간과했던 심리적 정신 상태(Psychological Mental States) 평가를 체계적으로 도입 - 캐릭터의 태도, 감정, 선호도 등 내면적 상태 추론 능력 평가
연결 고리: Social Intelligence, AI Agent, Embodied AI, Human-AI Interaction 연구에서 필수적인 능력
시사점: GPT-4도 심리적 정신 상태 추론에서 인간에 크게 미치지 못함 - 단순 스케일링 이상의 근본적 아키텍처 혁신 필요
질문: LLM의 심리적 추론 취약성이 훈련 데이터 부족인가 Transformer 아키텍처 구조적 한계인가?
비판적 코멘트: LLM 생성 서사의 편향 가능성, 이진/삼진 분류의 단순화 문제
Discussion Points
논쟁점: LLM이 “진짜” Theory of Mind를 가지고 있는지, 단순히 패턴 매칭으로 ToM처럼 보이는 출력 생성하는지
검증 필요 가정: “긴 서사”와 “명시적 성격 특성”이 더 나은 ToM 평가를 가능하게 한다는 가정 - 인지과학적 검증 필요
후속 연구: 심리적 정신 상태 추론 향상을 위한 특화된 훈련 방법론, 멀티모달 ToM 벤치마크 확장, 실시간 대화 상황의 동적 ToM 평가