Introduction
- 기존 ToM 연구는 주로 1~2차 ToM에 국한
- 더 높은 차수의 재귀적 마음 읽기(recursive mental state reasoning) 평가 벤치마크 부족
- “A는 B가 C에 대해 어떻게 생각하는지를 어떻게 생각하는가” — 4차까지의 재귀적 믿음 추론 평가
- 기만적 의사소통(deceptive communication)과 공적/사적 주장 포함
Related Papers
- Sally-Anne Test에서 영감을 받은 템플릿 기반 자동 생성
- ToMi, BigToM 등 1~2차 수준 벤치마크의 한계 극복
- 인간의 사회적 인지에서 발생하는 4차까지의 재귀적 추론
Methods
- 템플릿 기반 자동 생성: 다중 에이전트 시나리오 구성
- 각 스토리: 객체 위치 이동 + 공개/비밀 진술 + 기만 + 산만 문장(distractor)
- 5개 질문 레벨 (스토리당):
- 0차: 객체의 실제 위치 (현실 질문)
- 1차: 특정 에이전트의 믿음
- 2차: “A는 B가 무엇을 믿는다고 생각하는가”
- 3차: “A는 B가 C에 대해 무엇을 믿는다고 생각하는가”
- 4차: 한 단계 더 깊은 재귀적 믿음
- 다중 선택 질문 형태
방법론 다이어그램
graph TD A[Sally-Anne 템플릿 기반 스토리 생성] --> B[다중 에이전트 시나리오] B --> C[객체 이동 + 공개/비밀 진술 + 기만] C --> D[산만 문장 삽입] D --> E[5개 질문 생성] E --> F[0차: 현실 질문] E --> G[1차: A의 믿음] E --> H[2차: A가 생각하는 B의 믿음] E --> I[3차: 재귀적 3단계] E --> J[4차: 재귀적 4단계] F --> K[LLM 정확도 측정] G --> K H --> K I --> K J --> K K --> L[차수별 성능 저하 패턴 분석]
Results
- GPT-4: 0차 ~95-100% → 4차 ~20-30%로 급격한 성능 저하
- 모든 LLM에서 유사한 저하 패턴 관찰
- 스토리 길이가 길어질수록 모든 차수에서 추가 성능 저하
실험 결과 상세
| Model | 0차 | 1차 | 2차 | 3차 | 4차 |
|---|---|---|---|---|---|
| GPT-4 | ~95-100% | ~85-90% | ~70-80% | ~40-60% | ~20-30% |
| GPT-3.5-turbo | Lower | Lower | Lower | Lower | Lower |
| Claude | Similar | Similar | Degradation | Degradation | Degradation |
| Guanaco | Lowest | Lowest | Lowest | Lowest | Lowest |
참고: 근사치 — 정확한 수치는 원문 참조 필요
Discussion
- 2차를 넘어서는 추론에서 현저한 정확도 하락
- 스토리 길이 효과: 긴 내러티브에서 정보 유지/통합 능력 한계
- 템플릿 기반 생성의 장단점
Insights
- 주목할 점: 기존 1~2차 ToM 평가를 넘어 4차까지 확장한 최초의 체계적 벤치마크
- 연결 고리: 자의식/메타인지 연구 — 고차 ToM은 자기-타자 구별의 재귀적 확장, 신경과학의 ToM-자기인식 중첩 신경 기질과 연결
- 시사점: Transformer 아키텍처의 재귀적 추론 한계를 시사
- 질문: 고차 ToM 실패가 작업 기억 용량 문제인가, 재귀적 표현의 구조적 결함인가?
- 비판적 코멘트: 템플릿 생성이 자연어 맥락의 다양성/모호성 반영 부족. 다중 선택 형식이 패턴 인식 능력을 측정할 위험
Discussion Points
- 논쟁점: LLM의 성능 저하가 “마음 이해 부족”인가, 긴 추론 체인 유지의 계산적 한계인가?
- 검증 필요 가정: 프롬프트 길이 증가, 문맥 희석, 훈련 데이터의 고차 ToM 사례 부족 등 대안적 설명 배제 필요
- 후속 연구: 인간 피험자와의 직접 비교, ToM 전용 fine-tuning, Dynamic Epistemic Logic 프레임워크 통합