Introduction
- 기존 ToM 벤치마크는 정적 정신 상태 스냅샷에만 집중
- 실제 사회적 상호작용의 시간적 진화(temporal evolution) 를 간과
- LLM이 시간에 따라 변화하는 인간의 정신 상태(belief, emotion, intention, action)를 추적하고 이해하는 능력 평가
- 4단계 체계적 프레임워크로 대규모 벤치마크 구축
- ToM BENCH: 정적 ToM 능력 평가 (false belief 등) — DynToM은 시간적 추적에 집중
- Long-context LLM 연구의 “Lost in the middle” 현상과 연결
- Metacognition 연구: 정신 상태 변화의 메타인지적 모니터링
Methods
4단계 프레임워크
- 사회적 맥락 구축: 261개 장소, 2,200개 캐릭터 프로필, GPT-4-Turbo 기반 관계 생성 (검증 92%)
- 정신 상태 궤적 설계: 5개 연속 시나리오, Belief→Emotion→Intention→Action 인과 체인 (검증 85.4%)
- 시나리오 생성: 대화 기반 시나리오 (검증 88.7%)
- 질문 생성: 맥락당 71개 질문, 4가지 유형
질문 유형
- Understanding: 특정 시점 정신 상태 식별
- Transformation-1: 연속 시나리오 간 상태 변화 감지
- Transformation-2: 변화의 인과 메커니즘 이해
- Transformation-3: 5개 시나리오 전체 진화 추적
규모
- 1,100 사회적 맥락 / 5,500 시나리오 / 78,100 질문
방법론 다이어그램
graph LR
S1[시나리오 1] --> S2[시나리오 2]
S2 --> S3[시나리오 3]
S3 --> S4[시나리오 4]
S4 --> S5[시나리오 5]
S1 -.->|Understanding| Q1[상태 식별]
S2 -.->|Transformation-1| Q2[변화 감지]
S3 -.->|Transformation-2| Q3[인과 이해]
S5 -.->|Transformation-3| Q4[전체 진화 추적]
Results
- 인간: 77.7% / LLM 평균: 33.0% / 격차: 44.7%p
- 최고 모델 GPT-4o: 64.0% (인간보다 13.7%p 낮음)
- “Lost in the Middle” 패턴: 7-시나리오에서 중간 구간 26%까지 급락
- CoT의 역효과: GPT-4o에서 CoT 사용 시 -2.9% 성능 하락
실험 결과 상세
| 정신 상태 | Understanding | Transformation | Gap |
|---|
| Belief | 41.7% | 25.8% | 15.9%p |
| Emotion | 54.7% | 25.8% | 28.9%p |
| Intention | 45.0% | 24.0% | 21.0%p |
| Action | 51.3% | 23.0% | 28.3%p |
| Model | Overall (Vanilla) |
|---|
| GPT-4o | 64.0% |
| Llama-3.1-70B | 57.1% |
| Qwen2-72B | 48.5% |
| GPT-4-Turbo | 47.6% |
| Human | 77.7% |
Discussion
- Transformation 질문에서 Full errors 50-58% → 시간적 의존성 추적 실패
- CoT가 독립적 시나리오 분석을 강제하여 시간적 의존성 포착 실패
- Belief가 가장 어려운 정신 상태 유형 (41.7%)
Insights
- 주목할 점: ToM을 정적 상태 추론에서 동적 시스템 모델링으로 확장한 개념적 도약
- 연결 고리: “Lost in the middle” 현상이 단순 정보 검색을 넘어 시간적 추론에도 영향
- 시사점: 챗봇/어시스턴트 설계 시 사용자 상태의 시간적 진화를 추적하는 메모리 메커니즘 필요
- 질문: 5개 이상 시나리오에서 성능이 더 저하되는가? 인간의 동적 ToM 추적 한계는?
- 비판적 코멘트: 4단계 모두 GPT-4-Turbo로 생성 → GPT-4 편향 내재 가능. 문화적 다양성 명시 부족
Discussion Points
- 논쟁점: 44.7% 격차가 “근본적 불가능”인가 “아직 미달”인가?
- 검증 필요 가정: Belief→Emotion→Intention→Action 선형 인과 모델의 보편성 미검증
- 후속 연구: 메모리 증강 아키텍처(Memformer 등)의 동적 ToM 효과, 명시적 상태 추적기 모듈 통합