Introduction
- 기존 ToM 평가는 기계 생성 데이터나 shortcut/spurious correlation에 취약한 게임 환경에 의존
- 실제 인간 상호작용 시나리오에서 다차원적 정신 상태(욕구, 신념, 의도)를 추론하는 능력 평가 부족
- Bratman의 Belief-Desire-Intention (BDI) 에이전트 모델링 이론을 LLM ToM 평가에 체계적으로 적용
Related Papers
- Sally-Anne Test, false belief 과제 등 고전적 ToM 평가 → 단순하고 정적
- CaSiNo 협상 대화 코퍼스 활용
- ToM-Bench, BigToM 등 기존 벤치마크와의 차별점: 실제 전략적 의사소통 맥락
Methods
-
BDI 프레임워크:
- Desire (욕구): 식량/물/장작에 대한 High/Medium/Low 선호도 순위
- Belief (신념): 상대방의 선호도에 대한 추론
- Intention (의도): 9개 협상 전략 클래스 (Build-Rapport, Elicit-Pref, Propose-Deal 등)
-
데이터셋: CaSiNo 코퍼스 (395 대화, 2,380 라운드, 4,618 발화)
-
주석: 5명 대학원생, Fleiss’s κ = 79.03%
-
평가 메트릭: Exact Match (욕구/신념), Micro/Macro F1 (의도), Consistency, All Score
방법론 다이어그램
graph TD A[CaSiNo 협상 대화] --> B[대화 라운드별 분할] B --> C[5명 주석자 BDI 레이블링] C --> D1[Desire: 선호도 순위] C --> D2[Belief: 상대방 선호도 추론] C --> D3[Intention: 9개 전략 분류] D1 --> E[LLM 평가] D2 --> E D3 --> E E --> F1[Zero-shot] E --> F2[Chain-of-Thought] E --> F3[Few-shot] F1 --> G[인간 베이스라인 비교] F2 --> G F3 --> G
Results
- 모든 차원에서 인간 대비 큰 격차
실험 결과 상세
| Model/Method | Task | Metric | Score | vs. Human |
|---|---|---|---|---|
| GPT-4 CoT | Desire | Exact Match | 63.29% | -27.85% |
| GPT-4 CoT | Belief | Exact Match | 58.18% | -32.96% |
| Claude v2.1 CoT | Intention | Micro F1 | 39.93% | -43.82% |
| GPT-4 CoT | All (D+B+I) | Exact Match | 3.68% | -40.10% |
| GPT-4 CoT | Desire Consistency | Consistency | 17.72% | -57.72% |
| Human | Desire | Exact Match | 91.14% | - |
| Human | Belief | Exact Match | 91.14% | - |
| Human | Intention | Micro F1 | 83.75% | - |
Discussion
- 일관성(Consistency) 부족이 가장 치명적: 정신 상태 변화를 추적하는 능력이 극히 제한적
- CoT 효과 제한적: 격차가 크게 좁혀지지 않음
- “수동적(passive)” 평가로 모델이 직접 협상에 참여하지 않는 한계
Insights
- 주목할 점: BDI 철학 이론을 LLM 평가에 적용하여 ToM을 구조화된 프레임워크로 분해
- 연결 고리: MetaMind의 사회적 사고 연구, DynToM의 동적 정신 상태 추적과 연결
- 시사점: LLM이 실시간 변화하는 타인의 복합적 정신 상태를 추론하는 진정한 ToM 능력은 매우 제한적
- 질문: BDI 세 요소 간 계층적 관계를 모델이 학습할 수 있는가?
- 비판적 코멘트: CaSiNo 코퍼스가 특정 도메인에 국한. 능동적(active) ToM 평가로 확장 필요
Discussion Points
- 논쟁점: 낮은 LLM 성능이 진정한 ToM 결핍인가, 프롬프팅/작업 설계 문제인가? (Competence vs. Performance)
- 검증 필요 가정: BDI 프레임워크의 문화적 보편성 미검증
- 후속 연구: 능동적 ToM 평가 (직접 협상 참여), 멀티모달 신호 통합, 다양한 협상 도메인 확장