Introduction
- 기존 ToM 평가는 단순 텍스트 기반이거나 짧은 비디오 클립에 제한, 실제 사회적 상호작용의 복잡성과 장기적 맥락 미반영
- 비전, 오디오, 텍스트를 통합적으로 활용하여 인간의 정신 상태를 추론하는 능력을 체계적으로 측정할 방법 부재
- 핵심 기여: 168개 단편 영화(평균 14분), 2,344개 질문, 7개 ToM 카테고리로 장기 비디오 기반 다중모달 ToM 벤치마크 구축
Related Papers
- MMToM-QA, HI-ToM 등 기존 ToM 벤치마크 (짧은 클립/텍스트 기반)
- Reflexion, Self-Refine 같은 메타인지 연구
- Video-LLM 및 Audiovisual LLM 연구
- ATOMS 분류체계 (인지과학 기반 정신 상태 분류)
Methods
- ATOMS 분류체계 7개 카테고리:
- Knowledge (지식), Emotions (감정), Desires (욕망), Beliefs (믿음)
- Intentions (의도), Percepts (지각), Non-literal Communication (비문자적 소통)
- 데이터셋 구성: 168개 단편 영화, 평균 14.56±4.65분, 2,344개 질문
- 어노테이션: 16명 심리학/사회과학 배경 어노테이터, 6주 작업, 파일럿 2라운드
- 맥락 창 2종류: Full Context [t₀,tⱼ], Focused Context [tᵢ,tⱼ]
- LLM-in-the-loop 편향 제거: GPT-4o가 맥락 없이 5/6회 정답 선택 시 질문 제거
- 평가 대상: Video LLM, Audiovisual LLM, Speech LLM
방법론 다이어그램
graph TD A[단편 영화 168개<br/>평균 14.56분] --> B[어노테이터 16명<br/>심리학/사회과학 배경] B --> C[6주 어노테이션 작업<br/>파일럿 2라운드] C --> D[질문 생성<br/>ATOMS 7개 카테고리] D --> E{ToM 카테고리 분류} E --> E1[Knowledge 지식] E --> E2[Emotions 감정] E --> E3[Desires 욕망] E --> E4[Beliefs 믿음] E --> E5[Intentions 의도] E --> E6[Percepts 지각] E --> E7[Non-literal Comm.] E1 & E2 & E3 & E4 & E5 & E6 & E7 --> F[오답 선택지 생성] F --> G[LLM-in-the-loop 편향 검증] G --> H{GPT-4o가 맥락 없이<br/>5/6회 정답 선택?} H -->|Yes| I[질문 제거/재작성] H -->|No| J[질문 승인] I --> F J --> K[최종 벤치마크 2,344개 질문] K --> L[모델 평가] L --> M[Vision LLMs] L --> N[Audiovisual LLMs] L --> O[Speech LLMs]
Results
- 인간 성능: 86% (100-sample subset)
- 최고 모델 LLaVA-Video 72B: 65.96% (Full Context)
- 비전 정보: 평균 2-8% 성능 향상
- Body Language 질문: +7.92%
- Facial Expression/Gaze 질문: +6.5%
- 오디오: 텍스트 트랜스크립트 기반 모델보다 일관되게 우수하지 않음
- Focused Context > Full Context: 평균 3-7% 높은 정확도 → 장기 비디오 이해 한계
실험 결과 상세
| Model/Method | Context Type | Modality | Accuracy | vs. Human (86%) |
|---|---|---|---|---|
| Human | Full | All | 86.0% | - |
| LLaVA-Video 72B | Full | Vision+Text | 65.96% | -20.04% |
| LLaVA-Video 72B | Focused | Vision+Text | 69.23% | -16.77% |
| LLaVA-Video 7B | Full | Vision+Text | 49.36% | -36.64% |
| InternVL2.5 78B | Full | Vision+Text | 61.09% | -24.91% |
| Qwen2.5-Omni 7B | Full | Vision+Audio+Text | 53.41% | -32.59% |
| Kimi-Audio 7B | Focused | Audio+Text | 48.6% | -37.4% |
ToM 카테고리별 성능 (LLaVA-Video 72B):
- Emotions: 67.2% / Desires: 63.8% / Intentions: 62.5%
- Knowledge: 61.9% / Beliefs: 60.4%
- Non-literal Comm.: 58.3% / Percepts: 56.1% (최저)
Discussion
- Single annotator per question으로 주관성 편향 가능성
- MCQA 형식은 자유 응답 형식의 ToM 추론 능력 평가 못함
- 144개 영화가 영어권으로 문화적/언어적 다양성 제한
- 정적 비디오만 사용, 실시간 상호작용 환경의 ToM 미평가
Insights
- 주목할 점: 7가지 세분화된 정신 상태 범주별로 모델의 강점/약점 정량화. 장기 비디오 맥락(평균 14분)을 사용하여 실제 사회적 상호작용의 복잡성 반영
- 연결 고리: MMToM-QA, HI-ToM 등 기존 벤치마크가 짧은 클립이나 텍스트 기반이었던 것과 달리 narrative-rich 장편 콘텐츠 사용
- 시사점: 비전 정보가 평균 2-8%만 개선하고 오디오가 텍스트보다 못한 결과는 현재 MLLM이 여전히 텍스트에 과도하게 의존함을 시사. Cross-modal attention과 reasoning alignment가 근본적으로 개선 필요
- 질문: Focused Context가 Full Context보다 성능 높은 이유가 노이즈 감소인가, 장기 의존성 모델링의 구조적 한계인가?
- 비판적 코멘트: LLM-in-the-loop 편향 제거가 “추론 필요 질문”만 남겼는지, 단순히 어려운 질문만 남긴 것인지 검증 필요
Discussion Points
- 논쟁점: 65.96% 성능이 86% 인간 성능과 비교해 의미 있는 수준인가, superficial reasoning에 머물러 있는가?
- 검증 필요 가정: 비전 개선이 2-8%에 불과한 것이 비전 인코더 한계인지, fusion layer 문제인지, 질문 자체가 비전 정보 불필요한지
- 후속 연구: Interactive ToM 평가를 위한 embodied agent 벤치마크, Chain-of-ToM reasoning 유도 프롬프트 기법, 비전-언어 정렬 개선 아키텍처