Introduction


  • 기존 ToM 평가는 단순 텍스트 기반이거나 짧은 비디오 클립에 제한, 실제 사회적 상호작용의 복잡성과 장기적 맥락 미반영
  • 비전, 오디오, 텍스트를 통합적으로 활용하여 인간의 정신 상태를 추론하는 능력을 체계적으로 측정할 방법 부재
  • 핵심 기여: 168개 단편 영화(평균 14분), 2,344개 질문, 7개 ToM 카테고리로 장기 비디오 기반 다중모달 ToM 벤치마크 구축

Related Papers


  • MMToM-QA, HI-ToM 등 기존 ToM 벤치마크 (짧은 클립/텍스트 기반)
  • Reflexion, Self-Refine 같은 메타인지 연구
  • Video-LLM 및 Audiovisual LLM 연구
  • ATOMS 분류체계 (인지과학 기반 정신 상태 분류)

Methods


  • ATOMS 분류체계 7개 카테고리:
    • Knowledge (지식), Emotions (감정), Desires (욕망), Beliefs (믿음)
    • Intentions (의도), Percepts (지각), Non-literal Communication (비문자적 소통)
  • 데이터셋 구성: 168개 단편 영화, 평균 14.56±4.65분, 2,344개 질문
  • 어노테이션: 16명 심리학/사회과학 배경 어노테이터, 6주 작업, 파일럿 2라운드
  • 맥락 창 2종류: Full Context [t₀,tⱼ], Focused Context [tᵢ,tⱼ]
  • LLM-in-the-loop 편향 제거: GPT-4o가 맥락 없이 5/6회 정답 선택 시 질문 제거
  • 평가 대상: Video LLM, Audiovisual LLM, Speech LLM

방법론 다이어그램

graph TD
    A[단편 영화 168개<br/>평균 14.56분] --> B[어노테이터 16명<br/>심리학/사회과학 배경]
    B --> C[6주 어노테이션 작업<br/>파일럿 2라운드]
    C --> D[질문 생성<br/>ATOMS 7개 카테고리]

    D --> E{ToM 카테고리 분류}
    E --> E1[Knowledge 지식]
    E --> E2[Emotions 감정]
    E --> E3[Desires 욕망]
    E --> E4[Beliefs 믿음]
    E --> E5[Intentions 의도]
    E --> E6[Percepts 지각]
    E --> E7[Non-literal Comm.]

    E1 & E2 & E3 & E4 & E5 & E6 & E7 --> F[오답 선택지 생성]
    F --> G[LLM-in-the-loop 편향 검증]
    G --> H{GPT-4o가 맥락 없이<br/>5/6회 정답 선택?}
    H -->|Yes| I[질문 제거/재작성]
    H -->|No| J[질문 승인]
    I --> F
    J --> K[최종 벤치마크 2,344개 질문]

    K --> L[모델 평가]
    L --> M[Vision LLMs]
    L --> N[Audiovisual LLMs]
    L --> O[Speech LLMs]

Results


  • 인간 성능: 86% (100-sample subset)
  • 최고 모델 LLaVA-Video 72B: 65.96% (Full Context)
  • 비전 정보: 평균 2-8% 성능 향상
    • Body Language 질문: +7.92%
    • Facial Expression/Gaze 질문: +6.5%
  • 오디오: 텍스트 트랜스크립트 기반 모델보다 일관되게 우수하지 않음
  • Focused Context > Full Context: 평균 3-7% 높은 정확도 → 장기 비디오 이해 한계

실험 결과 상세

Model/MethodContext TypeModalityAccuracyvs. Human (86%)
HumanFullAll86.0%-
LLaVA-Video 72BFullVision+Text65.96%-20.04%
LLaVA-Video 72BFocusedVision+Text69.23%-16.77%
LLaVA-Video 7BFullVision+Text49.36%-36.64%
InternVL2.5 78BFullVision+Text61.09%-24.91%
Qwen2.5-Omni 7BFullVision+Audio+Text53.41%-32.59%
Kimi-Audio 7BFocusedAudio+Text48.6%-37.4%

ToM 카테고리별 성능 (LLaVA-Video 72B):

  • Emotions: 67.2% / Desires: 63.8% / Intentions: 62.5%
  • Knowledge: 61.9% / Beliefs: 60.4%
  • Non-literal Comm.: 58.3% / Percepts: 56.1% (최저)

Discussion


  • Single annotator per question으로 주관성 편향 가능성
  • MCQA 형식은 자유 응답 형식의 ToM 추론 능력 평가 못함
  • 144개 영화가 영어권으로 문화적/언어적 다양성 제한
  • 정적 비디오만 사용, 실시간 상호작용 환경의 ToM 미평가

Insights


  • 주목할 점: 7가지 세분화된 정신 상태 범주별로 모델의 강점/약점 정량화. 장기 비디오 맥락(평균 14분)을 사용하여 실제 사회적 상호작용의 복잡성 반영
  • 연결 고리: MMToM-QA, HI-ToM 등 기존 벤치마크가 짧은 클립이나 텍스트 기반이었던 것과 달리 narrative-rich 장편 콘텐츠 사용
  • 시사점: 비전 정보가 평균 2-8%만 개선하고 오디오가 텍스트보다 못한 결과는 현재 MLLM이 여전히 텍스트에 과도하게 의존함을 시사. Cross-modal attention과 reasoning alignment가 근본적으로 개선 필요
  • 질문: Focused Context가 Full Context보다 성능 높은 이유가 노이즈 감소인가, 장기 의존성 모델링의 구조적 한계인가?
  • 비판적 코멘트: LLM-in-the-loop 편향 제거가 “추론 필요 질문”만 남겼는지, 단순히 어려운 질문만 남긴 것인지 검증 필요

Discussion Points


  • 논쟁점: 65.96% 성능이 86% 인간 성능과 비교해 의미 있는 수준인가, superficial reasoning에 머물러 있는가?
  • 검증 필요 가정: 비전 개선이 2-8%에 불과한 것이 비전 인코더 한계인지, fusion layer 문제인지, 질문 자체가 비전 정보 불필요한지
  • 후속 연구: Interactive ToM 평가를 위한 embodied agent 벤치마크, Chain-of-ToM reasoning 유도 프롬프트 기법, 비전-언어 정렬 개선 아키텍처