Introduction
- 복잡한 실세계 시나리오에서의 사회적 상호작용 이해는 정교한 정신적 추론(mental reasoning)에 의존
- 사회적 상호작용은 본질적으로 멀티모달: 행동 관찰, 대화 청취, 과거 행동 독해
- AI 시스템이 실세계 환경에서 안전하게 상호작용하려면, 멀티모달 정보에 기반한 정신 상태 추론 능력 필요
- MuMA-ToM: 최초의 멀티모달 멀티에이전트 Theory of Mind 벤치마크 제안
- 기존 ToM 벤치마크: 주로 텍스트 기반, 단일 에이전트 시나리오
- 멀티모달 사회 인지 연구의 부족
Methods
- MuMA-ToM 벤치마크: 현실적 가정 환경에서의 멀티모달 행동(비디오 + 텍스트) 제공
- 맥락 기반 질문: 에이전트의 목표(goals), 신념(beliefs), 타인의 목표에 대한 신념(beliefs about others’ goals)
- 인간 실험을 통한 검증 및 인간 baseline 제공
- LIMP (Language model-based Inverse Multi-agent Planning): 새로운 멀티모달 멀티에이전트 ToM 모델
Results
- LIMP가 GPT-4o, Gemini-1.5 Pro 등 대규모 멀티모달 모델을 유의미하게 능가
- 최근 멀티모달 ToM 모델(BIP-ALM)도 능가
- 인간 baseline과의 비교를 통해 벤치마크 타당성 검증
Discussion
- 멀티모달 + 멀티에이전트 ToM 연구의 새로운 방향성 제시
- 현재 대규모 멀티모달 모델들의 ToM 추론 한계를 정량적으로 드러냄
- Inverse planning 기반 접근이 end-to-end 모델보다 ToM 추론에 효과적