Bhattacharyya & Wang (2025) — Evaluating Vision-Language Models for Emotion Recognition

Paper Digest (한 줄 hook)

Zero-shot VLM은 이미지에서 유발 감정(evoked emotion) 을 인식하는 데 여전히 미숙하며, 프롬프트 섭동에 취약하고 supervised 모델에 크게 못 미친다 — VLM 기반 감정 인식의 한계를 benchmarking으로 규명한 첫 포괄 연구.

핵심 요약 (6 bullets)

  • Context: VLM이 범용 시각 이해에서 약진했지만, 관찰자에게 유발되는 감정(evoked emotion) 을 이미지로부터 예측하는 능력은 체계적 평가가 부재했다.
  • Challenge: zero-shot VLM이 (a) 정답 감정 라벨을 얼마나 정확히 예측하고, (b) 프롬프트·라벨 순서·페르소나 같은 섭동에 얼마나 견고한지, (c) 어떤 유형의 오류를 범하는지 계통적으로 파악할 필요.
  • Idea: 5개 기존 감정 데이터셋을 통합한 EvE 벤치마크를 구축하고, 7개 VLM × 8개 프롬프트 전략 조합으로 correctness + robustness 두 축 평가.
  • Solution: 라벨 순서 셔플, open-vocabulary, 긍정/부정 페르소나, explanation/context/caption 기반 추론 등 프롬프트 변형 + 3단계 오류 분류(EC I/II/III).
  • Experiment: EmoSet/FI/Abstract/ArtPhoto/Emotion6에서 LLaVA·LLaVA-Next·Qwen-VL·GPT-4o를 평가, weighted F1·accuracy·sentiment bias·human agreement 분석.
  • Learn: GPT-4o가 최상위지만 supervised baseline에 여전히 미달; 추상 이미지에서 특히 취약, 부정 페르소나에서 성능 급락, EC III(미세 감정 오류)는 주관성/noisy ground truth에 기인.

Methods 요약

  • Benchmark (EvE): 5개 데이터셋 통합 — EmoSet(~2.9K hard samples), FI(~2.9K), Abstract(~250), ArtPhoto(~805), Emotion6(~1,980).
  • Models (zero-shot): LLaVA-7B/13B, LLaVA-Next(Vicuna 7B/13B, Mistral 7B), Qwen-VL, GPT-4o.
  • Metrics: weighted F1 (primary), accuracy/precision/recall, sentiment bias, human agreement %.
  • Prompt 섭동 8종: 라벨 순서 셔플, open-vocabulary(라벨 미제공), 낙관/비관 페르소나, explanation-based / contextual / caption-based reasoning.
  • Error Categories:
    • EC I — sentiment 자체 오류 (positive↔negative).
    • EC II — sentiment는 맞지만 arousal/intensity 오류.
    • EC III — sentiment+arousal은 일치, 미세 감정(fine-grained) 오류.
  • Human evaluation: EC III의 상당수가 주관적 해석·노이지 라벨에서 유래함을 확인.

Key Findings

  • Zero-shot VLM은 유발 감정 예측에서 supervised 모델 대비 현저히 낮은 성능 — “VLMs are inept at predicting emotions evoked by images”로 요약됨.
  • GPT-4o가 최고이나 추상 이미지(Abstract, ArtPhoto)에서 일반 open-source VLM과 격차 축소 — 추상성이 VLM 감정 추론의 공통 병목.
  • 프롬프트 섭동에 대한 분산이 크다 — 특히 부정(pessimistic) 페르소나 채택 시 급격한 성능 저하 → VLM 감정 판단의 불안정성.
  • EC III 오류는 모델 실패라기보다 ground truth의 주관성 반영 — 미세 감정은 인간끼리도 불일치가 크다는 함의.
  • Open-vocabulary 설정에서 sentiment bias(특정 감정 쏠림) 패턴이 드러남.

본 연구(GIST-AIFaceDB VLM 대체가능성)와의 비교

Bhattacharyya & Wang (2025)본 연구
자극자연·회화·추상 이미지에서 관찰자에게 유발되는 감정AI생성 얼굴 (emotion×race×gender 요인설계) — 표정 감정(expressed)
과제zero-shot 이산 감정 분류 (Ekman계 6~8범주)범주형 감정 + valence/arousal 평정
모델7 VLM (LLaVA 계열, Qwen-VL, GPT-4o) — zero-shot only8 VLM (4B / 11-27B / Frontier × thinking/non-thinking)
프로토콜8종 프롬프트 섭동 (label shuffle, persona, reasoning)standard prompt + thinking mode 이원화
지표weighted F1, accuracy, sentiment bias, human agreement %Krippendorff’s α + 부트스트랩 z-score (replaceability)
프레이밍VLM 정확도 진단 — “supervised에 못 미친다”VLM이 인간 평정자 풀에 합류 시 집단 신뢰도 유지 여부 (대체가능성)
오류 모형EC I/II/III 3단계 계층 분석신뢰도 하락·상승의 체계적 편향 탐지

Gap 요약 (1-2문장): Bhattacharyya & Wang은 zero-shot VLM이 absolute accuracy 면에서 supervised를 대체할 수 없음을 규명했지만, 정답 라벨이 존재하지 않는 주관적 평정 맥락에서 VLM이 인간 평정자 집단의 한 구성원으로 합류 가능한지는 다루지 않는다. 본 연구는 정답 기반 정확도 프레임을 넘어 Krippendorff’s α 기반 inter-rater reliability 대체가능성으로 이 공백을 채우며, 통제된 얼굴 자극 + thinking mode 조건까지 확장한다.

중요 교훈: (1) 프롬프트 섭동 민감성 — 본 연구의 단일 프롬프트 결과가 강건한지 sanity check 필요. (2) EC III ≈ 주관성 문제 — 감정은 정답이 없는 과제이므로 accuracy가 아닌 agreement-based 지표가 본질적으로 더 타당하다는 본 연구 선택의 방증.

BibTeX

@inproceedings{bhattacharyya2025evaluating,
  title={Evaluating Vision-Language Models for Emotion Recognition},
  author={Bhattacharyya, Sree and Wang, James Z.},
  booktitle={Findings of the Association for Computational Linguistics: NAACL 2025},
  pages={1798--1820},
  year={2025},
  address={Albuquerque, New Mexico},
  url={https://aclanthology.org/2025.findings-naacl.97/}
}