Paper Digest

오픈소스 VLM(Phi-3.5 Vision, CLIP)이 전통적 CNN 기반 FER 모델(VGG19, ResNet-50, EfficientNet-B0)을 대체할 수 있는지를 FER-2013 벤치마크에서 직접 비교한 실증 연구. 저해상도·노이즈 자극 환경에서 VLM이 현저히 열세 (최대 ~35%p 격차) 임을 보이고, GFPGAN 기반 이미지 복원 파이프라인을 제안한다. 본 연구(GIST-AIFaceDB VLM replaceability)와 프레이밍·비교 구조가 가장 유사한 선행 연구.

핵심 요약 (6 bullets)

  • 연구 질문: 오픈소스 VLM이 전통적 DL 기반 FER 분류기를 대체할 수 있는가? (replaceability framing)
  • 자극: FER-2013 (35,887장, 48×48 grayscale, 7 emotion classes) — 저해상도·야생(in-the-wild) 이미지
  • 모델 조건: 2 VLM (Phi-3.5 Vision, CLIP) vs. 3 CNN (VGG19, ResNet-50, EfficientNet-B0)
  • 평가: discrete classification (Accuracy, Precision, Recall, F1) + computational cost
  • 핵심 결과: EfficientNet-B0 86.44% / ResNet-50 85.72% vs. CLIP 64.07% / Phi-3.5 Vision 51.66%
  • 결론: VLM은 저품질 입력에서 CNN 대비 큰 격차를 보이며, 복원 전처리(GFPGAN)가 성능 갭 축소에 기여하지만 대체 가능성은 제한적

Methods

  • 데이터셋: FER-2013 (Kaggle 공개, 7 emotions: Angry/Disgust/Fear/Happy/Sad/Surprise/Neutral)
  • 전처리 파이프라인: GFPGAN 기반 얼굴 복원(upsampling + artifact removal)을 추가해 복원 유무 성능을 비교
  • VLM 프롬프트: zero-shot / prompt-based 분류 (CLIP은 텍스트 임베딩 매칭, Phi-3.5는 instruction prompting)
  • CNN 학습: ImageNet pretrained → FER-2013 fine-tune, 표준 cross-entropy + Adam
  • 메트릭: Accuracy / Precision / Recall / F1 (macro) + inference latency / FLOPs

Key Findings

모델유형AccuracyF1비고
EfficientNet-B0CNN86.44%높음최고 성능
ResNet-50CNN85.72%높음근소 차
VGG19CNN~83% 대중상baseline
CLIPVLM64.07%중하VLM 중 우세
Phi-3.5 VisionVLM51.66%낮음7-class에서 chance 대비 약세
  • 저해상도·노이즈 환경에서 VLM의 감정 변별력이 크게 저하됨 (특히 Fear/Disgust confusion)
  • GFPGAN 복원 후 VLM 성능은 개선되나 여전히 CNN 대비 20%p+ 열세
  • VLM은 추론 비용은 크고 정확도는 낮은 이중 열세 구간에 위치

비교 테이블: 본 연구(GIST-AIFaceDB) vs. Mulukutla 2025

Mulukutla 2025본 연구 (GIST-AIFaceDB)
프레이밍Replaceability (VLM→CNN)Replaceability (VLM→human rating)
자극FER-2013 (저해상도, real)AI 생성 얼굴 (5 emotion × race × gender)
VLM 조건 수2 (CLIP, Phi-3.5)8 VLM 조건 (더 포괄적)
평정 형식discrete (7-class)discrete + VA (continuous) 병행
비교 기준CNN 분류 정확도인간 평정 (Krippendorff’s α)
통계Accuracy/F1Krippendorff’s α + bootstrap z-score
복원/전처리GFPGAN 복원고품질 AI 생성(복원 불필요)
race/gender 분해없음있음 (인구통계 층화)

Gap 요약 (본 연구가 채우는 공백)

  1. 평가 기준의 전환: Mulukutla는 CNN 레이블을 정답으로 삼지만, FER에는 절대 정답이 없음 → 본 연구는 **인간 평정자 간 일치도(α)**를 대체 가능성의 기준으로 재정의
  2. VLM 다양성 부족: 2개 VLM만 비교 → 본 연구 8 조건으로 모델 일반성 검증
  3. 자극 품질 교란: FER-2013의 저해상도가 VLM 열세를 과장할 가능성 → 본 연구는 고품질 AI 생성 얼굴로 자극 품질 교란 통제
  4. 평정 형식: discrete-only → 본 연구는 discrete + VA 연속 평정 병행으로 차원적 감정 재현도 평가
  5. 인구통계 층화 부재: race/gender 분해 없음 → 본 연구는 층화 분석으로 편향 진단 추가

BibTeX

@article{mulukutla2025vlmfer,
  title   = {Evaluating Open-Source Vision Language Models for Facial Emotion Recognition against Traditional Deep Learning Models},
  author  = {Mulukutla, V. K. and Pavarala, S. S. and Rudraraju, S. R. and Bonthu, S.},
  journal = {EAI Endorsed Transactions on AI and Robotics},
  volume  = {4},
  year    = {2025},
  eprint  = {2508.13524},
  archivePrefix = {arXiv},
  primaryClass  = {cs.CV}
}