Paper Digest

오픈소스 VLM(Phi-3.5 Vision, CLIP)이 전통적 CNN 기반 FER 모델(VGG19, ResNet-50, EfficientNet-B0)을 대체할 수 있는지를 FER-2013 벤치마크에서 직접 비교한 실증 연구. 저해상도·노이즈 자극 환경에서 VLM이 현저히 열세 (최대 ~35%p 격차) 임을 보이고, GFPGAN 기반 이미지 복원 파이프라인을 제안한다. 본 연구(GIST-AIFaceDB VLM replaceability)와 프레이밍·비교 구조가 가장 유사한 선행 연구.

핵심 요약 (6 bullets)

연구 질문: 오픈소스 VLM이 전통적 DL 기반 FER 분류기를 대체할 수 있는가? (replaceability framing)
자극: FER-2013 (35,887장, 48×48 grayscale, 7 emotion classes) — 저해상도·야생(in-the-wild) 이미지
모델 조건: 2 VLM (Phi-3.5 Vision, CLIP) vs. 3 CNN (VGG19, ResNet-50, EfficientNet-B0)
평가: discrete classification (Accuracy, Precision, Recall, F1) + computational cost
핵심 결과: EfficientNet-B0 86.44% / ResNet-50 85.72% vs. CLIP 64.07% / Phi-3.5 Vision 51.66%
결론: VLM은 저품질 입력에서 CNN 대비 큰 격차를 보이며, 복원 전처리(GFPGAN)가 성능 갭 축소에 기여하지만 대체 가능성은 제한적

Methods

데이터셋: FER-2013 (Kaggle 공개, 7 emotions: Angry/Disgust/Fear/Happy/Sad/Surprise/Neutral)
전처리 파이프라인: GFPGAN 기반 얼굴 복원(upsampling + artifact removal)을 추가해 복원 유무 성능을 비교
VLM 프롬프트: zero-shot / prompt-based 분류 (CLIP은 텍스트 임베딩 매칭, Phi-3.5는 instruction prompting)
CNN 학습: ImageNet pretrained → FER-2013 fine-tune, 표준 cross-entropy + Adam
메트릭: Accuracy / Precision / Recall / F1 (macro) + inference latency / FLOPs

Key Findings

모델	유형	Accuracy	F1	비고
EfficientNet-B0	CNN	86.44%	높음	최고 성능
ResNet-50	CNN	85.72%	높음	근소 차
VGG19	CNN	~83% 대	중상	baseline
CLIP	VLM	64.07%	중하	VLM 중 우세
Phi-3.5 Vision	VLM	51.66%	낮음	7-class에서 chance 대비 약세

저해상도·노이즈 환경에서 VLM의 감정 변별력이 크게 저하됨 (특히 Fear/Disgust confusion)
GFPGAN 복원 후 VLM 성능은 개선되나 여전히 CNN 대비 20%p+ 열세
VLM은 추론 비용은 크고 정확도는 낮은 이중 열세 구간에 위치

비교 테이블: 본 연구(GIST-AIFaceDB) vs. Mulukutla 2025

축	Mulukutla 2025	본 연구 (GIST-AIFaceDB)
프레이밍	Replaceability (VLM→CNN)	Replaceability (VLM→human rating)
자극	FER-2013 (저해상도, real)	AI 생성 얼굴 (5 emotion × race × gender)
VLM 조건 수	2 (CLIP, Phi-3.5)	8 VLM 조건 (더 포괄적)
평정 형식	discrete (7-class)	discrete + VA (continuous) 병행
비교 기준	CNN 분류 정확도	인간 평정 (Krippendorff’s α)
통계	Accuracy/F1	Krippendorff’s α + bootstrap z-score
복원/전처리	GFPGAN 복원	고품질 AI 생성(복원 불필요)
race/gender 분해	없음	있음 (인구통계 층화)

Gap 요약 (본 연구가 채우는 공백)

평가 기준의 전환: Mulukutla는 CNN 레이블을 정답으로 삼지만, FER에는 절대 정답이 없음 → 본 연구는 **인간 평정자 간 일치도(α)**를 대체 가능성의 기준으로 재정의
VLM 다양성 부족: 2개 VLM만 비교 → 본 연구 8 조건으로 모델 일반성 검증
자극 품질 교란: FER-2013의 저해상도가 VLM 열세를 과장할 가능성 → 본 연구는 고품질 AI 생성 얼굴로 자극 품질 교란 통제
평정 형식: discrete-only → 본 연구는 discrete + VA 연속 평정 병행으로 차원적 감정 재현도 평가
인구통계 층화 부재: race/gender 분해 없음 → 본 연구는 층화 분석으로 편향 진단 추가

BibTeX

@article{mulukutla2025vlmfer,
  title   = {Evaluating Open-Source Vision Language Models for Facial Emotion Recognition against Traditional Deep Learning Models},
  author  = {Mulukutla, V. K. and Pavarala, S. S. and Rudraraju, S. R. and Bonthu, S.},
  journal = {EAI Endorsed Transactions on AI and Robotics},
  volume  = {4},
  year    = {2025},
  eprint  = {2508.13524},
  archivePrefix = {arXiv},
  primaryClass  = {cs.CV}
}

Juhyeon's Blog

탐색기

Evaluating Open-Source Vision Language Models for Facial Emotion Recognition against Traditional Deep Learning Models