오픈소스 VLM(Phi-3.5 Vision, CLIP)이 전통적 CNN 기반 FER 모델(VGG19, ResNet-50, EfficientNet-B0)을 대체할 수 있는지를 FER-2013 벤치마크에서 직접 비교한 실증 연구. 저해상도·노이즈 자극 환경에서 VLM이 현저히 열세 (최대 ~35%p 격차) 임을 보이고, GFPGAN 기반 이미지 복원 파이프라인을 제안한다. 본 연구(GIST-AIFaceDB VLM replaceability)와 프레이밍·비교 구조가 가장 유사한 선행 연구.
핵심 요약 (6 bullets)
연구 질문: 오픈소스 VLM이 전통적 DL 기반 FER 분류기를 대체할 수 있는가? (replaceability framing)
저해상도·노이즈 환경에서 VLM의 감정 변별력이 크게 저하됨 (특히 Fear/Disgust confusion)
GFPGAN 복원 후 VLM 성능은 개선되나 여전히 CNN 대비 20%p+ 열세
VLM은 추론 비용은 크고 정확도는 낮은 이중 열세 구간에 위치
비교 테이블: 본 연구(GIST-AIFaceDB) vs. Mulukutla 2025
축
Mulukutla 2025
본 연구 (GIST-AIFaceDB)
프레이밍
Replaceability (VLM→CNN)
Replaceability (VLM→human rating)
자극
FER-2013 (저해상도, real)
AI 생성 얼굴 (5 emotion × race × gender)
VLM 조건 수
2 (CLIP, Phi-3.5)
8 VLM 조건 (더 포괄적)
평정 형식
discrete (7-class)
discrete + VA (continuous) 병행
비교 기준
CNN 분류 정확도
인간 평정 (Krippendorff’s α)
통계
Accuracy/F1
Krippendorff’s α + bootstrap z-score
복원/전처리
GFPGAN 복원
고품질 AI 생성(복원 불필요)
race/gender 분해
없음
있음 (인구통계 층화)
Gap 요약 (본 연구가 채우는 공백)
평가 기준의 전환: Mulukutla는 CNN 레이블을 정답으로 삼지만, FER에는 절대 정답이 없음 → 본 연구는 **인간 평정자 간 일치도(α)**를 대체 가능성의 기준으로 재정의
VLM 다양성 부족: 2개 VLM만 비교 → 본 연구 8 조건으로 모델 일반성 검증
자극 품질 교란: FER-2013의 저해상도가 VLM 열세를 과장할 가능성 → 본 연구는 고품질 AI 생성 얼굴로 자극 품질 교란 통제
평정 형식: discrete-only → 본 연구는 discrete + VA 연속 평정 병행으로 차원적 감정 재현도 평가
인구통계 층화 부재: race/gender 분해 없음 → 본 연구는 층화 분석으로 편향 진단 추가
BibTeX
@article{mulukutla2025vlmfer, title = {Evaluating Open-Source Vision Language Models for Facial Emotion Recognition against Traditional Deep Learning Models}, author = {Mulukutla, V. K. and Pavarala, S. S. and Rudraraju, S. R. and Bonthu, S.}, journal = {EAI Endorsed Transactions on AI and Robotics}, volume = {4}, year = {2025}, eprint = {2508.13524}, archivePrefix = {arXiv}, primaryClass = {cs.CV}}