Emotion Classification + VA Regression 동시 수행 모델 조사 리포트

CHI 2026 Poster 논문 리뷰어 대응을 위한 모델 다양성 확보 전략

1. 배경 및 요구사항

리뷰어 핵심 지적

동일 학습 파이프라인(EmotiEffLib/Savchenko)의 모델 2개만 사용하여 AI 모델 다양성이 부족함.
다양한 training regime, 아키텍처, 학습 데이터에 기반한 모델을 추가하여 AI 평정의 generalizability를 강화해야 함.

모델 선정 기준

  1. Emotional category classification (7~8 basic emotions) + Valence-Arousal regression 동시 수행
  2. Open checkpoint 필수
  3. 모델 크기가 과도하지 않을 것
  4. 기존 EmotiEffLib와 다른 training pipeline 우선

2. 현재 프로젝트에서 사용 중인 모델

모델FrameworkBackbonePre-trainingMTLPipeline
enet_b0_8_va_mtlEmotiEffLibEfficientNet-B0VGGFace2 → AffectNetA
mobilevit_va_mtlEmotiEffLibMobileViTVGGFace2 → AffectNetA
mbf_va_mtlEmotiEffLibMobileFaceNetVGGFace2 → AffectNetA
emonetface-analysisStacked HourglassAffectNet directB

문제점: 상위 3개 모델이 모두 동일한 VGGFace2 → AffectNet 파이프라인(Pipeline A). EmoNet만 독립적(Pipeline B).


3. 조사 결과: 사용 가능한 모델

3-1. EmoNet ✅ 이미 프로젝트에 구현됨

항목내용
논문Toisoul et al., Nature Machine Intelligence 2021
기관Samsung AI Center Cambridge + Imperial College London
GitHubface-analysis/emonet
태스크8 Emotion Classes + Valence + Arousal (동시)
BackboneStacked Hourglass Networks (~100M params)
학습 데이터AffectNet 직접 학습 (VGGFace2 pre-training 없음)
Checkpointemonet_5.pth, emonet_8.pth (CC BY-NC-ND)
PipelineB — AffectNet direct training
상태face_emotion_analysis/models/emonet.py에 이미 구현됨
Action즉시 실험에 포함 가능

차별점 vs EmotiEffLib: AffectNet direct training, VGGFace2 pre-training 없음, 완전히 다른 아키텍처(Hourglass vs EfficientNet)

3-2. wtomin Multitask-CNN ✅ 체크포인트 공개 확인, 통합 코드 작성 완료

항목내용
논문Deng et al., FG-2020 ABAW Competition Solution (Winner)
GitHubwtomin/Multitask-Emotion-Recognition
태스크7 Expression + Valence-Arousal + 8 AU (3가지 동시)
BackboneResNet-50 (~25M params)
학습 데이터Aff-Wild2 (video) + AffectNet + DISFA + ExpW + AFEW-VA
학습 전략Teacher-student distillation + Incomplete label multi-task learning
Checkpoint5 CNN student models (0.pth ~ 4.pth)
PipelineC — Aff-Wild2 + Multi-DB + Incomplete Labels
상태face_emotion_analysis/models/wtomin_mtl.py 통합 완료
주의원본 다운로드 링크(HKUST SharePoint) 만료 가능 → 저자 연락 필요

차별점 vs EmotiEffLib:

  • 학습 데이터: Multi-database (5+ datasets) vs Single-dataset (AffectNet only)
  • 학습 전략: Semi-supervised + Incomplete label fusion vs Standard supervised
  • Pre-training: FER+ → Multi-DB fine-tune vs VGGFace2 → AffectNet
  • VA 인코딩: 20-bin discretization + softmax → weighted sum vs Direct regression

3-3. Behaviour4All ⚠️ 코드 확보 필요

항목내용
논문Kollias et al., arXiv 2024.09 (2409.17717)
기관iBUG, Queen Mary University of London
태스크Face Localization + VA + Expression (7) + 17 AU (4가지 동시!)
BackboneFacebehaviourNet (23.1M params, 3.8 GFLOPs)
학습 데이터12개 대규모 in-the-wild 데이터셋, 5M+ 이미지
성능VA CCC: AffectNet 62.0% (original) / 78.1% (new protocol)
PipelineD — 12 datasets, Distribution Matching
상태논문에서 “open-source” 명시하나 GitHub 저장소 미발견
Action저자(d.kollias@qmul.ac.uk)에게 직접 코드/체크포인트 요청

차별점: Fairness 관점에서 다양한 인구통계 데이터로 학습 → manuscript 주제와 직결


4. 조사 결과: 탈락한 후보들

모델탈락 사유
LibreFace (WACV 2024)VA regression 미지원 — AU + Expression만
OpenFace 3.0Continuous VA 출력 불확실
MA-Net, POSTER V2, DANClassification only, VA head 없음
MT-EmotiDDAMFN공개 미확인 + 동일 VGGFace2 → AffectNet 파이프라인

5. VLLM 참고 정보 (실험 미포함)

모델규모특징
Emotion-LLaMA (NeurIPS 2024)~7B+Multimodal, GPT-4V 대비 +8.52%
InternVL2 (CVPR 2024 Oral)1B~241BZero-shot prompting 가능
GPT-4V/4oClosedV r=0.87, A r=0.72 (zero-shot)

→ Static face image 분석에는 과도하고, checkpoint 확보 또는 재현성 문제로 실험에서 제외.


6. Pipeline 다양성 분석

Pipeline A: EmotiEffLib (Savchenko)  → VGGFace2 → AffectNet MTL
  Models: enet_b0_8_va_mtl, mobilevit_va_mtl, mbf_va_mtl

Pipeline B: EmoNet (Toisoul/Pantic) → AffectNet direct training
  Models: emonet_8

Pipeline C: wtomin MTL (Deng/Shi)   → FER+ → Aff-Wild2 + Multi-DB + Incomplete Labels
  Models: Multitask-CNN (5 student ensemble)

Pipeline D: Behaviour4All (Kollias) → 12 datasets, 5M+ images, Distribution Matching
  Models: FacebehaviourNet  [확보 시도 중]

최소 3개 독립 pipeline (A, B, C)으로 리뷰어의 “동일 파이프라인” 지적 해소 가능.
Behaviour4All까지 확보하면 4개 pipeline으로 매우 강력한 대응.


7. 최종 추천 모델 조합

Tier 1: 확실히 사용 가능

#모델PipelineBackboneParams상태
1enet_b0_8_va_mtlA (EmotiEffLib)EfficientNet-B0~5M기존 사용 중
2mobilevit_va_mtlA (EmotiEffLib)MobileViT~6M기존 사용 중
3emonetB (Samsung AI)Stacked Hourglass~100M이미 구현됨
4wtomin_mtlC (FG-2020 ABAW)ResNet-50~25M통합 코드 완료

Tier 2: 확보 시도

#모델필요 조치
5Behaviour4All저자에게 코드/checkpoint 요청

8. Action Items

우선순위항목상태
🔴 즉시EmoNet(emonet_8) 실험 실행이미 구현됨, 바로 실행 가능
🔴 즉시wtomin MTL 체크포인트 확보다운로드 링크 만료 → 저자 연락
🟡 단기wtomin 체크포인트 확보 후 inference 테스트통합 코드 준비 완료
🟡 단기Behaviour4All 저자에게 이메일d.kollias@qmul.ac.uk
🟢 실험 후전체 모델 CCC/ICC 메트릭으로 human rating agreement 측정-
🟢 논문 수정모델 선정 근거에 “다양한 training pipeline” 명시-

9. 논문에 포함할 모델 비교 테이블 (draft)

ModelArchitecturePre-trainingTraining DataTraining StrategyEXPR ClassesVA Output
EmotiEffLib (enet_b0)EfficientNet-B0VGGFace2AffectNetSupervised MTL8Regression
EmotiEffLib (mobilevit)MobileViTVGGFace2AffectNetSupervised MTL8Regression
EmoNetStacked HourglassNoneAffectNetEnd-to-end MTL8Regression
wtomin MTLResNet-50FER+Aff-Wild2 + Multi-DBTeacher-Student Distill.720-bin Discretized
Behaviour4All*FacebehaviourNetNone12 datasets (5M+)Distribution Matching7Regression

*확보 시도 중


10. 참고 자료

확정 사용 모델

확보 시도

참고 VLLM

탈락 후보

ABAW Competition


Report generated: 2026-02-14
For CHI 2026 Poster revision