비전 FER 모델의 AI 생성 얼굴 감정 인식 평가

1. 개요

본 보고서는 5개 비전 기반 표정 인식(Facial Expression Recognition, FER) 모델이 1,440장의 AI 생성 얼굴 자극에 대해 수행한 감정 분류 및 정서 차원(valence-arousal) 예측의 성능을 분석한다. 분석 대상 모델은 CNN 기반의 EmoNet과 EfficientNet-B0-8-VA-MTL(이하 EfficientNet), 경량 Vision Transformer 기반의 MobileViT, Pyramid Transformer 기반의 PosterV2, BERT Image Transformer 기반의 BEiT이다.

각 모델은 입력 이미지에 대해 6개 타겟 감정(angry, disgust, fear, happy, sad, neutral)의 softmax 확률을 출력하며, 확률이 가장 높은 감정을 예측 레이블로 사용하였다. 5개 모델 중 3개(EmoNet, MobileViT, EfficientNet)는 추가적으로 valence와 arousal의 연속 차원 값을 출력한다.

모델	아키텍처 유형	감정 분류	VA 예측
EmoNet	CNN	✓	✓
MobileViT	Vision Transformer (경량)	✓	✓
EfficientNet-B0-8-VA-MTL	EfficientNet (Multi-task)	✓	✓
PosterV2	Pyramid Transformer	✓	✗
BEiT	BERT Image Transformer	✓	✗

2. 감정 분류 성능

2.1 전체 성능 비교

Ground truth 레이블(자극 생성 시 의도된 감정)과 모델의 argmax 예측을 비교하여 accuracy, macro-averaged precision/recall/F1, Cohen’s κ를 산출하였다. Cohen’s κ는 우연 일치를 보정한 분류 일치도 지표로, 0은 우연 수준, 1은 완벽 일치를 의미한다.

모델	Accuracy	Macro P	Macro R	Macro F1	Cohen’s κ
PosterV2	0.899	0.914	0.899	0.900	0.878
MobileViT	0.875	0.905	0.875	0.874	0.848
EfficientNet	0.854	0.879	0.854	0.856	0.823
BEiT	0.766	0.813	0.766	0.772	0.713
EmoNet	0.731	0.792	0.731	0.724	0.665

PosterV2가 accuracy 89.9%, Cohen’s κ = 0.878로 가장 높은 분류 성능을 보였다. MobileViT(87.5%)와 EfficientNet(85.4%)이 그 뒤를 이었으며, BEiT(76.6%)와 EmoNet(73.1%)은 상대적으로 낮은 성능을 보였다.

2.2 감정별 성능 분석

다음 표는 각 모델의 감정별 F1 score이다. F1은 precision과 recall의 조화 평균으로, 분류 성능의 균형 잡힌 지표이다.

감정	EmoNet	MobileViT	EfficientNet	PosterV2	BEiT
Angry	0.644	0.753	0.742	0.780	0.610
Disgust	0.662	0.675	0.758	0.744	0.756
Fear	0.916	0.968	0.916	0.966	0.880
Happy	0.812	0.947	0.904	0.960	0.946
Sad	0.625	0.975	0.969	0.994	0.759
Neutral	0.684	0.926	0.843	0.954	0.679

모든 모델에서 fear와 happy의 F1이 가장 높았으며, angry와 disgust의 F1이 가장 낮았다. 이는 fear와 happy가 시각적으로 가장 구별되는 표정을 가지며, angry-disgust 쌍이 시각적으로 유사하여 혼동이 발생하기 때문이다. EmoNet은 sad(0.625)와 neutral(0.684)에서 특히 낮은 성능을 보여, 정서 강도가 낮은 표정에 대한 분류 한계를 드러냈다.

2.3 혼동 행렬 분석

5개 모델에 걸쳐 공통적으로 관찰되는 혼동 패턴은 다음과 같다.

Angry ↔ Disgust 혼동: 가장 빈번한 오분류 패턴이다. EmoNet은 disgust 자극 240장 중 37장을 angry로 분류하고, angry 자극 240장 중 85장을 disgust로 분류하였다. MobileViT에서도 disgust 240장 중 112장이 angry로 오분류되었다. 이는 두 감정이 공유하는 FACS(Facial Action Coding System) 상의 action unit 패턴, 특히 미간 주름(AU4)과 코 주름(AU9)의 유사성에 기인한다.

Neutral → Happy 혼동: EmoNet(109/240), EfficientNet(51/240), PosterV2(19/240)에서 neutral 자극이 happy로 오분류되는 경향이 관찰되었다. 이는 AI 생성 얼굴의 neutral 표정이 미세한 미소를 포함하는 경향을 반영할 수 있다는 가설이며, 자극 이미지의 시각적 검토를 통해 추가 확인이 필요하다.

Sad 분류의 모델 간 차이: EmoNet은 sad 240장 중 131장(54.6%)을 오분류한 반면, PosterV2는 2장(0.8%)만 오분류하였다. EmoNet의 sad 오분류 중 78장이 disgust, 28장이 angry로 분류되어, EmoNet이 sad의 저각성(low-arousal) 특성을 포착하지 못하고 부정 감정을 포괄적으로 혼동하는 것으로 나타났다.

3. Valence-Arousal 예측 성능

3개 모델(EmoNet, MobileViT, EfficientNet)의 VA 예측값(원래 [-1, 1] 스케일)을 인간 평정 스케일([1, 9])로 정규화하여 비교하였다. 정규화 공식은 v_norm = (v_raw + 1) / 2 × 8 + 1 이다.

3.1 전체 VA 성능

모델		MAE	RMSE	Bias (M)	LoA (±1.96SD)	Pearson r
EmoNet	Valence	0.795	0.966	−0.282	±1.812	0.928
	Arousal	1.369	1.533	+0.873	±2.471	0.126
MobileViT	Valence	0.916	1.047	−0.419	±1.881	0.950
	Arousal	1.864	2.209	+1.075	±3.783	0.409
EfficientNet	Valence	1.063	1.239	−0.547	±2.179	0.940
	Arousal	1.696	2.031	+0.923	±3.547	0.448

MAE(Mean Absolute Error)는 예측과 인간 평균 간 절대 오차의 평균이며, Bland-Altman 분석의 Bias는 체계적 편향(양수 = 모델이 과추정), LoA(Limits of Agreement)는 95% 일치 한계를 나타낸다.

Valence 예측은 세 모델 모두 높은 상관(r = 0.928–0.950)을 보였으며, MAE는 1점 이내(0.795–1.063)이다. 반면 arousal 예측은 상관이 현저히 낮고(r = 0.126–0.448), MAE가 1.37–1.86으로 valence 대비 크게 높다. 특히 EmoNet의 arousal 상관(r = 0.126)은 사실상 선형 관계가 없는 수준으로, EmoNet의 arousal 출력은 단독 사용 시 신뢰성이 낮다. MobileViT(r = 0.409)와 EfficientNet(r = 0.448)은 약한 상관을 보이나, 인간 inter-rater α(0.125)를 고려하면 과제 자체의 난이도가 주요 원인임을 시사한다.

3.2 감정별 Valence 편향

감정	EmoNet	MobileViT	EfficientNet
Angry	−0.644	−1.008	−0.790
Disgust	−1.350	−0.778	−0.968
Fear	+0.396	−0.135	−0.615
Happy	+0.755	+1.009	+1.034
Sad	−0.892	−1.510	−1.953
Neutral	+0.041	−0.093	+0.011

세 모델 모두 happy의 valence를 과추정(+0.76 ~ +1.03)하고, sad의 valence를 과소추정(−0.89 ~ −1.95)하는 공통 패턴을 보인다. 이는 모델이 감정의 valence 극단성(polarity)을 인간보다 더 강하게 예측하는 경향, 즉 “극성 과장 편향(polarity exaggeration bias)“을 반영한다. Neutral에서는 세 모델 모두 편향이 거의 없어(−0.09 ~ +0.04), neutral을 정서적 기준점으로 적절히 인식하고 있다.

3.3 감정별 Arousal 편향

감정	EmoNet	MobileViT	EfficientNet
Angry	+1.576	+3.075	+2.747
Disgust	+1.497	+2.708	+2.251
Fear	+2.271	+2.933	+2.742
Happy	−1.401	−0.551	−0.377
Sad	+0.774	−1.352	−1.609
Neutral	+0.521	−0.361	−0.216

Arousal 편향은 감정에 따라 방향이 극단적으로 달라진다. 부정 고각성 감정(angry, disgust, fear)에서 모든 모델이 arousal을 크게 과추정(+1.50 ~ +3.08)하는 반면, happy에서는 과소추정(−0.38 ~ −1.40)한다. 이는 모델이 부정 감정의 각성 수준을 체계적으로 과대평가하는 “부정 각성 과장 편향(negative arousal exaggeration bias)“을 보임을 시사한다. MobileViT와 EfficientNet은 sad에서도 arousal을 과소추정(−1.35, −1.61)하여, 저각성 감정에 대한 arousal 예측이 특히 불안정한 것으로 나타났다.

4. 모델 특성별 성능 비교

4.1 아키텍처 유형에 따른 분류 성능

Vision Transformer 계열(MobileViT κ = 0.848, PosterV2 κ = 0.878, BEiT κ = 0.713)이 CNN 계열(EmoNet κ = 0.665, EfficientNet κ = 0.823)보다 전반적으로 높은 분류 성능을 보였다. 다만 BEiT(κ = 0.713)는 EfficientNet(κ = 0.823)보다 낮아, Transformer 아키텍처가 항상 우월한 것은 아니다. PosterV2의 Pyramid 구조가 다양한 해상도에서 얼굴 특징을 포착하는 데 효과적인 것으로 해석된다.

4.2 Multi-task Learning의 효과

EfficientNet-B0-8-VA-MTL은 감정 분류와 VA 예측을 동시에 학습하는 multi-task learning(MTL) 모델이다. 분류 성능(κ = 0.823)은 중상위 수준이며, VA 예측에서도 valence r = 0.940, arousal r = 0.448로 양호한 결과를 보였다. MTL 방식이 단일 과제 대비 어떤 trade-off를 보이는지는 단일 과제 버전과의 비교가 필요하지만, 현재 데이터에서 EfficientNet의 VA 성능은 EmoNet과 유사하거나 약간 낮은 수준이다.

5. 주요 발견 요약

첫째, 감정 분류에서 PosterV2가 가장 높은 성능(κ = 0.878)을 보였으며, angry-disgust 혼동은 모든 모델의 공통 약점이다. 둘째, valence 예측은 세 모델 모두 높은 상관(r > 0.92)을 달성한 반면, arousal 예측은 현저히 낮은 상관(r = 0.13–0.45)을 보여 과제 난이도의 비대칭이 확인되었다. 셋째, 모든 VA 모델에서 “극성 과장 편향”(happy 과추정, sad 과소추정)과 “부정 각성 과장 편향”(부정 감정 arousal 과추정)이 공통적으로 관찰되었다. 넷째, Transformer 계열이 전반적으로 CNN 계열보다 우수한 분류 성능을 보였으나, 아키텍처만으로 성능을 결정짓기는 어려우며 학습 데이터와 훈련 전략의 영향이 혼재한다.

Juhyeon's Blog

탐색기

vision_fer_model_evaluation