인간 평정과 비전 FER 모델의 비교 분석

1. 분석 목적 및 방법

본 보고서는 1,440장의 AI 생성 얼굴 자극에 대한 인간 평정(1,000명, 72,000 응답)과 5개 비전 FER 모델(EmoNet, MobileViT, EfficientNet, PosterV2, BEiT)의 예측을 체계적으로 비교한다. 비교는 세 축에서 이루어진다: (1) 감정 분류 일치도, (2) valence-arousal 차원의 편향 유의성, (3) 인구통계별 모델 편향. 인간 평정자 간 신뢰도를 ceiling(상한선)으로 설정하여, 모델 성능의 상대적 의미를 해석한다.

2. 감정 분류: 모델 vs 인간

2.1 전체 분류 일치도와 인간 ceiling

감정 카테고리의 ground truth는 자극 생성 시 의도된 레이블이다. 본 분석에서는 이 의도된 레이블을 기준으로 모델의 분류 성능을 평가하였다. 단, 인간이 실제로 해당 자극을 의도된 감정으로 인식했는지의 일치도(즉, 인간 감정 인식률)는 별도로 산출해야 하며, 이는 현재 데이터의 분석 범위를 벗어난다. 따라서 여기서는 의도된 레이블을 기준으로 모델 성능을 보고하되, ceiling 해석은 보류한다.

모델	Cohen’s κ	해석
PosterV2	0.878	Almost perfect
MobileViT	0.848	Almost perfect
EfficientNet	0.823	Almost perfect
BEiT	0.713	Substantial
EmoNet	0.665	Substantial

PosterV2와 다른 4개 모델 간 분류 성능 차이를 McNemar 검정으로 확인하였다. McNemar 검정은 쌍체(paired) 분류 결과의 불일치 방향성을 검증하며, 동일 이미지 세트에서 두 모델의 정답/오답 교차표를 기반으로 한다.

비교	PosterV2만 정답	상대만 정답	χ²	p
vs EmoNet	307	64	159.16	< .001
vs BEiT	249	57	120.47	< .001
vs EfficientNet	96	31	33.27	< .001
vs MobileViT	66	31	12.63	< .001

PosterV2는 모든 모델 대비 통계적으로 유의하게 우수하였다(p < .001). EmoNet 및 BEiT와의 차이가 가장 크고(불일치 비율 4.8:1, 4.4:1), MobileViT와의 차이는 상대적으로 작다(2.1:1).

2.2 감정별 분류 정확도 비교

감정	EmoNet	MobileViT	EfficientNet	PosterV2	BEiT
Angry	0.637	0.954	0.887	0.917	0.800
Disgust	0.846	0.533	0.679	0.642	0.754
Fear	0.912	0.942	0.846	0.933	0.792
Happy	1.000	1.000	1.000	1.000	0.979
Sad	0.454	0.958	0.983	0.992	0.742
Neutral	0.533	0.863	0.729	0.912	0.529

Happy는 모든 모델에서 사실상 완벽한 분류(0.979–1.000)를 달성하여, 인간과 동일한 수준이다. 반면 disgust는 모든 모델의 공통 약점으로, 최고 성능이 EmoNet의 0.846에 불과하다. 주목할 점은 EmoNet이 disgust에서는 최고 성능을 보이면서 sad(0.454)와 neutral(0.533)에서는 최저 성능을 보인다는 것이다. 이는 EmoNet이 고각성(high-arousal) 부정 감정에 특화되어 있고, 저각성 감정에서 체계적으로 실패함을 시사한다.

2.3 인구통계별 분류 성능 차이

인종별 정확도

모델	Black	Caucasian	Korean
EmoNet	0.810	0.667	0.715
MobileViT	0.902	0.854	0.869
EfficientNet	0.885	0.800	0.877
PosterV2	0.921	0.854	0.923
BEiT	0.721	0.752	0.825

EmoNet에서 가장 큰 인종 간 차이가 관찰되었다(Black 0.810 vs Caucasian 0.667, Δ = 0.143). 이러한 차이의 원인은 복합적이며, 모델 훈련 데이터의 인종 구성, AI 자극 생성 과정에서의 인종별 표현 품질 차이, 또는 인종에 따른 감정 표현의 시각적 특성 차이가 결합된 결과일 수 있다. 현재 데이터만으로는 이들 요인을 분리할 수 없다. BEiT는 반대 패턴을 보여, Korean(0.825)에서 가장 높고 Black(0.721)에서 가장 낮았다.

성별 정확도

모델	Man	Woman	Δ
EmoNet	0.671	0.790	+0.119
MobileViT	0.867	0.883	+0.016
EfficientNet	0.840	0.868	+0.028
PosterV2	0.889	0.910	+0.021
BEiT	0.771	0.761	−0.010

EmoNet을 제외한 모든 모델에서 성별 차이는 3%p 이내로 미미하다. EmoNet의 여성 자극 우위(+11.9%p)는 여성 얼굴의 감정 표현이 더 과장되어 모델이 분류하기 쉬운 경향을 반영하며, 이는 인간 평정에서도 관찰된 패턴(여성 자극의 부정 감정 valence가 더 낮음)과 일치한다.

3. Valence-Arousal: 모델 편향의 유의성 검증

3.1 Valence 편향: Wilcoxon signed-rank 검정

각 감정에 대해 모델의 정규화된 valence 예측값과 인간 평균 valence 간 차이(bias = model − human)에 대해 Wilcoxon signed-rank 검정을 수행하였다. Wilcoxon 검정은 비모수 쌍체 검정으로, bias의 중앙값이 0과 유의하게 다른지 검증한다. Cohen’s d는 효과 크기의 지표이다. 총 18회(6감정 × 3모델) 검정이 수행되었으며, 다중 비교 보정(Bonferroni) 후 유의수준은 α = .05/18 ≈ .0028이다. 아래 표에서 *** 표시는 보정 후에도 유의한 결과(p < .001)를 의미한다. VA 예측은 EmoNet, MobileViT, EfficientNet 3개 모델만 지원하며, PosterV2와 BEiT는 VA 출력을 제공하지 않아 본 절의 분석에서 제외된다.

감정	EmoNet bias (d)	MobileViT bias (d)	EfficientNet bias (d)
Angry	−0.64 (−1.19)***	−1.01 (−2.71)***	−0.79 (−1.69)***
Disgust	−1.35 (−2.18)***	−0.78 (−1.42)***	−0.97 (−1.38)***
Fear	+0.40 (+0.73)***	−0.14 (−0.32)***	−0.62 (−1.14)***
Happy	+0.76 (+1.35)***	+1.01 (+4.58)***	+1.03 (+3.42)***
Sad	−0.89 (−1.87)***	−1.51 (−3.56)***	−1.95 (−3.25)***
Neutral	+0.04 (0.07) n.s.	−0.09 (−0.10)*	+0.01 (0.01) n.s.

*** p < .001, * p < .05, n.s. = not significant

Neutral을 제외한 모든 감정에서 세 모델 모두 인간 평정과 유의하게 다른 valence를 예측하였다(p < .001). 효과 크기(d)는 대부분 1.0 이상으로 “매우 큰” 수준이며, 특히 MobileViT의 happy(d = 4.58)와 sad(d = −3.56)에서 극단적인 편향이 관찰되었다. 이는 MobileViT가 감정의 정서가를 인간보다 더 극단적으로 예측하는 경향이 가장 강함을 의미한다. 세 모델 모두에서 neutral의 편향만 유의하지 않거나 효과가 극히 작아(d < 0.11), neutral을 정서적 기준점으로 적절히 인식하고 있다.

3.2 Arousal 편향

Arousal 차원에서는 인간 inter-rater α = 0.125로 ceiling이 극히 낮다. 따라서 모델-인간 간 arousal 불일치의 상당 부분은 인간 평정 자체의 불안정성에 기인할 수 있다. 그럼에도 불구하고, 부정 감정(angry, disgust, fear)에서 모든 모델이 arousal을 +1.5 ~ +3.1점 과추정하는 패턴은 체계적(systematic)이며, 인간 변산만으로는 설명되지 않는다. 이는 모델이 부정 감정의 시각적 강렬함(visual intensity)을 각성(arousal)과 과도하게 연결짓는 “시각적 강렬함-각성 혼동(visual intensity-arousal conflation)“을 보여준다.

3.3 인종별 Valence 편향

인종이 모델의 valence 편향에 미치는 영향을 Kruskal-Wallis 검정으로 확인하였다. Kruskal-Wallis는 3개 이상 독립 집단의 분포 차이를 검증하는 비모수 검정이다.

모델	Black bias	Caucasian bias	Korean bias	H	p
EmoNet	−0.177	−0.462	−0.207	25.83	< .001
MobileViT	−0.311	−0.390	−0.557	20.99	< .001
EfficientNet	−0.596	−0.353	−0.692	24.85	< .001

세 모델 모두에서 인종에 따른 valence 편향의 유의한 차이가 확인되었다(p < .001). EmoNet은 Caucasian 자극에서 가장 큰 과소추정(−0.462)을 보이고, EfficientNet은 Korean 자극에서 가장 큰 과소추정(−0.692)을 보인다. 이는 각 모델의 훈련 데이터의 인종 구성 편향이 반영된 결과로 해석된다. 다만, 인간 평정 자체에서도 인종에 따른 기저 편향이 존재하므로(Report 1 참조, Caucasian neutral이 0.23점 높음), 모델 편향의 일부는 인간 평정의 기저 차이에 의해 증폭되었을 가능성이 있다.

4. 모델 성능과 인간 ceiling의 관계

4.1 과제별 모델-인간 일치도 요약

과제	인간 신뢰도 지표	최고 모델 (성능 지표)	비고
감정 분류	— (ground truth = 의도 레이블)	PosterV2 (κ = 0.878)	인간 인식률은 별도 산출 필요
Valence 예측	α = 0.471 (개별 평정자 간)	MobileViT (r = 0.950, 인간 평균 대비)	직접 비교 불가
Arousal 예측	α = 0.125 (개별 평정자 간)	EfficientNet (r = 0.448, 인간 평균 대비)	직접 비교 불가

위 표에서 인간 신뢰도(Krippendorff’s α)와 모델 성능(Pearson r)은 직접 비교할 수 없는 서로 다른 지표이다. α는 1,000명 개별 평정자 간 일치도를 측정하는 반면, r은 모델 예측과 인간 평균 간 상관을 측정한다. 인간 평균은 개인차를 평활화(smoothing)하므로, 상관이 높게 나타나는 것은 구조적 특성이다. 동등한 비교를 위해서는 개별 인간 평정자의 r(인간 평균 대비)을 산출하여 모델의 r과 대조하는 것이 필요하며, 이는 후속 분석 과제로 남긴다.

4.2 과제 난이도의 비대칭

감정 분류 > valence 예측 > arousal 예측 순으로 모델 성능이 하락하며, 이는 인간 신뢰도의 패턴(emotion = 1.0 > valence α = 0.471 > arousal α = 0.125)과 정확히 일치한다. 이 병행(parallelism)은 모델의 과제별 성능 차이가 모델 자체의 한계가 아닌, 과제의 본질적 난이도(inherent task difficulty)를 반영함을 시사한다. 감정 범주는 이산적(discrete)이고 시각적 단서가 명확한 반면, arousal은 연속적이고 시각적 단서가 모호하여, 인간과 모델 모두에게 어려운 과제이다.

5. FER 모델 비교 소결

FER 모델 5종의 비교에서, PosterV2(κ = 0.878)가 통계적으로 유의하게 최고 분류 성능을 보이며, 모든 모델에서 disgust 분류가 가장 어렵다. VA 차원에서는 “극성 과장 편향”(valence)과 “부정 각성 과장 편향”(arousal)이 공통적으로 관찰되었다. 이 결과를 PaliGemma2(VLM)와 비교하는 분석은 Section 6에서 이어진다.

6. PaliGemma2-3B: FER 모델과 VLM의 비교

6.1 모델 특성

PaliGemma2-3B는 Google의 base VQA 모델로, FER 특화 학습을 받지 않은 범용 Vision Language Model(VLM)이다. SigLIP 비전 인코더와 Gemma2 언어 모델을 결합한 early-fusion 아키텍처이며, FER 모델의 직접 분류(softmax)와 달리 텍스트 프롬프트를 통한 3단계 순차 추론(emotion → valence → arousal)으로 감정을 판단한다. 이러한 구조적 차이로 인해 FER 모델과 질적으로 다른 오류 패턴이 관찰된다.

6.2 분류 성능 비교

모델	유형	Accuracy	Macro F1	Cohen’s κ
PosterV2	FER (ViT)	0.899	0.900	0.878
MobileViT	FER (ViT)	0.875	0.874	0.848
EfficientNet	FER (CNN-MTL)	0.854	0.856	0.823
BEiT	FER (ViT)	0.766	0.772	0.713
EmoNet	FER (CNN)	0.731	0.724	0.665
PaliGemma2	VLM (base)	0.601	0.543	0.418

PaliGemma2(κ = 0.418)는 FER 최하위 모델인 EmoNet(κ = 0.665)보다 0.247 낮다. 그러나 감정별로 보면 양상이 달라진다.

감정	PaliGemma2 F1	FER 최고 F1	FER 최저 F1	PaliGemma2 위치
Happy	0.996	0.960	0.812	FER 상회
Fear	0.979	0.968	0.880	FER 동등
Angry	0.596	0.780	0.610	FER 하위 수준
Neutral	0.507	0.954	0.679	FER 최하위 미달
Disgust	0.160	0.758	0.662	사실상 실패
Sad	0.022	0.994	0.625	완전 실패

Happy와 fear에서 PaliGemma2가 FER 모델과 동등하거나 상회하는 결과는, 이 두 감정이 시각적으로 가장 명확하여 FER 특화 학습 없이도 범용 시각-언어 지식만으로 판별 가능함을 시사한다. 반면, sad(F1 = 0.022)는 240장 중 237장이 neutral로 분류되어 사실상 완전 실패하였다.

6.3 오류 패턴의 질적 차이: “Neutral 흡수” vs “Angry-Disgust 혼동”

FER 모델의 주요 오류는 angry-disgust 간 양방향 혼동이며, 두 감정이 공유하는 시각적 특징(FACS AU4, AU9)에 기인한다. 반면 PaliGemma2의 주요 오류는 “neutral 흡수 편향”으로, sad(98.75%), disgust(51.7%), angry(44.2%)가 neutral로 일방적으로 분류된다. 이는 base VQA 모델이 불확실한 입력에 대해 가장 안전한 응답(neutral)을 선택하는 보수적 전략을 반영한다. FER 모델은 학습 데이터에서 감정별 분포를 명시적으로 학습하므로 이러한 편향이 발생하지 않는다.

6.4 VA 예측: “Valence-as-Intensity” 오류

모든 MAE 값은 동일한 [1,9] 스케일에서 산출되었다(FER 모델의 [-1,1] 출력은 v_norm = (v_raw + 1) / 2 × 8 + 1로 정규화).

모델	유형	V MAE	V r	A MAE	A r
EmoNet	FER	0.795	0.928	1.369	0.126
MobileViT	FER	0.916	0.950	1.864	0.409
EfficientNet	FER	1.063	0.940	1.696	0.448
PaliGemma2	VLM	2.378	0.232	1.641	0.696

PaliGemma2의 VA 성능은 FER 모델과 정반대의 패턴을 보인다. FER 모델은 valence r > arousal r (0.93 vs 0.13–0.45)인 반면, PaliGemma2는 arousal r(0.696) > valence r(0.232)이다. 이 역전의 원인은 “valence-as-intensity” 오류이다. PaliGemma2는 fear의 valence를 8.97(인간: 3.97)로 예측하였으며, 이는 “두려움이 강렬하다”를 “두려움이 유쾌하다”로 혼동한 것이다. Fear의 valence bias +5.00은 FER 모델(−0.16 ~ +0.40)과 비교할 수 없는 수준이다.

추가로, PaliGemma2는 happy와 fear에 대해 valence = 9, arousal = 9를 고정 출력(SD = 0)하였다. 이는 개별 이미지의 차이를 전혀 반영하지 않고, 감정 범주 기반 고정값을 출력하는 것으로, FER 모델에서는 관찰되지 않는 현상이다.

6.5 인구통계별 비교

모델	Black	Caucasian	Korean	최대 Δ
PosterV2	0.921	0.854	0.923	0.069
MobileViT	0.902	0.854	0.869	0.048
EfficientNet	0.885	0.800	0.877	0.085
BEiT	0.721	0.752	0.825	0.104
EmoNet	0.810	0.667	0.715	0.143
PaliGemma2	0.613	0.635	0.556	0.079

PaliGemma2의 인종 간 최대 차이(0.079)는 FER 모델의 중간 수준(EmoNet 0.143, PosterV2 0.069)이다. 다만, PaliGemma2의 강한 neutral 흡수 편향으로 인해 raw accuracy가 감정 분포의 인종별 차이에 의해 왜곡될 수 있으므로, 인구통계별 정확도는 Cohen’s κ나 감정별 층화 분석으로 보완 해석해야 한다. Korean 자극에서 가장 낮은 정확도(0.556)를 보이는 패턴은 BEiT를 제외한 FER 모델에서는 관찰되지 않으며, 원인 특정을 위해서는 추가 분석이 필요하다.

6.6 FER vs VLM: 시사점

FER 특화 모델과 base VLM의 비교에서 세 가지 시사점이 도출된다. 첫째, FER 특화 학습은 감정 분류 성능을 κ 기준 0.25–0.46(= FER 최고 0.878 − VLM 0.418) 향상시키며, 특히 sad, disgust, neutral의 분류에서 결정적 차이를 만든다. 둘째, VA 예측에서 FER 모델은 valence 차원에 강하고 VLM은 arousal 차원에 강하며, 이는 두 모델 유형이 감정의 서로 다른 측면을 포착함을 시사한다. FER 모델의 valence 우위는 명시적 VA 학습에서 비롯되고, VLM의 arousal 우위는 감정의 “강도”를 잘 포착하나 “유쾌/불쾌” 축을 구분하지 못하는 언어적 이해의 한계를 반영한다. 셋째, 시각적으로 명확한 감정(happy, fear)에서는 FER 특화 학습 없이도 범용 VLM이 충분한 성능을 달성할 수 있으며, 이는 이러한 감정의 시각적 표현이 범용 비전-언어 학습 데이터에 충분히 반영되어 있음을 의미한다.

7. Gemma3-4B-IT: Instruction-Tuned VLM의 감정 평정

7.1 모델 특성

Gemma3-4B-IT는 Google의 40억 파라미터 instruction-tuned VLM이다. PaliGemma2-3B가 base VQA 모델인 것과 달리, Gemma3는 instruction tuning을 거쳐 복잡한 지시문을 이해하고 구조화된 출력(JSON)을 생성할 수 있다. 본 실험에서는 QAT 4-bit 양자화 버전(mlx-community/gemma-3-4b-it-qat-4bit)을 사용하였으며, PaliGemma2와 동일한 3단계 순차 추론(emotion → valence → arousal, context carry)으로 1,440장 전체에 대해 추론을 수행하였다. JSON 파싱 성공률은 100%(PaliGemma2는 3-call VQA 방식으로 직접 비교 불가)이며, 유효 범주 이탈은 1건(0.07%)이었다.

7.2 분류 성능 비교: FER vs Base VLM vs IT VLM

모델	유형	Accuracy	Macro F1	Cohen’s κ
PosterV2	FER (ViT)	0.899	0.900	0.878
MobileViT	FER (ViT)	0.875	0.874	0.848
EfficientNet	FER (CNN-MTL)	0.854	0.856	0.823
BEiT	FER (ViT)	0.766	0.772	0.713
EmoNet	FER (CNN)	0.731	0.724	0.665
Gemma3-4B-IT	VLM (IT)	0.726	0.683	0.671
PaliGemma2-3B	VLM (base)	0.601	0.543	0.418

Gemma3(κ = 0.671)는 PaliGemma2(κ = 0.418)보다 0.253 높아, instruction tuning이 분류 성능을 “moderate”에서 “substantial agreement” 수준으로 끌어올렸다. Gemma3의 κ는 FER 최하위 모델인 EmoNet(κ = 0.665)과 동등한 수준이다. 다만 FER 최고 모델 PosterV2(κ = 0.878)와는 0.207의 차이가 존재하여, instruction tuning만으로는 FER 특화 학습의 성능에 도달하지 못한다.

7.3 감정별 분류: Instruction Tuning이 교정한 것과 교정하지 못한 것

감정	PaliGemma2 F1	Gemma3 F1	FER 최고 F1	FER 최저 F1
Happy	0.996	1.000	0.960	0.812
Fear	0.979	0.946	0.968	0.880
Disgust	0.160	0.710	0.758	0.662
Neutral	0.507	0.684	0.954	0.679
Angry	0.596	0.537	0.780	0.610
Sad	0.022	0.223	0.994	0.625

Instruction tuning의 효과는 감정에 따라 선택적으로 나타났다.

교정 성공 — Disgust: PaliGemma2에서 F1 = 0.160(사실상 실패)이던 disgust가 Gemma3에서 F1 = 0.710으로 개선되어 FER 모델의 중간 수준에 도달하였다. PaliGemma2는 disgust의 51.7%를 neutral로 분류했으나, Gemma3는 84.2%를 정확히 분류하고 오분류도 angry(8.3%), neutral(7.5%)로 분산되었다. 이는 instruction tuning이 disgust의 시각적 특징(코 주름, 상순 거상)에 대한 인식을 획득시켰음을 시사한다.

부분 교정 — Neutral: PaliGemma2에서 neutral은 다른 감정을 과도하게 흡수하는 “neutral 흡수 편향”의 핵심이었다(sad의 98.75%가 neutral로 분류). Gemma3에서 neutral 자체의 recall은 1.000으로 유지되면서, neutral 흡수의 범위가 축소되었다. 다만 sad→neutral(71.1%)은 여전히 지배적이어서, 완전한 교정은 이루어지지 않았다.

교정 실패 — Sad: PaliGemma2(F1 = 0.022)에서 Gemma3(F1 = 0.223)로 개선되었으나, 여전히 239장 중 30장만 정답이다. Sad의 71.1%가 neutral로 분류되는 패턴은 PaliGemma2의 98.75%보다 축소되었지만 본질적으로 동일한 오류 유형이다. 저강도 부정 감정(sad)의 인식은 instruction tuning으로 해결되지 않는 VLM의 구조적 한계로 보인다.

교정 실패 — Angry: PaliGemma2(F1 = 0.596)에서 Gemma3(F1 = 0.537)로 오히려 소폭 하락하였다. 그러나 오류의 질이 변화하였다. PaliGemma2는 angry의 44.2%를 neutral로 분류했으나, Gemma3는 45.4%를 disgust로 분류한다. 이는 “감정 부재”에서 “인접 감정 혼동”으로의 전환으로, FER 모델에서 관찰되는 오류 패턴에 가까워졌다.

7.4 혼동 패턴의 질적 변화: Base VLM → IT VLM → FER

세 모델 유형의 주요 혼동 패턴을 비교하면, instruction tuning이 오류의 질을 변화시키되 완전히 제거하지는 못하는 것을 확인할 수 있다.

오류 유형	PaliGemma2 (base VLM)	Gemma3 (IT VLM)	FER 모델
Neutral 흡수	지배적 (sad 98.75% → neutral)	축소됨 (sad 71.1% → neutral)	미약
Angry-Disgust 혼동	미약 (angry 44.2% → neutral)	지배적 (angry 45.4% → disgust)	지배적 (양방향)
Valence-as-intensity	존재 (fear V = 8.97)	부재 (fear V = 1.98)	부재
Dimensional collapse	존재 (happy/fear 고정값)	존재 (happy/fear 2-3개 값)	부재

이 표는 instruction tuning의 효과가 단계적임을 보여준다. Neutral 흡수 편향은 축소되었고, valence-as-intensity 오류는 완전히 교정되었으나, angry-disgust 혼동이 새롭게 지배적 오류로 부상하였고, dimensional collapse는 해결되지 않았다.

7.5 VA 예측: Instruction Tuning의 가장 큰 성과

모델	유형	V MAE	V r	A MAE	A r
EmoNet	FER	0.795	0.928	1.369	0.126
MobileViT	FER	0.916	0.950	1.864	0.409
EfficientNet	FER	1.063	0.940	1.696	0.448
Gemma3-4B-IT	VLM (IT)	1.465	0.889	1.127	0.765
PaliGemma2-3B	VLM (base)	2.378	0.232	1.641	0.696

Note. 모든 MAE 값은 동일한 [1,9] 척도에서 산출. FER 모델의 [-1,1] 출력은 v_norm = (v_raw + 1) / 2 × 8 + 1로 정규화.

VA 예측은 instruction tuning의 효과가 가장 극적으로 나타나는 영역이다.

Valence: PaliGemma2(r = 0.232)에서 Gemma3(r = 0.889)로의 도약은 0.657이며, 이는 FER 모델(0.928–0.950)에 근접하는 수준이다. 이 개선의 핵심은 “valence-as-intensity” 오류의 교정이다. PaliGemma2는 fear의 valence를 8.97(인간: 3.97)로 평정하여 “두려움이 유쾌하다”고 판단했으나, Gemma3는 1.98(인간: 3.96)로 올바른 방향을 인식한다. 다만 MAE(1.465)는 FER 모델(0.795–1.063)보다 높아, 방향은 정확하되 절대값의 정밀도는 FER에 미치지 못한다.

Arousal: Gemma3(r = 0.765)는 PaliGemma2(r = 0.696)보다 소폭 개선되었으며, FER 모델(0.126–0.448)을 상회한다. VLM의 arousal 우위는 두 VLM 모두에서 일관되게 나타나며, 이는 VLM이 감정의 “강도”를 언어적으로 잘 포착하는 반면 FER 모델은 arousal에 대한 명시적 학습이 부족한 것으로 해석된다. 특히 Gemma3의 A MAE(1.127)는 전체 모델 중 가장 낮아, arousal 절대값 추정에서도 최고 수준을 달성하였다.

7.6 인종별 분류 편향의 비교

모델	유형	Black	Caucasian	Korean	최대 Δ
PosterV2	FER	0.921	0.854	0.923	0.069
MobileViT	FER	0.902	0.854	0.869	0.048
EfficientNet	FER	0.885	0.800	0.877	0.085
BEiT	FER	0.721	0.752	0.825	0.104
EmoNet	FER	0.810	0.667	0.715	0.143
Gemma3-4B-IT	VLM (IT)	0.762	0.704	0.710	0.058
PaliGemma2-3B	VLM (base)	0.613	0.635	0.556	0.079

Gemma3의 인종 간 최대 차이(0.058)는 전체 모델 중 두 번째로 작다(MobileViT 0.048에 이어). 그러나 이 전체 수치는 감정별 편향을 상쇄하여 숨기고 있다. Angry 인식에서 Gemma3는 Black(0.613) vs Korean(0.225)으로 2.7배 차이를 보이며, 이는 EmoNet의 인종 편향(최대 Δ = 0.143)보다 감정별 층화 분석에서 더 심각한 편향을 드러낸다. PaliGemma2에서는 angry의 인종 차이가 관찰되지 않았으므로(neutral 흡수가 인종 무관하게 지배적), 이 편향은 instruction tuning 과정에서 새롭게 도입되었을 가능성이 있다.

한편, valence의 인종 간 차이는 Gemma3에서 비유의(Kruskal-Wallis H = 3.57, p = .168)하여, FER 모델 3종 모두에서 유의했던 결과(p < .001)와 대조된다. 이는 VLM의 차원 평정이 FER보다 인종 편향에 덜 취약할 수 있음을 시사한다.

7.7 Dimensional Collapse: VLM 공통의 한계

PaliGemma2와 Gemma3 모두에서 관찰되는 “dimensional collapse” — 특정 감정에 대해 소수의 고정된 VA 값만 출력하는 현상 — 는 instruction tuning으로 해결되지 않는 VLM의 구조적 한계이다. PaliGemma2는 happy와 fear에 대해 valence = 9, arousal = 9를 고정 출력(SD = 0)하였고, Gemma3도 happy(V = {8,9}, A = {6,7})와 fear(V mode = 2, SD = 0.16)에서 2–3개의 이산값만 사용한다. FER 모델에서는 이러한 현상이 관찰되지 않으며, 이는 FER의 연속 출력 헤드(regression head)와 VLM의 이산 토큰 생성(discrete token generation) 간의 아키텍처 차이에 기인할 가능성이 높다.

7.8 FER vs Base VLM vs IT VLM: 종합 시사점

세 모델 유형의 비교에서 다음의 시사점이 도출된다.

첫째, instruction tuning은 base VLM의 두 가지 핵심 한계를 선택적으로 교정한다. “valence-as-intensity” 오류는 완전히 교정되었고(fear V: 8.97 → 1.98), disgust 분류는 FER 수준에 도달하였다(F1: 0.160 → 0.710). 그러나 “neutral 흡수 편향”은 축소만 되었고(sad→neutral: 98.75% → 71.1%), “dimensional collapse”는 해결되지 않았다.

둘째, instruction tuning은 오류의 질을 변화시킨다. PaliGemma2의 주요 오류는 “감정 무감지(neutral 흡수)“였으나, Gemma3에서는 “인접 감정 혼동(angry→disgust)“이 지배적이 되었다. 이는 FER 모델의 오류 패턴에 가까운 방향으로의 전환이며, 모델이 감정의 존재를 인식하되 미세한 구분에서 실패하는 것으로, 질적으로 더 높은 수준의 오류이다.

셋째, VA 예측은 instruction tuning의 가장 큰 수혜 영역이다. Valence r의 0.232 → 0.889 도약은 VLM의 언어적 감정 이해가 valence 방향 인식의 핵심이며, base 모델에서는 이 능력이 발현되지 않았음을 보여준다. Arousal은 두 VLM 모두 FER를 상회하여, VLM이 감정 강도 추정에서 구조적 우위를 가짐을 확인한다.

넷째, 인종 편향은 모델 유형에 따라 다른 양상으로 발현된다. FER 모델은 전체 정확도와 valence 모두에서 인종 차이를 보이는 반면, Gemma3는 분류(특히 angry)에서만 편향이 두드러지고 valence에서는 비유의적이다. 이 선택적 편향은 배포 시 과제별 편향 감사의 필요성을 시사한다.

8. 종합 결론 및 향후 과제

8.1 핵심 발견

7개 모델(FER 5종 + VLM 2종)의 비교에서 다섯 가지 핵심 발견이 도출된다. 첫째, 감정 분류에서 FER 특화 모델(κ = 0.665–0.878)이 IT VLM(κ = 0.671)과 base VLM(κ = 0.418)을 상회하며, PosterV2(κ = 0.878)가 최고 성능을 보인다. 둘째, instruction tuning은 base VLM의 분류 성능을 κ 기준 0.253 향상시켜 FER 최하위 수준에 도달시키되, FER 최고 수준에는 0.207 미달한다. 셋째, FER, base VLM, IT VLM은 질적으로 다른 오류 패턴을 보인다 — FER는 angry-disgust 양방향 혼동, base VLM은 neutral 흡수, IT VLM은 angry→disgust 편향 + 잔존 neutral 흡수의 혼합 패턴이다. 넷째, VA 예측에서 instruction tuning의 효과가 가장 극적이며(valence r: 0.232 → 0.889), VLM의 arousal 우위(r = 0.696–0.765 vs FER 0.126–0.448)는 모델 유형 간 일관적이다. 다섯째, 인종 편향은 모든 모델에서 존재하나 발현 양상이 다르며, 특히 Gemma3의 angry 인식에서 인종별 2.7배 차이는 instruction tuning 과정에서 새롭게 도입되었을 가능성이 있어 주의가 필요하다.

8.2 향후 연구 방향

본 분석에서 instruction tuning의 선택적 효과가 확인되었으므로, 후속 연구는 세 방향으로 진행될 수 있다. 첫째, 더 큰 VLM(Gemma3 12B/27B, Qwen2.5-VL, InternVL3)에서 모델 스케일이 “neutral 흡수 편향”과 “dimensional collapse”를 해결하는지 검증이 필요하다. 둘째, context carry vs 독립 평정의 비교를 통해 3단계 순차 추론의 error propagation 효과를 정량화해야 한다. 셋째, cross-modal attention 분석을 통해 FER 모델과 VLM이 감정 인식 시 주목하는 얼굴 영역의 차이를 규명하고, 이것이 인종 편향과 어떤 관계를 갖는지 탐색할 필요가 있다.

human_vs_vision_model_comparison