PaliGemma2-3B의 AI 생성 얼굴 감정 인식 평가

1. 개요

PaliGemma2-3B는 Google의 base VQA(Visual Question Answering) 모델로, FER(Facial Expression Recognition) 특화 학습을 받지 않은 범용 비전-언어 모델(Vision Language Model, VLM)이다. 본 보고서는 PaliGemma2가 1,440장의 AI 생성 얼굴 자극에 대해 수행한 감정 분류 및 valence-arousal 예측의 성능을 분석한다. FER 특화 비전 모델(EmoNet, MobileViT, EfficientNet, PosterV2, BEiT)과의 비교를 통해, 범용 VLM이 감정 인식 과제에서 보이는 특유의 오류 패턴을 규명한다.

PaliGemma2는 SigLIP 비전 인코더(224px, 14px 패치, 256 이미지 토큰)와 Gemma2 언어 모델을 결합한 early-fusion 아키텍처이다. FER 모델과 달리, 텍스트 프롬프트를 통해 3단계 추론(emotion → valence → arousal)을 수행하였다. 추론 시간은 총 2,659초(약 44분, 0.54 images/sec)이며, 파싱 성공률은 100%(1,440/1,440)이다.

2. 감정 분류 성능

2.1 전체 성능

지표	PaliGemma2	FER 최고 (PosterV2)	FER 최저 (EmoNet)
Accuracy	0.601	0.899	0.731
Macro F1	0.543	0.900	0.724
Cohen’s κ	0.418	0.878	0.665

PaliGemma2의 accuracy 60.1%, Cohen’s κ = 0.418은 FER 모델 5개 중 최하위인 EmoNet(κ = 0.665)보다도 현저히 낮다. κ의 0.418은 “moderate agreement” 수준으로, FER 특화 학습 없이 텍스트 프롬프트만으로 감정 분류를 수행한 한계를 보여준다.

2.2 감정별 성능

감정	P	R	F1	FER 최고 F1	해석
Happy	0.992	1.000	0.996	0.960	FER 모델 상회
Fear	1.000	0.958	0.979	0.968	FER 모델과 동등
Angry	0.650	0.550	0.596	0.780	FER 대비 열위
Neutral	0.339	1.000	0.507	0.954	Recall 과잉 — 흡수 편향
Disgust	0.955	0.088	0.160	0.758	사실상 실패
Sad	0.083	0.013	0.022	0.994	완전 실패

PaliGemma2는 감정별 성능 분산이 극단적이다. Happy(F1 = 0.996)와 fear(F1 = 0.979)는 FER 모델을 상회하거나 동등한 수준이지만, sad(F1 = 0.022)와 disgust(F1 = 0.160)는 사실상 인식에 실패하였다. 이러한 양극화된 성능은 FER 모델에서는 관찰되지 않는 PaliGemma2 특유의 패턴이다.

2.3 혼동 행렬과 “Neutral 흡수 편향”

GT \ Pred	angry	disgust	fear	happy	sad	neutral
Angry	132	1	0	0	1	106
Disgust	62	21	0	1	32	124
Fear	9	0	230	1	0	0
Happy	0	0	0	240	0	0
Sad	0	0	0	0	3	237
Neutral	0	0	0	0	0	240

PaliGemma2의 가장 현저한 오류 패턴은 “neutral 흡수 편향(neutral absorption bias)“이다. Sad 자극 240장 중 237장(98.75%)이 neutral로, disgust 240장 중 124장(51.7%)이 neutral로, angry 240장 중 106장(44.2%)이 neutral로 분류되었다. 이는 base VQA 모델이 확신 수준이 낮을 때 “안전한” 중립 응답으로 수렴하는 보수적 응답 전략(conservative response strategy)을 반영한다. FER 모델에서는 angry-disgust 간 혼동이 주요 오류였던 반면, PaliGemma2에서는 neutral로의 일방적 흡수가 지배적이다.

3. Valence-Arousal 예측 성능

PaliGemma2는 1-9 정수 스케일로 valence와 arousal을 직접 예측한다. FER 모델의 원래 출력은 [-1,1] 연속값이나, 비교를 위해 v_norm = (v_raw + 1) / 2 × 8 + 1 공식으로 [1,9] 스케일에 정규화하였으므로, 아래 MAE 값은 동일 스케일에서의 비교이다.

3.1 전체 VA 성능

차원	MAE	RMSE	Bias	LoA (±1.96SD)	r
Valence	2.378	3.188	+1.901	±5.019	0.232
Arousal	1.641	2.126	+1.241	±3.384	0.696

FER 모델(valence MAE 0.80–1.06, arousal MAE 1.37–1.86)과 비교하여, PaliGemma2의 valence MAE(2.378)는 약 2.4배 높고, arousal MAE(1.641)는 FER 모델과 유사한 수준이다. 주목할 점은 Pearson r의 차원별 역전이다. FER 모델은 valence r > arousal r (0.93 vs 0.13–0.45)인 반면, PaliGemma2는 arousal r(0.696) > valence r(0.232)이다. 이는 PaliGemma2가 valence 개념을 “강도(intensity)“로 해석하여, 실제로는 arousal에 더 가까운 값을 valence로 출력하는 “valence-as-intensity” 오류를 시사한다.

3.2 감정별 Valence 편향

감정	Bias	d	p	해석
Fear	+5.00	8.19	< .001	가장 극단적 과추정
Angry	+3.03	1.20	< .001	대폭 과추정
Disgust	+2.96	1.15	< .001	대폭 과추정
Happy	+1.60	7.61	< .001	과추정 (9점 고정)
Sad	+0.09	0.14	n.s.	유의하지 않음
Neutral	−1.27	−3.10	< .001	과소추정

Fear의 valence bias +5.00은 9점 스케일에서 5점 이상의 편향으로, 인간이 fear를 negative valence(약 3.97)로 평정한 반면 PaliGemma2는 8.97로 예측하였다. 이는 모델이 “두려움의 강렬함”을 “유쾌함”으로 혼동한 것으로, FER 모델의 fear valence bias(−0.16 ~ +0.40)와 비교하여 방향과 크기 모두에서 극단적 차이를 보인다. Sad는 유일하게 bias가 유의하지 않은데, 이는 모델이 sad를 neutral로 분류하여 valence도 neutral 수준(4.07)으로 출력했기 때문이다.

3.3 감정별 Arousal 편향

감정	Bias	d	p
Fear	+3.01	10.00	< .001
Happy	+2.52	9.86	< .001
Angry	+1.14	0.62	< .001
Disgust	+0.85	0.36	< .001
Neutral	+0.12	0.31	< .001
Sad	−0.20	−0.29	< .001

Arousal에서는 fear(+3.01)와 happy(+2.52)의 과추정이 가장 크다. 이 두 감정은 PaliGemma2가 valence=9, arousal=9로 완전 고정(SD = 0)한 결과이다. 값의 분산이 0이라는 것은 모델이 개별 이미지의 차이를 전혀 반영하지 못하고, 감정 범주에 기반한 고정 응답을 출력함을 의미한다.

4. 모델 특성 분석

4.1 FER 모델과의 구조적 차이

PaliGemma2와 FER 모델의 근본적 차이는 세 가지이다. 첫째, PaliGemma2는 FER 학습 데이터로 훈련되지 않은 base VQA 모델이므로, 감정 관련 시각 특징을 명시적으로 학습하지 않았다. 둘째, 텍스트 프롬프트를 통한 간접적 추론 방식은 FER 모델의 직접 분류(softmax)와 달리, 언어 모델의 사전 지식과 편향에 의존한다. 셋째, 3단계 순차 추론(emotion → valence → arousal)에서 앞 단계의 오류가 후속 단계에 전파되는 오류 누적(error propagation) 위험이 있다.

4.2 “Valence-as-Intensity” 가설

PaliGemma2의 valence 예측 패턴은 “정서가(pleasantness)“가 아닌 “감정 강도(emotional intensity)“를 반영한다. Fear(인간: V=3.97, 모델: V=8.97)와 angry(인간: V=3.48, 모델: V=6.52)에서 부정 감정의 valence가 높게 예측되는 현상은, 모델이 “이 표정이 얼마나 유쾌한가”가 아닌 “이 표정이 얼마나 강렬한가”에 응답한 것으로 해석된다. 이 가설을 검증하기 위해 PaliGemma2의 valence 예측값과 인간의 arousal 평균 간 상관을 산출하면 r = 0.696으로, 인간의 valence 평균과의 상관(r = 0.232)보다 현저히 높다. 즉, PaliGemma2의 “valence” 출력은 실제로 인간의 arousal과 더 강하게 상관한다. 또한 PaliGemma2의 자체 valence-arousal 상관이 r = 0.88(인간: r ≈ 0.1)로 극단적으로 높아, 모델 내에서 두 차원이 사실상 분리되지 않고 있음을 보여준다.

5. 주요 발견 요약

첫째, PaliGemma2(κ = 0.418)는 모든 FER 모델(κ = 0.665–0.878)보다 현저히 낮은 분류 성능을 보이나, happy와 fear에서는 FER 모델과 동등하거나 상회한다. 둘째, “neutral 흡수 편향”은 base VLM 특유의 오류 패턴으로, FER 모델의 angry-disgust 혼동과 질적으로 다르다. 셋째, valence 예측에서 “valence-as-intensity” 오류가 발생하여 fear의 bias가 +5.00에 달하며, 이는 FER 모델(−0.16 ~ +0.40)과 비교할 수 없는 수준이다. 넷째, happy/fear에 대한 valence=9, arousal=9 고정 응답(SD = 0)은 모델이 차원 평정을 수행하지 못하고 감정 범주 기반 고정값을 출력함을 보여준다.

Juhyeon's Blog

탐색기

paligemma2_evaluation