PaliGemma2-3B 정서 인식 실험 결과 보고서

실험 일자: 2026-02-22
모델: PaliGemma2-3B (base VQA)
자극: 1,440 AI 생성 얼굴 이미지 (3인종 × 2성별 × 6정서)
Ground-truth: 파일명 emotion code (Ang, Dis, Fea, Hap, Sad, Neu/NES)
추론 시간: 2,659초 (~44분), 0.54 images/sec
파싱 성공률: 100% (1,440/1,440)

1. Executive Summary

PaliGemma2-3B는 1,440장의 AI 생성 얼굴 이미지에 대해 전체 정서 분류 정확도 60.1%, Cohen’s κ = 0.522, F1 Macro = 0.543을 기록했다. 정서별 성능 편차가 매우 크며, happy(F1=0.996)와 fear(F1=0.979)는 거의 완벽하게 인식하지만, sad(F1=0.022)와 disgust(F1=0.160)는 사실상 인식에 실패했다. 인종 간 accuracy gap은 7.9%p(Caucasian 63.5% vs Korean 55.6%), 성별 간 gap은 3.3%p(Man 61.8% vs Woman 58.5%)로 체계적 demographic bias가 관찰되었다. Valence/arousal 평정에서는 극단값 편향(happy/fear에 9점 고정)과 중립 수렴 경향(sad/neutral에 4-5점 고정)이 뚜렷했다.

2. Emotion Classification 결과

2.1 전체 성능 지표

Metric	Value
Overall Accuracy	60.14%
Cohen’s κ	0.522 (moderate agreement)
F1 Macro	0.543

2.2 정서별 Precision / Recall / F1

Emotion	Precision	Recall	F1	평가
happy	0.992	1.000	0.996	완벽 인식
fear	1.000	0.958	0.979	거의 완벽
angry	0.650	0.550	0.596	보통 (neutral로 혼동)
neutral	0.339	1.000	0.507	Recall 과잉 — 다른 정서를 neutral로 흡수
disgust	0.955	0.088	0.160	사실상 실패 (대부분 neutral/angry로 분류)
sad	0.083	0.013	0.022	완전 실패 (98.75%가 neutral로 분류)

★ Insight ─────────────────────────────────────
PaliGemma2는 base VQA 모델로서 “안전한” 중립 응답으로 수렴하는 경향이 강하다. sad 240장 중 237장을 neutral로 분류했고, disgust도 124장을 neutral로 분류했다. 이는 base 모델의 보수적 응답 성향과 FER 학습 데이터 부재가 복합된 결과로 보인다.
─────────────────────────────────────────────────

2.3 Confusion Matrix

Actual \ Predicted	happy	sad	angry	fear	disgust	neutral
happy	240	0	0	0	0	0
sad	0	3	0	0	0	237
angry	0	1	132	0	1	106
fear	1	0	9	230	0	0
disgust	1	32	62	0	21	124
neutral	0	0	0	0	0	240

주요 혼동 패턴:

sad → neutral (237/240 = 98.75%): 거의 전량 neutral로 분류
disgust → neutral (124/240 = 51.7%): 절반 이상 neutral로 분류
disgust → angry (62/240 = 25.8%): 부정 정서 간 혼동
angry → neutral (106/240 = 44.2%): 절반 가까이 neutral로 분류

3. Valence / Arousal 평정 결과

3.1 정서별 Valence-Arousal 평정 (1-9 척도)

Emotion	Valence Mean (SD)	Arousal Mean (SD)	해석
happy	9.00 (0.00)	9.00 (0.00)	완전 고정 — 분산 0
fear	8.97 (0.52)	9.00 (0.00)	거의 고정 — arousal 분산 0
angry	6.52 (2.45)	6.74 (1.91)	중간 수준, 높은 분산
disgust	6.47 (2.45)	6.43 (2.36)	angry와 유사, 높은 분산
neutral	4.01 (0.26)	4.95 (0.30)	중립점 수렴, 매우 낮은 분산
sad	4.07 (0.56)	4.98 (0.65)	neutral과 거의 동일

★ Insight ─────────────────────────────────────
세 가지 비정상적 패턴이 관찰된다:

극단값 고정: happy/fear에 대해 valence=9, arousal=9로 완전 고정 (SD=0). 모델이 차별화된 차원 평정을 하지 못하고, 모든 positive/high-arousal 자극에 최댓값을 할당한다.
Valence 방향 역전: Fear의 valence가 8.97로 매우 높은데, 심리학적으로 fear는 negative valence (1-3점 범위 기대)이다. 이는 PaliGemma2가 valence 개념을 “강도(intensity)“로 해석하고 있을 가능성을 시사한다.
Sad-Neutral 미분리: Sad (val=4.07, aro=4.98)와 neutral (val=4.01, aro=4.95)의 차원 프로파일이 거의 동일하다. 분류에서도 sad를 neutral로 판정한 패턴과 일치한다.
─────────────────────────────────────────────────

3.2 Russell Circumplex 관점 예상 vs 실제 비교

Emotion	심리학 예상 Valence	PaliGemma2 Valence	심리학 예상 Arousal	PaliGemma2 Arousal	불일치
happy	High (~7-8)	9.00	Mid-High (~6-7)	9.00	Arousal 과대
fear	Low (~2-3)	8.97	High (~7-8)	9.00	Valence 완전 역전
angry	Low (~2-3)	6.52	High (~7-8)	6.74	Valence 역전, Arousal 과소
disgust	Low (~2-4)	6.47	Mid (~4-6)	6.43	Valence 역전
sad	Low (~2-3)	4.07	Low (~2-4)	4.98	Arousal 과대
neutral	Mid (~5)	4.01	Low (~3-4)	4.95	거의 일치

핵심 문제: PaliGemma2는 valence를 emotional intensity(정서 강도)로 이해하는 것으로 보인다. 부정 정서(fear, angry, disgust)에 높은 valence를 부여하여, “불쾌하지만 강한” 정서를 “높은 valence”로 평정한다. 이는 base VQA 모델이 valence의 심리학적 정의(쾌-불쾌 축)를 학습하지 못했음을 의미한다.

4. Demographic Bias 분석

4.1 인종별 성능

Race	N	Accuracy	F1 Macro	Cohen’s κ
Caucasian	480	63.54%	0.587	0.563
Black	480	61.25%	0.536	0.535
Korean	480	55.63%	0.494	0.468

Accuracy gap (Race): 7.92%p (Caucasian - Korean)

4.2 성별별 성능

Gender	N	Accuracy	F1 Macro	Cohen’s κ
Man	720	61.81%	0.547	0.542
Woman	720	58.47%	0.536	0.502

Accuracy gap (Gender): 3.33%p (Man - Woman)

4.3 인종 × 성별 교차 분석

Group	N	Accuracy	F1 Macro	Cohen’s κ
Caucasian Man	240	64.17%	0.572	0.570
Black Man	240	63.75%	0.548	0.565
Caucasian Woman	240	62.92%	0.598	0.555
Korean Man	240	57.50%	0.515	0.490
Black Woman	240	58.75%	0.523	0.505
Korean Woman	240	53.75%	0.469	0.445

최대 gap: 10.42%p (Caucasian Man 64.17% vs Korean Woman 53.75%)

★ Insight ─────────────────────────────────────
Caucasian > Black > Korean 순서의 accuracy 패턴은 PaliGemma2의 사전학습 데이터에서 Western/Caucasian 얼굴이 과대 대표된 결과일 가능성이 높다. 특히 Korean 자극에 대한 angry 인식률이 30%로 Black(70%)이나 Caucasian(65%)에 비해 극단적으로 낮다. 이는 아시아인 얼굴에서의 anger 표현이 모델에 덜 학습되었음을 시사한다.
─────────────────────────────────────────────────

4.4 정서 × 인종 Accuracy 교차표

Emotion	Black	Caucasian	Korean	Range
happy	100%	100%	100%	0%p
neutral	100%	100%	100%	0%p
fear	92.5%	95.0%	100%	7.5%p
angry	70.0%	65.0%	30.0%	40.0%p
disgust	5.0%	18.75%	2.5%	16.25%p
sad	0.0%	2.5%	1.25%	2.5%p

Angry × Korean 조합에서 가장 큰 인종 간 격차(40%p) 발생. Korean angry 이미지의 70%가 neutral로 분류됨.

4.5 정서 × 성별 Accuracy 교차표

Emotion	Man	Woman	Gap
happy	100%	100%	0%p
neutral	100%	100%	0%p
fear	98.3%	93.3%	5.0%p
angry	67.5%	42.5%	25.0%p
disgust	5.0%	12.5%	7.5%p
sad	0.0%	2.5%	2.5%p

Angry × Woman 조합에서 가장 큰 성별 간 격차(25%p) 발생. 여성의 anger 표현을 남성보다 잘 인식하지 못함.

4.6 인종별 Valence / Arousal 평정 비교

Valence Mean by Emotion × Race:

Emotion	Black	Caucasian	Korean	Range
happy	9.00	9.00	9.00	0
fear	8.90	9.00	9.00	0.10
angry	7.05	7.23	5.28	1.95
disgust	6.35	7.01	6.04	0.97
neutral	4.00	3.98	4.05	0.07
sad	4.00	4.13	4.09	0.13

Arousal Mean by Emotion × Race:

Emotion	Black	Caucasian	Korean	Range
happy	9.00	9.00	9.00	0
fear	9.00	9.00	9.00	0
angry	7.15	7.19	5.88	1.31
disgust	6.49	6.90	5.89	1.01
neutral	5.00	4.91	4.94	0.09
sad	5.00	5.08	4.85	0.23

Korean 자극에 대한 angry/disgust valence & arousal이 다른 인종보다 1-2점 낮다. 이는 분류 accuracy gap과 일관되며, Korean 자극에 대한 정서 강도를 체계적으로 과소평가하는 bias를 확인해준다.

5. LLaVA-1.5-7B 파일럿 결과 (5장 샘플)

LLaVA는 5장의 diverse sample에 대해서만 추론이 완료되었다.

Image	GT Emotion	Predicted	Correct?	Valence	Arousal
BW11_Ang	angry	angry	O	6	8
BM34_Dis	disgust	disgust	O	6	7
BM09_Fea	fear	surprised	X	8	8
KW66_Hap	happy	happy	O	8	8
CW13_Neu	neutral	surprised	X	7	6

파일럿 관찰 (N=5, 통계적 해석 불가):

3/5 정답 (angry, disgust, happy)
Fear → surprised, Neutral → surprised 혼동 발생
LLaVA는 PaliGemma2와 달리 “surprised” 카테고리를 사용함 (프롬프트에 없는 범주)
Valence 범위 6-8로 PaliGemma2(4-9)보다 중간 범위에 분포

6. Attention 데이터 현황

6.1 추출 완료된 Attention 데이터

Model	Images	NPZ 크기 (개당)	총 크기
PaliGemma2	5장	~60 MB	~300 MB
LLaVA	5장	~256 MB	~1.3 GB

PaliGemma2: 256 image tokens (16×16 grid, SigLIP)
LLaVA: 576 image tokens (24×24 grid, CLIP ViT-L/14)
Per-task attention (Emotion/Valence/Arousal 각 단계)이 저장됨
시각화 heatmap PNG 10장 생성 완료 (outputs/figures/)

6.2 Dark Knowledge (Logits) 데이터

10개 NPZ 파일 (PaliGemma2 5 + LLaVA 5)
Top-50 softmax 분포 저장 (생성 단계별)
모델 확신도 분석용

7. 결과 해석 및 일반적 기대치 비교

7.1 이 결과는 예상 가능한가?

관측	일반적 기대	부합 여부	근거
Overall Acc 60%	VLM FER에서 50-70% 범위	부합	Base VQA 모델 + 6-class + 어려운 정서 포함
κ = 0.52	”Moderate agreement” 범위	부합	제안서 H1 예측(κ=0.4-0.6)과 일치
Happy/Fear 높은 F1	표정 명확성이 높은 정서	부합	얼굴 표정 연구에서 일관되게 보고
Sad/Disgust 낮은 F1	혼동률 높은 정서	부합	인간도 disgust-anger, sad-neutral 혼동 빈번
Neutral 흡수 경향	Base 모델의 보수적 응답	부합	Instruction-tuned 모델에서 개선 기대
Caucasian > Korean	Western 데이터 과대 대표	부합	사전학습 데이터 편향의 전형적 패턴
Man > Woman	성별 bias	부합	기존 FER bias 문헌과 일치 (Rhue, 2018)
Valence 역전 (fear=8.97)	Fear는 negative valence	이상	Base 모델이 valence 개념을 이해하지 못함
SD=0 (happy/fear)	어느 정도 분산 기대	이상	모델이 차별화된 평정을 하지 못함

7.2 연구 제안서 가설과의 비교

가설	예측	PaliGemma2 결과	지지 여부
H1: VLM κ = 0.4-0.6	κ < 인간 ceiling	κ = 0.522 → 범위 내	지지
H2: Valence ICC > Arousal ICC	Valence가 더 일치	미산출 (인간 데이터 필요)	미검증
H3: Positive valence bias	체계적 긍정 편향	Valence 역전 패턴 → intensity bias	부분 지지 (양방향 상향)
H4: Tuning이 bias 변화	Base ≠ Instruct	Base만 테스트	미검증
H5: Emotion→눈/입 attention	과제별 attention 차이	데이터 수집됨, 분석 미수행	미검증

8. 핵심 발견 요약

8.1 긍정적 결과

파싱 성공률 100% — 3-call VQA 전략이 안정적으로 작동
Happy/Fear 인식 우수 — 명확한 표정에 대한 높은 정확도 확인
인구통계 bias 정량화 성공 — 인종/성별별 체계적 차이 포착
Attention + Logits 추출 성공 — 후속 메커니즘 분석 가능

8.2 주의가 필요한 결과

Sad/Disgust 인식 실패 — F1 < 0.2, 사실상 인식 불가
Neutral 흡수 현상 — 불확실한 정서를 neutral로 분류하는 보수적 편향
Valence 개념 미이해 — 심리학적 valence(쾌-불쾌)가 아닌 intensity로 이해
차원 평정 분산 부재 — Happy/Fear에서 SD=0, 개별 이미지 차이를 반영하지 못함

8.3 후속 실험 시사점

Instruction-tuned 모델(Qwen2.5-VL, InternVL3) 비교 시급 — base 모델의 한계가 tuning으로 해결되는지 확인
Valence 프롬프트 개선 필요 — “pleasantness-unpleasantness” 명시적 정의 포함 검토
Korean angry 인식률 개선 모니터링 — 모든 모델에서 동일 패턴인지 확인
Per-task attention 분석 수행 — Angry-Neutral 혼동 이미지에서 attention 패턴 분석

9. 데이터 산출물 목록

산출물	경로	크기	상태
PaliGemma2 예측 (1,440장)	`outputs/paligemma2_predictions.json`	467 KB	완료
LLaVA 예측 (5장 샘플)	`outputs/llava_predictions.json`	1.4 KB	파일럿
PaliGemma2 Attention NPZ	`outputs/paligemma2_attention_*.npz` × 5	~300 MB	샘플 5장
LLaVA Attention NPZ	`outputs/llava_attention_*.npz` × 5	~1.3 GB	샘플 5장
Logits NPZ	`outputs/_logits_.npz` × 10	~20 KB	샘플 10장
Attention Heatmap	`outputs/figures/*.png` × 10	~44 MB	완료
Inference Summary	`outputs/inference_results.xlsx`	8 KB	완료
W&B Dashboard	`wandb/run-20260222_190159-*`	-	완료

Report generated: 2026-03-19
Model: PaliGemma2-3B (google/paligemma2-3b-mix-224)
Hardware: Apple M1 Max 32GB

Juhyeon's Blog

탐색기

experiment_report_paligemma2