PaliGemma2-3B 정서 인식 실험 결과 보고서

실험 일자: 2026-02-22
모델: PaliGemma2-3B (base VQA)
자극: 1,440 AI 생성 얼굴 이미지 (3인종 × 2성별 × 6정서)
Ground-truth: 파일명 emotion code (Ang, Dis, Fea, Hap, Sad, Neu/NES)
추론 시간: 2,659초 (~44분), 0.54 images/sec
파싱 성공률: 100% (1,440/1,440)


1. Executive Summary

PaliGemma2-3B는 1,440장의 AI 생성 얼굴 이미지에 대해 전체 정서 분류 정확도 60.1%, Cohen’s κ = 0.522, F1 Macro = 0.543을 기록했다. 정서별 성능 편차가 매우 크며, happy(F1=0.996)와 fear(F1=0.979)는 거의 완벽하게 인식하지만, sad(F1=0.022)와 disgust(F1=0.160)는 사실상 인식에 실패했다. 인종 간 accuracy gap은 7.9%p(Caucasian 63.5% vs Korean 55.6%), 성별 간 gap은 3.3%p(Man 61.8% vs Woman 58.5%)로 체계적 demographic bias가 관찰되었다. Valence/arousal 평정에서는 극단값 편향(happy/fear에 9점 고정)과 중립 수렴 경향(sad/neutral에 4-5점 고정)이 뚜렷했다.


2. Emotion Classification 결과

2.1 전체 성능 지표

MetricValue
Overall Accuracy60.14%
Cohen’s κ0.522 (moderate agreement)
F1 Macro0.543

2.2 정서별 Precision / Recall / F1

EmotionPrecisionRecallF1평가
happy0.9921.0000.996완벽 인식
fear1.0000.9580.979거의 완벽
angry0.6500.5500.596보통 (neutral로 혼동)
neutral0.3391.0000.507Recall 과잉 — 다른 정서를 neutral로 흡수
disgust0.9550.0880.160사실상 실패 (대부분 neutral/angry로 분류)
sad0.0830.0130.022완전 실패 (98.75%가 neutral로 분류)

★ Insight ─────────────────────────────────────
PaliGemma2는 base VQA 모델로서 “안전한” 중립 응답으로 수렴하는 경향이 강하다. sad 240장 중 237장을 neutral로 분류했고, disgust도 124장을 neutral로 분류했다. 이는 base 모델의 보수적 응답 성향과 FER 학습 데이터 부재가 복합된 결과로 보인다.
─────────────────────────────────────────────────

2.3 Confusion Matrix

Actual \ Predictedhappysadangryfeardisgustneutral
happy24000000
sad03000237
angry0113201106
fear10923000
disgust13262021124
neutral00000240

주요 혼동 패턴:

  • sad → neutral (237/240 = 98.75%): 거의 전량 neutral로 분류
  • disgust → neutral (124/240 = 51.7%): 절반 이상 neutral로 분류
  • disgust → angry (62/240 = 25.8%): 부정 정서 간 혼동
  • angry → neutral (106/240 = 44.2%): 절반 가까이 neutral로 분류

3. Valence / Arousal 평정 결과

3.1 정서별 Valence-Arousal 평정 (1-9 척도)

EmotionValence Mean (SD)Arousal Mean (SD)해석
happy9.00 (0.00)9.00 (0.00)완전 고정 — 분산 0
fear8.97 (0.52)9.00 (0.00)거의 고정 — arousal 분산 0
angry6.52 (2.45)6.74 (1.91)중간 수준, 높은 분산
disgust6.47 (2.45)6.43 (2.36)angry와 유사, 높은 분산
neutral4.01 (0.26)4.95 (0.30)중립점 수렴, 매우 낮은 분산
sad4.07 (0.56)4.98 (0.65)neutral과 거의 동일

★ Insight ─────────────────────────────────────
세 가지 비정상적 패턴이 관찰된다:

  1. 극단값 고정: happy/fear에 대해 valence=9, arousal=9로 완전 고정 (SD=0). 모델이 차별화된 차원 평정을 하지 못하고, 모든 positive/high-arousal 자극에 최댓값을 할당한다.

  2. Valence 방향 역전: Fear의 valence가 8.97로 매우 높은데, 심리학적으로 fear는 negative valence (1-3점 범위 기대)이다. 이는 PaliGemma2가 valence 개념을 “강도(intensity)“로 해석하고 있을 가능성을 시사한다.

  3. Sad-Neutral 미분리: Sad (val=4.07, aro=4.98)와 neutral (val=4.01, aro=4.95)의 차원 프로파일이 거의 동일하다. 분류에서도 sad를 neutral로 판정한 패턴과 일치한다.
    ─────────────────────────────────────────────────

3.2 Russell Circumplex 관점 예상 vs 실제 비교

Emotion심리학 예상 ValencePaliGemma2 Valence심리학 예상 ArousalPaliGemma2 Arousal불일치
happyHigh (~7-8)9.00Mid-High (~6-7)9.00Arousal 과대
fearLow (~2-3)8.97High (~7-8)9.00Valence 완전 역전
angryLow (~2-3)6.52High (~7-8)6.74Valence 역전, Arousal 과소
disgustLow (~2-4)6.47Mid (~4-6)6.43Valence 역전
sadLow (~2-3)4.07Low (~2-4)4.98Arousal 과대
neutralMid (~5)4.01Low (~3-4)4.95거의 일치

핵심 문제: PaliGemma2는 valence를 emotional intensity(정서 강도)로 이해하는 것으로 보인다. 부정 정서(fear, angry, disgust)에 높은 valence를 부여하여, “불쾌하지만 강한” 정서를 “높은 valence”로 평정한다. 이는 base VQA 모델이 valence의 심리학적 정의(쾌-불쾌 축)를 학습하지 못했음을 의미한다.


4. Demographic Bias 분석

4.1 인종별 성능

RaceNAccuracyF1 MacroCohen’s κ
Caucasian48063.54%0.5870.563
Black48061.25%0.5360.535
Korean48055.63%0.4940.468

Accuracy gap (Race): 7.92%p (Caucasian - Korean)

4.2 성별별 성능

GenderNAccuracyF1 MacroCohen’s κ
Man72061.81%0.5470.542
Woman72058.47%0.5360.502

Accuracy gap (Gender): 3.33%p (Man - Woman)

4.3 인종 × 성별 교차 분석

GroupNAccuracyF1 MacroCohen’s κ
Caucasian Man24064.17%0.5720.570
Black Man24063.75%0.5480.565
Caucasian Woman24062.92%0.5980.555
Korean Man24057.50%0.5150.490
Black Woman24058.75%0.5230.505
Korean Woman24053.75%0.4690.445

최대 gap: 10.42%p (Caucasian Man 64.17% vs Korean Woman 53.75%)

★ Insight ─────────────────────────────────────
Caucasian > Black > Korean 순서의 accuracy 패턴은 PaliGemma2의 사전학습 데이터에서 Western/Caucasian 얼굴이 과대 대표된 결과일 가능성이 높다. 특히 Korean 자극에 대한 angry 인식률이 30%로 Black(70%)이나 Caucasian(65%)에 비해 극단적으로 낮다. 이는 아시아인 얼굴에서의 anger 표현이 모델에 덜 학습되었음을 시사한다.
─────────────────────────────────────────────────

4.4 정서 × 인종 Accuracy 교차표

EmotionBlackCaucasianKoreanRange
happy100%100%100%0%p
neutral100%100%100%0%p
fear92.5%95.0%100%7.5%p
angry70.0%65.0%30.0%40.0%p
disgust5.0%18.75%2.5%16.25%p
sad0.0%2.5%1.25%2.5%p

Angry × Korean 조합에서 가장 큰 인종 간 격차(40%p) 발생. Korean angry 이미지의 70%가 neutral로 분류됨.

4.5 정서 × 성별 Accuracy 교차표

EmotionManWomanGap
happy100%100%0%p
neutral100%100%0%p
fear98.3%93.3%5.0%p
angry67.5%42.5%25.0%p
disgust5.0%12.5%7.5%p
sad0.0%2.5%2.5%p

Angry × Woman 조합에서 가장 큰 성별 간 격차(25%p) 발생. 여성의 anger 표현을 남성보다 잘 인식하지 못함.

4.6 인종별 Valence / Arousal 평정 비교

Valence Mean by Emotion × Race:

EmotionBlackCaucasianKoreanRange
happy9.009.009.000
fear8.909.009.000.10
angry7.057.235.281.95
disgust6.357.016.040.97
neutral4.003.984.050.07
sad4.004.134.090.13

Arousal Mean by Emotion × Race:

EmotionBlackCaucasianKoreanRange
happy9.009.009.000
fear9.009.009.000
angry7.157.195.881.31
disgust6.496.905.891.01
neutral5.004.914.940.09
sad5.005.084.850.23

Korean 자극에 대한 angry/disgust valence & arousal이 다른 인종보다 1-2점 낮다. 이는 분류 accuracy gap과 일관되며, Korean 자극에 대한 정서 강도를 체계적으로 과소평가하는 bias를 확인해준다.


5. LLaVA-1.5-7B 파일럿 결과 (5장 샘플)

LLaVA는 5장의 diverse sample에 대해서만 추론이 완료되었다.

ImageGT EmotionPredictedCorrect?ValenceArousal
BW11_AngangryangryO68
BM34_DisdisgustdisgustO67
BM09_FeafearsurprisedX88
KW66_HaphappyhappyO88
CW13_NeuneutralsurprisedX76

파일럿 관찰 (N=5, 통계적 해석 불가):

  • 3/5 정답 (angry, disgust, happy)
  • Fear → surprised, Neutral → surprised 혼동 발생
  • LLaVA는 PaliGemma2와 달리 “surprised” 카테고리를 사용함 (프롬프트에 없는 범주)
  • Valence 범위 6-8로 PaliGemma2(4-9)보다 중간 범위에 분포

6. Attention 데이터 현황

6.1 추출 완료된 Attention 데이터

ModelImagesNPZ 크기 (개당)총 크기
PaliGemma25장~60 MB~300 MB
LLaVA5장~256 MB~1.3 GB
  • PaliGemma2: 256 image tokens (16×16 grid, SigLIP)
  • LLaVA: 576 image tokens (24×24 grid, CLIP ViT-L/14)
  • Per-task attention (Emotion/Valence/Arousal 각 단계)이 저장됨
  • 시각화 heatmap PNG 10장 생성 완료 (outputs/figures/)

6.2 Dark Knowledge (Logits) 데이터

  • 10개 NPZ 파일 (PaliGemma2 5 + LLaVA 5)
  • Top-50 softmax 분포 저장 (생성 단계별)
  • 모델 확신도 분석용

7. 결과 해석 및 일반적 기대치 비교

7.1 이 결과는 예상 가능한가?

관측일반적 기대부합 여부근거
Overall Acc 60%VLM FER에서 50-70% 범위부합Base VQA 모델 + 6-class + 어려운 정서 포함
κ = 0.52”Moderate agreement” 범위부합제안서 H1 예측(κ=0.4-0.6)과 일치
Happy/Fear 높은 F1표정 명확성이 높은 정서부합얼굴 표정 연구에서 일관되게 보고
Sad/Disgust 낮은 F1혼동률 높은 정서부합인간도 disgust-anger, sad-neutral 혼동 빈번
Neutral 흡수 경향Base 모델의 보수적 응답부합Instruction-tuned 모델에서 개선 기대
Caucasian > KoreanWestern 데이터 과대 대표부합사전학습 데이터 편향의 전형적 패턴
Man > Woman성별 bias부합기존 FER bias 문헌과 일치 (Rhue, 2018)
Valence 역전 (fear=8.97)Fear는 negative valence이상Base 모델이 valence 개념을 이해하지 못함
SD=0 (happy/fear)어느 정도 분산 기대이상모델이 차별화된 평정을 하지 못함

7.2 연구 제안서 가설과의 비교

가설예측PaliGemma2 결과지지 여부
H1: VLM κ = 0.4-0.6κ < 인간 ceilingκ = 0.522 → 범위 내지지
H2: Valence ICC > Arousal ICCValence가 더 일치미산출 (인간 데이터 필요)미검증
H3: Positive valence bias체계적 긍정 편향Valence 역전 패턴 → intensity bias부분 지지 (양방향 상향)
H4: Tuning이 bias 변화Base ≠ InstructBase만 테스트미검증
H5: Emotion→눈/입 attention과제별 attention 차이데이터 수집됨, 분석 미수행미검증

8. 핵심 발견 요약

8.1 긍정적 결과

  1. 파싱 성공률 100% — 3-call VQA 전략이 안정적으로 작동
  2. Happy/Fear 인식 우수 — 명확한 표정에 대한 높은 정확도 확인
  3. 인구통계 bias 정량화 성공 — 인종/성별별 체계적 차이 포착
  4. Attention + Logits 추출 성공 — 후속 메커니즘 분석 가능

8.2 주의가 필요한 결과

  1. Sad/Disgust 인식 실패 — F1 < 0.2, 사실상 인식 불가
  2. Neutral 흡수 현상 — 불확실한 정서를 neutral로 분류하는 보수적 편향
  3. Valence 개념 미이해 — 심리학적 valence(쾌-불쾌)가 아닌 intensity로 이해
  4. 차원 평정 분산 부재 — Happy/Fear에서 SD=0, 개별 이미지 차이를 반영하지 못함

8.3 후속 실험 시사점

  1. Instruction-tuned 모델(Qwen2.5-VL, InternVL3) 비교 시급 — base 모델의 한계가 tuning으로 해결되는지 확인
  2. Valence 프롬프트 개선 필요 — “pleasantness-unpleasantness” 명시적 정의 포함 검토
  3. Korean angry 인식률 개선 모니터링 — 모든 모델에서 동일 패턴인지 확인
  4. Per-task attention 분석 수행 — Angry-Neutral 혼동 이미지에서 attention 패턴 분석

9. 데이터 산출물 목록

산출물경로크기상태
PaliGemma2 예측 (1,440장)outputs/paligemma2_predictions.json467 KB완료
LLaVA 예측 (5장 샘플)outputs/llava_predictions.json1.4 KB파일럿
PaliGemma2 Attention NPZoutputs/paligemma2_attention_*.npz × 5~300 MB샘플 5장
LLaVA Attention NPZoutputs/llava_attention_*.npz × 5~1.3 GB샘플 5장
Logits NPZoutputs/*_logits_*.npz × 10~20 KB샘플 10장
Attention Heatmapoutputs/figures/*.png × 10~44 MB완료
Inference Summaryoutputs/inference_results.xlsx8 KB완료
W&B Dashboardwandb/run-20260222_190159-*-완료

Report generated: 2026-03-19
Model: PaliGemma2-3B (google/paligemma2-3b-mix-224)
Hardware: Apple M1 Max 32GB