PaliGemma2-3B 정서 인식 실험 결과 보고서
실험 일자: 2026-02-22
모델: PaliGemma2-3B (base VQA)
자극: 1,440 AI 생성 얼굴 이미지 (3인종 × 2성별 × 6정서)
Ground-truth: 파일명 emotion code (Ang, Dis, Fea, Hap, Sad, Neu/NES)
추론 시간: 2,659초 (~44분), 0.54 images/sec
파싱 성공률: 100% (1,440/1,440)
1. Executive Summary
PaliGemma2-3B는 1,440장의 AI 생성 얼굴 이미지에 대해 전체 정서 분류 정확도 60.1%, Cohen’s κ = 0.522, F1 Macro = 0.543을 기록했다. 정서별 성능 편차가 매우 크며, happy(F1=0.996)와 fear(F1=0.979)는 거의 완벽하게 인식하지만, sad(F1=0.022)와 disgust(F1=0.160)는 사실상 인식에 실패했다. 인종 간 accuracy gap은 7.9%p(Caucasian 63.5% vs Korean 55.6%), 성별 간 gap은 3.3%p(Man 61.8% vs Woman 58.5%)로 체계적 demographic bias가 관찰되었다. Valence/arousal 평정에서는 극단값 편향(happy/fear에 9점 고정)과 중립 수렴 경향(sad/neutral에 4-5점 고정)이 뚜렷했다.
2. Emotion Classification 결과
2.1 전체 성능 지표
| Metric | Value |
|---|---|
| Overall Accuracy | 60.14% |
| Cohen’s κ | 0.522 (moderate agreement) |
| F1 Macro | 0.543 |
2.2 정서별 Precision / Recall / F1
| Emotion | Precision | Recall | F1 | 평가 |
|---|---|---|---|---|
| happy | 0.992 | 1.000 | 0.996 | 완벽 인식 |
| fear | 1.000 | 0.958 | 0.979 | 거의 완벽 |
| angry | 0.650 | 0.550 | 0.596 | 보통 (neutral로 혼동) |
| neutral | 0.339 | 1.000 | 0.507 | Recall 과잉 — 다른 정서를 neutral로 흡수 |
| disgust | 0.955 | 0.088 | 0.160 | 사실상 실패 (대부분 neutral/angry로 분류) |
| sad | 0.083 | 0.013 | 0.022 | 완전 실패 (98.75%가 neutral로 분류) |
★ Insight ─────────────────────────────────────
PaliGemma2는 base VQA 모델로서 “안전한” 중립 응답으로 수렴하는 경향이 강하다. sad 240장 중 237장을 neutral로 분류했고, disgust도 124장을 neutral로 분류했다. 이는 base 모델의 보수적 응답 성향과 FER 학습 데이터 부재가 복합된 결과로 보인다.
─────────────────────────────────────────────────
2.3 Confusion Matrix
| Actual \ Predicted | happy | sad | angry | fear | disgust | neutral |
|---|---|---|---|---|---|---|
| happy | 240 | 0 | 0 | 0 | 0 | 0 |
| sad | 0 | 3 | 0 | 0 | 0 | 237 |
| angry | 0 | 1 | 132 | 0 | 1 | 106 |
| fear | 1 | 0 | 9 | 230 | 0 | 0 |
| disgust | 1 | 32 | 62 | 0 | 21 | 124 |
| neutral | 0 | 0 | 0 | 0 | 0 | 240 |
주요 혼동 패턴:
- sad → neutral (237/240 = 98.75%): 거의 전량 neutral로 분류
- disgust → neutral (124/240 = 51.7%): 절반 이상 neutral로 분류
- disgust → angry (62/240 = 25.8%): 부정 정서 간 혼동
- angry → neutral (106/240 = 44.2%): 절반 가까이 neutral로 분류
3. Valence / Arousal 평정 결과
3.1 정서별 Valence-Arousal 평정 (1-9 척도)
| Emotion | Valence Mean (SD) | Arousal Mean (SD) | 해석 |
|---|---|---|---|
| happy | 9.00 (0.00) | 9.00 (0.00) | 완전 고정 — 분산 0 |
| fear | 8.97 (0.52) | 9.00 (0.00) | 거의 고정 — arousal 분산 0 |
| angry | 6.52 (2.45) | 6.74 (1.91) | 중간 수준, 높은 분산 |
| disgust | 6.47 (2.45) | 6.43 (2.36) | angry와 유사, 높은 분산 |
| neutral | 4.01 (0.26) | 4.95 (0.30) | 중립점 수렴, 매우 낮은 분산 |
| sad | 4.07 (0.56) | 4.98 (0.65) | neutral과 거의 동일 |
★ Insight ─────────────────────────────────────
세 가지 비정상적 패턴이 관찰된다:
-
극단값 고정: happy/fear에 대해 valence=9, arousal=9로 완전 고정 (SD=0). 모델이 차별화된 차원 평정을 하지 못하고, 모든 positive/high-arousal 자극에 최댓값을 할당한다.
-
Valence 방향 역전: Fear의 valence가 8.97로 매우 높은데, 심리학적으로 fear는 negative valence (1-3점 범위 기대)이다. 이는 PaliGemma2가 valence 개념을 “강도(intensity)“로 해석하고 있을 가능성을 시사한다.
-
Sad-Neutral 미분리: Sad (val=4.07, aro=4.98)와 neutral (val=4.01, aro=4.95)의 차원 프로파일이 거의 동일하다. 분류에서도 sad를 neutral로 판정한 패턴과 일치한다.
─────────────────────────────────────────────────
3.2 Russell Circumplex 관점 예상 vs 실제 비교
| Emotion | 심리학 예상 Valence | PaliGemma2 Valence | 심리학 예상 Arousal | PaliGemma2 Arousal | 불일치 |
|---|---|---|---|---|---|
| happy | High (~7-8) | 9.00 | Mid-High (~6-7) | 9.00 | Arousal 과대 |
| fear | Low (~2-3) | 8.97 | High (~7-8) | 9.00 | Valence 완전 역전 |
| angry | Low (~2-3) | 6.52 | High (~7-8) | 6.74 | Valence 역전, Arousal 과소 |
| disgust | Low (~2-4) | 6.47 | Mid (~4-6) | 6.43 | Valence 역전 |
| sad | Low (~2-3) | 4.07 | Low (~2-4) | 4.98 | Arousal 과대 |
| neutral | Mid (~5) | 4.01 | Low (~3-4) | 4.95 | 거의 일치 |
핵심 문제: PaliGemma2는 valence를 emotional intensity(정서 강도)로 이해하는 것으로 보인다. 부정 정서(fear, angry, disgust)에 높은 valence를 부여하여, “불쾌하지만 강한” 정서를 “높은 valence”로 평정한다. 이는 base VQA 모델이 valence의 심리학적 정의(쾌-불쾌 축)를 학습하지 못했음을 의미한다.
4. Demographic Bias 분석
4.1 인종별 성능
| Race | N | Accuracy | F1 Macro | Cohen’s κ |
|---|---|---|---|---|
| Caucasian | 480 | 63.54% | 0.587 | 0.563 |
| Black | 480 | 61.25% | 0.536 | 0.535 |
| Korean | 480 | 55.63% | 0.494 | 0.468 |
Accuracy gap (Race): 7.92%p (Caucasian - Korean)
4.2 성별별 성능
| Gender | N | Accuracy | F1 Macro | Cohen’s κ |
|---|---|---|---|---|
| Man | 720 | 61.81% | 0.547 | 0.542 |
| Woman | 720 | 58.47% | 0.536 | 0.502 |
Accuracy gap (Gender): 3.33%p (Man - Woman)
4.3 인종 × 성별 교차 분석
| Group | N | Accuracy | F1 Macro | Cohen’s κ |
|---|---|---|---|---|
| Caucasian Man | 240 | 64.17% | 0.572 | 0.570 |
| Black Man | 240 | 63.75% | 0.548 | 0.565 |
| Caucasian Woman | 240 | 62.92% | 0.598 | 0.555 |
| Korean Man | 240 | 57.50% | 0.515 | 0.490 |
| Black Woman | 240 | 58.75% | 0.523 | 0.505 |
| Korean Woman | 240 | 53.75% | 0.469 | 0.445 |
최대 gap: 10.42%p (Caucasian Man 64.17% vs Korean Woman 53.75%)
★ Insight ─────────────────────────────────────
Caucasian > Black > Korean 순서의 accuracy 패턴은 PaliGemma2의 사전학습 데이터에서 Western/Caucasian 얼굴이 과대 대표된 결과일 가능성이 높다. 특히 Korean 자극에 대한 angry 인식률이 30%로 Black(70%)이나 Caucasian(65%)에 비해 극단적으로 낮다. 이는 아시아인 얼굴에서의 anger 표현이 모델에 덜 학습되었음을 시사한다.
─────────────────────────────────────────────────
4.4 정서 × 인종 Accuracy 교차표
| Emotion | Black | Caucasian | Korean | Range |
|---|---|---|---|---|
| happy | 100% | 100% | 100% | 0%p |
| neutral | 100% | 100% | 100% | 0%p |
| fear | 92.5% | 95.0% | 100% | 7.5%p |
| angry | 70.0% | 65.0% | 30.0% | 40.0%p |
| disgust | 5.0% | 18.75% | 2.5% | 16.25%p |
| sad | 0.0% | 2.5% | 1.25% | 2.5%p |
Angry × Korean 조합에서 가장 큰 인종 간 격차(40%p) 발생. Korean angry 이미지의 70%가 neutral로 분류됨.
4.5 정서 × 성별 Accuracy 교차표
| Emotion | Man | Woman | Gap |
|---|---|---|---|
| happy | 100% | 100% | 0%p |
| neutral | 100% | 100% | 0%p |
| fear | 98.3% | 93.3% | 5.0%p |
| angry | 67.5% | 42.5% | 25.0%p |
| disgust | 5.0% | 12.5% | 7.5%p |
| sad | 0.0% | 2.5% | 2.5%p |
Angry × Woman 조합에서 가장 큰 성별 간 격차(25%p) 발생. 여성의 anger 표현을 남성보다 잘 인식하지 못함.
4.6 인종별 Valence / Arousal 평정 비교
Valence Mean by Emotion × Race:
| Emotion | Black | Caucasian | Korean | Range |
|---|---|---|---|---|
| happy | 9.00 | 9.00 | 9.00 | 0 |
| fear | 8.90 | 9.00 | 9.00 | 0.10 |
| angry | 7.05 | 7.23 | 5.28 | 1.95 |
| disgust | 6.35 | 7.01 | 6.04 | 0.97 |
| neutral | 4.00 | 3.98 | 4.05 | 0.07 |
| sad | 4.00 | 4.13 | 4.09 | 0.13 |
Arousal Mean by Emotion × Race:
| Emotion | Black | Caucasian | Korean | Range |
|---|---|---|---|---|
| happy | 9.00 | 9.00 | 9.00 | 0 |
| fear | 9.00 | 9.00 | 9.00 | 0 |
| angry | 7.15 | 7.19 | 5.88 | 1.31 |
| disgust | 6.49 | 6.90 | 5.89 | 1.01 |
| neutral | 5.00 | 4.91 | 4.94 | 0.09 |
| sad | 5.00 | 5.08 | 4.85 | 0.23 |
Korean 자극에 대한 angry/disgust valence & arousal이 다른 인종보다 1-2점 낮다. 이는 분류 accuracy gap과 일관되며, Korean 자극에 대한 정서 강도를 체계적으로 과소평가하는 bias를 확인해준다.
5. LLaVA-1.5-7B 파일럿 결과 (5장 샘플)
LLaVA는 5장의 diverse sample에 대해서만 추론이 완료되었다.
| Image | GT Emotion | Predicted | Correct? | Valence | Arousal |
|---|---|---|---|---|---|
| BW11_Ang | angry | angry | O | 6 | 8 |
| BM34_Dis | disgust | disgust | O | 6 | 7 |
| BM09_Fea | fear | surprised | X | 8 | 8 |
| KW66_Hap | happy | happy | O | 8 | 8 |
| CW13_Neu | neutral | surprised | X | 7 | 6 |
파일럿 관찰 (N=5, 통계적 해석 불가):
- 3/5 정답 (angry, disgust, happy)
- Fear → surprised, Neutral → surprised 혼동 발생
- LLaVA는 PaliGemma2와 달리 “surprised” 카테고리를 사용함 (프롬프트에 없는 범주)
- Valence 범위 6-8로 PaliGemma2(4-9)보다 중간 범위에 분포
6. Attention 데이터 현황
6.1 추출 완료된 Attention 데이터
| Model | Images | NPZ 크기 (개당) | 총 크기 |
|---|---|---|---|
| PaliGemma2 | 5장 | ~60 MB | ~300 MB |
| LLaVA | 5장 | ~256 MB | ~1.3 GB |
- PaliGemma2: 256 image tokens (16×16 grid, SigLIP)
- LLaVA: 576 image tokens (24×24 grid, CLIP ViT-L/14)
- Per-task attention (Emotion/Valence/Arousal 각 단계)이 저장됨
- 시각화 heatmap PNG 10장 생성 완료 (
outputs/figures/)
6.2 Dark Knowledge (Logits) 데이터
- 10개 NPZ 파일 (PaliGemma2 5 + LLaVA 5)
- Top-50 softmax 분포 저장 (생성 단계별)
- 모델 확신도 분석용
7. 결과 해석 및 일반적 기대치 비교
7.1 이 결과는 예상 가능한가?
| 관측 | 일반적 기대 | 부합 여부 | 근거 |
|---|---|---|---|
| Overall Acc 60% | VLM FER에서 50-70% 범위 | 부합 | Base VQA 모델 + 6-class + 어려운 정서 포함 |
| κ = 0.52 | ”Moderate agreement” 범위 | 부합 | 제안서 H1 예측(κ=0.4-0.6)과 일치 |
| Happy/Fear 높은 F1 | 표정 명확성이 높은 정서 | 부합 | 얼굴 표정 연구에서 일관되게 보고 |
| Sad/Disgust 낮은 F1 | 혼동률 높은 정서 | 부합 | 인간도 disgust-anger, sad-neutral 혼동 빈번 |
| Neutral 흡수 경향 | Base 모델의 보수적 응답 | 부합 | Instruction-tuned 모델에서 개선 기대 |
| Caucasian > Korean | Western 데이터 과대 대표 | 부합 | 사전학습 데이터 편향의 전형적 패턴 |
| Man > Woman | 성별 bias | 부합 | 기존 FER bias 문헌과 일치 (Rhue, 2018) |
| Valence 역전 (fear=8.97) | Fear는 negative valence | 이상 | Base 모델이 valence 개념을 이해하지 못함 |
| SD=0 (happy/fear) | 어느 정도 분산 기대 | 이상 | 모델이 차별화된 평정을 하지 못함 |
7.2 연구 제안서 가설과의 비교
| 가설 | 예측 | PaliGemma2 결과 | 지지 여부 |
|---|---|---|---|
| H1: VLM κ = 0.4-0.6 | κ < 인간 ceiling | κ = 0.522 → 범위 내 | 지지 |
| H2: Valence ICC > Arousal ICC | Valence가 더 일치 | 미산출 (인간 데이터 필요) | 미검증 |
| H3: Positive valence bias | 체계적 긍정 편향 | Valence 역전 패턴 → intensity bias | 부분 지지 (양방향 상향) |
| H4: Tuning이 bias 변화 | Base ≠ Instruct | Base만 테스트 | 미검증 |
| H5: Emotion→눈/입 attention | 과제별 attention 차이 | 데이터 수집됨, 분석 미수행 | 미검증 |
8. 핵심 발견 요약
8.1 긍정적 결과
- 파싱 성공률 100% — 3-call VQA 전략이 안정적으로 작동
- Happy/Fear 인식 우수 — 명확한 표정에 대한 높은 정확도 확인
- 인구통계 bias 정량화 성공 — 인종/성별별 체계적 차이 포착
- Attention + Logits 추출 성공 — 후속 메커니즘 분석 가능
8.2 주의가 필요한 결과
- Sad/Disgust 인식 실패 — F1 < 0.2, 사실상 인식 불가
- Neutral 흡수 현상 — 불확실한 정서를 neutral로 분류하는 보수적 편향
- Valence 개념 미이해 — 심리학적 valence(쾌-불쾌)가 아닌 intensity로 이해
- 차원 평정 분산 부재 — Happy/Fear에서 SD=0, 개별 이미지 차이를 반영하지 못함
8.3 후속 실험 시사점
- Instruction-tuned 모델(Qwen2.5-VL, InternVL3) 비교 시급 — base 모델의 한계가 tuning으로 해결되는지 확인
- Valence 프롬프트 개선 필요 — “pleasantness-unpleasantness” 명시적 정의 포함 검토
- Korean angry 인식률 개선 모니터링 — 모든 모델에서 동일 패턴인지 확인
- Per-task attention 분석 수행 — Angry-Neutral 혼동 이미지에서 attention 패턴 분석
9. 데이터 산출물 목록
| 산출물 | 경로 | 크기 | 상태 |
|---|---|---|---|
| PaliGemma2 예측 (1,440장) | outputs/paligemma2_predictions.json | 467 KB | 완료 |
| LLaVA 예측 (5장 샘플) | outputs/llava_predictions.json | 1.4 KB | 파일럿 |
| PaliGemma2 Attention NPZ | outputs/paligemma2_attention_*.npz × 5 | ~300 MB | 샘플 5장 |
| LLaVA Attention NPZ | outputs/llava_attention_*.npz × 5 | ~1.3 GB | 샘플 5장 |
| Logits NPZ | outputs/*_logits_*.npz × 10 | ~20 KB | 샘플 10장 |
| Attention Heatmap | outputs/figures/*.png × 10 | ~44 MB | 완료 |
| Inference Summary | outputs/inference_results.xlsx | 8 KB | 완료 |
| W&B Dashboard | wandb/run-20260222_190159-* | - | 완료 |
Report generated: 2026-03-19
Model: PaliGemma2-3B (google/paligemma2-3b-mix-224)
Hardware: Apple M1 Max 32GB