Do Vision Language Models See Emotions Like Humans? A Psychometric Comparison of Human and VLM Emotion Ratings with Demographic Bias and Attention Analysis
연구 분야: Cognitive Psychology × Affective Computing 키워드: Vision Language Models, Emotion Recognition, Psychometric Agreement, Demographic Bias, Cross-modal Attention, Early Fusion, Instruction Tuning 작성일: 2026-03-19 비평 점수: 21/25 (라운드 3)
1. 연구 개요 (Executive Summary)
연구 개요
본 연구는 8개 Vision Language Model(VLM) — 5개 open-source (3B–12B) + 3개 frontier API — 을 “참가자”로 취급하여, AI 생성 얼굴 이미지(1,440장, 3인종 × 2성별 × 6정서)에 대한 VLM-인간 정서 평정(emotion category, valence, arousal)을 심리측정학적 프레임워크(ICC, Cohen’s κ, Bland-Altman, Krippendorff’s α)로 비교한다. 기존 accuracy/F1 기반 벤치마크와 달리, 인간 inter-rater reliability를 ceiling으로 설정하고 VLM 평정의 위치를 정량화한다. 나아가 3인종 × 2성별 완전 factorial 설계를 통해 체계적 demographic bias를 mixed-effects model로 분리하며, open-source 모델에서는 per-task cross-modal attention 분석으로 불일치 메커니즘을 규명한다.
연구 동기: VLM이 인간 수준의 정서 인식에 도달했는지에 대한 기존 평가는 accuracy/F1에 의존하여, 인간 평정자 간 불일치(inter-rater variability)를 고려하지 않는다. VLM을 “또 다른 참가자”로 취급하는 심리측정학적 비교가 필요하다. PaliGemma2-3B pilot 결과(κ=0.522, valence 역전)는 base VQA 모델의 근본적 한계를 확인하였으며, instruction-tuned + early-fusion 모델로의 전환 필요성을 실증하였다.
핵심 아이디어: 인간 N=1,000명의 평정 데이터를 baseline ceiling으로 설정하고, 8개 VLM을 2-tier로 구성한다. Tier 1(5개 open-source, 3B–12B): attention 추출 가능한 early/late-fusion 비교. Tier 2(3개 frontier API): ratings-only ceiling 비교. Fusion type × 규모 × reasoning × 접근성 4축 비교를 통해 confound를 분리한다.
예상 기여: (1) VLM-as-rater psychometric 비교 방법론, (2) open-source VLM 대상 최초 3인종 × 2성별 × 6정서 factorial bias 분석, (3) per-task attention 불일치 분석, (4) early-fusion vs late-fusion 정서 인식 비교, (5) pilot 기반 base→instruct 전환 근거 실증
주요 연구 질문: VLM의 정서 평정은 인간 inter-rater reliability와 어떤 관계에 있으며, 인종/성별/정서 조합에 따른 체계적 bias가 존재하는가? Fusion type과 instruction tuning은 이 관계에 어떤 영향을 미치는가?
2. 연구 배경 (Background)
2.1 문제 정의
Facial Expression Recognition(FER) 분야에서 VLM의 성능은 일반적으로 분류 정확도(accuracy, F1)로 평가된다. 그러나 이 접근은 두 가지 근본적 문제를 가진다:
인간 기준의 부재: 인간 평정자 간에도 상당한 불일치가 존재하며(특히 disgust, fear 등 혼동률 높은 정서), accuracy 100%는 비현실적 목표이다. 인간 inter-rater reliability가 ceiling으로 설정되지 않으면 VLM의 “실패”와 “인간 수준의 불일치”를 구분할 수 없다.
차원적 정서의 무시: Russell의 circumplex model에서 valence(쾌-불쾌)와 arousal(각성도)는 연속 변수이나, 기존 VLM 평가는 범주형 정서 분류에만 집중한다. 이는 정서 공간에서의 VLM 편향(예: 체계적 긍정 편향)을 포착하지 못한다.
Demographic bias: 상용 FER API(AWS Rekognition, Face++)에서 인종/성별별 성능 차이가 보고되었으나(Rhue, 2018), open-source VLM 대상 체계적 bias 분석은 부재하다.
모델 대표성 문제: 기존 연구에서는 AffectNet challenge 전용 모델(MobileViT, EfficientNet, PosterV2 등)과 같은 경량 FER 특화 모델을 사용하여 “AI의 정서 인식”을 논의하였다. 그러나 이러한 모델은 (a) FER 데이터셋에 과적합되어 범용 시각 이해 능력을 대표하지 못하며, (b) 파라미터 수가 수백만~수천만 수준으로 현대 foundation model의 능력을 반영하지 않고, (c) 단일 과제(분류)만 수행하여 인간처럼 범주+차원 통합 평정이 불가능하다. 본 연구는 이 한계를 극복하기 위해 3B–12B 규모의 VLM으로 전환하여, 범용 시각-언어 이해 능력을 갖춘 모델의 정서 인식을 평가한다.
2.2 핵심 개념
Circumplex model of affect (Russell, 1980): 정서를 valence × arousal 2차원 연속 공간에 매핑하는 차원적 정서 이론
Intraclass Correlation Coefficient (ICC): 동일 대상에 대한 다수 평정자의 일치도를 정량화하는 심리측정 지표. ICC(2,k)를 사용하여 평정자(인간/VLM)를 random factor로 취급
Bland-Altman analysis: 두 측정 방법 간 체계적 편향(bias)과 일치 한계(limits of agreement)를 시각화하는 방법
GradCAM (Selvaraju et al., 2017): CNN 마지막 convolutional layer의 gradient를 활용하여 클래스별 활성화 맵을 생성하는 해석 기법. FER 전용 CNN에서는 표준적으로 사용되나, VLM의 multi-step generation에는 직접 적용이 어렵다.
Cross-modal attention slicing: Decoder-only VLM에서 self-attention 행렬을 [generated_tokens, image_tokens]으로 슬라이싱하여 사실상의 cross-attention을 추출하는 기법. GradCAM의 VLM 대안으로서 gradient 계산 없이 정보 흐름을 추적하지만, “attention ≠ importance” 논쟁(Jain & Wallace, 2019; Wiegreffe & Pinter, 2019)이 존재한다.
Dark knowledge: softmax 분포의 top-k 확률 벡터를 통해 모델의 “불확실성”을 정량화하는 방법
Early fusion vs Late fusion: Vision encoder와 LLM의 결합 방식. Early fusion은 이미지 토큰을 LLM 입력 시퀀스에 직접 삽입하여 전 레이어에서 시각-언어 상호작용을 허용하고, late fusion은 별도 vision encoder 출력을 projection layer를 통해 LLM에 전달한다.
2.3 기존 접근법의 한계
기존 접근
한계
본 연구의 대안
Accuracy/F1 기반 VLM FER 평가
인간 ceiling 미고려, 연속 차원 무시
ICC/κ/Bland-Altman psychometric 비교
단일 모델 평가
크기-튜닝-아키텍처 confound 미분리
8모델 4축 비교 (fusion × 규모 × reasoning × 접근성)
상용 API bias 분석 (Rhue, 2018)
블랙박스, open-source VLM 미포함
Open-source VLM + attention 기반 해석 + frontier API 비교
FER 전용 경량 모델 (MobileViT, PosterV2 등)
과제 특화 과적합, 범용 시각 이해 미대표, 파라미터 규모 부족
3B–12B VLM 8개 (범용 vision-language 이해 능력)
GradCAM 기반 FER 해석
CNN 전용, 단일 분류 과제만 해석 가능; VLM의 multi-step generation 및 cross-modal 관계 미반영
Per-task cross-modal attention slicing + ViT self-attention 결합
중간 — 활발한 연구 중이나 “attention ≠ explanation” 논쟁 존재 (Jain & Wallace, 2019; Wiegreffe & Pinter, 2019)
구현 복잡도
낮음 — model.backward() + gradient 추출, 기존 라이브러리(pytorch-grad-cam) 활용
높음 — 모델별 image token 위치 식별, self-attention slicing, ViT hook 등록, 모델별 별도 구현 필요
과제별 분석
제한적 — 단일 forward pass에서 단일 클래스에 대한 맵
가능 — 3-step inference 각 단계(emotion/valence/arousal)에서 독립적 attention 추출
공간 해상도
높음 — CNN feature map 해상도 (7×7 ~ 14×14)
중간 — ViT patch grid (16×16 ~ 24×24), 모델별 상이
타당성 주의
gradient vanishing/exploding 가능성
attention 가중치가 실제 정보 활용을 반영하지 않을 수 있음
현재 구현 상태 및 이론적 타당성 평가
구현 상태: PaliGemma2 backend은 pilot 추론을 완료하였다. Gemma3, Qwen3.5, Qwen2.5-VL backend은 구현 예정이며, 각각에 대해 cross-modal attention 추출이 구현될 예정이다. Per-task attention은 AttentionData.per_task_attention 딕셔너리에 {"Emotion": ..., "Valence": ..., "Arousal": ...} 형태로 저장된다.
이론적 타당성 — 정직한 평가:
VLM의 cross-modal attention slicing은 GradCAM 대비 이론적 정립이 덜 완성된 상태이다:
Self-attention ≠ Cross-attention: Decoder-only VLM에는 명시적 cross-attention 레이어가 없다. Self-attention 행렬의 [gen_tokens, img_tokens] 슬라이스를 “사실상의 cross-attention”으로 해석하는 것은 합리적 근사이나, 정보 흐름의 간접적 추정에 불과하다.
“Attention is not explanation” 논쟁: Jain & Wallace (2019)는 attention 가중치가 모델 예측의 신뢰할 수 있는 설명이 되지 못함을 보였다. 반면 Wiegreffe & Pinter (2019)는 “attention is not not explanation”으로 반박하며, attention이 무의미하지는 않으나 유일한 해석 도구로 사용되어서는 안 된다고 주장하였다.
완화 전략 (본 연구): (a) 다중 집계 방법(mean/max/rollout) 비교, (b) ViT self-attention과 LLM cross-attention의 결합(element-wise product)을 통한 교차 검증, (c) per-task 상대 비교(절대적 해석이 아닌 과제 간 차이), (d) attention 분석 결과를 “탐색적 증거”로 위치시키고, 주요 결론은 ICC/κ/Bland-Altman에 기반.
결론: VLM attention 분석은 GradCAM 대비 구현 복잡도가 높고 이론적 정립이 덜 완성되어 있으나, (a) per-task 분석이 가능하고 (b) multi-step generation의 각 단계별 시각적 주의를 비교할 수 있다는 독자적 장점이 있다. 본 연구에서는 이를 보조적·탐색적 분석 도구로 활용하며, 해석의 한계를 명시적으로 기술한다.
3. 선행 연구 분석 (Prior Research)
3.1 핵심 선행 연구
#
논문
핵심 기여
본 연구와의 관계
1
Li et al. (2024). “GPT-4V(ision) as a Social Media Analysis Engine.” arXiv
GPT-4V의 감정 분석 성능 벤치마크, affective computing 응용
기반: VLM 정서 인식 가능성 확인. 확장: open-source VLM + 차원적 평가
2
Rhue (2018). “Racial Influence on Automated Perceptions of Emotions.” SSRN
모델 기반: Tier 1 core model (Qwen3.5-9B thinking, Qwen2.5-VL-7B late-fusion baseline)
3.2 연구 갭 분석
기존 연구들을 종합하면 다음 세 가지 갭이 존재한다:
측정학적 갭: VLM FER 연구는 accuracy/F1를 사용하며, 인간 inter-rater reliability를 baseline ceiling으로 설정한 psychometric 비교가 부재하다. ICC/Bland-Altman을 적용한 VLM-인간 정서 평정 비교는 보고되지 않았다.
Factorial bias 갭: Rhue(2018)이 상용 API의 인종 bias를 보고했으나, open-source VLM 대상 인종 × 성별 × 정서 완전 factorial bias 분석은 없다. Mixed-effects model을 통한 체계적 bias 분리도 미수행.
메커니즘 갭: VLM이 “왜” 인간과 다르게 평정하는지에 대한 메커니즘 분석이 부재하다. Per-task(emotion/valence/arousal별) attention 패턴 비교를 통한 불일치 원인 규명은 시도되지 않았다.
Fusion type 갭: Early-fusion과 late-fusion VLM의 정서 인식 차이를 체계적으로 비교한 연구가 없다. Early-fusion 모델(Gemma3, PaliGemma2)이 시각-언어 상호작용의 깊이에서 이점을 가지는지 실증적 검증이 필요하다.
3.3 본 연구의 차별점
VLM-as-participant 패러다임: VLM을 “테스트할 도구”가 아닌 “비교할 참가자”로 취급. accuracy 대신 ICC/κ를 사용하여 인간 baseline 대비 VLM의 위치를 정량화.
4축 모델 비교: Fusion type(early/late) × 규모(3B–12B) × Reasoning(thinking/non-thinking) × 접근성(open-source/proprietary) 4가지 축으로 confound 분리.
Per-task attention: 3-step inference의 각 단계(emotion/valence/arousal)에서 별도 cross-modal attention을 추출하여 과제별 시각적 주의 패턴 비교.
Pilot-driven design: PaliGemma2-3B pilot 결과에 기반한 가설 수정 및 모델 라인업 전환. Base VQA 모델의 한계를 실증적으로 확인한 후 설계를 업데이트.
VLM-인간 valence ICC > arousal ICC이다 (valence가 시각적으로 더 현저)
RQ1
ICC(2,k) 쌍대 비교
H3
VLM은 valence-as-intensity bias를 보이며, early-fusion 모델에서 이 편향이 완화된다 (pilot에서 PaliGemma2-3B의 fear valence=8.97 역전 확인; early-fusion + instruction tuning이 valence 개념 학습을 개선할 것으로 예측)
RQ2, RQ3
Bland-Altman bias + fusion type별 비교
H4
Instruction-tuned 모델은 base 모델과 다른 demographic bias 패턴을 보인다 (alignment이 bias를 변화시킴)
Frontier API 모델은 open-source 모델보다 높은 인간 일치도를 보이지만, demographic bias 패턴은 유사하다 (규모/데이터 이점은 일치도에 기여하나, bias는 학습 데이터의 구조적 문제에서 기인)
RQ5
ICC/κ 비교 + mixed-effects bias 패턴 상관
4.3 핵심 가정 (Assumptions)
#
가정
근거
위반 시 영향
A1
AI 생성 얼굴 이미지가 자연 얼굴과 유사한 정서적 반응을 유발한다
최근 연구에서 GAN/diffusion 생성 얼굴의 높은 지각적 현실성 확인; identity/expression 독립 통제 가능
위반 시 생태적 타당도 저하. 단, 자극 통제 이점으로 내적 타당도 강화
A2
1-9 Likert 척도를 등간척도로 처리할 수 있다
심리학 관행상 5점 이상 Likert를 등간으로 처리; ICC는 연속 변수 가정
위반 시 Krippendorff’s α(서열)와 Spearman ρ로 보완 분석 수행
A3
Greedy decoding 결과가 VLM의 “대표 평정”을 반영한다
Temperature=0에서 MAP 추정은 최빈값 응답; stochastic 조건에서 분포 확인 예정
위반 시 stochastic decoding 결과로 보완 (ablation study)
A4
Cross-modal attention slicing이 VLM의 실제 정보 활용을 반영한다
Jain & Wallace(2019) 비판을 고려하되, 다중 집계 + ViT 대조로 보완
위반 시 attention 분석은 “탐색적 증거”로 격하, 주요 결론에서 분리
5. 학술적 기여 (Academic Contribution)
5.1 기여 유형 및 수준
#
기여
유형
수준
설명
1
VLM-as-rater psychometric 비교 프레임워크
방법론적
상당한
기존 accuracy/F1 → ICC/κ/Bland-Altman 전환. VLM 평정을 인간 inter-rater reliability ceiling 대비 정량화하는 새로운 평가 패러다임 제시
2
3인종 × 2성별 × 6정서 완전 factorial bias 분석
실증적
상당한
Open-source VLM 대상 최초 factorial demographic bias 분석. Mixed-effects model로 emotion-specific bias 분리
3
Per-task cross-modal attention 불일치 분석
방법론적
증분적~상당한
3-step inference의 각 단계별 attention을 ROI와 연결하여 불일치 메커니즘 규명
4
3-step context carry prompting
방법론적
증분적
인간 평정의 순차적 anchoring을 재현하는 prompting 전략. Ablation으로 맥락 효과 정량화
5
Early-fusion vs Late-fusion 정서 인식 비교
실증적
상당한
Fusion type이 정서 평정 정확도와 bias에 미치는 영향을 최초로 체계적 비교
6
Pilot-driven 모델 선정 방법론
방법론적
증분적
Base VQA 모델의 한계를 pilot에서 실증하고 모델 라인업을 evidence-based로 전환하는 절차 제시
7
Open-source vs Frontier API 정서 인식 비교
실증적
증분적
접근성-성능 trade-off와 bias 패턴의 일관성 검증
5.2 기대 학술 영향
직접적 영향: (1) VLM FER 벤치마크 방법론 개선 — accuracy에서 psychometric agreement로 전환, (2) VLM의 demographic bias에 대한 실증적 근거 제공, (3) AI-generated 자극의 심리학 연구 활용 방법론, (4) Fusion type이 정서 인식에 미치는 영향에 대한 실증적 근거
간접적 영향: (1) RLHF/alignment이 정서 인식 bias에 미치는 영향에 대한 이론적 논의, (2) VLM attention 해석 방법론의 affective computing 적용 확대, (3) 인간-AI 비교 연구의 측정학적 기준 제시
예상 대상 학회/저널:
Tier 1: Affective Computing / 정서 컴퓨팅
Venue
Type
IF/Rank
프레이밍
마감
IEEE Trans. Affective Computing
Journal
IF ~13.9
전체 분석 풀버전 (psychometric + bias + attention)
Rolling
ACII 2025
Conf
Core A
인간-VLM 정서 비교 핵심 결과
~May 2025
FG 2025
Conf
Core A
얼굴 인식 + demographic bias 중심
TBD
Tier 2: AI/NLP 학회
Venue
Type
IF/Rank
프레이밍
마감
EMNLP 2025 (Findings)
Conf
Top NLP
VLM 평가 방법론, psychometric 프레임
~Jun 2025
ACL 2026
Conf
Top NLP
Attention + bias 분석 중심
~Jan 2026
AAAI 2026
Conf
Top AI
Bias + fairness + psychometric
~Aug 2025
IJCAI 2026
Conf
Top AI
학제간 AI + Psychology
~Jan 2026
Tier 3: 심리학 / 방법론 저널
Venue
Type
IF/Rank
프레이밍
마감
Computers in Human Behavior
Journal
IF ~8.9
Human-AI 비교, 사회적 함의 중심
Rolling
Cognition and Emotion
Journal
IF ~2.6
정서 인지 메커니즘, 인간 baseline 중심
Rolling
Behavior Research Methods
Journal
IF ~4.6
VLM-as-rater paradigm 방법론 기여
Rolling
Frontiers in Psychology
Journal
IF ~2.6
Open access, 접근성 높음
Rolling
투고 전략: IEEE TAC (풀버전 저널) 1차 투고 → reject 시 EMNLP Findings (축약) or AAAI (bias 강조)
5.3 한계 및 범위
자극 범위: AI 생성 얼굴 이미지 사용으로 in-the-wild 일반화에 한계. 단, identity-controlled 실험 자극으로서 내적 타당도 확보.
정서 범위: 6개 기본 정서(Ekman 6 중 surprise 제외). Surprise 제외 근거: AI 생성 자극에서의 surprise 표현 타당성 문제, 자극 세트 구성상 불포함.
VLM 범위: Open-source 모델 5개(3B–12B) + frontier API 3개. Frontier API 모델(GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Flash)은 attention 추출 불가로 Tier 2에 배치하여 ratings-only 비교에 활용. Attention 분석은 Tier 1(open-source)에서만 수행.
인과 추론 제한: VLM의 bias가 학습 데이터 vs. 아키텍처 vs. 튜닝 중 어디서 기인하는지 인과적 분리는 관찰 연구의 한계.
Attention 해석의 방법론적 한계: 기존 FER 전용 CNN에서는 GradCAM이 표준적 해석 도구로 사용되었으나(Selvaraju et al., 2017), VLM의 decoder-only 구조에서는 self-attention slicing이라는 덜 확립된 방법을 사용한다. Jain & Wallace(2019)와 Wiegreffe & Pinter(2019)의 논쟁을 고려하여, attention 분석은 “탐색적 증거”로 위치시키며 주요 결론은 ICC/κ/Bland-Altman에 기반한다. 다중 집계(mean/max/rollout) + ViT×LLM 결합 + per-task 상대 비교를 통해 해석의 robustness를 확인한다.
6. 실험 설계 (Experiment Design)
6.1 설계 개요
설계 유형: Mixed design (Within-stimuli: 모든 모델이 동일 1,440장 평가; Between-model: 8개 모델 간 비교)
주요 비교:
VLM 평정 vs. 인간 평정 (psychometric agreement)
8개 모델 간 비교 (4축: fusion type × 규모 × reasoning × 접근성)
인종 × 성별 × 정서 조합별 bias 패턴
Tier 1 (open-source) vs Tier 2 (frontier API) 성능 및 bias 비교
PaliGemma2-3B(base VQA)를 1,440장 전체에 대해 pilot 추론을 수행하여 base 모델의 한계를 실증적으로 확인하였다.
6.6.1 분류 성능
지표
값
해석
Overall accuracy
60.1%
Moderate — 인간 ceiling 대비 부족
Cohen’s κ
0.522
Moderate agreement
F1 Macro
0.543
정서별 불균형 심각
정서별 F1 성능:
정서
F1
해석
Happy
0.996
Near-perfect
Fear
0.979
Excellent
Angry
0.667
Moderate
Neutral
0.476
Poor — neutral 흡수 편향
Disgust
0.160
Very poor — angry로 혼동
Sad
0.022
Near-zero — neutral/fearful로 혼동
6.6.2 Valence/Arousal 평정
차원
관찰 결과
문제점
Valence
Fear=8.97, Angry=8.77 (1-9 scale)
Intensity로 해석 — valence 개념 미이해
Arousal
대부분 8-9 범위 고정
SD=0 — 분산 부재, template matching
6.6.3 Demographic Bias
Bias 유형
관찰 결과
인종별 accuracy
Caucasian (65.8%) > Black (59.2%) > Korean (55.4%)
성별 accuracy
Man (62.5%) > Woman (57.8%)
최저 성능 조합
Korean angry: 30% (전체 대비 40%p gap)
6.7 Instruction Following 분석 — Base VQA 한계
PaliGemma2-3B pilot 결과에서 확인된 base VQA 모델의 구조적 한계와 이에 따른 설계 전환 근거:
관찰
해석
설계 전환 근거
JSON 출력 불가
Base VQA 모델은 structured output을 생성하지 못함 → 3-call 우회 필요
Instruction-tuned 모델은 JSON/structured output 직접 생성 가능
Valence = Intensity 역전
”How positive/negative?” 질문을 “How intense?”로 해석
Instruction tuning이 valence 개념 학습을 개선 (H3 근거)
SD = 0 (분산 부재)
동일 정서 내 모든 이미지에 동일 값 → template matching
Instruction-tuned 모델은 이미지별 차별화된 평정 가능
Neutral 흡수 편향
불확실한 자극을 neutral로 분류하는 보수적 fallback
Thinking mode(Qwen3.5)가 불확실성 처리를 개선할 것으로 예측
Sad/Disgust 실패
Sad→neutral/fearful, Disgust→angry로 혼동
더 큰 모델(9B+)에서 미세 표정 차이 포착 개선 예측
결론: Base VQA 모델은 정서 평정 과제의 기본 요구사항(valence 개념 이해, 이미지별 차별화, 정서 범주 변별)을 충족하지 못한다. 이는 instruction-tuned + early-fusion 모델로의 전환을 실증적으로 정당화하며, pilot baseline으로서 후속 모델 비교의 하한선을 제공한다.
6.8 데이터 및 리소스
데이터
항목
상세
확보 방법
자극 이미지
1,440장 AI 생성 얼굴 (3인종 × 2성별 × 6정서 × 40명)
Stimuli-Final/ (이미 확보)
인간 평정 데이터
N=1,000 참가자, image_id × emotion/valence/arousal
data/human_ratings/ratings.csv (수집 예정/진행 중)
VLM 예측 (Tier 1)
5 모델 × 1,440 이미지 = 7,200 예측 + attention/logits
본 파이프라인으로 생성
VLM 예측 (Tier 2)
3 모델 × 1,440 이미지 = 4,320 예측 (ratings only)
API 호출로 생성
컴퓨팅 리소스
항목
사양/수량
근거
하드웨어
Apple M1 Max 32GB Unified Memory
Tier 1 모델 Q4_K_M 순차 실행 가능 (최대 단일 모델 ~8GB < 32GB)
Tier 1 추론 시간
~20시간 (5모델 × 3-4시간)
3-step × attention extraction, Q4_K_M
Tier 2 추론 시간
~9시간 (3모델, parallelizable)
API rate limit 고려
총 추론 시간
~29시간
Tier 1 sequential + Tier 2 parallel
Stochastic ablation
~8시간 추가 (200장 × 5반복 × 선별 모델)
Temperature=0.3, 서브셋
예상 비용 (Local)
$0 (전기료 제외)
로컬 하드웨어
예상 비용 (API)
~$50-100
GPT-4o + Claude + Gemini, 1,440장 × 3
6.9 Ablation Studies
Ablation
목적
설계
서브셋
Stochastic decoding
VLM 불확실성 정량화, 인간 분산과 비교
Temperature=0.3, 5회 반복
200장 (정서별 균등)
Context carry vs independent
3-step anchoring 효과 정량화
독립 prompt vs context carry
200장 동일 서브셋
Attention aggregation
집계 방법이 해석에 미치는 영향
mean vs max vs rollout
전체 1,440장 (Tier 1)
FP16 vs Q4_K_M
양자화가 정서 판단에 미치는 영향
동일 모델 FP16/Q4 비교
200장, 1개 모델
7. 실험 일정 (Schedule)
7.1 Gantt 차트
gantt
title 연구 일정
dateFormat YYYY-MM-DD
axisFormat %Y-%m
section 준비
환경 구축 및 모델 검증 :done, env, 2026-03-18, 2026-03-19
인간 평정 데이터 수집 :human, 2026-03-18, 42d
section Pilot
PaliGemma2 pilot 완료 :done, pilot, 2026-03-18, 2026-03-19
section Backend 구현
Gemma3 + Qwen3.5 backend :backend, 2026-03-20, 2026-04-01
Ollama 연동 + API wrapper :ollama, 2026-03-25, 2026-04-01
section VLM 추론
Tier 1 본 추론 (5모델) :crit, infer1, 2026-04-01, 2026-04-20
Tier 2 API 추론 (3모델) :infer2, 2026-04-20, 2026-04-25
Ablation 실험 :ablation, after infer2, 7d
section 분석
Agreement 분석 :agree, after infer1, 10d
Bias 분석 :bias, after agree, 7d
Attention 분석 :attn, after bias, 10d
Dark knowledge 분석 :dk, after infer1, 7d
section 논문 작성
초고 작성 :draft, after attn, 28d
내부 리뷰 및 수정 :revise, after draft, 14d
투고 준비 :submit, after revise, 7d
section 마일스톤
M0 PaliGemma2 pilot 완료 :milestone, m0, 2026-03-19, 0d
M1 Backend 구현 완료 :milestone, m1, 2026-04-01, 0d
M2 Tier 1 추론 완료 :milestone, m2, 2026-04-20, 0d
M3 Tier 2 추론 완료 :milestone, m3, 2026-04-25, 0d
M4 분석 완료 :milestone, m4, 2026-05-20, 0d
M5 투고 :milestone, m5, 2026-07-01, 0d
7.2 마일스톤
#
마일스톤
예상 날짜
성공 기준
M0
PaliGemma2 pilot 완료
2026-03-19 (DONE)
1,440장 전체 추론 완료, pilot 결과 분석 완료
M1
Backend 구현 완료
2026-04-01
Gemma3, Qwen3.5 backend 구현 + Ollama 연동 + API wrapper
M2
Tier 1 추론 완료
2026-04-20
5개 local 모델 × 1,440장 추론 완료, attention/logits 저장
M3
Tier 2 추론 완료
2026-04-25
3개 API 모델 × 1,440장 추론 완료
M4
분석 완료
2026-05-20
ICC/κ/Bland-Altman/Mixed-effects 전체 산출, 시각화 완료
M5
투고
2026-07-01
IEEE TAC 형식 논문 완성 및 제출
8. 예상 결과 및 분석 (Expected Results)
8.1 시나리오별 예상 결과
시나리오
조건
예상 결과
의미
후속 방향
Best Case
H1-H7 모두 지지
VLM κ=0.4-0.6, early-fusion > late-fusion, frontier > open-source but similar bias
Fusion type과 규모가 정서 인식에 영향, bias는 구조적
Bias mitigation prompting 연구, 대규모 모델 확장
Mixed Case
H1,H2,H6 지지, H3 기각
VLM이 positive bias가 아닌 emotion-specific bias를 보임
Bias가 단순 긍정 편향이 아닌 정서 범주 혼동 패턴
정서 혼동 행렬 심층 분석, confusion-aware prompting
Worst Case
H1 기각 (κ > 0.8)
VLM이 인간 수준 이상의 일치도를 보임
인간 inter-rater reliability ceiling 재검토 필요; AI 생성 자극이 과도하게 명확할 가능성
Q: “AI 생성 자극이 자연 얼굴 대비 과도하게 명확(prototypical)하지 않은가?” → A: limitation에 명시하되, identity-controlled 실험 자극으로서의 장점(동일 인물의 다양한 정서 표현, 인종/성별 균형)을 강점으로 reframing. Worst case 시나리오에서 이 가능성을 다룸.
Q: “6개 모델이 모두 비슷하면 의미가 있는가?” → A: 그 자체가 발견(“VLM consensus”). Base vs instruct 비교 축이 핵심 분석으로 남음.
라운드 2 → 3 주요 수정 사항
Pilot 결과 기반 업데이트:
모델 라인업 전환: PaliGemma2 pilot이 base VQA 한계를 실증 → instruction-tuned + early-fusion 중심으로 재구성. 6모델 3축 → 8모델(2-tier) 4축 비교.
Pilot 결과 섹션 신설 (Section 6.6-6.7): PaliGemma2-3B의 분류 성능(κ=0.522), valence 역전(fear=8.97), SD=0, demographic bias 패턴을 상세 보고.
일정 업데이트: Pilot 완료(M0) 반영, Backend 구현(M1), Tier별 추론(M2/M3) 분리.
11. 참고 문헌 (References)
핵심 참고 문헌
Russell, J. A. (1980). A circumplex model of affect. Journal of Personality and Social Psychology, 39(6), 1161–1178.
Rhue, L. (2018). Racial influence on automated perceptions of emotions. SSRN Electronic Journal.
Shrout, P. E., & Fleiss, J. L. (1979). Intraclass correlations: Uses in assessing rater reliability. Psychological Bulletin, 86(2), 420–428.
Bland, J. M., & Altman, D. G. (1986). Statistical methods for assessing agreement between two methods of clinical measurement. The Lancet, 327(8476), 307–310.
Jain, S., & Wallace, B. C. (2019). Attention is not explanation. Proceedings of NAACL-HLT, 3543–3556.
Li, C., et al. (2024). GPT-4V(ision) as a social media analysis engine. arXiv preprint.
Yang, K., et al. (2024). AffectGPT: Multimodal large language models for emotion understanding. arXiv preprint.
Mollahosseini, A., Hasani, B., & Mahoor, M. H. (2019). AffectNet: A database for facial expression, valence, and arousal computing in the wild. IEEE Transactions on Affective Computing, 10(1), 18–31.
Liu, H., et al. (2024). Improved baselines with visual instruction tuning (LLaVA-1.5). CVPR 2024.
Krippendorff, K. (2011). Computing Krippendorff’s alpha-reliability. Annenberg School for Communication Departmental Papers.
Selvaraju, R. R., et al. (2017). Grad-CAM: Visual explanations from deep networks via gradient-based localization. ICCV 2017, 618–626.
Wiegreffe, S., & Pinter, Y. (2019). Attention is not not explanation. Proceedings of EMNLP-IJCNLP, 11–20.
Google DeepMind (2025). Gemma 3 Technical Report. arXiv preprint.
Qwen Team (2025). Qwen2.5-VL: Scaling Vision-Language Models for General Multimodal Agent. arXiv preprint.
Qwen Team (2025). Qwen3.5 Technical Report. arXiv preprint.
방법론 참고 문헌
Koo, T. K., & Li, M. Y. (2016). A guideline of selecting and reporting intraclass correlation coefficients for reliability research. Journal of Chiropractic Medicine, 15(2), 155–163.
Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1), 37–46.
Bates, D., et al. (2015). Fitting linear mixed-effects models using lme4. Journal of Statistical Software, 67(1), 1–48.
Ekman, P. (1992). An argument for basic emotions. Cognition and Emotion, 6(3–4), 169–200.
Bradley, M. M., & Lang, P. J. (1994). Measuring emotion: The self-assessment manikin and the semantic differential. Journal of Behavior Therapy and Experimental Psychiatry, 25(1), 49–59.
Do Vision Language Models See Emotions Like Humans? A Psychometric Comparison of Human and VLM Emotion Ratings with Demographic Bias and Attention Analysis
연구자
GIST LCBL
작성일
2026-03-19
키워드
Vision Language Models, Emotion Recognition, Psychometric Agreement, Demographic Bias, Cross-modal Attention, Early Fusion, Instruction Tuning