Do Vision Language Models See Emotions Like Humans? A Psychometric Comparison of Human and VLM Emotion Ratings with Demographic Bias and Attention Analysis

연구 분야: Cognitive Psychology × Affective Computing
키워드: Vision Language Models, Emotion Recognition, Psychometric Agreement, Demographic Bias, Cross-modal Attention, Early Fusion, Instruction Tuning
작성일: 2026-03-19
비평 점수: 21/25 (라운드 3)

1. 연구 개요 (Executive Summary)

연구 개요

본 연구는 8개 Vision Language Model(VLM) — 5개 open-source (3B–12B) + 3개 frontier API — 을 “참가자”로 취급하여, AI 생성 얼굴 이미지(1,440장, 3인종 × 2성별 × 6정서)에 대한 VLM-인간 정서 평정(emotion category, valence, arousal)을 심리측정학적 프레임워크(ICC, Cohen’s κ, Bland-Altman, Krippendorff’s α)로 비교한다. 기존 accuracy/F1 기반 벤치마크와 달리, 인간 inter-rater reliability를 ceiling으로 설정하고 VLM 평정의 위치를 정량화한다. 나아가 3인종 × 2성별 완전 factorial 설계를 통해 체계적 demographic bias를 mixed-effects model로 분리하며, open-source 모델에서는 per-task cross-modal attention 분석으로 불일치 메커니즘을 규명한다.

연구 동기: VLM이 인간 수준의 정서 인식에 도달했는지에 대한 기존 평가는 accuracy/F1에 의존하여, 인간 평정자 간 불일치(inter-rater variability)를 고려하지 않는다. VLM을 “또 다른 참가자”로 취급하는 심리측정학적 비교가 필요하다. PaliGemma2-3B pilot 결과(κ=0.522, valence 역전)는 base VQA 모델의 근본적 한계를 확인하였으며, instruction-tuned + early-fusion 모델로의 전환 필요성을 실증하였다.
핵심 아이디어: 인간 N=1,000명의 평정 데이터를 baseline ceiling으로 설정하고, 8개 VLM을 2-tier로 구성한다. Tier 1(5개 open-source, 3B–12B): attention 추출 가능한 early/late-fusion 비교. Tier 2(3개 frontier API): ratings-only ceiling 비교. Fusion type × 규모 × reasoning × 접근성 4축 비교를 통해 confound를 분리한다.
예상 기여: (1) VLM-as-rater psychometric 비교 방법론, (2) open-source VLM 대상 최초 3인종 × 2성별 × 6정서 factorial bias 분석, (3) per-task attention 불일치 분석, (4) early-fusion vs late-fusion 정서 인식 비교, (5) pilot 기반 base→instruct 전환 근거 실증
주요 연구 질문: VLM의 정서 평정은 인간 inter-rater reliability와 어떤 관계에 있으며, 인종/성별/정서 조합에 따른 체계적 bias가 존재하는가? Fusion type과 instruction tuning은 이 관계에 어떤 영향을 미치는가?

2. 연구 배경 (Background)

2.1 문제 정의

Facial Expression Recognition(FER) 분야에서 VLM의 성능은 일반적으로 분류 정확도(accuracy, F1)로 평가된다. 그러나 이 접근은 두 가지 근본적 문제를 가진다:

인간 기준의 부재: 인간 평정자 간에도 상당한 불일치가 존재하며(특히 disgust, fear 등 혼동률 높은 정서), accuracy 100%는 비현실적 목표이다. 인간 inter-rater reliability가 ceiling으로 설정되지 않으면 VLM의 “실패”와 “인간 수준의 불일치”를 구분할 수 없다.
차원적 정서의 무시: Russell의 circumplex model에서 valence(쾌-불쾌)와 arousal(각성도)는 연속 변수이나, 기존 VLM 평가는 범주형 정서 분류에만 집중한다. 이는 정서 공간에서의 VLM 편향(예: 체계적 긍정 편향)을 포착하지 못한다.
Demographic bias: 상용 FER API(AWS Rekognition, Face++)에서 인종/성별별 성능 차이가 보고되었으나(Rhue, 2018), open-source VLM 대상 체계적 bias 분석은 부재하다.
모델 대표성 문제: 기존 연구에서는 AffectNet challenge 전용 모델(MobileViT, EfficientNet, PosterV2 등)과 같은 경량 FER 특화 모델을 사용하여 “AI의 정서 인식”을 논의하였다. 그러나 이러한 모델은 (a) FER 데이터셋에 과적합되어 범용 시각 이해 능력을 대표하지 못하며, (b) 파라미터 수가 수백만~수천만 수준으로 현대 foundation model의 능력을 반영하지 않고, (c) 단일 과제(분류)만 수행하여 인간처럼 범주+차원 통합 평정이 불가능하다. 본 연구는 이 한계를 극복하기 위해 3B–12B 규모의 VLM으로 전환하여, 범용 시각-언어 이해 능력을 갖춘 모델의 정서 인식을 평가한다.

2.2 핵심 개념

Circumplex model of affect (Russell, 1980): 정서를 valence × arousal 2차원 연속 공간에 매핑하는 차원적 정서 이론
Intraclass Correlation Coefficient (ICC): 동일 대상에 대한 다수 평정자의 일치도를 정량화하는 심리측정 지표. ICC(2,k)를 사용하여 평정자(인간/VLM)를 random factor로 취급
Bland-Altman analysis: 두 측정 방법 간 체계적 편향(bias)과 일치 한계(limits of agreement)를 시각화하는 방법
GradCAM (Selvaraju et al., 2017): CNN 마지막 convolutional layer의 gradient를 활용하여 클래스별 활성화 맵을 생성하는 해석 기법. FER 전용 CNN에서는 표준적으로 사용되나, VLM의 multi-step generation에는 직접 적용이 어렵다.
Cross-modal attention slicing: Decoder-only VLM에서 self-attention 행렬을 [generated_tokens, image_tokens]으로 슬라이싱하여 사실상의 cross-attention을 추출하는 기법. GradCAM의 VLM 대안으로서 gradient 계산 없이 정보 흐름을 추적하지만, “attention ≠ importance” 논쟁(Jain & Wallace, 2019; Wiegreffe & Pinter, 2019)이 존재한다.
Dark knowledge: softmax 분포의 top-k 확률 벡터를 통해 모델의 “불확실성”을 정량화하는 방법
Early fusion vs Late fusion: Vision encoder와 LLM의 결합 방식. Early fusion은 이미지 토큰을 LLM 입력 시퀀스에 직접 삽입하여 전 레이어에서 시각-언어 상호작용을 허용하고, late fusion은 별도 vision encoder 출력을 projection layer를 통해 LLM에 전달한다.

2.3 기존 접근법의 한계

기존 접근	한계	본 연구의 대안
Accuracy/F1 기반 VLM FER 평가	인간 ceiling 미고려, 연속 차원 무시	ICC/κ/Bland-Altman psychometric 비교
단일 모델 평가	크기-튜닝-아키텍처 confound 미분리	8모델 4축 비교 (fusion × 규모 × reasoning × 접근성)
상용 API bias 분석 (Rhue, 2018)	블랙박스, open-source VLM 미포함	Open-source VLM + attention 기반 해석 + frontier API 비교
FER 전용 경량 모델 (MobileViT, PosterV2 등)	과제 특화 과적합, 범용 시각 이해 미대표, 파라미터 규모 부족	3B–12B VLM 8개 (범용 vision-language 이해 능력)
GradCAM 기반 FER 해석	CNN 전용, 단일 분류 과제만 해석 가능; VLM의 multi-step generation 및 cross-modal 관계 미반영	Per-task cross-modal attention slicing + ViT self-attention 결합
독립적 정서 차원 평가	인간의 순차적 판단(anchoring) 무시	3-step context carry prompting
Open-source only 또는 API only	접근성-성능 trade-off 미비교	2-tier 설계: Tier 1 (open-source, attention 가능) + Tier 2 (frontier API, ceiling)

2.4 연구 설계 전환 근거: FER 전용 모델 → VLM

본 연구의 초기 설계에서는 AffectNet challenge 전용 모델(MobileViT, EfficientNet_v0, PosterV2 등)을 사용하여 AI의 정서 인식을 평가하였다. 그러나 이 접근은 다음과 같은 근본적 한계로 인해 VLM 기반 설계로 전환하였다:

기존 설계의 한계 (리뷰 피드백 반영)

한계	상세	VLM 전환으로 해결
모델 대표성 부족	MobileViT(~6M), EfficientNet(~5M), PosterV2(~44M) 등은 FER 데이터셋에 과적합된 경량 모델로, “AI의 정서 인식 능력”을 대표하기 어려움	3B–12B VLM은 대규모 multi-modal 사전학습을 통해 범용 시각-언어 이해 능력 보유
표본 다양성 부족	FER 전용 모델 2-3개로는 “AI” 일반화 불가	8개 VLM (2-tier, 4축 비교), confound 분리 가능
단일 과제 제한	FER 모델은 분류만 수행 → valence/arousal 차원 평정 불가	VLM은 자연어 프롬프트로 범주 + 차원 통합 평정 가능 (3-step context carry)
해석 도구 제한	GradCAM만 사용 가능 → 과제별 attention 비교 불가	Per-task cross-modal attention + ViT 결합 + 다중 집계

비교 축	GradCAM (CNN FER 모델)	Cross-modal Attention Slicing (VLM)
적용 대상	CNN (ResNet, EfficientNet 등)	Decoder-only VLM (Gemma3, Qwen2.5-VL 등)
측정 대상	특정 클래스에 대한 gradient 기반 활성화 맵	생성 토큰 → 이미지 토큰 방향의 attention 가중치
이론적 정립	높음 — Selvaraju et al. (2017) 이후 표준 도구, 수천 편 인용	중간 — 활발한 연구 중이나 “attention ≠ explanation” 논쟁 존재 (Jain & Wallace, 2019; Wiegreffe & Pinter, 2019)
구현 복잡도	낮음 — `model.backward()` + gradient 추출, 기존 라이브러리(pytorch-grad-cam) 활용	높음 — 모델별 image token 위치 식별, self-attention slicing, ViT hook 등록, 모델별 별도 구현 필요
과제별 분석	제한적 — 단일 forward pass에서 단일 클래스에 대한 맵	가능 — 3-step inference 각 단계(emotion/valence/arousal)에서 독립적 attention 추출
공간 해상도	높음 — CNN feature map 해상도 (7×7 ~ 14×14)	중간 — ViT patch grid (16×16 ~ 24×24), 모델별 상이
타당성 주의	gradient vanishing/exploding 가능성	attention 가중치가 실제 정보 활용을 반영하지 않을 수 있음

현재 구현 상태 및 이론적 타당성 평가

구현 상태: PaliGemma2 backend은 pilot 추론을 완료하였다. Gemma3, Qwen3.5, Qwen2.5-VL backend은 구현 예정이며, 각각에 대해 cross-modal attention 추출이 구현될 예정이다. Per-task attention은 AttentionData.per_task_attention 딕셔너리에 {"Emotion": ..., "Valence": ..., "Arousal": ...} 형태로 저장된다.

이론적 타당성 — 정직한 평가:

VLM의 cross-modal attention slicing은 GradCAM 대비 이론적 정립이 덜 완성된 상태이다:

Self-attention ≠ Cross-attention: Decoder-only VLM에는 명시적 cross-attention 레이어가 없다. Self-attention 행렬의 [gen_tokens, img_tokens] 슬라이스를 “사실상의 cross-attention”으로 해석하는 것은 합리적 근사이나, 정보 흐름의 간접적 추정에 불과하다.
“Attention is not explanation” 논쟁: Jain & Wallace (2019)는 attention 가중치가 모델 예측의 신뢰할 수 있는 설명이 되지 못함을 보였다. 반면 Wiegreffe & Pinter (2019)는 “attention is not not explanation”으로 반박하며, attention이 무의미하지는 않으나 유일한 해석 도구로 사용되어서는 안 된다고 주장하였다.
완화 전략 (본 연구): (a) 다중 집계 방법(mean/max/rollout) 비교, (b) ViT self-attention과 LLM cross-attention의 결합(element-wise product)을 통한 교차 검증, (c) per-task 상대 비교(절대적 해석이 아닌 과제 간 차이), (d) attention 분석 결과를 “탐색적 증거”로 위치시키고, 주요 결론은 ICC/κ/Bland-Altman에 기반.

결론: VLM attention 분석은 GradCAM 대비 구현 복잡도가 높고 이론적 정립이 덜 완성되어 있으나, (a) per-task 분석이 가능하고 (b) multi-step generation의 각 단계별 시각적 주의를 비교할 수 있다는 독자적 장점이 있다. 본 연구에서는 이를 보조적·탐색적 분석 도구로 활용하며, 해석의 한계를 명시적으로 기술한다.

3. 선행 연구 분석 (Prior Research)

3.1 핵심 선행 연구

#	논문	핵심 기여	본 연구와의 관계
1	Li et al. (2024). “GPT-4V(ision) as a Social Media Analysis Engine.” arXiv	GPT-4V의 감정 분석 성능 벤치마크, affective computing 응용	기반: VLM 정서 인식 가능성 확인. 확장: open-source VLM + 차원적 평가
2	Rhue (2018). “Racial Influence on Automated Perceptions of Emotions.” SSRN	AWS Rekognition, Face++의 인종별 정서 인식 편향 실증	기반: demographic bias 존재 확인. 확장: open-source VLM + 성별 + 혼합효과모형
3	Russell (1980). “A Circumplex Model of Affect.” J Pers Soc Psychol	Valence-arousal 2차원 정서 공간 이론적 토대	이론적 기반: 범주+차원 통합 평가 프레임
4	Shrout & Fleiss (1979). “Intraclass Correlations.” Psychol Bull	ICC 유형별(1/2/3, 단일/평균) 적용 가이드	방법론 기반: ICC(2,k)로 VLM-인간 일치도 정량화
5	Jain & Wallace (2019). “Attention is not Explanation.” NAACL	Attention 가중치의 해석 타당성에 대한 비판적 논의	대립/보완: attention 해석 한계를 인지하고 다중 집계 + ROI 검증으로 보완
6	Bland & Altman (1986). “Statistical Methods for Assessing Agreement.” Lancet	두 측정 방법 간 일치도 분석 gold standard	방법론 기반: VLM-인간 valence/arousal 편향 분석
7	Yang et al. (2024). “AffectGPT: Multimodal Emotion Understanding.” arXiv	VLM 기반 다모달 감정 이해 프레임워크	관련: VLM 정서 인식 최신 동향. 차이: 범주적 → 차원적 확장
8	Mollahosseini et al. (2019). “AffectNet: Facial Expressions in the Wild.” IEEE TAC	대규모 in-the-wild 얼굴 표정 데이터셋, valence-arousal 연속 annotated	관련: 자극 설계 참조. 차이: AI 생성 자극 사용
9	Krippendorff (2011). “Computing Krippendorff’s Alpha-Reliability.”	서열 척도에 적합한 신뢰도 지표, ICC 보완	방법론 보완: 1-9 서열 척도 측정에 적합
10	Liu et al. (2024). “LLaVA-1.5: Improved Baselines.” CVPR	LLaVA-1.5 아키텍처, visual instruction tuning 방법론	참고: visual instruction tuning 방법론 기반
11	Selvaraju et al. (2017). “Grad-CAM: Visual Explanations from Deep Networks.” ICCV	CNN 해석을 위한 gradient-based class activation mapping	대립: GradCAM은 CNN 전용으로 VLM에 직접 적용 불가. 본 연구의 cross-modal attention slicing이 VLM 대안
12	Wiegreffe & Pinter (2019). “Attention is not not Explanation.” EMNLP	Attention이 완전히 무의미하지는 않음을 실증	보완: attention 해석의 partial validity 근거. 다중 집계 + 상대 비교로 활용
13	Google DeepMind (2025). “Gemma 3 Technical Report.”	Gemma3 아키텍처: early-fusion VLM, SigLIP vision encoder, 1B–27B	모델 기반: Tier 1 early-fusion 모델 (4B, 12B)
14	Qwen Team (2025). “Qwen3.5 / Qwen2.5-VL Technical Report.”	Qwen3.5 (thinking mode), Qwen2.5-VL (dynamic resolution) 아키텍처	모델 기반: Tier 1 core model (Qwen3.5-9B thinking, Qwen2.5-VL-7B late-fusion baseline)

3.2 연구 갭 분석

기존 연구들을 종합하면 다음 세 가지 갭이 존재한다:

측정학적 갭: VLM FER 연구는 accuracy/F1를 사용하며, 인간 inter-rater reliability를 baseline ceiling으로 설정한 psychometric 비교가 부재하다. ICC/Bland-Altman을 적용한 VLM-인간 정서 평정 비교는 보고되지 않았다.
Factorial bias 갭: Rhue(2018)이 상용 API의 인종 bias를 보고했으나, open-source VLM 대상 인종 × 성별 × 정서 완전 factorial bias 분석은 없다. Mixed-effects model을 통한 체계적 bias 분리도 미수행.
메커니즘 갭: VLM이 “왜” 인간과 다르게 평정하는지에 대한 메커니즘 분석이 부재하다. Per-task(emotion/valence/arousal별) attention 패턴 비교를 통한 불일치 원인 규명은 시도되지 않았다.
Fusion type 갭: Early-fusion과 late-fusion VLM의 정서 인식 차이를 체계적으로 비교한 연구가 없다. Early-fusion 모델(Gemma3, PaliGemma2)이 시각-언어 상호작용의 깊이에서 이점을 가지는지 실증적 검증이 필요하다.

3.3 본 연구의 차별점

VLM-as-participant 패러다임: VLM을 “테스트할 도구”가 아닌 “비교할 참가자”로 취급. accuracy 대신 ICC/κ를 사용하여 인간 baseline 대비 VLM의 위치를 정량화.
4축 모델 비교: Fusion type(early/late) × 규모(3B–12B) × Reasoning(thinking/non-thinking) × 접근성(open-source/proprietary) 4가지 축으로 confound 분리.
Per-task attention: 3-step inference의 각 단계(emotion/valence/arousal)에서 별도 cross-modal attention을 추출하여 과제별 시각적 주의 패턴 비교.
Pilot-driven design: PaliGemma2-3B pilot 결과에 기반한 가설 수정 및 모델 라인업 전환. Base VQA 모델의 한계를 실증적으로 확인한 후 설계를 업데이트.
2-Tier 비교: Open-source(attention 추출 가능) + frontier API(ceiling 비교)의 상호 보완적 설계.

4. 연구 질문 및 가설 (Research Questions & Hypotheses)

4.1 연구 질문

RQ	질문	유형
RQ1	VLM의 정서 평정(emotion, valence, arousal)은 인간 inter-rater reliability와 어떤 관계에 있는가?	비교
RQ2	VLM의 정서 평정에 인종 × 성별 × 정서 조합에 따른 체계적 bias가 존재하는가?	확인적
RQ3	Fusion type, 모델 규모, reasoning mode가 VLM-인간 일치도와 bias 패턴에 어떤 영향을 미치는가?	탐색적
RQ4	VLM-인간 불일치가 큰 이미지에서 cross-modal attention 패턴은 어떤 특성을 보이는가?	탐색적
RQ5	Frontier API 모델은 open-source 모델 대비 인간 일치도에서 어떤 위치에 있으며, bias 패턴은 유사한가?	비교

4.2 가설

가설	내용	대응 RQ	검증 방법
H1	VLM-인간 emotion κ는 0.4–0.6 범위이며, 인간 inter-rater reliability(κ ≈ 0.6–0.8) 미만이다	RQ1	Cohen’s κ + bootstrap CI
H2	VLM-인간 valence ICC > arousal ICC이다 (valence가 시각적으로 더 현저)	RQ1	ICC(2,k) 쌍대 비교
H3	VLM은 valence-as-intensity bias를 보이며, early-fusion 모델에서 이 편향이 완화된다 (pilot에서 PaliGemma2-3B의 fear valence=8.97 역전 확인; early-fusion + instruction tuning이 valence 개념 학습을 개선할 것으로 예측)	RQ2, RQ3	Bland-Altman bias + fusion type별 비교
H4	Instruction-tuned 모델은 base 모델과 다른 demographic bias 패턴을 보인다 (alignment이 bias를 변화시킴)	RQ3	Mixed-effects model interaction term
H5	Emotion 단계에서는 눈/입 영역에 attention이 집중되고, Arousal 단계에서는 분산되는 패턴이 나타난다	RQ4	Per-task attention ROI 분석
H6	Early-fusion 모델(Gemma3, PaliGemma2)은 late-fusion 모델(Qwen2.5-VL)보다 높은 emotion κ를 보인다 (전 레이어 시각-언어 상호작용이 미세한 표정 차이 포착에 유리)	RQ3	Cohen’s κ 쌍대 비교 + bootstrap CI
H7	Frontier API 모델은 open-source 모델보다 높은 인간 일치도를 보이지만, demographic bias 패턴은 유사하다 (규모/데이터 이점은 일치도에 기여하나, bias는 학습 데이터의 구조적 문제에서 기인)	RQ5	ICC/κ 비교 + mixed-effects bias 패턴 상관

4.3 핵심 가정 (Assumptions)

#	가정	근거	위반 시 영향
A1	AI 생성 얼굴 이미지가 자연 얼굴과 유사한 정서적 반응을 유발한다	최근 연구에서 GAN/diffusion 생성 얼굴의 높은 지각적 현실성 확인; identity/expression 독립 통제 가능	위반 시 생태적 타당도 저하. 단, 자극 통제 이점으로 내적 타당도 강화
A2	1-9 Likert 척도를 등간척도로 처리할 수 있다	심리학 관행상 5점 이상 Likert를 등간으로 처리; ICC는 연속 변수 가정	위반 시 Krippendorff’s α(서열)와 Spearman ρ로 보완 분석 수행
A3	Greedy decoding 결과가 VLM의 “대표 평정”을 반영한다	Temperature=0에서 MAP 추정은 최빈값 응답; stochastic 조건에서 분포 확인 예정	위반 시 stochastic decoding 결과로 보완 (ablation study)
A4	Cross-modal attention slicing이 VLM의 실제 정보 활용을 반영한다	Jain & Wallace(2019) 비판을 고려하되, 다중 집계 + ViT 대조로 보완	위반 시 attention 분석은 “탐색적 증거”로 격하, 주요 결론에서 분리

5. 학술적 기여 (Academic Contribution)

5.1 기여 유형 및 수준

#	기여	유형	수준	설명
1	VLM-as-rater psychometric 비교 프레임워크	방법론적	상당한	기존 accuracy/F1 → ICC/κ/Bland-Altman 전환. VLM 평정을 인간 inter-rater reliability ceiling 대비 정량화하는 새로운 평가 패러다임 제시
2	3인종 × 2성별 × 6정서 완전 factorial bias 분석	실증적	상당한	Open-source VLM 대상 최초 factorial demographic bias 분석. Mixed-effects model로 emotion-specific bias 분리
3	Per-task cross-modal attention 불일치 분석	방법론적	증분적~상당한	3-step inference의 각 단계별 attention을 ROI와 연결하여 불일치 메커니즘 규명
4	3-step context carry prompting	방법론적	증분적	인간 평정의 순차적 anchoring을 재현하는 prompting 전략. Ablation으로 맥락 효과 정량화
5	Early-fusion vs Late-fusion 정서 인식 비교	실증적	상당한	Fusion type이 정서 평정 정확도와 bias에 미치는 영향을 최초로 체계적 비교
6	Pilot-driven 모델 선정 방법론	방법론적	증분적	Base VQA 모델의 한계를 pilot에서 실증하고 모델 라인업을 evidence-based로 전환하는 절차 제시
7	Open-source vs Frontier API 정서 인식 비교	실증적	증분적	접근성-성능 trade-off와 bias 패턴의 일관성 검증

5.2 기대 학술 영향

직접적 영향: (1) VLM FER 벤치마크 방법론 개선 — accuracy에서 psychometric agreement로 전환, (2) VLM의 demographic bias에 대한 실증적 근거 제공, (3) AI-generated 자극의 심리학 연구 활용 방법론, (4) Fusion type이 정서 인식에 미치는 영향에 대한 실증적 근거
간접적 영향: (1) RLHF/alignment이 정서 인식 bias에 미치는 영향에 대한 이론적 논의, (2) VLM attention 해석 방법론의 affective computing 적용 확대, (3) 인간-AI 비교 연구의 측정학적 기준 제시
예상 대상 학회/저널:

Tier 1: Affective Computing / 정서 컴퓨팅

Venue	Type	IF/Rank	프레이밍	마감
IEEE Trans. Affective Computing	Journal	IF ~13.9	전체 분석 풀버전 (psychometric + bias + attention)	Rolling
ACII 2025	Conf	Core A	인간-VLM 정서 비교 핵심 결과	~May 2025
FG 2025	Conf	Core A	얼굴 인식 + demographic bias 중심	TBD

Tier 2: AI/NLP 학회

Venue	Type	IF/Rank	프레이밍	마감
EMNLP 2025 (Findings)	Conf	Top NLP	VLM 평가 방법론, psychometric 프레임	~Jun 2025
ACL 2026	Conf	Top NLP	Attention + bias 분석 중심	~Jan 2026
AAAI 2026	Conf	Top AI	Bias + fairness + psychometric	~Aug 2025
IJCAI 2026	Conf	Top AI	학제간 AI + Psychology	~Jan 2026

Tier 3: 심리학 / 방법론 저널

Venue	Type	IF/Rank	프레이밍	마감
Computers in Human Behavior	Journal	IF ~8.9	Human-AI 비교, 사회적 함의 중심	Rolling
Cognition and Emotion	Journal	IF ~2.6	정서 인지 메커니즘, 인간 baseline 중심	Rolling
Behavior Research Methods	Journal	IF ~4.6	VLM-as-rater paradigm 방법론 기여	Rolling
Frontiers in Psychology	Journal	IF ~2.6	Open access, 접근성 높음	Rolling

투고 전략: IEEE TAC (풀버전 저널) 1차 투고 → reject 시 EMNLP Findings (축약) or AAAI (bias 강조)

5.3 한계 및 범위

자극 범위: AI 생성 얼굴 이미지 사용으로 in-the-wild 일반화에 한계. 단, identity-controlled 실험 자극으로서 내적 타당도 확보.
정서 범위: 6개 기본 정서(Ekman 6 중 surprise 제외). Surprise 제외 근거: AI 생성 자극에서의 surprise 표현 타당성 문제, 자극 세트 구성상 불포함.
VLM 범위: Open-source 모델 5개(3B–12B) + frontier API 3개. Frontier API 모델(GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Flash)은 attention 추출 불가로 Tier 2에 배치하여 ratings-only 비교에 활용. Attention 분석은 Tier 1(open-source)에서만 수행.
인과 추론 제한: VLM의 bias가 학습 데이터 vs. 아키텍처 vs. 튜닝 중 어디서 기인하는지 인과적 분리는 관찰 연구의 한계.
Attention 해석의 방법론적 한계: 기존 FER 전용 CNN에서는 GradCAM이 표준적 해석 도구로 사용되었으나(Selvaraju et al., 2017), VLM의 decoder-only 구조에서는 self-attention slicing이라는 덜 확립된 방법을 사용한다. Jain & Wallace(2019)와 Wiegreffe & Pinter(2019)의 논쟁을 고려하여, attention 분석은 “탐색적 증거”로 위치시키며 주요 결론은 ICC/κ/Bland-Altman에 기반한다. 다중 집계(mean/max/rollout) + ViT×LLM 결합 + per-task 상대 비교를 통해 해석의 robustness를 확인한다.

6. 실험 설계 (Experiment Design)

6.1 설계 개요

설계 유형: Mixed design (Within-stimuli: 모든 모델이 동일 1,440장 평가; Between-model: 8개 모델 간 비교)
주요 비교:
- VLM 평정 vs. 인간 평정 (psychometric agreement)
- 8개 모델 간 비교 (4축: fusion type × 규모 × reasoning × 접근성)
- 인종 × 성별 × 정서 조합별 bias 패턴
- Tier 1 (open-source) vs Tier 2 (frontier API) 성능 및 bias 비교

6.2 변수 통제표

독립 변수 (조작 변수)

변수명	설명	조작 수준	측정/조작 방법
모델 (Model)	VLM 종류	8 수준: Tier 1 (PaliGemma2-3B, Gemma3-4B, Qwen3.5-9B, Gemma3-12B, Qwen2.5-VL-7B) + Tier 2 (GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Flash)	`configs/default.yaml` 모델 설정 / API 호출
자극 인종 (Race)	얼굴 이미지의 인종	3 수준: Black, Caucasian, Korean	자극 파일 디렉토리 (BM/BW, CM/CW, KM/KW)
자극 성별 (Gender)	얼굴 이미지의 성별	2 수준: Male, Female	자극 파일 접두사 (M/W)
자극 정서 (Emotion)	표적 정서 범주	6 수준: angry, disgust, fear, happy, sad, neutral	파일명 정서 코드 (Ang, Dis, Fea, Hap, Sad, Neu/NES)

종속 변수 (결과 변수)

변수명	설명	측정 지표	측정 도구/방법
정서 범주 일치도	인간-VLM 정서 분류 일치	Cohen’s κ, Krippendorff’s α	`sklearn.metrics.cohen_kappa_score`
Valence 일치도	인간-VLM valence 평정 일치	ICC(2,k), Bland-Altman bias	`pingouin.intraclass_corr`
Arousal 일치도	인간-VLM arousal 평정 일치	ICC(2,k), Bland-Altman bias	`pingouin.intraclass_corr`
Demographic bias	인종/성별/정서별 VLM 편향	Mixed-effects model β coefficients	`statsmodels.mixedlm`
Attention 분포	Per-task attention의 공간적 패턴 (Tier 1 only)	ROI(눈/코/입) 주의 비율, 엔트로피	Cross-modal attention slicing + MediaPipe

통제 변수 (고정 변수)

변수명	고정값	고정 이유
Decoding 전략	Greedy (temperature=0)	재현성 보장. Stochastic은 ablation에서 별도 수행
이미지 해상도	모델별 native (224/336px)	각 모델의 vision encoder 최적 입력 크기 사용
Prompt 언어	영어	인간 평정과 동일 언어
Prompt 구조	3-step context carry (instruct) / 3-call VQA (base)	모델 유형에 맞는 최적 프롬프트 적용
정밀도	Q4_K_M 양자화 (Ollama) / API native	로컬: VRAM 효율 우선. API: 기본 정밀도
Attention 설정	`attn_implementation="eager"` (Tier 1)	MPS에서 SDPA 미지원, eager로 통일

외생 변수 (잠재적 혼동 변수)

변수명	잠재적 영향	완화 전략
모델 학습 데이터	VLM 학습 데이터에 포함된 얼굴 이미지의 인종/성별 분포가 bias에 영향	Mixed-effects model에서 rater_type × demographic interaction으로 분리; 한계로 명시
AI 생성 자극 품질	인종/정서 조합별 이미지 품질 차이	동일 생성 파이프라인 사용 (identity-controlled); 이미지 품질 메트릭 보고
3-step context carry	이전 단계 응답이 다음 단계에 anchoring 영향	Ablation: 독립 평정(context-free) 조건과 비교 (200장 서브셋)
인간 평정 품질	참가자 피로, 부주의 응답	인간 inter-rater reliability 사전 산출; 저신뢰 평정자 필터링
양자화 효과	Q4_K_M 양자화가 정서 판단 정확도에 미치는 영향	FP16 vs Q4_K_M ablation (200장 서브셋, 1개 모델)

6.3 모델 설계: 2-Tier 8모델 4축 비교

Tier 1: Local Open-Source (attention 추출 가능)

Model	Params	Fusion	Thinking	VRAM (Q4_K_M)	Role
PaliGemma2-3B	3B	Early (base VQA)	No	~6GB (FP16)	Pilot baseline (완료)
Gemma3-4B	4B	Early	No	~3GB	Small early-fusion
Qwen3.5-9B	9B	Early	Yes	~6GB	Core model + thinking
Gemma3-12B	12B	Early	No	~8GB	Large early-fusion
Qwen2.5-VL-7B	7B	Late	No	~5GB	Late-fusion baseline

Tier 2: Frontier API (ratings only, no attention)

Model	Provider	Role
GPT-4o	OpenAI	Frontier ceiling
Claude 3.5 Sonnet	Anthropic	Frontier comparison
Gemini 2.0 Flash	Google	Cost-efficient frontier

비교 가능한 분석축 (4축):

Fusion type 효과 (규모 통제): Gemma3-4B(early) vs Qwen2.5-VL-7B(late); PaliGemma2-3B(early-base) vs Qwen2.5-VL(late-instruct)
규모 효과 (early-fusion 내): PaliGemma2-3B → Gemma3-4B → Qwen3.5-9B → Gemma3-12B
Reasoning 효과: Qwen3.5-9B(thinking ON) vs Gemma3-12B(non-thinking, 유사 규모)
접근성 효과: Tier 1 best (open-source) vs Tier 2 (frontier API)

6.4 KV Cache 및 리소스 추정

Qwen3.5-9B on M1 Max 32GB (Q4_K_M)

항목	추정값	산출 근거
모델 가중치 (Q4_K_M)	~5-6GB	9B × 4.5 bits/param ÷ 8
잔여 KV cache 예산	~25GB	32GB - 6GB - 1GB (OS)
KV cache/token	~160KB	40 layers × 2(K,V) × 8 heads × 128 dim × 2 bytes
Image tokens	~256-576	모델별 상이
Image KV cache	~40-90MB	576 tokens × 160KB
Batch size	1 (sequential)	VRAM 안전 마진 확보

FP16 실행 시 (Qwen3.5-9B)

항목	추정값
모델 가중치 (FP16)	~18GB
잔여 KV cache 예산	~13GB
결론	실행 가능하나 여유 부족 → Q4_K_M 권장

추론 시간 추정

Tier	모델 수	예상 시간	비고
Tier 1 (Local)	5	~20시간	3-4시간/모델, sequential
Tier 2 (API)	3	~9시간	Parallelizable, rate limit 고려
총합	8	~29시간	기존 34시간 대비 유사

6.5 실험 파이프라인

flowchart TD
    subgraph prep["1. 실험 준비"]
        A1["자극 검증\n1,440 이미지 × 6 demographic 그룹"] --> A2["인간 평정 데이터 로드\nN=1,000 참가자"]
        A2 --> A3["인간 inter-rater reliability 산출\nICC, κ baseline ceiling"]
    end

    subgraph tier1["2a. Tier 1: Local Open-Source (순차 실행)"]
        B1["PaliGemma2-3B\n~6GB (DONE)"]
        B2["Gemma3-4B\n~3GB Q4"]
        B3["Qwen3.5-9B\n~6GB Q4\nthinking ON"]
        B4["Gemma3-12B\n~8GB Q4"]
        B5["Qwen2.5-VL-7B\n~5GB Q4"]
        B1 --> B2 --> B3 --> B4 --> B5
    end

    subgraph tier2["2b. Tier 2: Frontier API (병렬 가능)"]
        C1["GPT-4o\nOpenAI API"]
        C2["Claude 3.5 Sonnet\nAnthropic API"]
        C3["Gemini 2.0 Flash\nGoogle API"]
    end

    subgraph analysis["3. 통계 분석"]
        D1["Agreement: ICC, κ,\nBland-Altman, Krippendorff's α"]
        D2["Bias: Mixed-effects model\nRating ~ RaterType × Emotion × Demo"]
        D3["Attention: Per-task ROI\n+ entropy analysis\n(Tier 1 only)"]
        D4["Dark knowledge:\nLogits entropy → confidence\n(Tier 1 only)"]
        D5["Thinking trace 분석:\nQwen3.5 정성 분석"]
    end

    subgraph viz["4. 시각화 및 보고"]
        E1["Bland-Altman plots\nper model × dimension"]
        E2["Attention heatmap\ncomparison grids"]
        E3["Bias forest plots\nper demographic group"]
        E4["Tier 1 vs Tier 2\nperformance comparison"]
    end

    prep --> tier1
    prep --> tier2
    tier1 --> analysis
    tier2 --> analysis
    D1 & D2 & D3 & D4 & D5 --> viz

6.6 Pilot Study — PaliGemma2-3B Results

PaliGemma2-3B(base VQA)를 1,440장 전체에 대해 pilot 추론을 수행하여 base 모델의 한계를 실증적으로 확인하였다.

6.6.1 분류 성능

지표	값	해석
Overall accuracy	60.1%	Moderate — 인간 ceiling 대비 부족
Cohen’s κ	0.522	Moderate agreement
F1 Macro	0.543	정서별 불균형 심각

정서별 F1 성능:

정서	F1	해석
Happy	0.996	Near-perfect
Fear	0.979	Excellent
Angry	0.667	Moderate
Neutral	0.476	Poor — neutral 흡수 편향
Disgust	0.160	Very poor — angry로 혼동
Sad	0.022	Near-zero — neutral/fearful로 혼동

6.6.2 Valence/Arousal 평정

차원	관찰 결과	문제점
Valence	Fear=8.97, Angry=8.77 (1-9 scale)	Intensity로 해석 — valence 개념 미이해
Arousal	대부분 8-9 범위 고정	SD=0 — 분산 부재, template matching

6.6.3 Demographic Bias

Bias 유형	관찰 결과
인종별 accuracy	Caucasian (65.8%) > Black (59.2%) > Korean (55.4%)
성별 accuracy	Man (62.5%) > Woman (57.8%)
최저 성능 조합	Korean angry: 30% (전체 대비 40%p gap)

6.7 Instruction Following 분석 — Base VQA 한계

PaliGemma2-3B pilot 결과에서 확인된 base VQA 모델의 구조적 한계와 이에 따른 설계 전환 근거:

관찰	해석	설계 전환 근거
JSON 출력 불가	Base VQA 모델은 structured output을 생성하지 못함 → 3-call 우회 필요	Instruction-tuned 모델은 JSON/structured output 직접 생성 가능
Valence = Intensity 역전	”How positive/negative?” 질문을 “How intense?”로 해석	Instruction tuning이 valence 개념 학습을 개선 (H3 근거)
SD = 0 (분산 부재)	동일 정서 내 모든 이미지에 동일 값 → template matching	Instruction-tuned 모델은 이미지별 차별화된 평정 가능
Neutral 흡수 편향	불확실한 자극을 neutral로 분류하는 보수적 fallback	Thinking mode(Qwen3.5)가 불확실성 처리를 개선할 것으로 예측
Sad/Disgust 실패	Sad→neutral/fearful, Disgust→angry로 혼동	더 큰 모델(9B+)에서 미세 표정 차이 포착 개선 예측

결론: Base VQA 모델은 정서 평정 과제의 기본 요구사항(valence 개념 이해, 이미지별 차별화, 정서 범주 변별)을 충족하지 못한다. 이는 instruction-tuned + early-fusion 모델로의 전환을 실증적으로 정당화하며, pilot baseline으로서 후속 모델 비교의 하한선을 제공한다.

6.8 데이터 및 리소스

데이터

항목	상세	확보 방법
자극 이미지	1,440장 AI 생성 얼굴 (3인종 × 2성별 × 6정서 × 40명)	`Stimuli-Final/` (이미 확보)
인간 평정 데이터	N=1,000 참가자, image_id × emotion/valence/arousal	`data/human_ratings/ratings.csv` (수집 예정/진행 중)
VLM 예측 (Tier 1)	5 모델 × 1,440 이미지 = 7,200 예측 + attention/logits	본 파이프라인으로 생성
VLM 예측 (Tier 2)	3 모델 × 1,440 이미지 = 4,320 예측 (ratings only)	API 호출로 생성

컴퓨팅 리소스

항목	사양/수량	근거
하드웨어	Apple M1 Max 32GB Unified Memory	Tier 1 모델 Q4_K_M 순차 실행 가능 (최대 단일 모델 ~8GB < 32GB)
Tier 1 추론 시간	~20시간 (5모델 × 3-4시간)	3-step × attention extraction, Q4_K_M
Tier 2 추론 시간	~9시간 (3모델, parallelizable)	API rate limit 고려
총 추론 시간	~29시간	Tier 1 sequential + Tier 2 parallel
Stochastic ablation	~8시간 추가 (200장 × 5반복 × 선별 모델)	Temperature=0.3, 서브셋
예상 비용 (Local)	$0 (전기료 제외)	로컬 하드웨어
예상 비용 (API)	~$50-100	GPT-4o + Claude + Gemini, 1,440장 × 3

6.9 Ablation Studies

Ablation	목적	설계	서브셋
Stochastic decoding	VLM 불확실성 정량화, 인간 분산과 비교	Temperature=0.3, 5회 반복	200장 (정서별 균등)
Context carry vs independent	3-step anchoring 효과 정량화	독립 prompt vs context carry	200장 동일 서브셋
Attention aggregation	집계 방법이 해석에 미치는 영향	mean vs max vs rollout	전체 1,440장 (Tier 1)
FP16 vs Q4_K_M	양자화가 정서 판단에 미치는 영향	동일 모델 FP16/Q4 비교	200장, 1개 모델

7. 실험 일정 (Schedule)

7.1 Gantt 차트

gantt
    title 연구 일정
    dateFormat YYYY-MM-DD
    axisFormat %Y-%m

    section 준비
        환경 구축 및 모델 검증    :done, env, 2026-03-18, 2026-03-19
        인간 평정 데이터 수집      :human, 2026-03-18, 42d

    section Pilot
        PaliGemma2 pilot 완료    :done, pilot, 2026-03-18, 2026-03-19

    section Backend 구현
        Gemma3 + Qwen3.5 backend :backend, 2026-03-20, 2026-04-01
        Ollama 연동 + API wrapper :ollama, 2026-03-25, 2026-04-01

    section VLM 추론
        Tier 1 본 추론 (5모델)   :crit, infer1, 2026-04-01, 2026-04-20
        Tier 2 API 추론 (3모델)  :infer2, 2026-04-20, 2026-04-25
        Ablation 실험            :ablation, after infer2, 7d

    section 분석
        Agreement 분석            :agree, after infer1, 10d
        Bias 분석                 :bias, after agree, 7d
        Attention 분석            :attn, after bias, 10d
        Dark knowledge 분석       :dk, after infer1, 7d

    section 논문 작성
        초고 작성                 :draft, after attn, 28d
        내부 리뷰 및 수정         :revise, after draft, 14d
        투고 준비                 :submit, after revise, 7d

    section 마일스톤
        M0 PaliGemma2 pilot 완료  :milestone, m0, 2026-03-19, 0d
        M1 Backend 구현 완료      :milestone, m1, 2026-04-01, 0d
        M2 Tier 1 추론 완료       :milestone, m2, 2026-04-20, 0d
        M3 Tier 2 추론 완료       :milestone, m3, 2026-04-25, 0d
        M4 분석 완료              :milestone, m4, 2026-05-20, 0d
        M5 투고                   :milestone, m5, 2026-07-01, 0d

7.2 마일스톤

#	마일스톤	예상 날짜	성공 기준
M0	PaliGemma2 pilot 완료	2026-03-19 (DONE)	1,440장 전체 추론 완료, pilot 결과 분석 완료
M1	Backend 구현 완료	2026-04-01	Gemma3, Qwen3.5 backend 구현 + Ollama 연동 + API wrapper
M2	Tier 1 추론 완료	2026-04-20	5개 local 모델 × 1,440장 추론 완료, attention/logits 저장
M3	Tier 2 추론 완료	2026-04-25	3개 API 모델 × 1,440장 추론 완료
M4	분석 완료	2026-05-20	ICC/κ/Bland-Altman/Mixed-effects 전체 산출, 시각화 완료
M5	투고	2026-07-01	IEEE TAC 형식 논문 완성 및 제출

8. 예상 결과 및 분석 (Expected Results)

8.1 시나리오별 예상 결과

시나리오	조건	예상 결과	의미	후속 방향
Best Case	H1-H7 모두 지지	VLM κ=0.4-0.6, early-fusion > late-fusion, frontier > open-source but similar bias	Fusion type과 규모가 정서 인식에 영향, bias는 구조적	Bias mitigation prompting 연구, 대규모 모델 확장
Mixed Case	H1,H2,H6 지지, H3 기각	VLM이 positive bias가 아닌 emotion-specific bias를 보임	Bias가 단순 긍정 편향이 아닌 정서 범주 혼동 패턴	정서 혼동 행렬 심층 분석, confusion-aware prompting
Worst Case	H1 기각 (κ > 0.8)	VLM이 인간 수준 이상의 일치도를 보임	인간 inter-rater reliability ceiling 재검토 필요; AI 생성 자극이 과도하게 명확할 가능성	자연 얼굴 자극으로 재실험, 자극 난이도 분석
Null Case	모델 간 차이 없음	8개 모델의 κ/ICC가 유의하게 다르지 않음	Fusion/규모/reasoning 차이 미미; 과제 자체가 쉬움	더 넓은 크기 범위(0.5B-70B)로 확장, 난이도 높은 자극

8.2 분석 방법

주요 분석

분석	방법	도구	코드 위치
정서 일치도	Cohen’s κ + weighted κ + Krippendorff’s α	`sklearn`, `krippendorff`	`src/analysis/statistics.py`
Valence/Arousal 일치도	ICC(2,k) + 95% CI (bootstrap 1,000회)	`pingouin`	`src/analysis/statistics.py`
체계적 편향	Bland-Altman + 단측 t-test	`numpy`, `scipy`	`src/analysis/statistics.py`
Demographic bias	Mixed-effects: Rating ~ RaterType × Emotion × Race × Gender + (1\|Image)	`statsmodels`	`src/analysis/bias.py`
Attention ROI	MediaPipe 얼굴 랜드마크 → 눈/코/입 ROI → per-task attention 비율 (Tier 1)	`mediapipe`, `numpy`	`src/attention/mapper.py` (확장)
모델 확신도	Dark knowledge entropy: H = -Σ p log p (top-50 softmax) (Tier 1)	`numpy`	별도 분석 스크립트
Thinking trace	Qwen3.5 thinking output의 정성적 분석 — 정서 추론 과정 패턴	Manual coding	별도 분석 스크립트

보완 분석

Spearman ρ: 서열 척도 보완 (ICC의 등간 가정이 위반될 경우)
Bonferroni correction: 다중 비교 보정 (6정서 × 8모델 × 2차원 = 96 검정)
Effect size: Cohen’s d (paired), ηp² (mixed-effects)
Bootstrap CI: ICC, κ의 95% 신뢰구간 (1,000회 resampling)

9. 대비 계획 (Backup Plans)

9.1 위험 요소 및 대응

#	위험 요소	발생 확률	영향도	Plan B	전환 기준
R1	Gemma3-12B OOM on M1 Max (Q4_K_M ~8GB + KV cache)	낮음	중간	(a) Q4_K_S 양자화 시도 (b) Gemma3-4B로 대체하고 12B 제외	단일 이미지 추론 실패 시
R2	PaliGemma2-3B(base) 파싱 실패율 > 30%	—	—	Pilot에서 해결됨: 3-call VQA 전략으로 파싱 성공률 95%+ 달성	—
R3	인간 평정 데이터 수집 지연	중간	높음	(a) 공개 FER 데이터셋(AffectNet)의 valence/arousal 활용 (b) 소규모(N=100) 파일럿으로 방법론 논문 선 투고	M1 시점에서 N < 200
R4	모든 VLM이 유사한 bias 패턴 → 모델 간 차이 미미	낮음	중간	(a) 모델 간 일치도를 “VLM consensus”로 재프레이밍 (b) Tier 1 vs Tier 2 차이에 집중	8모델 ICC > 0.9 (모델 간)
R5	Attention 분석이 무의미 (Jain & Wallace 비판 재확인)	중간	낮음	Attention 분석을 supplementary로 이동, 주요 결론은 ICC/κ/bias에만 기반	Attention-정서 상관 ρ < 0.1
R6	API 비용 초과 ($100+)	낮음	낮음	(a) Gemini 2.0 Flash만으로 Tier 2 진행 (가장 저렴) (b) 서브셋(720장)으로 축소	비용 $100 초과 시
R7	Qwen3.5 thinking 모드 일관성 부족 — 동일 이미지에 대해 다른 추론 경로	중간	낮음	(a) Thinking trace를 정성 분석으로 활용 (정량 지표에서 제외) (b) Thinking OFF로 전환하여 일관성 확보	동일 이미지 반복 테스트에서 정서 범주 불일치 > 20%

9.2 Go/No-Go 기준

체크포인트	시점	Go 기준	No-Go 시 조치
CP0: Pilot	M0 (2026-03-19)	PaliGemma2 pilot 완료, 결과 분석 완료	완료
CP1: Backend	M1 (2026-04-01)	Gemma3, Qwen3.5, Qwen2.5-VL backend 동작 확인	미완성 backend는 제외하고 가용 모델로 진행
CP2: Tier 1 추론	M2 (2026-04-20)	최소 3/5 Tier 1 모델 전체 추론 완료	OOM 모델 제외하고 분석 진행
CP3: Tier 2 추론	M3 (2026-04-25)	최소 1/3 API 모델 완료	Tier 2 축소 또는 제외
CP4: 분석	M4 시점	ICC/κ 산출 가능, 유의미한 모델 간 차이 존재	차이 미미 시 “VLM consensus” 프레이밍으로 전환

10. 비평 및 개선 이력 (Review History)

비평 라운드 요약

라운드	총점	논리	신규성	방법론	영향력	실현성	판정
1	17/25	4/5	3/5	3/5	4/5	3/5	수정 필요
2	21/25	4/5	4/5	5/5	4/5	4/5	조건부 통과
3	21/25	—	—	—	—	—	Pilot 결과 반영 업데이트

라운드 1 → 2 주요 수정 사항

주요 비평 사항:

치명적: 2개 모델만으로 VLM 일반화 불가 → 수정: 6모델 3축(크기 × 튜닝 × 아키텍처) 비교 설계로 확대. Confound 분리를 위한 2×3 설계표 추가.
치명적: Greedy only = 불확실성 정량화 없음 → 수정: Stochastic decoding ablation 추가 (temperature=0.3, 5회 반복, 200장 서브셋). VLM 평정 분포와 인간 분산 비교.
중요: 1-9 서열 척도 → ICC 등간 가정 문제 → 수정: Krippendorff’s α(서열) + Spearman ρ 보완 분석 추가.
중요: Context carry = anchoring 전파 위험 → 수정: Context carry vs independent ablation 추가 (200장 서브셋).
보통: Attention 해석 타당성 의문 → 수정: Jain & Wallace(2019) 논의 명시, 다중 집계(mean/max/rollout) + ViT 대조, ROI 검증 추가. Attention은 “탐색적 증거”로 위치.
보통: Surprise 정서 누락 → 수정: 제외 근거 명시 (AI 생성 자극 타당성, 자극 세트 구성).

Reviewer 2 핵심 질문 및 대응:

Q: “AI 생성 자극이 자연 얼굴 대비 과도하게 명확(prototypical)하지 않은가?” → A: limitation에 명시하되, identity-controlled 실험 자극으로서의 장점(동일 인물의 다양한 정서 표현, 인종/성별 균형)을 강점으로 reframing. Worst case 시나리오에서 이 가능성을 다룸.
Q: “6개 모델이 모두 비슷하면 의미가 있는가?” → A: 그 자체가 발견(“VLM consensus”). Base vs instruct 비교 축이 핵심 분석으로 남음.

라운드 2 → 3 주요 수정 사항

Pilot 결과 기반 업데이트:

모델 라인업 전환: PaliGemma2 pilot이 base VQA 한계를 실증 → instruction-tuned + early-fusion 중심으로 재구성. 6모델 3축 → 8모델(2-tier) 4축 비교.
Pilot 결과 섹션 신설 (Section 6.6-6.7): PaliGemma2-3B의 분류 성능(κ=0.522), valence 역전(fear=8.97), SD=0, demographic bias 패턴을 상세 보고.
가설 수정: H3 “positive valence bias” → “valence-as-intensity bias, early-fusion에서 완화 예측”. H6(early>late fusion κ), H7(frontier>open-source, similar bias) 추가.
Frontier API 모델 추가: GPT-4o + Claude 3.5 Sonnet + Gemini 2.0 Flash (Tier 2). Attention 분석 제외, ratings-only ceiling 비교.
양자화 전략: FP16 → Q4_K_M(Ollama) 기본. VRAM 효율 우선. FP16 vs Q4 ablation 추가.
KV cache 리소스 추정 추가 (Section 6.4): M1 Max 32GB에서의 실행 가능성 상세 분석.
리스크 업데이트: R2(파싱) “pilot에서 해결됨”, R6(API 비용), R7(thinking 일관성) 추가.
일정 업데이트: Pilot 완료(M0) 반영, Backend 구현(M1), Tier별 추론(M2/M3) 분리.

11. 참고 문헌 (References)

핵심 참고 문헌

Russell, J. A. (1980). A circumplex model of affect. Journal of Personality and Social Psychology, 39(6), 1161–1178.
Rhue, L. (2018). Racial influence on automated perceptions of emotions. SSRN Electronic Journal.
Shrout, P. E., & Fleiss, J. L. (1979). Intraclass correlations: Uses in assessing rater reliability. Psychological Bulletin, 86(2), 420–428.
Bland, J. M., & Altman, D. G. (1986). Statistical methods for assessing agreement between two methods of clinical measurement. The Lancet, 327(8476), 307–310.
Jain, S., & Wallace, B. C. (2019). Attention is not explanation. Proceedings of NAACL-HLT, 3543–3556.
Li, C., et al. (2024). GPT-4V(ision) as a social media analysis engine. arXiv preprint.
Yang, K., et al. (2024). AffectGPT: Multimodal large language models for emotion understanding. arXiv preprint.
Mollahosseini, A., Hasani, B., & Mahoor, M. H. (2019). AffectNet: A database for facial expression, valence, and arousal computing in the wild. IEEE Transactions on Affective Computing, 10(1), 18–31.
Liu, H., et al. (2024). Improved baselines with visual instruction tuning (LLaVA-1.5). CVPR 2024.
Krippendorff, K. (2011). Computing Krippendorff’s alpha-reliability. Annenberg School for Communication Departmental Papers.
Selvaraju, R. R., et al. (2017). Grad-CAM: Visual explanations from deep networks via gradient-based localization. ICCV 2017, 618–626.
Wiegreffe, S., & Pinter, Y. (2019). Attention is not not explanation. Proceedings of EMNLP-IJCNLP, 11–20.
Google DeepMind (2025). Gemma 3 Technical Report. arXiv preprint.
Qwen Team (2025). Qwen2.5-VL: Scaling Vision-Language Models for General Multimodal Agent. arXiv preprint.
Qwen Team (2025). Qwen3.5 Technical Report. arXiv preprint.

방법론 참고 문헌

Koo, T. K., & Li, M. Y. (2016). A guideline of selecting and reporting intraclass correlation coefficients for reliability research. Journal of Chiropractic Medicine, 15(2), 155–163.
Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1), 37–46.
Bates, D., et al. (2015). Fitting linear mixed-effects models using lme4. Journal of Statistical Software, 67(1), 1–48.
Ekman, P. (1992). An argument for basic emotions. Cognition and Emotion, 6(3–4), 169–200.
Bradley, M. M., & Lang, P. J. (1994). Measuring emotion: The self-assessment manikin and the semantic differential. Journal of Behavior Therapy and Experimental Psychiatry, 25(1), 49–59.

research_proposal_emotion_vlm_20260319