Do Vision Language Models See Emotions Like Humans? A Psychometric Comparison of Human and VLM Emotion Ratings with Demographic Bias and Attention Analysis

연구 분야: Cognitive Psychology × Affective Computing
키워드: Vision Language Models, Emotion Recognition, Psychometric Agreement, Demographic Bias, Cross-modal Attention, Early Fusion, Instruction Tuning
작성일: 2026-03-19
비평 점수: 21/25 (라운드 3)


1. 연구 개요 (Executive Summary)

연구 개요

본 연구는 8개 Vision Language Model(VLM) — 5개 open-source (3B–12B) + 3개 frontier API — 을 “참가자”로 취급하여, AI 생성 얼굴 이미지(1,440장, 3인종 × 2성별 × 6정서)에 대한 VLM-인간 정서 평정(emotion category, valence, arousal)을 심리측정학적 프레임워크(ICC, Cohen’s κ, Bland-Altman, Krippendorff’s α)로 비교한다. 기존 accuracy/F1 기반 벤치마크와 달리, 인간 inter-rater reliability를 ceiling으로 설정하고 VLM 평정의 위치를 정량화한다. 나아가 3인종 × 2성별 완전 factorial 설계를 통해 체계적 demographic bias를 mixed-effects model로 분리하며, open-source 모델에서는 per-task cross-modal attention 분석으로 불일치 메커니즘을 규명한다.

  • 연구 동기: VLM이 인간 수준의 정서 인식에 도달했는지에 대한 기존 평가는 accuracy/F1에 의존하여, 인간 평정자 간 불일치(inter-rater variability)를 고려하지 않는다. VLM을 “또 다른 참가자”로 취급하는 심리측정학적 비교가 필요하다. PaliGemma2-3B pilot 결과(κ=0.522, valence 역전)는 base VQA 모델의 근본적 한계를 확인하였으며, instruction-tuned + early-fusion 모델로의 전환 필요성을 실증하였다.
  • 핵심 아이디어: 인간 N=1,000명의 평정 데이터를 baseline ceiling으로 설정하고, 8개 VLM을 2-tier로 구성한다. Tier 1(5개 open-source, 3B–12B): attention 추출 가능한 early/late-fusion 비교. Tier 2(3개 frontier API): ratings-only ceiling 비교. Fusion type × 규모 × reasoning × 접근성 4축 비교를 통해 confound를 분리한다.
  • 예상 기여: (1) VLM-as-rater psychometric 비교 방법론, (2) open-source VLM 대상 최초 3인종 × 2성별 × 6정서 factorial bias 분석, (3) per-task attention 불일치 분석, (4) early-fusion vs late-fusion 정서 인식 비교, (5) pilot 기반 base→instruct 전환 근거 실증
  • 주요 연구 질문: VLM의 정서 평정은 인간 inter-rater reliability와 어떤 관계에 있으며, 인종/성별/정서 조합에 따른 체계적 bias가 존재하는가? Fusion type과 instruction tuning은 이 관계에 어떤 영향을 미치는가?

2. 연구 배경 (Background)

2.1 문제 정의

Facial Expression Recognition(FER) 분야에서 VLM의 성능은 일반적으로 분류 정확도(accuracy, F1)로 평가된다. 그러나 이 접근은 두 가지 근본적 문제를 가진다:

  1. 인간 기준의 부재: 인간 평정자 간에도 상당한 불일치가 존재하며(특히 disgust, fear 등 혼동률 높은 정서), accuracy 100%는 비현실적 목표이다. 인간 inter-rater reliability가 ceiling으로 설정되지 않으면 VLM의 “실패”와 “인간 수준의 불일치”를 구분할 수 없다.

  2. 차원적 정서의 무시: Russell의 circumplex model에서 valence(쾌-불쾌)와 arousal(각성도)는 연속 변수이나, 기존 VLM 평가는 범주형 정서 분류에만 집중한다. 이는 정서 공간에서의 VLM 편향(예: 체계적 긍정 편향)을 포착하지 못한다.

  3. Demographic bias: 상용 FER API(AWS Rekognition, Face++)에서 인종/성별별 성능 차이가 보고되었으나(Rhue, 2018), open-source VLM 대상 체계적 bias 분석은 부재하다.

  4. 모델 대표성 문제: 기존 연구에서는 AffectNet challenge 전용 모델(MobileViT, EfficientNet, PosterV2 등)과 같은 경량 FER 특화 모델을 사용하여 “AI의 정서 인식”을 논의하였다. 그러나 이러한 모델은 (a) FER 데이터셋에 과적합되어 범용 시각 이해 능력을 대표하지 못하며, (b) 파라미터 수가 수백만~수천만 수준으로 현대 foundation model의 능력을 반영하지 않고, (c) 단일 과제(분류)만 수행하여 인간처럼 범주+차원 통합 평정이 불가능하다. 본 연구는 이 한계를 극복하기 위해 3B–12B 규모의 VLM으로 전환하여, 범용 시각-언어 이해 능력을 갖춘 모델의 정서 인식을 평가한다.

2.2 핵심 개념

  • Circumplex model of affect (Russell, 1980): 정서를 valence × arousal 2차원 연속 공간에 매핑하는 차원적 정서 이론
  • Intraclass Correlation Coefficient (ICC): 동일 대상에 대한 다수 평정자의 일치도를 정량화하는 심리측정 지표. ICC(2,k)를 사용하여 평정자(인간/VLM)를 random factor로 취급
  • Bland-Altman analysis: 두 측정 방법 간 체계적 편향(bias)과 일치 한계(limits of agreement)를 시각화하는 방법
  • GradCAM (Selvaraju et al., 2017): CNN 마지막 convolutional layer의 gradient를 활용하여 클래스별 활성화 맵을 생성하는 해석 기법. FER 전용 CNN에서는 표준적으로 사용되나, VLM의 multi-step generation에는 직접 적용이 어렵다.
  • Cross-modal attention slicing: Decoder-only VLM에서 self-attention 행렬을 [generated_tokens, image_tokens]으로 슬라이싱하여 사실상의 cross-attention을 추출하는 기법. GradCAM의 VLM 대안으로서 gradient 계산 없이 정보 흐름을 추적하지만, “attention ≠ importance” 논쟁(Jain & Wallace, 2019; Wiegreffe & Pinter, 2019)이 존재한다.
  • Dark knowledge: softmax 분포의 top-k 확률 벡터를 통해 모델의 “불확실성”을 정량화하는 방법
  • Early fusion vs Late fusion: Vision encoder와 LLM의 결합 방식. Early fusion은 이미지 토큰을 LLM 입력 시퀀스에 직접 삽입하여 전 레이어에서 시각-언어 상호작용을 허용하고, late fusion은 별도 vision encoder 출력을 projection layer를 통해 LLM에 전달한다.

2.3 기존 접근법의 한계

기존 접근한계본 연구의 대안
Accuracy/F1 기반 VLM FER 평가인간 ceiling 미고려, 연속 차원 무시ICC/κ/Bland-Altman psychometric 비교
단일 모델 평가크기-튜닝-아키텍처 confound 미분리8모델 4축 비교 (fusion × 규모 × reasoning × 접근성)
상용 API bias 분석 (Rhue, 2018)블랙박스, open-source VLM 미포함Open-source VLM + attention 기반 해석 + frontier API 비교
FER 전용 경량 모델 (MobileViT, PosterV2 등)과제 특화 과적합, 범용 시각 이해 미대표, 파라미터 규모 부족3B–12B VLM 8개 (범용 vision-language 이해 능력)
GradCAM 기반 FER 해석CNN 전용, 단일 분류 과제만 해석 가능; VLM의 multi-step generation 및 cross-modal 관계 미반영Per-task cross-modal attention slicing + ViT self-attention 결합
독립적 정서 차원 평가인간의 순차적 판단(anchoring) 무시3-step context carry prompting
Open-source only 또는 API only접근성-성능 trade-off 미비교2-tier 설계: Tier 1 (open-source, attention 가능) + Tier 2 (frontier API, ceiling)

2.4 연구 설계 전환 근거: FER 전용 모델 → VLM

본 연구의 초기 설계에서는 AffectNet challenge 전용 모델(MobileViT, EfficientNet_v0, PosterV2 등)을 사용하여 AI의 정서 인식을 평가하였다. 그러나 이 접근은 다음과 같은 근본적 한계로 인해 VLM 기반 설계로 전환하였다:

기존 설계의 한계 (리뷰 피드백 반영)

한계상세VLM 전환으로 해결
모델 대표성 부족MobileViT(~6M), EfficientNet(~5M), PosterV2(~44M) 등은 FER 데이터셋에 과적합된 경량 모델로, “AI의 정서 인식 능력”을 대표하기 어려움3B–12B VLM은 대규모 multi-modal 사전학습을 통해 범용 시각-언어 이해 능력 보유
표본 다양성 부족FER 전용 모델 2-3개로는 “AI” 일반화 불가8개 VLM (2-tier, 4축 비교), confound 분리 가능
단일 과제 제한FER 모델은 분류만 수행 → valence/arousal 차원 평정 불가VLM은 자연어 프롬프트로 범주 + 차원 통합 평정 가능 (3-step context carry)
해석 도구 제한GradCAM만 사용 가능 → 과제별 attention 비교 불가Per-task cross-modal attention + ViT 결합 + 다중 집계

Attention 분석의 전환: GradCAM → Cross-modal Attention Slicing

비교 축GradCAM (CNN FER 모델)Cross-modal Attention Slicing (VLM)
적용 대상CNN (ResNet, EfficientNet 등)Decoder-only VLM (Gemma3, Qwen2.5-VL 등)
측정 대상특정 클래스에 대한 gradient 기반 활성화 맵생성 토큰 → 이미지 토큰 방향의 attention 가중치
이론적 정립높음 — Selvaraju et al. (2017) 이후 표준 도구, 수천 편 인용중간 — 활발한 연구 중이나 “attention ≠ explanation” 논쟁 존재 (Jain & Wallace, 2019; Wiegreffe & Pinter, 2019)
구현 복잡도낮음 — model.backward() + gradient 추출, 기존 라이브러리(pytorch-grad-cam) 활용높음 — 모델별 image token 위치 식별, self-attention slicing, ViT hook 등록, 모델별 별도 구현 필요
과제별 분석제한적 — 단일 forward pass에서 단일 클래스에 대한 맵가능 — 3-step inference 각 단계(emotion/valence/arousal)에서 독립적 attention 추출
공간 해상도높음 — CNN feature map 해상도 (7×7 ~ 14×14)중간 — ViT patch grid (16×16 ~ 24×24), 모델별 상이
타당성 주의gradient vanishing/exploding 가능성attention 가중치가 실제 정보 활용을 반영하지 않을 수 있음

현재 구현 상태 및 이론적 타당성 평가

구현 상태: PaliGemma2 backend은 pilot 추론을 완료하였다. Gemma3, Qwen3.5, Qwen2.5-VL backend은 구현 예정이며, 각각에 대해 cross-modal attention 추출이 구현될 예정이다. Per-task attention은 AttentionData.per_task_attention 딕셔너리에 {"Emotion": ..., "Valence": ..., "Arousal": ...} 형태로 저장된다.

이론적 타당성 — 정직한 평가:

VLM의 cross-modal attention slicing은 GradCAM 대비 이론적 정립이 덜 완성된 상태이다:

  1. Self-attention ≠ Cross-attention: Decoder-only VLM에는 명시적 cross-attention 레이어가 없다. Self-attention 행렬의 [gen_tokens, img_tokens] 슬라이스를 “사실상의 cross-attention”으로 해석하는 것은 합리적 근사이나, 정보 흐름의 간접적 추정에 불과하다.

  2. “Attention is not explanation” 논쟁: Jain & Wallace (2019)는 attention 가중치가 모델 예측의 신뢰할 수 있는 설명이 되지 못함을 보였다. 반면 Wiegreffe & Pinter (2019)는 “attention is not not explanation”으로 반박하며, attention이 무의미하지는 않으나 유일한 해석 도구로 사용되어서는 안 된다고 주장하였다.

  3. 완화 전략 (본 연구): (a) 다중 집계 방법(mean/max/rollout) 비교, (b) ViT self-attention과 LLM cross-attention의 결합(element-wise product)을 통한 교차 검증, (c) per-task 상대 비교(절대적 해석이 아닌 과제 간 차이), (d) attention 분석 결과를 “탐색적 증거”로 위치시키고, 주요 결론은 ICC/κ/Bland-Altman에 기반.

결론: VLM attention 분석은 GradCAM 대비 구현 복잡도가 높고 이론적 정립이 덜 완성되어 있으나, (a) per-task 분석이 가능하고 (b) multi-step generation의 각 단계별 시각적 주의를 비교할 수 있다는 독자적 장점이 있다. 본 연구에서는 이를 보조적·탐색적 분석 도구로 활용하며, 해석의 한계를 명시적으로 기술한다.


3. 선행 연구 분석 (Prior Research)

3.1 핵심 선행 연구

#논문핵심 기여본 연구와의 관계
1Li et al. (2024). “GPT-4V(ision) as a Social Media Analysis Engine.” arXivGPT-4V의 감정 분석 성능 벤치마크, affective computing 응용기반: VLM 정서 인식 가능성 확인. 확장: open-source VLM + 차원적 평가
2Rhue (2018). “Racial Influence on Automated Perceptions of Emotions.” SSRNAWS Rekognition, Face++의 인종별 정서 인식 편향 실증기반: demographic bias 존재 확인. 확장: open-source VLM + 성별 + 혼합효과모형
3Russell (1980). “A Circumplex Model of Affect.” J Pers Soc PsycholValence-arousal 2차원 정서 공간 이론적 토대이론적 기반: 범주+차원 통합 평가 프레임
4Shrout & Fleiss (1979). “Intraclass Correlations.” Psychol BullICC 유형별(1/2/3, 단일/평균) 적용 가이드방법론 기반: ICC(2,k)로 VLM-인간 일치도 정량화
5Jain & Wallace (2019). “Attention is not Explanation.” NAACLAttention 가중치의 해석 타당성에 대한 비판적 논의대립/보완: attention 해석 한계를 인지하고 다중 집계 + ROI 검증으로 보완
6Bland & Altman (1986). “Statistical Methods for Assessing Agreement.” Lancet두 측정 방법 간 일치도 분석 gold standard방법론 기반: VLM-인간 valence/arousal 편향 분석
7Yang et al. (2024). “AffectGPT: Multimodal Emotion Understanding.” arXivVLM 기반 다모달 감정 이해 프레임워크관련: VLM 정서 인식 최신 동향. 차이: 범주적 → 차원적 확장
8Mollahosseini et al. (2019). “AffectNet: Facial Expressions in the Wild.” IEEE TAC대규모 in-the-wild 얼굴 표정 데이터셋, valence-arousal 연속 annotated관련: 자극 설계 참조. 차이: AI 생성 자극 사용
9Krippendorff (2011). “Computing Krippendorff’s Alpha-Reliability.”서열 척도에 적합한 신뢰도 지표, ICC 보완방법론 보완: 1-9 서열 척도 측정에 적합
10Liu et al. (2024). “LLaVA-1.5: Improved Baselines.” CVPRLLaVA-1.5 아키텍처, visual instruction tuning 방법론참고: visual instruction tuning 방법론 기반
11Selvaraju et al. (2017). “Grad-CAM: Visual Explanations from Deep Networks.” ICCVCNN 해석을 위한 gradient-based class activation mapping대립: GradCAM은 CNN 전용으로 VLM에 직접 적용 불가. 본 연구의 cross-modal attention slicing이 VLM 대안
12Wiegreffe & Pinter (2019). “Attention is not not Explanation.” EMNLPAttention이 완전히 무의미하지는 않음을 실증보완: attention 해석의 partial validity 근거. 다중 집계 + 상대 비교로 활용
13Google DeepMind (2025). “Gemma 3 Technical Report.”Gemma3 아키텍처: early-fusion VLM, SigLIP vision encoder, 1B–27B모델 기반: Tier 1 early-fusion 모델 (4B, 12B)
14Qwen Team (2025). “Qwen3.5 / Qwen2.5-VL Technical Report.”Qwen3.5 (thinking mode), Qwen2.5-VL (dynamic resolution) 아키텍처모델 기반: Tier 1 core model (Qwen3.5-9B thinking, Qwen2.5-VL-7B late-fusion baseline)

3.2 연구 갭 분석

기존 연구들을 종합하면 다음 세 가지 갭이 존재한다:

  1. 측정학적 갭: VLM FER 연구는 accuracy/F1를 사용하며, 인간 inter-rater reliability를 baseline ceiling으로 설정한 psychometric 비교가 부재하다. ICC/Bland-Altman을 적용한 VLM-인간 정서 평정 비교는 보고되지 않았다.

  2. Factorial bias 갭: Rhue(2018)이 상용 API의 인종 bias를 보고했으나, open-source VLM 대상 인종 × 성별 × 정서 완전 factorial bias 분석은 없다. Mixed-effects model을 통한 체계적 bias 분리도 미수행.

  3. 메커니즘 갭: VLM이 “왜” 인간과 다르게 평정하는지에 대한 메커니즘 분석이 부재하다. Per-task(emotion/valence/arousal별) attention 패턴 비교를 통한 불일치 원인 규명은 시도되지 않았다.

  4. Fusion type 갭: Early-fusion과 late-fusion VLM의 정서 인식 차이를 체계적으로 비교한 연구가 없다. Early-fusion 모델(Gemma3, PaliGemma2)이 시각-언어 상호작용의 깊이에서 이점을 가지는지 실증적 검증이 필요하다.

3.3 본 연구의 차별점

  1. VLM-as-participant 패러다임: VLM을 “테스트할 도구”가 아닌 “비교할 참가자”로 취급. accuracy 대신 ICC/κ를 사용하여 인간 baseline 대비 VLM의 위치를 정량화.
  2. 4축 모델 비교: Fusion type(early/late) × 규모(3B–12B) × Reasoning(thinking/non-thinking) × 접근성(open-source/proprietary) 4가지 축으로 confound 분리.
  3. Per-task attention: 3-step inference의 각 단계(emotion/valence/arousal)에서 별도 cross-modal attention을 추출하여 과제별 시각적 주의 패턴 비교.
  4. Pilot-driven design: PaliGemma2-3B pilot 결과에 기반한 가설 수정 및 모델 라인업 전환. Base VQA 모델의 한계를 실증적으로 확인한 후 설계를 업데이트.
  5. 2-Tier 비교: Open-source(attention 추출 가능) + frontier API(ceiling 비교)의 상호 보완적 설계.

4. 연구 질문 및 가설 (Research Questions & Hypotheses)

4.1 연구 질문

RQ질문유형
RQ1VLM의 정서 평정(emotion, valence, arousal)은 인간 inter-rater reliability와 어떤 관계에 있는가?비교
RQ2VLM의 정서 평정에 인종 × 성별 × 정서 조합에 따른 체계적 bias가 존재하는가?확인적
RQ3Fusion type, 모델 규모, reasoning mode가 VLM-인간 일치도와 bias 패턴에 어떤 영향을 미치는가?탐색적
RQ4VLM-인간 불일치가 큰 이미지에서 cross-modal attention 패턴은 어떤 특성을 보이는가?탐색적
RQ5Frontier API 모델은 open-source 모델 대비 인간 일치도에서 어떤 위치에 있으며, bias 패턴은 유사한가?비교

4.2 가설

가설내용대응 RQ검증 방법
H1VLM-인간 emotion κ는 0.4–0.6 범위이며, 인간 inter-rater reliability(κ ≈ 0.6–0.8) 미만이다RQ1Cohen’s κ + bootstrap CI
H2VLM-인간 valence ICC > arousal ICC이다 (valence가 시각적으로 더 현저)RQ1ICC(2,k) 쌍대 비교
H3VLM은 valence-as-intensity bias를 보이며, early-fusion 모델에서 이 편향이 완화된다 (pilot에서 PaliGemma2-3B의 fear valence=8.97 역전 확인; early-fusion + instruction tuning이 valence 개념 학습을 개선할 것으로 예측)RQ2, RQ3Bland-Altman bias + fusion type별 비교
H4Instruction-tuned 모델은 base 모델과 다른 demographic bias 패턴을 보인다 (alignment이 bias를 변화시킴)RQ3Mixed-effects model interaction term
H5Emotion 단계에서는 눈/입 영역에 attention이 집중되고, Arousal 단계에서는 분산되는 패턴이 나타난다RQ4Per-task attention ROI 분석
H6Early-fusion 모델(Gemma3, PaliGemma2)은 late-fusion 모델(Qwen2.5-VL)보다 높은 emotion κ를 보인다 (전 레이어 시각-언어 상호작용이 미세한 표정 차이 포착에 유리)RQ3Cohen’s κ 쌍대 비교 + bootstrap CI
H7Frontier API 모델은 open-source 모델보다 높은 인간 일치도를 보이지만, demographic bias 패턴은 유사하다 (규모/데이터 이점은 일치도에 기여하나, bias는 학습 데이터의 구조적 문제에서 기인)RQ5ICC/κ 비교 + mixed-effects bias 패턴 상관

4.3 핵심 가정 (Assumptions)

#가정근거위반 시 영향
A1AI 생성 얼굴 이미지가 자연 얼굴과 유사한 정서적 반응을 유발한다최근 연구에서 GAN/diffusion 생성 얼굴의 높은 지각적 현실성 확인; identity/expression 독립 통제 가능위반 시 생태적 타당도 저하. 단, 자극 통제 이점으로 내적 타당도 강화
A21-9 Likert 척도를 등간척도로 처리할 수 있다심리학 관행상 5점 이상 Likert를 등간으로 처리; ICC는 연속 변수 가정위반 시 Krippendorff’s α(서열)와 Spearman ρ로 보완 분석 수행
A3Greedy decoding 결과가 VLM의 “대표 평정”을 반영한다Temperature=0에서 MAP 추정은 최빈값 응답; stochastic 조건에서 분포 확인 예정위반 시 stochastic decoding 결과로 보완 (ablation study)
A4Cross-modal attention slicing이 VLM의 실제 정보 활용을 반영한다Jain & Wallace(2019) 비판을 고려하되, 다중 집계 + ViT 대조로 보완위반 시 attention 분석은 “탐색적 증거”로 격하, 주요 결론에서 분리

5. 학술적 기여 (Academic Contribution)

5.1 기여 유형 및 수준

#기여유형수준설명
1VLM-as-rater psychometric 비교 프레임워크방법론적상당한기존 accuracy/F1 → ICC/κ/Bland-Altman 전환. VLM 평정을 인간 inter-rater reliability ceiling 대비 정량화하는 새로운 평가 패러다임 제시
23인종 × 2성별 × 6정서 완전 factorial bias 분석실증적상당한Open-source VLM 대상 최초 factorial demographic bias 분석. Mixed-effects model로 emotion-specific bias 분리
3Per-task cross-modal attention 불일치 분석방법론적증분적~상당한3-step inference의 각 단계별 attention을 ROI와 연결하여 불일치 메커니즘 규명
43-step context carry prompting방법론적증분적인간 평정의 순차적 anchoring을 재현하는 prompting 전략. Ablation으로 맥락 효과 정량화
5Early-fusion vs Late-fusion 정서 인식 비교실증적상당한Fusion type이 정서 평정 정확도와 bias에 미치는 영향을 최초로 체계적 비교
6Pilot-driven 모델 선정 방법론방법론적증분적Base VQA 모델의 한계를 pilot에서 실증하고 모델 라인업을 evidence-based로 전환하는 절차 제시
7Open-source vs Frontier API 정서 인식 비교실증적증분적접근성-성능 trade-off와 bias 패턴의 일관성 검증

5.2 기대 학술 영향

  • 직접적 영향: (1) VLM FER 벤치마크 방법론 개선 — accuracy에서 psychometric agreement로 전환, (2) VLM의 demographic bias에 대한 실증적 근거 제공, (3) AI-generated 자극의 심리학 연구 활용 방법론, (4) Fusion type이 정서 인식에 미치는 영향에 대한 실증적 근거

  • 간접적 영향: (1) RLHF/alignment이 정서 인식 bias에 미치는 영향에 대한 이론적 논의, (2) VLM attention 해석 방법론의 affective computing 적용 확대, (3) 인간-AI 비교 연구의 측정학적 기준 제시

  • 예상 대상 학회/저널:

Tier 1: Affective Computing / 정서 컴퓨팅

VenueTypeIF/Rank프레이밍마감
IEEE Trans. Affective ComputingJournalIF ~13.9전체 분석 풀버전 (psychometric + bias + attention)Rolling
ACII 2025ConfCore A인간-VLM 정서 비교 핵심 결과~May 2025
FG 2025ConfCore A얼굴 인식 + demographic bias 중심TBD

Tier 2: AI/NLP 학회

VenueTypeIF/Rank프레이밍마감
EMNLP 2025 (Findings)ConfTop NLPVLM 평가 방법론, psychometric 프레임~Jun 2025
ACL 2026ConfTop NLPAttention + bias 분석 중심~Jan 2026
AAAI 2026ConfTop AIBias + fairness + psychometric~Aug 2025
IJCAI 2026ConfTop AI학제간 AI + Psychology~Jan 2026

Tier 3: 심리학 / 방법론 저널

VenueTypeIF/Rank프레이밍마감
Computers in Human BehaviorJournalIF ~8.9Human-AI 비교, 사회적 함의 중심Rolling
Cognition and EmotionJournalIF ~2.6정서 인지 메커니즘, 인간 baseline 중심Rolling
Behavior Research MethodsJournalIF ~4.6VLM-as-rater paradigm 방법론 기여Rolling
Frontiers in PsychologyJournalIF ~2.6Open access, 접근성 높음Rolling

투고 전략: IEEE TAC (풀버전 저널) 1차 투고 → reject 시 EMNLP Findings (축약) or AAAI (bias 강조)

5.3 한계 및 범위

  1. 자극 범위: AI 생성 얼굴 이미지 사용으로 in-the-wild 일반화에 한계. 단, identity-controlled 실험 자극으로서 내적 타당도 확보.
  2. 정서 범위: 6개 기본 정서(Ekman 6 중 surprise 제외). Surprise 제외 근거: AI 생성 자극에서의 surprise 표현 타당성 문제, 자극 세트 구성상 불포함.
  3. VLM 범위: Open-source 모델 5개(3B–12B) + frontier API 3개. Frontier API 모델(GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Flash)은 attention 추출 불가로 Tier 2에 배치하여 ratings-only 비교에 활용. Attention 분석은 Tier 1(open-source)에서만 수행.
  4. 인과 추론 제한: VLM의 bias가 학습 데이터 vs. 아키텍처 vs. 튜닝 중 어디서 기인하는지 인과적 분리는 관찰 연구의 한계.
  5. Attention 해석의 방법론적 한계: 기존 FER 전용 CNN에서는 GradCAM이 표준적 해석 도구로 사용되었으나(Selvaraju et al., 2017), VLM의 decoder-only 구조에서는 self-attention slicing이라는 덜 확립된 방법을 사용한다. Jain & Wallace(2019)와 Wiegreffe & Pinter(2019)의 논쟁을 고려하여, attention 분석은 “탐색적 증거”로 위치시키며 주요 결론은 ICC/κ/Bland-Altman에 기반한다. 다중 집계(mean/max/rollout) + ViT×LLM 결합 + per-task 상대 비교를 통해 해석의 robustness를 확인한다.

6. 실험 설계 (Experiment Design)

6.1 설계 개요

  • 설계 유형: Mixed design (Within-stimuli: 모든 모델이 동일 1,440장 평가; Between-model: 8개 모델 간 비교)
  • 주요 비교:
    • VLM 평정 vs. 인간 평정 (psychometric agreement)
    • 8개 모델 간 비교 (4축: fusion type × 규모 × reasoning × 접근성)
    • 인종 × 성별 × 정서 조합별 bias 패턴
    • Tier 1 (open-source) vs Tier 2 (frontier API) 성능 및 bias 비교

6.2 변수 통제표

독립 변수 (조작 변수)

변수명설명조작 수준측정/조작 방법
모델 (Model)VLM 종류8 수준: Tier 1 (PaliGemma2-3B, Gemma3-4B, Qwen3.5-9B, Gemma3-12B, Qwen2.5-VL-7B) + Tier 2 (GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Flash)configs/default.yaml 모델 설정 / API 호출
자극 인종 (Race)얼굴 이미지의 인종3 수준: Black, Caucasian, Korean자극 파일 디렉토리 (BM/BW, CM/CW, KM/KW)
자극 성별 (Gender)얼굴 이미지의 성별2 수준: Male, Female자극 파일 접두사 (M/W)
자극 정서 (Emotion)표적 정서 범주6 수준: angry, disgust, fear, happy, sad, neutral파일명 정서 코드 (Ang, Dis, Fea, Hap, Sad, Neu/NES)

종속 변수 (결과 변수)

변수명설명측정 지표측정 도구/방법
정서 범주 일치도인간-VLM 정서 분류 일치Cohen’s κ, Krippendorff’s αsklearn.metrics.cohen_kappa_score
Valence 일치도인간-VLM valence 평정 일치ICC(2,k), Bland-Altman biaspingouin.intraclass_corr
Arousal 일치도인간-VLM arousal 평정 일치ICC(2,k), Bland-Altman biaspingouin.intraclass_corr
Demographic bias인종/성별/정서별 VLM 편향Mixed-effects model β coefficientsstatsmodels.mixedlm
Attention 분포Per-task attention의 공간적 패턴 (Tier 1 only)ROI(눈/코/입) 주의 비율, 엔트로피Cross-modal attention slicing + MediaPipe

통제 변수 (고정 변수)

변수명고정값고정 이유
Decoding 전략Greedy (temperature=0)재현성 보장. Stochastic은 ablation에서 별도 수행
이미지 해상도모델별 native (224/336px)각 모델의 vision encoder 최적 입력 크기 사용
Prompt 언어영어인간 평정과 동일 언어
Prompt 구조3-step context carry (instruct) / 3-call VQA (base)모델 유형에 맞는 최적 프롬프트 적용
정밀도Q4_K_M 양자화 (Ollama) / API native로컬: VRAM 효율 우선. API: 기본 정밀도
Attention 설정attn_implementation="eager" (Tier 1)MPS에서 SDPA 미지원, eager로 통일

외생 변수 (잠재적 혼동 변수)

변수명잠재적 영향완화 전략
모델 학습 데이터VLM 학습 데이터에 포함된 얼굴 이미지의 인종/성별 분포가 bias에 영향Mixed-effects model에서 rater_type × demographic interaction으로 분리; 한계로 명시
AI 생성 자극 품질인종/정서 조합별 이미지 품질 차이동일 생성 파이프라인 사용 (identity-controlled); 이미지 품질 메트릭 보고
3-step context carry이전 단계 응답이 다음 단계에 anchoring 영향Ablation: 독립 평정(context-free) 조건과 비교 (200장 서브셋)
인간 평정 품질참가자 피로, 부주의 응답인간 inter-rater reliability 사전 산출; 저신뢰 평정자 필터링
양자화 효과Q4_K_M 양자화가 정서 판단 정확도에 미치는 영향FP16 vs Q4_K_M ablation (200장 서브셋, 1개 모델)

6.3 모델 설계: 2-Tier 8모델 4축 비교

Tier 1: Local Open-Source (attention 추출 가능)

ModelParamsFusionThinkingVRAM (Q4_K_M)Role
PaliGemma2-3B3BEarly (base VQA)No~6GB (FP16)Pilot baseline (완료)
Gemma3-4B4BEarlyNo~3GBSmall early-fusion
Qwen3.5-9B9BEarlyYes~6GBCore model + thinking
Gemma3-12B12BEarlyNo~8GBLarge early-fusion
Qwen2.5-VL-7B7BLateNo~5GBLate-fusion baseline

Tier 2: Frontier API (ratings only, no attention)

ModelProviderRole
GPT-4oOpenAIFrontier ceiling
Claude 3.5 SonnetAnthropicFrontier comparison
Gemini 2.0 FlashGoogleCost-efficient frontier

비교 가능한 분석축 (4축):

  1. Fusion type 효과 (규모 통제): Gemma3-4B(early) vs Qwen2.5-VL-7B(late); PaliGemma2-3B(early-base) vs Qwen2.5-VL(late-instruct)
  2. 규모 효과 (early-fusion 내): PaliGemma2-3B → Gemma3-4B → Qwen3.5-9B → Gemma3-12B
  3. Reasoning 효과: Qwen3.5-9B(thinking ON) vs Gemma3-12B(non-thinking, 유사 규모)
  4. 접근성 효과: Tier 1 best (open-source) vs Tier 2 (frontier API)

6.4 KV Cache 및 리소스 추정

Qwen3.5-9B on M1 Max 32GB (Q4_K_M)

항목추정값산출 근거
모델 가중치 (Q4_K_M)~5-6GB9B × 4.5 bits/param ÷ 8
잔여 KV cache 예산~25GB32GB - 6GB - 1GB (OS)
KV cache/token~160KB40 layers × 2(K,V) × 8 heads × 128 dim × 2 bytes
Image tokens~256-576모델별 상이
Image KV cache~40-90MB576 tokens × 160KB
Batch size1 (sequential)VRAM 안전 마진 확보

FP16 실행 시 (Qwen3.5-9B)

항목추정값
모델 가중치 (FP16)~18GB
잔여 KV cache 예산~13GB
결론실행 가능하나 여유 부족 → Q4_K_M 권장

추론 시간 추정

Tier모델 수예상 시간비고
Tier 1 (Local)5~20시간3-4시간/모델, sequential
Tier 2 (API)3~9시간Parallelizable, rate limit 고려
총합8~29시간기존 34시간 대비 유사

6.5 실험 파이프라인

flowchart TD
    subgraph prep["1. 실험 준비"]
        A1["자극 검증\n1,440 이미지 × 6 demographic 그룹"] --> A2["인간 평정 데이터 로드\nN=1,000 참가자"]
        A2 --> A3["인간 inter-rater reliability 산출\nICC, κ baseline ceiling"]
    end

    subgraph tier1["2a. Tier 1: Local Open-Source (순차 실행)"]
        B1["PaliGemma2-3B\n~6GB (DONE)"]
        B2["Gemma3-4B\n~3GB Q4"]
        B3["Qwen3.5-9B\n~6GB Q4\nthinking ON"]
        B4["Gemma3-12B\n~8GB Q4"]
        B5["Qwen2.5-VL-7B\n~5GB Q4"]
        B1 --> B2 --> B3 --> B4 --> B5
    end

    subgraph tier2["2b. Tier 2: Frontier API (병렬 가능)"]
        C1["GPT-4o\nOpenAI API"]
        C2["Claude 3.5 Sonnet\nAnthropic API"]
        C3["Gemini 2.0 Flash\nGoogle API"]
    end

    subgraph analysis["3. 통계 분석"]
        D1["Agreement: ICC, κ,\nBland-Altman, Krippendorff's α"]
        D2["Bias: Mixed-effects model\nRating ~ RaterType × Emotion × Demo"]
        D3["Attention: Per-task ROI\n+ entropy analysis\n(Tier 1 only)"]
        D4["Dark knowledge:\nLogits entropy → confidence\n(Tier 1 only)"]
        D5["Thinking trace 분석:\nQwen3.5 정성 분석"]
    end

    subgraph viz["4. 시각화 및 보고"]
        E1["Bland-Altman plots\nper model × dimension"]
        E2["Attention heatmap\ncomparison grids"]
        E3["Bias forest plots\nper demographic group"]
        E4["Tier 1 vs Tier 2\nperformance comparison"]
    end

    prep --> tier1
    prep --> tier2
    tier1 --> analysis
    tier2 --> analysis
    D1 & D2 & D3 & D4 & D5 --> viz

6.6 Pilot Study — PaliGemma2-3B Results

PaliGemma2-3B(base VQA)를 1,440장 전체에 대해 pilot 추론을 수행하여 base 모델의 한계를 실증적으로 확인하였다.

6.6.1 분류 성능

지표해석
Overall accuracy60.1%Moderate — 인간 ceiling 대비 부족
Cohen’s κ0.522Moderate agreement
F1 Macro0.543정서별 불균형 심각

정서별 F1 성능:

정서F1해석
Happy0.996Near-perfect
Fear0.979Excellent
Angry0.667Moderate
Neutral0.476Poor — neutral 흡수 편향
Disgust0.160Very poor — angry로 혼동
Sad0.022Near-zero — neutral/fearful로 혼동

6.6.2 Valence/Arousal 평정

차원관찰 결과문제점
ValenceFear=8.97, Angry=8.77 (1-9 scale)Intensity로 해석 — valence 개념 미이해
Arousal대부분 8-9 범위 고정SD=0 — 분산 부재, template matching

6.6.3 Demographic Bias

Bias 유형관찰 결과
인종별 accuracyCaucasian (65.8%) > Black (59.2%) > Korean (55.4%)
성별 accuracyMan (62.5%) > Woman (57.8%)
최저 성능 조합Korean angry: 30% (전체 대비 40%p gap)

6.7 Instruction Following 분석 — Base VQA 한계

PaliGemma2-3B pilot 결과에서 확인된 base VQA 모델의 구조적 한계와 이에 따른 설계 전환 근거:

관찰해석설계 전환 근거
JSON 출력 불가Base VQA 모델은 structured output을 생성하지 못함 → 3-call 우회 필요Instruction-tuned 모델은 JSON/structured output 직접 생성 가능
Valence = Intensity 역전”How positive/negative?” 질문을 “How intense?”로 해석Instruction tuning이 valence 개념 학습을 개선 (H3 근거)
SD = 0 (분산 부재)동일 정서 내 모든 이미지에 동일 값 → template matchingInstruction-tuned 모델은 이미지별 차별화된 평정 가능
Neutral 흡수 편향불확실한 자극을 neutral로 분류하는 보수적 fallbackThinking mode(Qwen3.5)가 불확실성 처리를 개선할 것으로 예측
Sad/Disgust 실패Sad→neutral/fearful, Disgust→angry로 혼동더 큰 모델(9B+)에서 미세 표정 차이 포착 개선 예측

결론: Base VQA 모델은 정서 평정 과제의 기본 요구사항(valence 개념 이해, 이미지별 차별화, 정서 범주 변별)을 충족하지 못한다. 이는 instruction-tuned + early-fusion 모델로의 전환을 실증적으로 정당화하며, pilot baseline으로서 후속 모델 비교의 하한선을 제공한다.

6.8 데이터 및 리소스

데이터

항목상세확보 방법
자극 이미지1,440장 AI 생성 얼굴 (3인종 × 2성별 × 6정서 × 40명)Stimuli-Final/ (이미 확보)
인간 평정 데이터N=1,000 참가자, image_id × emotion/valence/arousaldata/human_ratings/ratings.csv (수집 예정/진행 중)
VLM 예측 (Tier 1)5 모델 × 1,440 이미지 = 7,200 예측 + attention/logits본 파이프라인으로 생성
VLM 예측 (Tier 2)3 모델 × 1,440 이미지 = 4,320 예측 (ratings only)API 호출로 생성

컴퓨팅 리소스

항목사양/수량근거
하드웨어Apple M1 Max 32GB Unified MemoryTier 1 모델 Q4_K_M 순차 실행 가능 (최대 단일 모델 ~8GB < 32GB)
Tier 1 추론 시간~20시간 (5모델 × 3-4시간)3-step × attention extraction, Q4_K_M
Tier 2 추론 시간~9시간 (3모델, parallelizable)API rate limit 고려
총 추론 시간~29시간Tier 1 sequential + Tier 2 parallel
Stochastic ablation~8시간 추가 (200장 × 5반복 × 선별 모델)Temperature=0.3, 서브셋
예상 비용 (Local)$0 (전기료 제외)로컬 하드웨어
예상 비용 (API)~$50-100GPT-4o + Claude + Gemini, 1,440장 × 3

6.9 Ablation Studies

Ablation목적설계서브셋
Stochastic decodingVLM 불확실성 정량화, 인간 분산과 비교Temperature=0.3, 5회 반복200장 (정서별 균등)
Context carry vs independent3-step anchoring 효과 정량화독립 prompt vs context carry200장 동일 서브셋
Attention aggregation집계 방법이 해석에 미치는 영향mean vs max vs rollout전체 1,440장 (Tier 1)
FP16 vs Q4_K_M양자화가 정서 판단에 미치는 영향동일 모델 FP16/Q4 비교200장, 1개 모델

7. 실험 일정 (Schedule)

7.1 Gantt 차트

gantt
    title 연구 일정
    dateFormat YYYY-MM-DD
    axisFormat %Y-%m

    section 준비
        환경 구축 및 모델 검증    :done, env, 2026-03-18, 2026-03-19
        인간 평정 데이터 수집      :human, 2026-03-18, 42d

    section Pilot
        PaliGemma2 pilot 완료    :done, pilot, 2026-03-18, 2026-03-19

    section Backend 구현
        Gemma3 + Qwen3.5 backend :backend, 2026-03-20, 2026-04-01
        Ollama 연동 + API wrapper :ollama, 2026-03-25, 2026-04-01

    section VLM 추론
        Tier 1 본 추론 (5모델)   :crit, infer1, 2026-04-01, 2026-04-20
        Tier 2 API 추론 (3모델)  :infer2, 2026-04-20, 2026-04-25
        Ablation 실험            :ablation, after infer2, 7d

    section 분석
        Agreement 분석            :agree, after infer1, 10d
        Bias 분석                 :bias, after agree, 7d
        Attention 분석            :attn, after bias, 10d
        Dark knowledge 분석       :dk, after infer1, 7d

    section 논문 작성
        초고 작성                 :draft, after attn, 28d
        내부 리뷰 및 수정         :revise, after draft, 14d
        투고 준비                 :submit, after revise, 7d

    section 마일스톤
        M0 PaliGemma2 pilot 완료  :milestone, m0, 2026-03-19, 0d
        M1 Backend 구현 완료      :milestone, m1, 2026-04-01, 0d
        M2 Tier 1 추론 완료       :milestone, m2, 2026-04-20, 0d
        M3 Tier 2 추론 완료       :milestone, m3, 2026-04-25, 0d
        M4 분석 완료              :milestone, m4, 2026-05-20, 0d
        M5 투고                   :milestone, m5, 2026-07-01, 0d

7.2 마일스톤

#마일스톤예상 날짜성공 기준
M0PaliGemma2 pilot 완료2026-03-19 (DONE)1,440장 전체 추론 완료, pilot 결과 분석 완료
M1Backend 구현 완료2026-04-01Gemma3, Qwen3.5 backend 구현 + Ollama 연동 + API wrapper
M2Tier 1 추론 완료2026-04-205개 local 모델 × 1,440장 추론 완료, attention/logits 저장
M3Tier 2 추론 완료2026-04-253개 API 모델 × 1,440장 추론 완료
M4분석 완료2026-05-20ICC/κ/Bland-Altman/Mixed-effects 전체 산출, 시각화 완료
M5투고2026-07-01IEEE TAC 형식 논문 완성 및 제출

8. 예상 결과 및 분석 (Expected Results)

8.1 시나리오별 예상 결과

시나리오조건예상 결과의미후속 방향
Best CaseH1-H7 모두 지지VLM κ=0.4-0.6, early-fusion > late-fusion, frontier > open-source but similar biasFusion type과 규모가 정서 인식에 영향, bias는 구조적Bias mitigation prompting 연구, 대규모 모델 확장
Mixed CaseH1,H2,H6 지지, H3 기각VLM이 positive bias가 아닌 emotion-specific bias를 보임Bias가 단순 긍정 편향이 아닌 정서 범주 혼동 패턴정서 혼동 행렬 심층 분석, confusion-aware prompting
Worst CaseH1 기각 (κ > 0.8)VLM이 인간 수준 이상의 일치도를 보임인간 inter-rater reliability ceiling 재검토 필요; AI 생성 자극이 과도하게 명확할 가능성자연 얼굴 자극으로 재실험, 자극 난이도 분석
Null Case모델 간 차이 없음8개 모델의 κ/ICC가 유의하게 다르지 않음Fusion/규모/reasoning 차이 미미; 과제 자체가 쉬움더 넓은 크기 범위(0.5B-70B)로 확장, 난이도 높은 자극

8.2 분석 방법

주요 분석

분석방법도구코드 위치
정서 일치도Cohen’s κ + weighted κ + Krippendorff’s αsklearn, krippendorffsrc/analysis/statistics.py
Valence/Arousal 일치도ICC(2,k) + 95% CI (bootstrap 1,000회)pingouinsrc/analysis/statistics.py
체계적 편향Bland-Altman + 단측 t-testnumpy, scipysrc/analysis/statistics.py
Demographic biasMixed-effects: Rating ~ RaterType × Emotion × Race × Gender + (1|Image)statsmodelssrc/analysis/bias.py
Attention ROIMediaPipe 얼굴 랜드마크 → 눈/코/입 ROI → per-task attention 비율 (Tier 1)mediapipe, numpysrc/attention/mapper.py (확장)
모델 확신도Dark knowledge entropy: H = -Σ p log p (top-50 softmax) (Tier 1)numpy별도 분석 스크립트
Thinking traceQwen3.5 thinking output의 정성적 분석 — 정서 추론 과정 패턴Manual coding별도 분석 스크립트

보완 분석

  • Spearman ρ: 서열 척도 보완 (ICC의 등간 가정이 위반될 경우)
  • Bonferroni correction: 다중 비교 보정 (6정서 × 8모델 × 2차원 = 96 검정)
  • Effect size: Cohen’s d (paired), ηp² (mixed-effects)
  • Bootstrap CI: ICC, κ의 95% 신뢰구간 (1,000회 resampling)

9. 대비 계획 (Backup Plans)

9.1 위험 요소 및 대응

#위험 요소발생 확률영향도Plan B전환 기준
R1Gemma3-12B OOM on M1 Max (Q4_K_M ~8GB + KV cache)낮음중간(a) Q4_K_S 양자화 시도 (b) Gemma3-4B로 대체하고 12B 제외단일 이미지 추론 실패 시
R2PaliGemma2-3B(base) 파싱 실패율 > 30%Pilot에서 해결됨: 3-call VQA 전략으로 파싱 성공률 95%+ 달성
R3인간 평정 데이터 수집 지연중간높음(a) 공개 FER 데이터셋(AffectNet)의 valence/arousal 활용 (b) 소규모(N=100) 파일럿으로 방법론 논문 선 투고M1 시점에서 N < 200
R4모든 VLM이 유사한 bias 패턴 → 모델 간 차이 미미낮음중간(a) 모델 간 일치도를 “VLM consensus”로 재프레이밍 (b) Tier 1 vs Tier 2 차이에 집중8모델 ICC > 0.9 (모델 간)
R5Attention 분석이 무의미 (Jain & Wallace 비판 재확인)중간낮음Attention 분석을 supplementary로 이동, 주요 결론은 ICC/κ/bias에만 기반Attention-정서 상관 ρ < 0.1
R6API 비용 초과 ($100+)낮음낮음(a) Gemini 2.0 Flash만으로 Tier 2 진행 (가장 저렴) (b) 서브셋(720장)으로 축소비용 $100 초과 시
R7Qwen3.5 thinking 모드 일관성 부족 — 동일 이미지에 대해 다른 추론 경로중간낮음(a) Thinking trace를 정성 분석으로 활용 (정량 지표에서 제외) (b) Thinking OFF로 전환하여 일관성 확보동일 이미지 반복 테스트에서 정서 범주 불일치 > 20%

9.2 Go/No-Go 기준

체크포인트시점Go 기준No-Go 시 조치
CP0: PilotM0 (2026-03-19)PaliGemma2 pilot 완료, 결과 분석 완료완료
CP1: BackendM1 (2026-04-01)Gemma3, Qwen3.5, Qwen2.5-VL backend 동작 확인미완성 backend는 제외하고 가용 모델로 진행
CP2: Tier 1 추론M2 (2026-04-20)최소 3/5 Tier 1 모델 전체 추론 완료OOM 모델 제외하고 분석 진행
CP3: Tier 2 추론M3 (2026-04-25)최소 1/3 API 모델 완료Tier 2 축소 또는 제외
CP4: 분석M4 시점ICC/κ 산출 가능, 유의미한 모델 간 차이 존재차이 미미 시 “VLM consensus” 프레이밍으로 전환

10. 비평 및 개선 이력 (Review History)

비평 라운드 요약

라운드총점논리신규성방법론영향력실현성판정
117/254/53/53/54/53/5수정 필요
221/254/54/55/54/54/5조건부 통과
321/25Pilot 결과 반영 업데이트

라운드 1 → 2 주요 수정 사항

주요 비평 사항:

  1. 치명적: 2개 모델만으로 VLM 일반화 불가수정: 6모델 3축(크기 × 튜닝 × 아키텍처) 비교 설계로 확대. Confound 분리를 위한 2×3 설계표 추가.
  2. 치명적: Greedy only = 불확실성 정량화 없음수정: Stochastic decoding ablation 추가 (temperature=0.3, 5회 반복, 200장 서브셋). VLM 평정 분포와 인간 분산 비교.
  3. 중요: 1-9 서열 척도 → ICC 등간 가정 문제수정: Krippendorff’s α(서열) + Spearman ρ 보완 분석 추가.
  4. 중요: Context carry = anchoring 전파 위험수정: Context carry vs independent ablation 추가 (200장 서브셋).
  5. 보통: Attention 해석 타당성 의문수정: Jain & Wallace(2019) 논의 명시, 다중 집계(mean/max/rollout) + ViT 대조, ROI 검증 추가. Attention은 “탐색적 증거”로 위치.
  6. 보통: Surprise 정서 누락수정: 제외 근거 명시 (AI 생성 자극 타당성, 자극 세트 구성).

Reviewer 2 핵심 질문 및 대응:

  • Q: “AI 생성 자극이 자연 얼굴 대비 과도하게 명확(prototypical)하지 않은가?” → A: limitation에 명시하되, identity-controlled 실험 자극으로서의 장점(동일 인물의 다양한 정서 표현, 인종/성별 균형)을 강점으로 reframing. Worst case 시나리오에서 이 가능성을 다룸.
  • Q: “6개 모델이 모두 비슷하면 의미가 있는가?” → A: 그 자체가 발견(“VLM consensus”). Base vs instruct 비교 축이 핵심 분석으로 남음.

라운드 2 → 3 주요 수정 사항

Pilot 결과 기반 업데이트:

  1. 모델 라인업 전환: PaliGemma2 pilot이 base VQA 한계를 실증 → instruction-tuned + early-fusion 중심으로 재구성. 6모델 3축 → 8모델(2-tier) 4축 비교.
  2. Pilot 결과 섹션 신설 (Section 6.6-6.7): PaliGemma2-3B의 분류 성능(κ=0.522), valence 역전(fear=8.97), SD=0, demographic bias 패턴을 상세 보고.
  3. 가설 수정: H3 “positive valence bias” → “valence-as-intensity bias, early-fusion에서 완화 예측”. H6(early>late fusion κ), H7(frontier>open-source, similar bias) 추가.
  4. Frontier API 모델 추가: GPT-4o + Claude 3.5 Sonnet + Gemini 2.0 Flash (Tier 2). Attention 분석 제외, ratings-only ceiling 비교.
  5. 양자화 전략: FP16 → Q4_K_M(Ollama) 기본. VRAM 효율 우선. FP16 vs Q4 ablation 추가.
  6. KV cache 리소스 추정 추가 (Section 6.4): M1 Max 32GB에서의 실행 가능성 상세 분석.
  7. 리스크 업데이트: R2(파싱) “pilot에서 해결됨”, R6(API 비용), R7(thinking 일관성) 추가.
  8. 일정 업데이트: Pilot 완료(M0) 반영, Backend 구현(M1), Tier별 추론(M2/M3) 분리.

11. 참고 문헌 (References)

핵심 참고 문헌

  1. Russell, J. A. (1980). A circumplex model of affect. Journal of Personality and Social Psychology, 39(6), 1161–1178.
  2. Rhue, L. (2018). Racial influence on automated perceptions of emotions. SSRN Electronic Journal.
  3. Shrout, P. E., & Fleiss, J. L. (1979). Intraclass correlations: Uses in assessing rater reliability. Psychological Bulletin, 86(2), 420–428.
  4. Bland, J. M., & Altman, D. G. (1986). Statistical methods for assessing agreement between two methods of clinical measurement. The Lancet, 327(8476), 307–310.
  5. Jain, S., & Wallace, B. C. (2019). Attention is not explanation. Proceedings of NAACL-HLT, 3543–3556.
  6. Li, C., et al. (2024). GPT-4V(ision) as a social media analysis engine. arXiv preprint.
  7. Yang, K., et al. (2024). AffectGPT: Multimodal large language models for emotion understanding. arXiv preprint.
  8. Mollahosseini, A., Hasani, B., & Mahoor, M. H. (2019). AffectNet: A database for facial expression, valence, and arousal computing in the wild. IEEE Transactions on Affective Computing, 10(1), 18–31.
  9. Liu, H., et al. (2024). Improved baselines with visual instruction tuning (LLaVA-1.5). CVPR 2024.
  10. Krippendorff, K. (2011). Computing Krippendorff’s alpha-reliability. Annenberg School for Communication Departmental Papers.
  11. Selvaraju, R. R., et al. (2017). Grad-CAM: Visual explanations from deep networks via gradient-based localization. ICCV 2017, 618–626.
  12. Wiegreffe, S., & Pinter, Y. (2019). Attention is not not explanation. Proceedings of EMNLP-IJCNLP, 11–20.
  13. Google DeepMind (2025). Gemma 3 Technical Report. arXiv preprint.
  14. Qwen Team (2025). Qwen2.5-VL: Scaling Vision-Language Models for General Multimodal Agent. arXiv preprint.
  15. Qwen Team (2025). Qwen3.5 Technical Report. arXiv preprint.

방법론 참고 문헌

  1. Koo, T. K., & Li, M. Y. (2016). A guideline of selecting and reporting intraclass correlation coefficients for reliability research. Journal of Chiropractic Medicine, 15(2), 155–163.
  2. Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1), 37–46.
  3. Bates, D., et al. (2015). Fitting linear mixed-effects models using lme4. Journal of Statistical Software, 67(1), 1–48.
  4. Ekman, P. (1992). An argument for basic emotions. Cognition and Emotion, 6(3–4), 169–200.
  5. Bradley, M. M., & Lang, P. J. (1994). Measuring emotion: The self-assessment manikin and the semantic differential. Journal of Behavior Therapy and Experimental Psychiatry, 25(1), 49–59.