VLM 기반 감정 인식 실험 설계: CHI 2027 재투고 전략

문서 버전: v2.0 (2026-02-20)
목적: CHI26 desk-reject 피드백 대응 — 하이브리드 전략 (기존 모델 유지 + VLM 추가)
상태: v1 초안 → 3개 에이전트 검토 완료 → v2 피드백 통합본
검토 에이전트: Hinton Persona, AI/ML Reviewer, Ruthless Paper Reviewer

1. 배경 및 동기

1.1 CHI26 리뷰어 지적 요약

CHI26 리뷰어와 3개 독립 평가 에이전트가 공통으로 지적한 핵심 문제:

“Testing only two lightweight models does not cover a wider range of AI architectures, potentially limiting the representativeness of the conclusions.”

평가 보고서(v2)의 진단:

두 모델(EfficientNet-B0, MobileViT)은 동일 프레임워크(Savchenko EmotiEffLib)에서 동일 training pipeline으로 학습
실질적으로 backbone 변이 비교에 불과
경량 분류 모델 2개로 “AI”를 일반화하는 것은 N=2 실험에서 population-level 결론을 내리는 것과 동치

1.2 전략적 전환: 하이브리드 접근 (Dual-Paradigm)

v2 수정: 3개 에이전트 검토 결과, “전면 교체”가 아닌 **“하이브리드 전략”**이 최적이라는 합의가 도출됨. 기존 discriminative 모델 결과를 유지하면서 VLM을 추가하는 dual-paradigm 비교가 연구의 폭과 리뷰어 대응력을 모두 극대화한다.

왜 전면 교체가 아닌 하이브리드인가

원 논문의 4건 CRITICAL 중 3건은 모델과 무관: 통계 방법론(C1), 자극 검증(C2), Hess 인용 오독(C4)은 VLM으로 교체해도 해결되지 않음
기존 자산 활용: 이미 생성된 4,320개 Grad-CAM, N=1,000 인간 평정 데이터, 5개 모델 파이프라인이 있음
비교의 풍부함: “Discriminative vs. Generative”라는 새로운 비교 축이 단순 모델 교체보다 학술적 기여가 큼
리스크 분산: VLM attention 추출이 기술적으로 실패해도 기존 분석은 유지됨

차원	Paradigm A: Discriminative (기존 유지)	Paradigm B: Generative VLM (신규 추가)
패러다임	Supervised classification	Generative multimodal reasoning
학습 데이터	AffectNet (~450K faces)	Web-scale multimodal data (수조 토큰)
감정 지식	Supervised labels only	World knowledge + 언어적 감정 이해
추론 방식	Softmax over fixed classes	자연어 기반 open-ended 추론
해석 가능성	Grad-CAM (post-hoc)	Attention maps (token-level granularity)
대표성	Task-specific 전문 모델	현대 범용 AI 시스템
연구 내 역할	Baseline (이미 확보)	추가 비교 축

1.3 왜 VLM을 추가하는가

패러다임 다양성: Discriminative + Generative 양 패러다임 비교로 “동일 pipeline” 비판 근본 해소
현대 AI 대표성: GPT-4V, Claude, Gemini 등 실제 배포되는 AI는 VLM 기반 — 연구의 생태적 타당성(ecological validity) 향상
토큰 수준의 세분화된 분석: Grad-CAM(전체 출력에 대한 단일 맵)과 달리, 각 생성 토큰별 개별 attention 분포를 관찰 가능 — 감정 label/valence/arousal 판단의 시각적 근거를 분리 가능
Zero-shot 능력: 감정 데이터에 fine-tuning하지 않은 상태에서의 판단 → “AI의 일반적 감정 이해 능력” 평가에 적합
선행 연구 근거: GPT-4가 zero-shot에서 valence r=0.87, arousal r=0.72를 달성 (Alrasheed et al., PLOS One 2025) — VLM의 감정 인식 능력이 실증됨

v2 주의: Attention을 “explanation”이 아닌 **“information routing pattern”**으로 프레이밍해야 함 (Hinton 에이전트 지적). Attention weight는 정보 라우팅의 한 경로를 보여줄 뿐, 모델이 왜 그 결정을 내렸는지의 인과적 설명이 아님.

2. VLM 선정

2.1 하드웨어 제약

항목	사양
장치	MacBook Pro M1 Max
통합 메모리	32GB
가용 메모리 (추정)	~24GB (OS + 백그라운드 제외)
추론 프레임워크	MLX (Apple Silicon 최적화) via `mlx-vlm`
양자화	4-bit 양자화 필수

2.2 후보 모델 비교

모델	파라미터	4-bit 메모리	Vision Encoder	LLM Backbone	MLX 지원	특징
Qwen2.5-VL-7B	7.6B	~5GB	ViT (Dynamic Resolution)	Qwen2.5-7B	✅	M-RoPE, 동적 해상도, MMMU 62.0
Qwen3-VL-8B	8.2B	~5.5GB	ViT (Dynamic Resolution)	Qwen3-8B	✅	최신(2025.10), thinking mode 지원
LLaVA-NeXT-7B	7B	~4.5GB	CLIP ViT-L/14	Vicuna-7B	✅	잘 연구된 아키텍처, 해석 도구 풍부
Phi-3.5-Vision	4.2B	~3GB	CLIP ViT	Phi-3.5-mini	✅	경량, 빠른 추론, Microsoft
InternVL2-8B	8B	~5.5GB	InternViT-6B	InternLM2-7B	✅	강력한 vision encoder
MiniCPM-V 2.6	8B	~5GB	SigLip-400M	Qwen2-7B	✅	모바일 최적화, 효율적

2.3 추천 구성: 3-모델 체제

리뷰어 비판(“2개 모델로 AI 일반화 불가”)에 대응하기 위해 최소 3개 VLM을 사용한다.

역할	추천 모델	선정 근거
Primary	Qwen2.5-VL-7B-Instruct	동적 해상도(얼굴 세부 포착에 유리), MMMU 벤치마크 상위, M-RoPE
Secondary	LLaVA-NeXT-7B (Mistral)	가장 많이 연구된 VLM, 해석 도구(LVLM-Interpret) 직접 적용 가능
Tertiary	Phi-3.5-Vision	더 작은 규모(4.2B), Microsoft, 소형 VLM의 감정 이해 한계 탐색

메모리 동시 사용: 3개 모델 합계 ~12.5GB (4-bit) → 32GB에서 순차 추론 시 여유 충분

v2 아키텍처 다양성에 대한 정직한 서술 (Hinton 에이전트 지적):

3개 모델 모두 “ViT variant + autoregressive LLM” 구조를 공유한다. Vision encoder(ViT 기반)와 language decoder(autoregressive transformer)의 조합이라는 점에서 구조적 유사성이 존재한다. 이를 “아키텍처 다양성을 극대화했다”고 주장하는 것은 과장이다.

정직한 프레이밍: “현재 지배적인 VLM 패러다임(ViT + autoregressive LLM) 내에서, vision encoder의 설계(동적 해상도 vs. CLIP 고정 해상도), LLM backbone(Qwen vs. Mistral vs. Phi), 그리고 학습 데이터/기업이 서로 다른 3개 모델을 비교한다. 이들은 패러다임 내 변이(within-paradigm variation)를 대표하며, 기존 discriminative 모델과의 cross-paradigm 비교가 아키텍처 다양성의 주축이다.”

2.4 실행 환경 설정

# MLX-VLM 설치
uv add mlx-vlm
 
# 모델 다운로드 (4-bit 양자화 버전)
# Qwen2.5-VL-7B
python -m mlx_vlm.generate \
  --model mlx-community/Qwen2.5-VL-7B-Instruct-4bit \
  --max-tokens 100 --temperature 0.0 \
  --image test.jpg --prompt "Describe the emotion."
 
# LLaVA-NeXT-7B
python -m mlx_vlm.generate \
  --model mlx-community/llava-v1.6-mistral-7b-4bit \
  --max-tokens 100 --temperature 0.0 \
  --image test.jpg --prompt "Describe the emotion."
 
# Phi-3.5-Vision
python -m mlx_vlm.generate \
  --model mlx-community/Phi-3.5-vision-instruct-4bit \
  --max-tokens 100 --temperature 0.0 \
  --image test.jpg --prompt "Describe the emotion."

3. 실험 설계

3.1 자극 (Stimuli)

기존 CHI26 논문의 자극을 그대로 활용:

GIST-AIFaceDB: 240 identities × 6 emotions × 2 genders × 3 races = 2,880 images
각 이미지는 정면 얼굴, 배경 제거 (또는 단색 배경)

중요: 배경 제거가 필수적. VLM은 context bias가 강하게 작용하며 (Electronics 2025), 배경에 따라 93%의 동일 표정이 다르게 해석될 수 있음. 얼굴만 제시하여 순수한 표정 기반 판단을 유도해야 함.

3.2 프롬프트 설계

Task 1: 감정 분류 (Emotion Classification)

[System Prompt]
You are an expert in facial expression analysis. Your task is to
analyze the emotional expression shown in the provided face image.
Focus only on the facial features — ignore any background or context.

[User Prompt]
Look at this person's facial expression carefully.

Step 1: Identify the primary emotion expressed.
Choose exactly one from: happiness, sadness, anger, fear, surprise,
disgust, contempt, neutral.

Step 2: Rate your confidence (0-100%).

Respond in this exact format:
Emotion: [emotion]
Confidence: [number]%

Task 2: Valence-Arousal 회귀 (VA Regression)

[System Prompt]
You are an expert in dimensional emotion analysis using the
Circumplex Model of Affect (Russell, 1980). Your task is to rate
the emotional dimensions of a facial expression.

[User Prompt]
Examine this person's facial expression carefully.

Rate the following two dimensions:

1. Valence: How pleasant or unpleasant is this expression?
   Scale: -1.0 (very unpleasant) to +1.0 (very pleasant)
   Reference: -1.0 = extreme distress, 0.0 = neutral, +1.0 = extreme joy

2. Arousal: How activated or calm is this expression?
   Scale: -1.0 (very calm/sleepy) to +1.0 (very excited/activated)
   Reference: -1.0 = deep relaxation, 0.0 = neutral alertness, +1.0 = intense activation

Respond in this exact format:
Valence: [number]
Arousal: [number]

Task 3: 통합 판단 (Classification + VA + 근거)

[System Prompt]
You are an expert facial expression analyst. Analyze the emotion
shown in this face image using both categorical and dimensional
approaches. Focus only on facial features.

[User Prompt]
Analyze this facial expression:

1. Primary emotion (choose one): happiness, sadness, anger, fear,
   surprise, disgust, contempt, neutral
2. Valence (-1.0 to +1.0): how pleasant/unpleasant
3. Arousal (-1.0 to +1.0): how activated/calm
4. Key facial cues: briefly describe which facial features
   (eyes, mouth, brows, etc.) informed your judgment

Format:
Emotion: [emotion]
Valence: [number]
Arousal: [number]
Cues: [description]

3.3 프롬프트 설계 근거

설계 원칙	근거
구조화된 응답 형식	VLM의 출력을 파싱하여 정량적 비교 가능, 토큰 위치 식별 용이
Zero-shot	Fine-tuning 없이 모델의 “일반적 감정 이해” 평가 — 데이터 오염 우려 최소화
Temperature 0.0	결정론적 출력으로 재현성 확보
얼굴에만 집중 지시	Context bias 완화 (Mitigating Context Bias, Electronics 2025)
Circumplex Model 명시	차원적 감정 모델의 이론적 프레임 제공 → 평정 기준 통일
Task 분리	감정 분류와 VA 회귀를 별도 프롬프트로 분리 → attention 분석 시 혼동 방지

3.4 실험 절차

For each image (N=2,880):
  For each model (N=3: Qwen2.5-VL, LLaVA-NeXT, Phi-3.5-Vision):
    For each task (N=3: Classification, VA, Integrated):
      1. Load image + prompt
      2. Generate response (temperature=0.0, max_tokens=150)
      3. Parse structured output → (emotion, confidence, valence, arousal)
      4. Extract attention maps (Section 4)
      5. Store: response + attention weights + metadata

Total inference runs: 2,880 × 3 × 3 = 25,920
Estimated time (M1 Max): ~3-5 sec/image → ~22-36 hours total

4. Attention 분석 방법론

4.1 VLM Attention의 구조적 이해

v2 핵심 수정 (Hinton 에이전트): “Attention은 Grad-CAM보다 우월하다”는 v1의 프레이밍을 철회한다. 둘 다 다른 방식으로 불완전한 도구이며, 장단점이 다르다. Grad-CAM은 gradient를 사용하므로 output을 실제로 변화시키는 입력의 기여도를 측정한다는 점에서 인과적 해석에 더 가깝다. Attention은 정보 라우팅일 뿐, 그 경로가 출력에 인과적으로 기여했다는 보장이 없다.

VLM attention과 Grad-CAM의 비교:

특성	Grad-CAM (Paradigm A)	VLM Attention (Paradigm B)
유형	Gradient-based post-hoc	Built-in self-attention
인과성	Gradient = output에 대한 입력의 기여도 → 인과 해석에 더 가까움	Attention = 정보 라우팅 경로 → 인과적 보장 없음
세분화	전체 출력에 대한 단일 맵	각 생성 토큰별 개별 맵 ← 이것이 핵심 장점
한계	Post-hoc, class-specific	MLP 이후 변환 무시, layer 간 해석 모호
상보성	감정별 중요 영역 식별	토큰별 시각적 근거 분리

VLM attention의 genuine한 장점은 “더 나은 해석”이 아니라 “토큰 수준의 세분화(token-level granularity)“이다. “happiness”라는 단어를 생성할 때 vs. “0.8”이라는 valence 수치를 생성할 때 다른 영역을 보는지 비교할 수 있다는 것이 Grad-CAM으로는 불가능한 분석이다.

4.2 핵심 혁신: 토큰별 Attention Extraction

VLM의 가장 큰 장점은 생성하는 각 토큰이 시각 토큰에 대해 개별적인 attention 분포를 갖는다는 것이다.

모델 출력: "Emotion: happiness"
                        ^^^^^^^^^^
           이 토큰을 생성할 때 이미지의 어디를 보았는가?

모델 출력: "Valence: 0.8"
                     ^^^
           이 수치를 생성할 때 이미지의 어디를 보았는가?

모델 출력: "Arousal: 0.3"
                     ^^^
           이 수치를 생성할 때 이미지의 어디를 보았는가?

이를 통해 다음의 비교가 가능하다:

감정 label 생성 시 attention vs. valence 수치 생성 시 attention vs. arousal 수치 생성 시 attention
동일 감정(e.g., sadness)에 대해 세 모델의 attention 패턴 비교
동일 모델에서 남성/여성 얼굴에 대한 attention 패턴 비교

4.3 Attention Extraction 방법

방법 A: Layer-wise Attention Aggregation

import torch
import numpy as np
 
def extract_token_attention_to_visual(model, outputs, target_token_idx, visual_token_range):
    """
    특정 생성 토큰이 시각 토큰에 부여한 attention 가중치를 추출한다.
 
    Args:
        model: VLM 모델
        outputs: 모델 출력 (attentions 포함)
        target_token_idx: 관심 토큰의 인덱스 (e.g., "happiness" 토큰)
        visual_token_range: 시각 토큰의 인덱스 범위 (e.g., 0:576)
 
    Returns:
        attention_map: (H, W) 크기의 spatial attention map
    """
    num_layers = len(outputs.attentions)
    num_heads = outputs.attentions[0].shape[1]
 
    # 전체 layer의 attention을 평균 (또는 마지막 k개 layer만)
    aggregated = torch.zeros_like(outputs.attentions[0][0, 0, target_token_idx, visual_token_range])
 
    for layer_idx in range(num_layers):
        # shape: (batch, heads, seq_len, seq_len)
        attn = outputs.attentions[layer_idx]
        # target token → visual tokens, head 평균
        layer_attn = attn[0, :, target_token_idx, visual_token_range].mean(dim=0)
        aggregated += layer_attn
 
    aggregated /= num_layers
 
    # Visual tokens → spatial grid (e.g., 24×24 for 336px image with 14px patches)
    grid_size = int(np.sqrt(len(aggregated)))
    attention_map = aggregated.reshape(grid_size, grid_size).cpu().numpy()
 
    return attention_map

방법 B: Attention Rollout (Abnar & Zuidema, 2020)

Layer 간 attention을 곱하여 누적 정보 흐름을 추적:

def attention_rollout(attentions, target_token_idx, visual_token_range):
    """
    Attention rollout: 모든 layer의 attention을 순차적으로 곱하여
    실제 정보 흐름 경로를 추적한다.
    """
    # 첫 layer의 attention + residual connection
    rollout = attentions[0][0].mean(dim=0)  # head 평균
    rollout = 0.5 * rollout + 0.5 * torch.eye(rollout.shape[0])  # residual
 
    for layer_attn in attentions[1:]:
        attn = layer_attn[0].mean(dim=0)
        attn = 0.5 * attn + 0.5 * torch.eye(attn.shape[0])
        rollout = torch.matmul(attn, rollout)
 
    # target token에서 visual tokens로의 누적 attention
    visual_attention = rollout[target_token_idx, visual_token_range]
    grid_size = int(np.sqrt(len(visual_attention)))
    return visual_attention.reshape(grid_size, grid_size).cpu().numpy()

방법 C: Relevancy Map (Chefer et al., 2021; LVLM-Interpret 2024)

Gradient 정보를 결합하여 relevancy를 역전파:

def relevancy_map(model, outputs, target_token_idx, visual_token_range):
    """
    LVLM-Interpret 방법: attention과 gradient를 결합하여
    각 visual token의 relevancy score를 산출한다.
 
    Chefer et al. (2021)의 방법을 VLM에 확장한 것으로,
    attention weight만으로는 놓칠 수 있는 negative contribution도 포착.
    """
    # Gradient × Attention for each layer
    relevancy = torch.eye(seq_len)
    for layer_idx in range(num_layers):
        attn = outputs.attentions[layer_idx][0].mean(dim=0)  # (seq, seq)
        grad = layer_gradients[layer_idx][0].mean(dim=0)     # (seq, seq)
        cam = (attn * grad).clamp(min=0)  # positive contributions only
        cam = 0.5 * cam + 0.5 * torch.eye(cam.shape[0])
        relevancy = torch.matmul(cam, relevancy)
 
    visual_relevancy = relevancy[target_token_idx, visual_token_range]
    grid_size = int(np.sqrt(len(visual_relevancy)))
    return visual_relevancy.reshape(grid_size, grid_size).cpu().numpy()

4.4 분석 체계: 3단계 비교

Level 1: 모델 내 비교 (Intra-model)

동일 모델에서 동일 이미지에 대해 서로 다른 출력 토큰의 attention 비교:

동일 이미지 (e.g., 여성-슬픔 표정):
  ├── "sadness" 토큰 생성 시 attention → Map_emotion
  ├── valence 값 생성 시 attention    → Map_valence
  └── arousal 값 생성 시 attention    → Map_arousal

비교: Map_emotion vs Map_valence vs Map_arousal
  → "감정 분류와 VA 평정이 같은 시각적 근거에 기반하는가?"

Level 2: 모델 간 비교 (Inter-model)

동일 이미지에 대해 3개 모델의 attention 패턴 비교:

동일 이미지 (e.g., 여성-슬픔 표정):
  ├── Qwen2.5-VL의 "sadness" attention → Map_qwen
  ├── LLaVA의 "sadness" attention      → Map_llava
  └── Phi-3.5의 "sadness" attention    → Map_phi

비교: 3개 모델이 같은 얼굴 영역에 주목하는가?
  → "AI 아키텍처가 달라도 감정 판단의 시각적 근거는 수렴하는가?"

Level 3: 인구통계 비교 (Cross-demographic)

동일 감정에 대해 남성/여성 (또는 인종별) attention 비교:

Sadness 감정:
  ├── 남성 얼굴 120개의 평균 attention → Mean_male
  ├── 여성 얼굴 120개의 평균 attention → Mean_female
  └── ΔAttention = Mean_male - Mean_female

비교: AI는 남성과 여성의 슬픔을 "다른 곳"을 보며 판단하는가?
  → Gender bias의 시각적 메커니즘 직접 관찰

4.5 정량적 분석 지표

지표	목적	산출 방법
Region Attention Ratio	7개 얼굴 영역별 attention 비율	Σ(attn ∩ region) / Σ(attn)
Attention Entropy	attention의 분산/집중 정도	H = -Σ p_i log p_i
Cross-model Concordance	모델 간 attention 패턴 유사도	Spearman ρ between flattened maps
Gender Attention Gap	성별 간 attention 차이의 통계적 유의성	Permutation test + Wasserstein distance
Human-AI Attention Alignment	인간 시선 패턴(문헌)과의 일치도	7분할 영역 attention 분포 비교

5. 리뷰어 대응 분석

5.1 기존 지적에 대한 대응력 평가

CHI26 지적	기존 접근	VLM 접근	대응 수준
M1: 2개 경량 모델	ENet-B0 + MobileViT (동일 pipeline)	3개 VLM (서로 다른 기업, 아키텍처)	✅ 완전 해소
C3: 모델 귀속 오류	Savchenko 미인용	공식 HuggingFace 모델, 명확한 출처	✅ 완전 해소
지적 3: Bias 원인 미탐색	Grad-CAM 미활용	Token-level attention으로 직접 관찰	✅ 근본 해결
C1: Correlation ≠ Agreement	Spearman only	CCC 병행 + VLM의 자연어 출력 직접 비교	⚠️ 여전히 통계 보강 필요
지적 1: 정적 자극	—	VLM도 정적 이미지 처리 → 동일 한계	❌ 미해결
C2: 자극 validation	미검증	— → 별도 대응 필요	❌ 미해결

5.2 AI 대표성 방어 논거

M1 Max 32GB에서 실행 가능한 7-8B VLM으로 “AI 대표성”을 방어할 수 있는가?

방어 가능한 논거

패러다임 다양성이 규모보다 중요: 7B VLM이라도 discriminative classifier와는 근본적으로 다른 패러다임. 동일 규모의 다른 discriminative 모델을 10개 추가하는 것보다, 1개의 generative VLM을 추가하는 것이 아키텍처 다양성 측면에서 더 큰 기여.
Scaling law 논거: VLM의 emotion recognition 성능은 모델 규모와 강한 양의 상관 (NAACL Findings 2025). 7B 모델에서 관찰된 패턴은 더 큰 모델에서도 유지되거나 강화될 가능성이 높음. 이를 “lower bound of AI capability”로 프레이밍 가능.
실증적 근거: GPT-4(~1.8T)의 zero-shot valence r=0.87은 open-source 7B VLM에서도 유사하게 관찰됨 (근사치, 정확한 벤치마크는 실험으로 확인 필요).
3개 다른 기업/아키텍처: Alibaba(Qwen), Meta+학계(LLaVA), Microsoft(Phi) — training data, 아키텍처, 목적이 모두 다름.
기존 분류 모델 결과도 유지: VLM 결과를 기존 EmotiEffLib 결과와 비교함으로써, “분류 모델 vs. 생성 모델”이라는 새로운 비교 축을 추가. 이는 더 풍부한 분석을 가능케 함.

잠재적 반론 및 대응

반론	대응
”7B는 frontier AI가 아님"	"We characterize these as a lower bound; larger models are expected to show equal or greater capability (scaling law). Our focus is on the generative multimodal paradigm, not absolute scale."
"Quantized 모델은 성능 저하”	4-bit 양자화의 성능 저하는 일반적으로 1-3% (GPTQ/AWQ). Emotion recognition처럼 세밀한 판단에서의 영향을 실험적으로 보고.
”VLM의 감정 지식이 text data에서 온 것”	이것이 오히려 장점: “AI의 감정 이해는 시각적 특징만이 아니라 언어적/문화적 지식도 포함해야 한다”는 논거. 인간의 감정 인식도 순수 시각이 아닌 개념적 지식에 기반 (Barrett, 2017 Constructed Emotion Theory).
”프롬프트에 따라 결과가 달라짐”	Prompt sensitivity 실험을 포함하여 robustness를 검증. 3가지 프롬프트 변형으로 일관성 테스트.

5.3 원고에서의 프레이밍 전략

기존 프레이밍 (CHI26):

“We compared human emotion perception with two AI models based on distinct computational architectures.”

제안 프레이밍 (CHI27):

“We compare human emotional perception with modern AI systems across two fundamentally different paradigms: (1) task-specific discriminative classifiers trained on emotion datasets, and (2) general-purpose vision-language models with zero-shot emotion understanding capabilities. This dual-paradigm approach captures both specialized and general AI perspectives on facial emotion recognition, addressing the representativeness concern of testing a single AI paradigm.”

6. 한계점 및 대응 전략

6.1 기술적 한계

한계	심각도	대응
Attention ≠ Explanation: Attention이 반드시 인과적 설명을 제공하지는 않음 (Jain & Wallace, 2019)	MAJOR	Discussion에서 한계로 명시. Attention rollout + relevancy map 병행으로 강건성 확보
VLM의 context bias: 배경에 강하게 영향받음	MAJOR	얼굴만 crop하여 배경 제거. 프롬프트에서 “focus only on facial features” 명시
Prompt sensitivity: 프롬프트 표현에 따라 결과 변동	MAJOR	3가지 프롬프트 변형으로 robustness 실험. 변동 범위를 정량적으로 보고
양자화 영향: 4-bit 양자화가 미세한 감정 판단에 영향	MAJOR (v2 상향)	FP16 vs 4-bit 비교 실험 (subset 100-200개) 필수. 특히 contempt/fear/disgust 등 혼동 잦은 감정에서 감정별 성능 저하를 보고. VA 연속값의 상관계수도 양자화 전후 비교
MLX에서 attention 추출: mlx-vlm이 attention weight 반환을 기본 지원하지 않을 수 있음	MAJOR	HuggingFace transformers로 fallback하여 CPU/MPS 추론. 속도는 느리지만 가능

6.2 개념적 한계

한계	심각도	대응
Zero-shot vs. Fine-tuned 비교: VLM(zero-shot)과 기존 모델(fine-tuned)은 공정한 비교가 아닐 수 있음	MAJOR	이것을 약점이 아닌 연구 설계의 의도적 선택으로 프레이밍: “We deliberately compare zero-shot VLMs to test AI’s general emotion understanding without task-specific training”
VLM이 학습 데이터에서 감정 label을 이미 학습: Data contamination 가능성	MODERATE	AffectNet 등 학술 데이터셋의 직접적 학습 여부는 불확실하나, 웹 데이터에서 감정-표정 연관을 학습했을 가능성 높음. 이것을 “world knowledge”로 프레이밍

7. 구현 계획 및 일정

Phase 1: 환경 구축 및 파일럿 (1주)

MLX-VLM 설치 및 3개 모델 다운로드
10개 샘플 이미지로 파일럿 추론
Attention 추출 파이프라인 프로토타입 구현
프롬프트 변형 테스트 (3가지 × 10이미지)
출력 파싱 정확도 검증

Phase 2: 본 실험 (2주)

전체 2,880개 이미지 × 3 모델 × 3 task 추론
응답 파싱 및 정리
Attention map 추출 및 저장 (25,920개)

Phase 3: 분석 (1주)

Aggregate attention map 생성
Level 1/2/3 비교 분석
정량적 지표 산출
CCC/ICC 산출 (Human-VLM agreement)

Phase 4: 집필 (1주)

Methods 섹션 작성
Results 섹션 작성 (attention 시각화 포함)
Discussion 섹션 업데이트
리뷰어 대응 표 작성

8. 참고문헌

Alrasheed, H. et al. (2025). Evaluating the capacity of large language models to interpret emotions in images. PLOS One.
Bai, S. et al. (2025). Qwen2.5-VL Technical Report. arXiv:2502.13923.
Barrett, L. F. (2017). How Emotions Are Made: The Secret Life of the Brain. Houghton Mifflin Harcourt.
Chefer, H. et al. (2021). Transformer Interpretability Beyond Attention Visualization. CVPR.
Huo, Y. et al. (2024). Towards Interpreting Visual Information Processing in Vision-Language Models. arXiv:2410.07149.
Jain, S. & Wallace, B. C. (2019). Attention is not Explanation. NAACL.
Ma, F. et al. (2025). Multimodal Prompt Alignment for Facial Expression Recognition. ICCV 2025.
Papadopoulos, K. et al. (2024). LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models. arXiv:2404.03118.
Phan, A. T. et al. (2025). Evaluating Vision-Language Models for Emotion Recognition. NAACL Findings.
Wang, B. et al. (2024). Mitigating Context Bias in Vision-Language Models via Multimodal Emotion Recognition. Electronics.

9. 에이전트 검토 종합 (v2 추가)

9.1 검토 에이전트 개요

에이전트	관점	핵심 판정
Hinton Persona	아키텍처/표현학습/직관	방향은 옳으나 attention을 과신, perturbation 실험 필수
AI/ML Reviewer	기술적 엄밀성/벤치마크	GPT-4o subset 비교 필요, label order randomization 누락
Ruthless Reviewer	전략적 판단/리스크 평가	전면 교체는 과도, 하이브리드 전략 강력 권고

9.2 에이전트 간 완전 수렴 (3/3 동의)

#	수렴 포인트	조치
1	”전면 교체”가 아닌 “하이브리드”가 최적	v2에서 전략 변경 완료
2	Attention ≠ Explanation: 인과적 해석 과장 금지	”information routing pattern”으로 재프레이밍
3	4-bit 양자화 영향은 MAJOR: 미세 감정 판별에서 degradation 가능	FP16 vs 4-bit 비교 실험 필수화
4	MLX attention 추출이 blocking issue: 확인 전까지 설계 확정 불가	Phase 1 최우선 검증 항목
5	원 논문의 모델 무관 CRITICAL 이슈 3건 미해결	통계(CCC), 자극 validation, Hess 인용 — 별도 대응 필수

9.3 Hinton 에이전트 핵심 지적

”Attention is not Explanation” — 과장이 아닌 구조적 문제

Attention weight는 정보 라우팅의 한 경로를 보여줄 뿐, 모델이 왜 그 결정을 내렸는지의 인과적 설명이 아니다. 특히: (1) MLP layer가 attention 이후 representation을 근본적으로 변환하는데 이것이 무시됨, (2) Layer 평균이 의미론적으로 정당화되지 않음 (초기 layer = low-level features, 후기 layer = semantic concepts), (3) Attention rollout이 깊은 네트워크에서 uniform으로 수렴하는 경향.

조치: Section 4.1의 비교표에서 인과성 관련 과장 철회 (v2 완료). 방법 C (Chefer relevancy)를 primary로 승격하되, MLX에서 gradient 계산 가능 여부를 Phase 1에서 우선 검증.

Perturbation Experiment 추가 필요 (v2 신규)

VLM이 얼굴의 시각적 특징을 분석해서 판단한 것인지, 이미지 embedding이 학습 시 “sadness” 텍스트와 가까웠던 패턴을 활성화한 것인지 구분해야 한다. 이를 위해 얼굴 영역 가림(occlusion) 실험이 필수적이다.

추가 실험 설계:

Perturbation Conditions (subset 200개 이미지):
  ├── Original: 전체 얼굴
  ├── Eyes-occluded: 눈 영역 가림 (눈썹 포함)
  ├── Mouth-occluded: 입 영역 가림
  ├── Upper-face-only: 눈+눈썹만 노출
  ├── Lower-face-only: 입+턱만 노출
  └── Scrambled: 얼굴 패치 무작위 재배치 (통제 조건)

분석: 각 조건에서의 감정 분류 정확도 변화
  → Attention이 집중된 영역을 가렸을 때 성능이 떨어지면
     → Attention이 실제 판단 근거와 일치한다는 인과적 증거
  → 집중 영역을 가려도 성능이 유지되면
     → Attention이 정보 흐름을 정확히 반영하지 못한다는 증거

3-모델 다양성의 한계 인정

Qwen, LLaVA, Phi 모두 “ViT + autoregressive LLM” 구조. 이를 “아키텍처 다양성 극대화”라고 주장하면 CHI26과 같은 비판 반복. **Within-paradigm variation + cross-paradigm comparison (vs. discriminative)**으로 정직하게 프레이밍해야 한다.

조치: Section 2.3에 정직한 서술 추가 (v2 완료).

Temperature 0.0에서의 Attention 왜곡 가능성

Temperature 0.0은 softmax를 극도로 sharp하게 만든다. 이 상태에서의 attention distribution이 모델의 ‘자연스러운’ 정보 처리를 반영하는지 불확실하다.

조치: Subset에서 temperature 0.0 vs. 0.3 vs. 0.7에서의 attention 분포 비교 파일럿 추가.

9.4 AI/ML Reviewer 핵심 지적

GPT-4o API Subset 비교 필요

7B 로컬 모델만으로 “VLM”을 대표한다는 비판에 대비하여, GPT-4o API로 100-200개 subset 추론을 수행하고 로컬 모델과 비교. “로컬 7B 모델의 패턴이 frontier 모델에서도 유지됨”을 보이면 대표성 방어가 크게 강화됨.

조치: Phase 1 파일럿에 GPT-4o API 비교 포함. 비용 추정: 200개 이미지 × 3 task × $0.01/ ima g e \approx$ 6.

Label Order Randomization 누락

프롬프트에서 감정 label이 항상 “happiness, sadness, anger, fear, surprise, disgust, contempt, neutral” 순서로 제시됨. VLM은 primacy/recency bias가 있어 순서에 영향받을 수 있음.

조치: 3가지 프롬프트 변형에 label 순서 무작위화 포함.

Dual-Paradigm 유지 강력 권고

기존 discriminative 모델 결과를 버리지 말 것. “Task-specific model (fine-tuned on emotion data) vs. General-purpose VLM (zero-shot)“이라는 비교가 VLM만 쓰는 것보다 학술적으로 더 풍부.

조치: v2에서 하이브리드 전략으로 전환 완료.

9.5 Ruthless Reviewer 핵심 지적

원 논문의 4건 CRITICAL 해결 현황

CRITICAL 이슈	VLM 전환으로 해결?	별도 조치 필요?
C1: Spearman ≠ Agreement	❌	CCC 추가 산출 (기존 데이터로 가능)
C2: 자극 validation	❌	최소 1문장 validation + supplementary
C3: 모델 귀속 오류	✅ (VLM은 출처 명확)	—
C4: Hess et al. 인용 오독	❌	인용 내용 수정 (텍스트 작업)

결론: VLM 전환은 C3만 해결하고, C1/C2/C4는 별도 작업 필요. 이를 병행해야 한다.

”Novelty Chasing” 리스크

실행 난이도를 높이면서 해결하는 문제의 비율이 낮음. 더 단순한 대안(기존 모델에 3-5개 discriminative 모델 추가)으로도 M1 비판에 대응 가능하며, 추가 리스크 없음.

반론 및 조치: VLM attention 분석은 “bias 원인 탐색 부족”(지적 3)에 대한 직접적 대응이라는 점에서 단순 모델 추가보다 학술적 기여가 큼. 다만 하이브리드 전략으로 리스크를 분산하여, VLM attention이 기술적으로 실패해도 논문이 성립하도록 설계.

9.6 v2 수정된 blocking issues 및 우선순위

[Phase 0: Blocking Issue 검증 — 3일 이내]
  1. MLX에서 attention weight 추출 가능 여부 확인
     → 가능: MLX 파이프라인 사용
     → 불가능: HuggingFace transformers + MPS fallback
     → MPS도 불가능: CPU 추론 (속도 대폭 저하, subset으로 축소)
  2. MLX에서 gradient 계산 가능 여부 확인 (방법 C용)
     → 불가능: 방법 A + B만 사용, relevancy map 포기
  3. FP16 vs 4-bit 양자화 파일럿 (이미지 20개)
     → 감정별 정확도 차이 5%p 이상: 양자화 전략 재고
     → 5%p 미만: 4-bit로 진행

[Phase 1: 환경 구축 및 파일럿 — 1주]
  + Blocking issues 해결 확인
  + GPT-4o API subset 비교 (100-200개)
  + Perturbation experiment 파일럿 (이미지 20개 × 6 조건)
  + Temperature 비교 파일럿 (0.0 vs 0.3 vs 0.7, 이미지 20개)
  + Label order randomization 테스트

[Phase 2-4: 기존 일정 유지 (본 실험 → 분석 → 집필)]

[병행 작업: VLM과 무관한 CRITICAL 이슈 수정]
  - B1: CCC/ICC 산출 (기존 인간-AI 데이터)
  - A5: Hess et al. (2004) 인용 수정
  - A4: Savchenko 정확한 인용
  - B3: 다중비교 보정 (BH-FDR)
  - 자극 validation 최소 1문장 추가

10. VLM 모델별 M1 Max 32GB 적합성 상세 평가

10.1 실행 가능성 매트릭스

모델	4-bit 메모리	FP16 메모리	M1 Max 32GB 실행	Attention 추출	총평
Qwen2.5-VL-7B	~5GB	~15GB	✅ 여유	⚠️ MLX 검증 필요	Primary 추천
LLaVA-NeXT-7B	~4.5GB	~14GB	✅ 여유	✅ LVLM-Interpret 도구 존재	Attention 분석 최적
Phi-3.5-Vision	~3GB	~8.5GB	✅ 매우 여유	⚠️ MLX 검증 필요	경량 비교용
Qwen2.5-VL-32B	~18GB	~64GB	❌ 4-bit도 빠듯	—	64GB Mac 이상 필요
Qwen3-VL-8B	~5.5GB	~16GB	✅ 여유	⚠️ 최신, 도구 미성숙	대안 (최신 아키텍처)
InternVL2-8B	~5.5GB	~16GB	✅ 여유	⚠️ InternViT 특수 구조	대안 (다른 vision encoder)

10.2 “AI 대표성” 방어 등급

구성	방어 강도	근거
3개 VLM만 (7B)	⭐⭐	“경량 VLM도 경량 분류기의 반복 아닌가” 비판 가능
3개 VLM + GPT-4o subset	⭐⭐⭐⭐	Frontier 모델과의 패턴 일치 보이면 강력한 방어
3개 VLM + 기존 discriminative 유지	⭐⭐⭐	Cross-paradigm 비교가 다양성의 핵심 축
3개 VLM + GPT-4o subset + 기존 discriminative	⭐⭐⭐⭐⭐	최적: paradigm 다양성 + scale 다양성 + 실증 검증

10.3 최종 권고 구성

Paradigm A (Discriminative, Fine-tuned):
  ├── EfficientNet-B0 VA MTL (Savchenko) — 기존
  ├── MobileViT VA MTL (Savchenko) — 기존
  ├── EmoNet — 기존 (다른 pipeline)
  └── (선택) PosterV2 or Wtomin MTL — 기존 자산 활용

Paradigm B (Generative VLM, Zero-shot):
  ├── Qwen2.5-VL-7B-Instruct (4-bit, 로컬)
  ├── LLaVA-NeXT-7B-Mistral (4-bit, 로컬)
  ├── Phi-3.5-Vision (4-bit, 로컬)
  └── GPT-4o (API, 100-200개 subset) — frontier 벤치마크

총 AI 모델 수: 6-7개 (2개 패러다임, 4+ 기업, 3+ training pipeline)
→ CHI26의 "N=2 동일 pipeline" 비판 완전 해소

11. 종합 평가

접근법의 강점

Dual-paradigm 비교는 CHI 커뮤니티에서 높이 평가될 가능성이 높음
Token-level attention granularity는 기존 Grad-CAM이 제공하지 못하는 새로운 분석 차원
GPT-4o subset 비교로 “로컬 7B가 frontier AI 패턴의 lower bound”를 실증하면 방어력 극대화
기존 자산(N=1,000, 4,320 Grad-CAM) 유지로 리스크 분산

접근법의 리스크

리스크	발생 확률	영향	대응
MLX attention 추출 불가	중간	높음	HF transformers fallback, subset 축소
4-bit 양자화 성능 저하 심각	낮음	중간	FP16 subset으로 대체 보고
VLM이 감정 분류에서 매우 낮은 성능	낮음	높음	그 자체가 흥미로운 발견 — “범용 AI의 한계”로 프레이밍
Attention 분석 결과가 해석 불가능	중간	중간	Perturbation experiment 결과에 의존
실행 시간 초과	낮음	중간	Task 수를 3→2로 축소, subset 전략

CHI 2027 수용 가능성 추정

시나리오	확률
VLM만 (기존 모델 제거, attention만 강조)	20-30%
하이브리드 + 통계 보강만 (attention 없이)	40-50%
하이브리드 + 통계 보강 + attention 분석 + perturbation	55-65%
위 + GPT-4o 비교 + 자극 validation	65-75%

v2 문서 상태: 3개 에이전트 피드백 통합 완료. Phase 0 (blocking issues 검증) 진행 후 실험 확정 예정.

vlm-experiment-design