VLM 기반 감정 인식 실험 설계: CHI 2027 재투고 전략
문서 버전: v2.0 (2026-02-20)
목적: CHI26 desk-reject 피드백 대응 — 하이브리드 전략 (기존 모델 유지 + VLM 추가)
상태: v1 초안 → 3개 에이전트 검토 완료 → v2 피드백 통합본
검토 에이전트: Hinton Persona, AI/ML Reviewer, Ruthless Paper Reviewer
1. 배경 및 동기
1.1 CHI26 리뷰어 지적 요약
CHI26 리뷰어와 3개 독립 평가 에이전트가 공통으로 지적한 핵심 문제:
“Testing only two lightweight models does not cover a wider range of AI architectures, potentially limiting the representativeness of the conclusions.”
평가 보고서(v2)의 진단:
- 두 모델(EfficientNet-B0, MobileViT)은 동일 프레임워크(Savchenko EmotiEffLib)에서 동일 training pipeline으로 학습
- 실질적으로 backbone 변이 비교에 불과
- 경량 분류 모델 2개로 “AI”를 일반화하는 것은 N=2 실험에서 population-level 결론을 내리는 것과 동치
1.2 전략적 전환: 하이브리드 접근 (Dual-Paradigm)
v2 수정: 3개 에이전트 검토 결과, “전면 교체”가 아닌 **“하이브리드 전략”**이 최적이라는 합의가 도출됨. 기존 discriminative 모델 결과를 유지하면서 VLM을 추가하는 dual-paradigm 비교가 연구의 폭과 리뷰어 대응력을 모두 극대화한다.
왜 전면 교체가 아닌 하이브리드인가
- 원 논문의 4건 CRITICAL 중 3건은 모델과 무관: 통계 방법론(C1), 자극 검증(C2), Hess 인용 오독(C4)은 VLM으로 교체해도 해결되지 않음
- 기존 자산 활용: 이미 생성된 4,320개 Grad-CAM, N=1,000 인간 평정 데이터, 5개 모델 파이프라인이 있음
- 비교의 풍부함: “Discriminative vs. Generative”라는 새로운 비교 축이 단순 모델 교체보다 학술적 기여가 큼
- 리스크 분산: VLM attention 추출이 기술적으로 실패해도 기존 분석은 유지됨
| 차원 | Paradigm A: Discriminative (기존 유지) | Paradigm B: Generative VLM (신규 추가) |
|---|---|---|
| 패러다임 | Supervised classification | Generative multimodal reasoning |
| 학습 데이터 | AffectNet (~450K faces) | Web-scale multimodal data (수조 토큰) |
| 감정 지식 | Supervised labels only | World knowledge + 언어적 감정 이해 |
| 추론 방식 | Softmax over fixed classes | 자연어 기반 open-ended 추론 |
| 해석 가능성 | Grad-CAM (post-hoc) | Attention maps (token-level granularity) |
| 대표성 | Task-specific 전문 모델 | 현대 범용 AI 시스템 |
| 연구 내 역할 | Baseline (이미 확보) | 추가 비교 축 |
1.3 왜 VLM을 추가하는가
- 패러다임 다양성: Discriminative + Generative 양 패러다임 비교로 “동일 pipeline” 비판 근본 해소
- 현대 AI 대표성: GPT-4V, Claude, Gemini 등 실제 배포되는 AI는 VLM 기반 — 연구의 생태적 타당성(ecological validity) 향상
- 토큰 수준의 세분화된 분석: Grad-CAM(전체 출력에 대한 단일 맵)과 달리, 각 생성 토큰별 개별 attention 분포를 관찰 가능 — 감정 label/valence/arousal 판단의 시각적 근거를 분리 가능
- Zero-shot 능력: 감정 데이터에 fine-tuning하지 않은 상태에서의 판단 → “AI의 일반적 감정 이해 능력” 평가에 적합
- 선행 연구 근거: GPT-4가 zero-shot에서 valence r=0.87, arousal r=0.72를 달성 (Alrasheed et al., PLOS One 2025) — VLM의 감정 인식 능력이 실증됨
v2 주의: Attention을 “explanation”이 아닌 **“information routing pattern”**으로 프레이밍해야 함 (Hinton 에이전트 지적). Attention weight는 정보 라우팅의 한 경로를 보여줄 뿐, 모델이 왜 그 결정을 내렸는지의 인과적 설명이 아님.
2. VLM 선정
2.1 하드웨어 제약
| 항목 | 사양 |
|---|---|
| 장치 | MacBook Pro M1 Max |
| 통합 메모리 | 32GB |
| 가용 메모리 (추정) | ~24GB (OS + 백그라운드 제외) |
| 추론 프레임워크 | MLX (Apple Silicon 최적화) via mlx-vlm |
| 양자화 | 4-bit 양자화 필수 |
2.2 후보 모델 비교
| 모델 | 파라미터 | 4-bit 메모리 | Vision Encoder | LLM Backbone | MLX 지원 | 특징 |
|---|---|---|---|---|---|---|
| Qwen2.5-VL-7B | 7.6B | ~5GB | ViT (Dynamic Resolution) | Qwen2.5-7B | ✅ | M-RoPE, 동적 해상도, MMMU 62.0 |
| Qwen3-VL-8B | 8.2B | ~5.5GB | ViT (Dynamic Resolution) | Qwen3-8B | ✅ | 최신(2025.10), thinking mode 지원 |
| LLaVA-NeXT-7B | 7B | ~4.5GB | CLIP ViT-L/14 | Vicuna-7B | ✅ | 잘 연구된 아키텍처, 해석 도구 풍부 |
| Phi-3.5-Vision | 4.2B | ~3GB | CLIP ViT | Phi-3.5-mini | ✅ | 경량, 빠른 추론, Microsoft |
| InternVL2-8B | 8B | ~5.5GB | InternViT-6B | InternLM2-7B | ✅ | 강력한 vision encoder |
| MiniCPM-V 2.6 | 8B | ~5GB | SigLip-400M | Qwen2-7B | ✅ | 모바일 최적화, 효율적 |
2.3 추천 구성: 3-모델 체제
리뷰어 비판(“2개 모델로 AI 일반화 불가”)에 대응하기 위해 최소 3개 VLM을 사용한다.
| 역할 | 추천 모델 | 선정 근거 |
|---|---|---|
| Primary | Qwen2.5-VL-7B-Instruct | 동적 해상도(얼굴 세부 포착에 유리), MMMU 벤치마크 상위, M-RoPE |
| Secondary | LLaVA-NeXT-7B (Mistral) | 가장 많이 연구된 VLM, 해석 도구(LVLM-Interpret) 직접 적용 가능 |
| Tertiary | Phi-3.5-Vision | 더 작은 규모(4.2B), Microsoft, 소형 VLM의 감정 이해 한계 탐색 |
메모리 동시 사용: 3개 모델 합계 ~12.5GB (4-bit) → 32GB에서 순차 추론 시 여유 충분
v2 아키텍처 다양성에 대한 정직한 서술 (Hinton 에이전트 지적):
3개 모델 모두 “ViT variant + autoregressive LLM” 구조를 공유한다. Vision encoder(ViT 기반)와 language decoder(autoregressive transformer)의 조합이라는 점에서 구조적 유사성이 존재한다. 이를 “아키텍처 다양성을 극대화했다”고 주장하는 것은 과장이다.
정직한 프레이밍: “현재 지배적인 VLM 패러다임(ViT + autoregressive LLM) 내에서, vision encoder의 설계(동적 해상도 vs. CLIP 고정 해상도), LLM backbone(Qwen vs. Mistral vs. Phi), 그리고 학습 데이터/기업이 서로 다른 3개 모델을 비교한다. 이들은 패러다임 내 변이(within-paradigm variation)를 대표하며, 기존 discriminative 모델과의 cross-paradigm 비교가 아키텍처 다양성의 주축이다.”
2.4 실행 환경 설정
# MLX-VLM 설치
uv add mlx-vlm
# 모델 다운로드 (4-bit 양자화 버전)
# Qwen2.5-VL-7B
python -m mlx_vlm.generate \
--model mlx-community/Qwen2.5-VL-7B-Instruct-4bit \
--max-tokens 100 --temperature 0.0 \
--image test.jpg --prompt "Describe the emotion."
# LLaVA-NeXT-7B
python -m mlx_vlm.generate \
--model mlx-community/llava-v1.6-mistral-7b-4bit \
--max-tokens 100 --temperature 0.0 \
--image test.jpg --prompt "Describe the emotion."
# Phi-3.5-Vision
python -m mlx_vlm.generate \
--model mlx-community/Phi-3.5-vision-instruct-4bit \
--max-tokens 100 --temperature 0.0 \
--image test.jpg --prompt "Describe the emotion."3. 실험 설계
3.1 자극 (Stimuli)
기존 CHI26 논문의 자극을 그대로 활용:
- GIST-AIFaceDB: 240 identities × 6 emotions × 2 genders × 3 races = 2,880 images
- 각 이미지는 정면 얼굴, 배경 제거 (또는 단색 배경)
중요: 배경 제거가 필수적. VLM은 context bias가 강하게 작용하며 (Electronics 2025), 배경에 따라 93%의 동일 표정이 다르게 해석될 수 있음. 얼굴만 제시하여 순수한 표정 기반 판단을 유도해야 함.
3.2 프롬프트 설계
Task 1: 감정 분류 (Emotion Classification)
[System Prompt]
You are an expert in facial expression analysis. Your task is to
analyze the emotional expression shown in the provided face image.
Focus only on the facial features — ignore any background or context.
[User Prompt]
Look at this person's facial expression carefully.
Step 1: Identify the primary emotion expressed.
Choose exactly one from: happiness, sadness, anger, fear, surprise,
disgust, contempt, neutral.
Step 2: Rate your confidence (0-100%).
Respond in this exact format:
Emotion: [emotion]
Confidence: [number]%
Task 2: Valence-Arousal 회귀 (VA Regression)
[System Prompt]
You are an expert in dimensional emotion analysis using the
Circumplex Model of Affect (Russell, 1980). Your task is to rate
the emotional dimensions of a facial expression.
[User Prompt]
Examine this person's facial expression carefully.
Rate the following two dimensions:
1. Valence: How pleasant or unpleasant is this expression?
Scale: -1.0 (very unpleasant) to +1.0 (very pleasant)
Reference: -1.0 = extreme distress, 0.0 = neutral, +1.0 = extreme joy
2. Arousal: How activated or calm is this expression?
Scale: -1.0 (very calm/sleepy) to +1.0 (very excited/activated)
Reference: -1.0 = deep relaxation, 0.0 = neutral alertness, +1.0 = intense activation
Respond in this exact format:
Valence: [number]
Arousal: [number]
Task 3: 통합 판단 (Classification + VA + 근거)
[System Prompt]
You are an expert facial expression analyst. Analyze the emotion
shown in this face image using both categorical and dimensional
approaches. Focus only on facial features.
[User Prompt]
Analyze this facial expression:
1. Primary emotion (choose one): happiness, sadness, anger, fear,
surprise, disgust, contempt, neutral
2. Valence (-1.0 to +1.0): how pleasant/unpleasant
3. Arousal (-1.0 to +1.0): how activated/calm
4. Key facial cues: briefly describe which facial features
(eyes, mouth, brows, etc.) informed your judgment
Format:
Emotion: [emotion]
Valence: [number]
Arousal: [number]
Cues: [description]
3.3 프롬프트 설계 근거
| 설계 원칙 | 근거 |
|---|---|
| 구조화된 응답 형식 | VLM의 출력을 파싱하여 정량적 비교 가능, 토큰 위치 식별 용이 |
| Zero-shot | Fine-tuning 없이 모델의 “일반적 감정 이해” 평가 — 데이터 오염 우려 최소화 |
| Temperature 0.0 | 결정론적 출력으로 재현성 확보 |
| 얼굴에만 집중 지시 | Context bias 완화 (Mitigating Context Bias, Electronics 2025) |
| Circumplex Model 명시 | 차원적 감정 모델의 이론적 프레임 제공 → 평정 기준 통일 |
| Task 분리 | 감정 분류와 VA 회귀를 별도 프롬프트로 분리 → attention 분석 시 혼동 방지 |
3.4 실험 절차
For each image (N=2,880):
For each model (N=3: Qwen2.5-VL, LLaVA-NeXT, Phi-3.5-Vision):
For each task (N=3: Classification, VA, Integrated):
1. Load image + prompt
2. Generate response (temperature=0.0, max_tokens=150)
3. Parse structured output → (emotion, confidence, valence, arousal)
4. Extract attention maps (Section 4)
5. Store: response + attention weights + metadata
Total inference runs: 2,880 × 3 × 3 = 25,920
Estimated time (M1 Max): ~3-5 sec/image → ~22-36 hours total
4. Attention 분석 방법론
4.1 VLM Attention의 구조적 이해
v2 핵심 수정 (Hinton 에이전트): “Attention은 Grad-CAM보다 우월하다”는 v1의 프레이밍을 철회한다. 둘 다 다른 방식으로 불완전한 도구이며, 장단점이 다르다. Grad-CAM은 gradient를 사용하므로 output을 실제로 변화시키는 입력의 기여도를 측정한다는 점에서 인과적 해석에 더 가깝다. Attention은 정보 라우팅일 뿐, 그 경로가 출력에 인과적으로 기여했다는 보장이 없다.
VLM attention과 Grad-CAM의 비교:
| 특성 | Grad-CAM (Paradigm A) | VLM Attention (Paradigm B) |
|---|---|---|
| 유형 | Gradient-based post-hoc | Built-in self-attention |
| 인과성 | Gradient = output에 대한 입력의 기여도 → 인과 해석에 더 가까움 | Attention = 정보 라우팅 경로 → 인과적 보장 없음 |
| 세분화 | 전체 출력에 대한 단일 맵 | 각 생성 토큰별 개별 맵 ← 이것이 핵심 장점 |
| 한계 | Post-hoc, class-specific | MLP 이후 변환 무시, layer 간 해석 모호 |
| 상보성 | 감정별 중요 영역 식별 | 토큰별 시각적 근거 분리 |
VLM attention의 genuine한 장점은 “더 나은 해석”이 아니라 “토큰 수준의 세분화(token-level granularity)“이다. “happiness”라는 단어를 생성할 때 vs. “0.8”이라는 valence 수치를 생성할 때 다른 영역을 보는지 비교할 수 있다는 것이 Grad-CAM으로는 불가능한 분석이다.
4.2 핵심 혁신: 토큰별 Attention Extraction
VLM의 가장 큰 장점은 생성하는 각 토큰이 시각 토큰에 대해 개별적인 attention 분포를 갖는다는 것이다.
모델 출력: "Emotion: happiness"
^^^^^^^^^^
이 토큰을 생성할 때 이미지의 어디를 보았는가?
모델 출력: "Valence: 0.8"
^^^
이 수치를 생성할 때 이미지의 어디를 보았는가?
모델 출력: "Arousal: 0.3"
^^^
이 수치를 생성할 때 이미지의 어디를 보았는가?
이를 통해 다음의 비교가 가능하다:
- 감정 label 생성 시 attention vs. valence 수치 생성 시 attention vs. arousal 수치 생성 시 attention
- 동일 감정(e.g., sadness)에 대해 세 모델의 attention 패턴 비교
- 동일 모델에서 남성/여성 얼굴에 대한 attention 패턴 비교
4.3 Attention Extraction 방법
방법 A: Layer-wise Attention Aggregation
import torch
import numpy as np
def extract_token_attention_to_visual(model, outputs, target_token_idx, visual_token_range):
"""
특정 생성 토큰이 시각 토큰에 부여한 attention 가중치를 추출한다.
Args:
model: VLM 모델
outputs: 모델 출력 (attentions 포함)
target_token_idx: 관심 토큰의 인덱스 (e.g., "happiness" 토큰)
visual_token_range: 시각 토큰의 인덱스 범위 (e.g., 0:576)
Returns:
attention_map: (H, W) 크기의 spatial attention map
"""
num_layers = len(outputs.attentions)
num_heads = outputs.attentions[0].shape[1]
# 전체 layer의 attention을 평균 (또는 마지막 k개 layer만)
aggregated = torch.zeros_like(outputs.attentions[0][0, 0, target_token_idx, visual_token_range])
for layer_idx in range(num_layers):
# shape: (batch, heads, seq_len, seq_len)
attn = outputs.attentions[layer_idx]
# target token → visual tokens, head 평균
layer_attn = attn[0, :, target_token_idx, visual_token_range].mean(dim=0)
aggregated += layer_attn
aggregated /= num_layers
# Visual tokens → spatial grid (e.g., 24×24 for 336px image with 14px patches)
grid_size = int(np.sqrt(len(aggregated)))
attention_map = aggregated.reshape(grid_size, grid_size).cpu().numpy()
return attention_map방법 B: Attention Rollout (Abnar & Zuidema, 2020)
Layer 간 attention을 곱하여 누적 정보 흐름을 추적:
def attention_rollout(attentions, target_token_idx, visual_token_range):
"""
Attention rollout: 모든 layer의 attention을 순차적으로 곱하여
실제 정보 흐름 경로를 추적한다.
"""
# 첫 layer의 attention + residual connection
rollout = attentions[0][0].mean(dim=0) # head 평균
rollout = 0.5 * rollout + 0.5 * torch.eye(rollout.shape[0]) # residual
for layer_attn in attentions[1:]:
attn = layer_attn[0].mean(dim=0)
attn = 0.5 * attn + 0.5 * torch.eye(attn.shape[0])
rollout = torch.matmul(attn, rollout)
# target token에서 visual tokens로의 누적 attention
visual_attention = rollout[target_token_idx, visual_token_range]
grid_size = int(np.sqrt(len(visual_attention)))
return visual_attention.reshape(grid_size, grid_size).cpu().numpy()방법 C: Relevancy Map (Chefer et al., 2021; LVLM-Interpret 2024)
Gradient 정보를 결합하여 relevancy를 역전파:
def relevancy_map(model, outputs, target_token_idx, visual_token_range):
"""
LVLM-Interpret 방법: attention과 gradient를 결합하여
각 visual token의 relevancy score를 산출한다.
Chefer et al. (2021)의 방법을 VLM에 확장한 것으로,
attention weight만으로는 놓칠 수 있는 negative contribution도 포착.
"""
# Gradient × Attention for each layer
relevancy = torch.eye(seq_len)
for layer_idx in range(num_layers):
attn = outputs.attentions[layer_idx][0].mean(dim=0) # (seq, seq)
grad = layer_gradients[layer_idx][0].mean(dim=0) # (seq, seq)
cam = (attn * grad).clamp(min=0) # positive contributions only
cam = 0.5 * cam + 0.5 * torch.eye(cam.shape[0])
relevancy = torch.matmul(cam, relevancy)
visual_relevancy = relevancy[target_token_idx, visual_token_range]
grid_size = int(np.sqrt(len(visual_relevancy)))
return visual_relevancy.reshape(grid_size, grid_size).cpu().numpy()4.4 분석 체계: 3단계 비교
Level 1: 모델 내 비교 (Intra-model)
동일 모델에서 동일 이미지에 대해 서로 다른 출력 토큰의 attention 비교:
동일 이미지 (e.g., 여성-슬픔 표정):
├── "sadness" 토큰 생성 시 attention → Map_emotion
├── valence 값 생성 시 attention → Map_valence
└── arousal 값 생성 시 attention → Map_arousal
비교: Map_emotion vs Map_valence vs Map_arousal
→ "감정 분류와 VA 평정이 같은 시각적 근거에 기반하는가?"
Level 2: 모델 간 비교 (Inter-model)
동일 이미지에 대해 3개 모델의 attention 패턴 비교:
동일 이미지 (e.g., 여성-슬픔 표정):
├── Qwen2.5-VL의 "sadness" attention → Map_qwen
├── LLaVA의 "sadness" attention → Map_llava
└── Phi-3.5의 "sadness" attention → Map_phi
비교: 3개 모델이 같은 얼굴 영역에 주목하는가?
→ "AI 아키텍처가 달라도 감정 판단의 시각적 근거는 수렴하는가?"
Level 3: 인구통계 비교 (Cross-demographic)
동일 감정에 대해 남성/여성 (또는 인종별) attention 비교:
Sadness 감정:
├── 남성 얼굴 120개의 평균 attention → Mean_male
├── 여성 얼굴 120개의 평균 attention → Mean_female
└── ΔAttention = Mean_male - Mean_female
비교: AI는 남성과 여성의 슬픔을 "다른 곳"을 보며 판단하는가?
→ Gender bias의 시각적 메커니즘 직접 관찰
4.5 정량적 분석 지표
| 지표 | 목적 | 산출 방법 |
|---|---|---|
| Region Attention Ratio | 7개 얼굴 영역별 attention 비율 | Σ(attn ∩ region) / Σ(attn) |
| Attention Entropy | attention의 분산/집중 정도 | H = -Σ p_i log p_i |
| Cross-model Concordance | 모델 간 attention 패턴 유사도 | Spearman ρ between flattened maps |
| Gender Attention Gap | 성별 간 attention 차이의 통계적 유의성 | Permutation test + Wasserstein distance |
| Human-AI Attention Alignment | 인간 시선 패턴(문헌)과의 일치도 | 7분할 영역 attention 분포 비교 |
5. 리뷰어 대응 분석
5.1 기존 지적에 대한 대응력 평가
| CHI26 지적 | 기존 접근 | VLM 접근 | 대응 수준 |
|---|---|---|---|
| M1: 2개 경량 모델 | ENet-B0 + MobileViT (동일 pipeline) | 3개 VLM (서로 다른 기업, 아키텍처) | ✅ 완전 해소 |
| C3: 모델 귀속 오류 | Savchenko 미인용 | 공식 HuggingFace 모델, 명확한 출처 | ✅ 완전 해소 |
| 지적 3: Bias 원인 미탐색 | Grad-CAM 미활용 | Token-level attention으로 직접 관찰 | ✅ 근본 해결 |
| C1: Correlation ≠ Agreement | Spearman only | CCC 병행 + VLM의 자연어 출력 직접 비교 | ⚠️ 여전히 통계 보강 필요 |
| 지적 1: 정적 자극 | — | VLM도 정적 이미지 처리 → 동일 한계 | ❌ 미해결 |
| C2: 자극 validation | 미검증 | — → 별도 대응 필요 | ❌ 미해결 |
5.2 AI 대표성 방어 논거
M1 Max 32GB에서 실행 가능한 7-8B VLM으로 “AI 대표성”을 방어할 수 있는가?
방어 가능한 논거
-
패러다임 다양성이 규모보다 중요: 7B VLM이라도 discriminative classifier와는 근본적으로 다른 패러다임. 동일 규모의 다른 discriminative 모델을 10개 추가하는 것보다, 1개의 generative VLM을 추가하는 것이 아키텍처 다양성 측면에서 더 큰 기여.
-
Scaling law 논거: VLM의 emotion recognition 성능은 모델 규모와 강한 양의 상관 (NAACL Findings 2025). 7B 모델에서 관찰된 패턴은 더 큰 모델에서도 유지되거나 강화될 가능성이 높음. 이를 “lower bound of AI capability”로 프레이밍 가능.
-
실증적 근거: GPT-4(~1.8T)의 zero-shot valence r=0.87은 open-source 7B VLM에서도 유사하게 관찰됨 (근사치, 정확한 벤치마크는 실험으로 확인 필요).
-
3개 다른 기업/아키텍처: Alibaba(Qwen), Meta+학계(LLaVA), Microsoft(Phi) — training data, 아키텍처, 목적이 모두 다름.
-
기존 분류 모델 결과도 유지: VLM 결과를 기존 EmotiEffLib 결과와 비교함으로써, “분류 모델 vs. 생성 모델”이라는 새로운 비교 축을 추가. 이는 더 풍부한 분석을 가능케 함.
잠재적 반론 및 대응
| 반론 | 대응 |
|---|---|
| ”7B는 frontier AI가 아님" | "We characterize these as a lower bound; larger models are expected to show equal or greater capability (scaling law). Our focus is on the generative multimodal paradigm, not absolute scale." |
| "Quantized 모델은 성능 저하” | 4-bit 양자화의 성능 저하는 일반적으로 1-3% (GPTQ/AWQ). Emotion recognition처럼 세밀한 판단에서의 영향을 실험적으로 보고. |
| ”VLM의 감정 지식이 text data에서 온 것” | 이것이 오히려 장점: “AI의 감정 이해는 시각적 특징만이 아니라 언어적/문화적 지식도 포함해야 한다”는 논거. 인간의 감정 인식도 순수 시각이 아닌 개념적 지식에 기반 (Barrett, 2017 Constructed Emotion Theory). |
| ”프롬프트에 따라 결과가 달라짐” | Prompt sensitivity 실험을 포함하여 robustness를 검증. 3가지 프롬프트 변형으로 일관성 테스트. |
5.3 원고에서의 프레이밍 전략
기존 프레이밍 (CHI26):
“We compared human emotion perception with two AI models based on distinct computational architectures.”
제안 프레이밍 (CHI27):
“We compare human emotional perception with modern AI systems across two fundamentally different paradigms: (1) task-specific discriminative classifiers trained on emotion datasets, and (2) general-purpose vision-language models with zero-shot emotion understanding capabilities. This dual-paradigm approach captures both specialized and general AI perspectives on facial emotion recognition, addressing the representativeness concern of testing a single AI paradigm.”
6. 한계점 및 대응 전략
6.1 기술적 한계
| 한계 | 심각도 | 대응 |
|---|---|---|
| Attention ≠ Explanation: Attention이 반드시 인과적 설명을 제공하지는 않음 (Jain & Wallace, 2019) | MAJOR | Discussion에서 한계로 명시. Attention rollout + relevancy map 병행으로 강건성 확보 |
| VLM의 context bias: 배경에 강하게 영향받음 | MAJOR | 얼굴만 crop하여 배경 제거. 프롬프트에서 “focus only on facial features” 명시 |
| Prompt sensitivity: 프롬프트 표현에 따라 결과 변동 | MAJOR | 3가지 프롬프트 변형으로 robustness 실험. 변동 범위를 정량적으로 보고 |
| 양자화 영향: 4-bit 양자화가 미세한 감정 판단에 영향 | MAJOR (v2 상향) | FP16 vs 4-bit 비교 실험 (subset 100-200개) 필수. 특히 contempt/fear/disgust 등 혼동 잦은 감정에서 감정별 성능 저하를 보고. VA 연속값의 상관계수도 양자화 전후 비교 |
| MLX에서 attention 추출: mlx-vlm이 attention weight 반환을 기본 지원하지 않을 수 있음 | MAJOR | HuggingFace transformers로 fallback하여 CPU/MPS 추론. 속도는 느리지만 가능 |
6.2 개념적 한계
| 한계 | 심각도 | 대응 |
|---|---|---|
| Zero-shot vs. Fine-tuned 비교: VLM(zero-shot)과 기존 모델(fine-tuned)은 공정한 비교가 아닐 수 있음 | MAJOR | 이것을 약점이 아닌 연구 설계의 의도적 선택으로 프레이밍: “We deliberately compare zero-shot VLMs to test AI’s general emotion understanding without task-specific training” |
| VLM이 학습 데이터에서 감정 label을 이미 학습: Data contamination 가능성 | MODERATE | AffectNet 등 학술 데이터셋의 직접적 학습 여부는 불확실하나, 웹 데이터에서 감정-표정 연관을 학습했을 가능성 높음. 이것을 “world knowledge”로 프레이밍 |
7. 구현 계획 및 일정
Phase 1: 환경 구축 및 파일럿 (1주)
- MLX-VLM 설치 및 3개 모델 다운로드
- 10개 샘플 이미지로 파일럿 추론
- Attention 추출 파이프라인 프로토타입 구현
- 프롬프트 변형 테스트 (3가지 × 10이미지)
- 출력 파싱 정확도 검증
Phase 2: 본 실험 (2주)
- 전체 2,880개 이미지 × 3 모델 × 3 task 추론
- 응답 파싱 및 정리
- Attention map 추출 및 저장 (25,920개)
Phase 3: 분석 (1주)
- Aggregate attention map 생성
- Level 1/2/3 비교 분석
- 정량적 지표 산출
- CCC/ICC 산출 (Human-VLM agreement)
Phase 4: 집필 (1주)
- Methods 섹션 작성
- Results 섹션 작성 (attention 시각화 포함)
- Discussion 섹션 업데이트
- 리뷰어 대응 표 작성
8. 참고문헌
- Alrasheed, H. et al. (2025). Evaluating the capacity of large language models to interpret emotions in images. PLOS One.
- Bai, S. et al. (2025). Qwen2.5-VL Technical Report. arXiv:2502.13923.
- Barrett, L. F. (2017). How Emotions Are Made: The Secret Life of the Brain. Houghton Mifflin Harcourt.
- Chefer, H. et al. (2021). Transformer Interpretability Beyond Attention Visualization. CVPR.
- Huo, Y. et al. (2024). Towards Interpreting Visual Information Processing in Vision-Language Models. arXiv:2410.07149.
- Jain, S. & Wallace, B. C. (2019). Attention is not Explanation. NAACL.
- Ma, F. et al. (2025). Multimodal Prompt Alignment for Facial Expression Recognition. ICCV 2025.
- Papadopoulos, K. et al. (2024). LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models. arXiv:2404.03118.
- Phan, A. T. et al. (2025). Evaluating Vision-Language Models for Emotion Recognition. NAACL Findings.
- Wang, B. et al. (2024). Mitigating Context Bias in Vision-Language Models via Multimodal Emotion Recognition. Electronics.
9. 에이전트 검토 종합 (v2 추가)
9.1 검토 에이전트 개요
| 에이전트 | 관점 | 핵심 판정 |
|---|---|---|
| Hinton Persona | 아키텍처/표현학습/직관 | 방향은 옳으나 attention을 과신, perturbation 실험 필수 |
| AI/ML Reviewer | 기술적 엄밀성/벤치마크 | GPT-4o subset 비교 필요, label order randomization 누락 |
| Ruthless Reviewer | 전략적 판단/리스크 평가 | 전면 교체는 과도, 하이브리드 전략 강력 권고 |
9.2 에이전트 간 완전 수렴 (3/3 동의)
| # | 수렴 포인트 | 조치 |
|---|---|---|
| 1 | ”전면 교체”가 아닌 “하이브리드”가 최적 | v2에서 전략 변경 완료 |
| 2 | Attention ≠ Explanation: 인과적 해석 과장 금지 | ”information routing pattern”으로 재프레이밍 |
| 3 | 4-bit 양자화 영향은 MAJOR: 미세 감정 판별에서 degradation 가능 | FP16 vs 4-bit 비교 실험 필수화 |
| 4 | MLX attention 추출이 blocking issue: 확인 전까지 설계 확정 불가 | Phase 1 최우선 검증 항목 |
| 5 | 원 논문의 모델 무관 CRITICAL 이슈 3건 미해결 | 통계(CCC), 자극 validation, Hess 인용 — 별도 대응 필수 |
9.3 Hinton 에이전트 핵심 지적
”Attention is not Explanation” — 과장이 아닌 구조적 문제
Attention weight는 정보 라우팅의 한 경로를 보여줄 뿐, 모델이 왜 그 결정을 내렸는지의 인과적 설명이 아니다. 특히: (1) MLP layer가 attention 이후 representation을 근본적으로 변환하는데 이것이 무시됨, (2) Layer 평균이 의미론적으로 정당화되지 않음 (초기 layer = low-level features, 후기 layer = semantic concepts), (3) Attention rollout이 깊은 네트워크에서 uniform으로 수렴하는 경향.
조치: Section 4.1의 비교표에서 인과성 관련 과장 철회 (v2 완료). 방법 C (Chefer relevancy)를 primary로 승격하되, MLX에서 gradient 계산 가능 여부를 Phase 1에서 우선 검증.
Perturbation Experiment 추가 필요 (v2 신규)
VLM이 얼굴의 시각적 특징을 분석해서 판단한 것인지, 이미지 embedding이 학습 시 “sadness” 텍스트와 가까웠던 패턴을 활성화한 것인지 구분해야 한다. 이를 위해 얼굴 영역 가림(occlusion) 실험이 필수적이다.
추가 실험 설계:
Perturbation Conditions (subset 200개 이미지):
├── Original: 전체 얼굴
├── Eyes-occluded: 눈 영역 가림 (눈썹 포함)
├── Mouth-occluded: 입 영역 가림
├── Upper-face-only: 눈+눈썹만 노출
├── Lower-face-only: 입+턱만 노출
└── Scrambled: 얼굴 패치 무작위 재배치 (통제 조건)
분석: 각 조건에서의 감정 분류 정확도 변화
→ Attention이 집중된 영역을 가렸을 때 성능이 떨어지면
→ Attention이 실제 판단 근거와 일치한다는 인과적 증거
→ 집중 영역을 가려도 성능이 유지되면
→ Attention이 정보 흐름을 정확히 반영하지 못한다는 증거
3-모델 다양성의 한계 인정
Qwen, LLaVA, Phi 모두 “ViT + autoregressive LLM” 구조. 이를 “아키텍처 다양성 극대화”라고 주장하면 CHI26과 같은 비판 반복. **Within-paradigm variation + cross-paradigm comparison (vs. discriminative)**으로 정직하게 프레이밍해야 한다.
조치: Section 2.3에 정직한 서술 추가 (v2 완료).
Temperature 0.0에서의 Attention 왜곡 가능성
Temperature 0.0은 softmax를 극도로 sharp하게 만든다. 이 상태에서의 attention distribution이 모델의 ‘자연스러운’ 정보 처리를 반영하는지 불확실하다.
조치: Subset에서 temperature 0.0 vs. 0.3 vs. 0.7에서의 attention 분포 비교 파일럿 추가.
9.4 AI/ML Reviewer 핵심 지적
GPT-4o API Subset 비교 필요
7B 로컬 모델만으로 “VLM”을 대표한다는 비판에 대비하여, GPT-4o API로 100-200개 subset 추론을 수행하고 로컬 모델과 비교. “로컬 7B 모델의 패턴이 frontier 모델에서도 유지됨”을 보이면 대표성 방어가 크게 강화됨.
조치: Phase 1 파일럿에 GPT-4o API 비교 포함. 비용 추정: 200개 이미지 × 3 task × 6.
Label Order Randomization 누락
프롬프트에서 감정 label이 항상 “happiness, sadness, anger, fear, surprise, disgust, contempt, neutral” 순서로 제시됨. VLM은 primacy/recency bias가 있어 순서에 영향받을 수 있음.
조치: 3가지 프롬프트 변형에 label 순서 무작위화 포함.
Dual-Paradigm 유지 강력 권고
기존 discriminative 모델 결과를 버리지 말 것. “Task-specific model (fine-tuned on emotion data) vs. General-purpose VLM (zero-shot)“이라는 비교가 VLM만 쓰는 것보다 학술적으로 더 풍부.
조치: v2에서 하이브리드 전략으로 전환 완료.
9.5 Ruthless Reviewer 핵심 지적
원 논문의 4건 CRITICAL 해결 현황
| CRITICAL 이슈 | VLM 전환으로 해결? | 별도 조치 필요? |
|---|---|---|
| C1: Spearman ≠ Agreement | ❌ | CCC 추가 산출 (기존 데이터로 가능) |
| C2: 자극 validation | ❌ | 최소 1문장 validation + supplementary |
| C3: 모델 귀속 오류 | ✅ (VLM은 출처 명확) | — |
| C4: Hess et al. 인용 오독 | ❌ | 인용 내용 수정 (텍스트 작업) |
결론: VLM 전환은 C3만 해결하고, C1/C2/C4는 별도 작업 필요. 이를 병행해야 한다.
”Novelty Chasing” 리스크
실행 난이도를 높이면서 해결하는 문제의 비율이 낮음. 더 단순한 대안(기존 모델에 3-5개 discriminative 모델 추가)으로도 M1 비판에 대응 가능하며, 추가 리스크 없음.
반론 및 조치: VLM attention 분석은 “bias 원인 탐색 부족”(지적 3)에 대한 직접적 대응이라는 점에서 단순 모델 추가보다 학술적 기여가 큼. 다만 하이브리드 전략으로 리스크를 분산하여, VLM attention이 기술적으로 실패해도 논문이 성립하도록 설계.
9.6 v2 수정된 blocking issues 및 우선순위
[Phase 0: Blocking Issue 검증 — 3일 이내]
1. MLX에서 attention weight 추출 가능 여부 확인
→ 가능: MLX 파이프라인 사용
→ 불가능: HuggingFace transformers + MPS fallback
→ MPS도 불가능: CPU 추론 (속도 대폭 저하, subset으로 축소)
2. MLX에서 gradient 계산 가능 여부 확인 (방법 C용)
→ 불가능: 방법 A + B만 사용, relevancy map 포기
3. FP16 vs 4-bit 양자화 파일럿 (이미지 20개)
→ 감정별 정확도 차이 5%p 이상: 양자화 전략 재고
→ 5%p 미만: 4-bit로 진행
[Phase 1: 환경 구축 및 파일럿 — 1주]
+ Blocking issues 해결 확인
+ GPT-4o API subset 비교 (100-200개)
+ Perturbation experiment 파일럿 (이미지 20개 × 6 조건)
+ Temperature 비교 파일럿 (0.0 vs 0.3 vs 0.7, 이미지 20개)
+ Label order randomization 테스트
[Phase 2-4: 기존 일정 유지 (본 실험 → 분석 → 집필)]
[병행 작업: VLM과 무관한 CRITICAL 이슈 수정]
- B1: CCC/ICC 산출 (기존 인간-AI 데이터)
- A5: Hess et al. (2004) 인용 수정
- A4: Savchenko 정확한 인용
- B3: 다중비교 보정 (BH-FDR)
- 자극 validation 최소 1문장 추가
10. VLM 모델별 M1 Max 32GB 적합성 상세 평가
10.1 실행 가능성 매트릭스
| 모델 | 4-bit 메모리 | FP16 메모리 | M1 Max 32GB 실행 | Attention 추출 | 총평 |
|---|---|---|---|---|---|
| Qwen2.5-VL-7B | ~5GB | ~15GB | ✅ 여유 | ⚠️ MLX 검증 필요 | Primary 추천 |
| LLaVA-NeXT-7B | ~4.5GB | ~14GB | ✅ 여유 | ✅ LVLM-Interpret 도구 존재 | Attention 분석 최적 |
| Phi-3.5-Vision | ~3GB | ~8.5GB | ✅ 매우 여유 | ⚠️ MLX 검증 필요 | 경량 비교용 |
| Qwen2.5-VL-32B | ~18GB | ~64GB | ❌ 4-bit도 빠듯 | — | 64GB Mac 이상 필요 |
| Qwen3-VL-8B | ~5.5GB | ~16GB | ✅ 여유 | ⚠️ 최신, 도구 미성숙 | 대안 (최신 아키텍처) |
| InternVL2-8B | ~5.5GB | ~16GB | ✅ 여유 | ⚠️ InternViT 특수 구조 | 대안 (다른 vision encoder) |
10.2 “AI 대표성” 방어 등급
| 구성 | 방어 강도 | 근거 |
|---|---|---|
| 3개 VLM만 (7B) | ⭐⭐ | “경량 VLM도 경량 분류기의 반복 아닌가” 비판 가능 |
| 3개 VLM + GPT-4o subset | ⭐⭐⭐⭐ | Frontier 모델과의 패턴 일치 보이면 강력한 방어 |
| 3개 VLM + 기존 discriminative 유지 | ⭐⭐⭐ | Cross-paradigm 비교가 다양성의 핵심 축 |
| 3개 VLM + GPT-4o subset + 기존 discriminative | ⭐⭐⭐⭐⭐ | 최적: paradigm 다양성 + scale 다양성 + 실증 검증 |
10.3 최종 권고 구성
Paradigm A (Discriminative, Fine-tuned):
├── EfficientNet-B0 VA MTL (Savchenko) — 기존
├── MobileViT VA MTL (Savchenko) — 기존
├── EmoNet — 기존 (다른 pipeline)
└── (선택) PosterV2 or Wtomin MTL — 기존 자산 활용
Paradigm B (Generative VLM, Zero-shot):
├── Qwen2.5-VL-7B-Instruct (4-bit, 로컬)
├── LLaVA-NeXT-7B-Mistral (4-bit, 로컬)
├── Phi-3.5-Vision (4-bit, 로컬)
└── GPT-4o (API, 100-200개 subset) — frontier 벤치마크
총 AI 모델 수: 6-7개 (2개 패러다임, 4+ 기업, 3+ training pipeline)
→ CHI26의 "N=2 동일 pipeline" 비판 완전 해소
11. 종합 평가
접근법의 강점
- Dual-paradigm 비교는 CHI 커뮤니티에서 높이 평가될 가능성이 높음
- Token-level attention granularity는 기존 Grad-CAM이 제공하지 못하는 새로운 분석 차원
- GPT-4o subset 비교로 “로컬 7B가 frontier AI 패턴의 lower bound”를 실증하면 방어력 극대화
- 기존 자산(N=1,000, 4,320 Grad-CAM) 유지로 리스크 분산
접근법의 리스크
| 리스크 | 발생 확률 | 영향 | 대응 |
|---|---|---|---|
| MLX attention 추출 불가 | 중간 | 높음 | HF transformers fallback, subset 축소 |
| 4-bit 양자화 성능 저하 심각 | 낮음 | 중간 | FP16 subset으로 대체 보고 |
| VLM이 감정 분류에서 매우 낮은 성능 | 낮음 | 높음 | 그 자체가 흥미로운 발견 — “범용 AI의 한계”로 프레이밍 |
| Attention 분석 결과가 해석 불가능 | 중간 | 중간 | Perturbation experiment 결과에 의존 |
| 실행 시간 초과 | 낮음 | 중간 | Task 수를 3→2로 축소, subset 전략 |
CHI 2027 수용 가능성 추정
| 시나리오 | 확률 |
|---|---|
| VLM만 (기존 모델 제거, attention만 강조) | 20-30% |
| 하이브리드 + 통계 보강만 (attention 없이) | 40-50% |
| 하이브리드 + 통계 보강 + attention 분석 + perturbation | 55-65% |
| 위 + GPT-4o 비교 + 자극 validation | 65-75% |
v2 문서 상태: 3개 에이전트 피드백 통합 완료. Phase 0 (blocking issues 검증) 진행 후 실험 확정 예정.