v10 References — LLM/VLM 기반 정서·Valence·Arousal 평정 선행연구

본 연구(GIST-AIFaceDB VLM 대체가능성)와 결이 유사한 선행 연구 11편의 개별 노트 인덱스.
각 노트에는 Paper Digest, Methods 요약, Key Findings, 본 연구와의 비교 테이블 + Gap 요약, BibTeX가 포함됨.

Tier A — 직접 결이 유사 (High relevance)

#Note한 줄 요약관련도
A1Alrasheed_2025_GPT4-GAPED-valence-arousalGPT-4 zero-shot으로 GAPED 비얼굴 자극에 valence r=0.87, arousal r=0.72 달성High
A2Tak-Gratch_2024_GPT4-Average-Human-EmotionGPT-4가 제3자 관점에서 평균적 인간 감정 인지를 모방 — 본 연구 “평균 인간 대체” 프레이밍의 직접 선행High
A3Harb_2025_GPT4o-Gemini-NimStimGPT-4o·Gemini가 NimStim calm/neutral/surprise에서 인간 수준; 모호 감정에서 열세High
A4Bhattacharyya-Wang_2025_NAACL-VLM-Emotion-Eval5개 dataset × 7 VLM × 8 prompt perturbation — zero-shot VLM이 지도학습에 전반적으로 열세High
A5Mulukutla_2025_OpenSource-VLM-FER2013오픈소스 VLM(CLIP 64.07%, Phi-3.5 51.66%) vs EfficientNet-B0 86.44% on FER-2013High

Tier B — 관련도 높음 (Medium-High)

#Note한 줄 요약관련도
B1Refoua_2026_Multimodal-LLM-RMET-CrossEthnicChatGPT-4/4o/Claude 3 Opus가 RMET 3-ethnic(White/Black/Korean)에서 일관되게 ≥85th percentileMedium-High
B2AlDahoul_2026_FaceScanPaliGemma-MultiAgentMulti-agent PaliGemma로 emotion(59.4%)·race·gender·age 동시 인식Medium
B3Zhang_2024_LLM-Affective-Computing-SurveyNLP 관점 LLM affective computing 서베이 — robust 평가 부재를 본 연구가 보완Medium

Tier N — 신규 발굴 (Semantic Scholar / arXiv MCP)

#Note한 줄 요약관련도
N1Wang_2025_SEKE-VLLM-emotion-instructionVLLM 자기검증(SEKE) 파이프라인으로 discrete + valence-arousal + action unit 주석을 동시 생성High
N2Mehra_2025_Beyond-Vision-LLM-VAFaceChannel VA 수치만 LLM에 주입 — 이산 분류는 약하나 자유 서술은 인간과 정렬High
N3Martinez_2024_LLM-MWE-valence-arousalChatGPT-4o로 단어·MWE concreteness/valence/arousal 규준 추정, 인간 norm과 r≈0.8High

인용 전략 매핑 (Section → Notes)

  • Related Work §2.1 (감정 인식 VLM): A3, A4, A5, B2, N1
  • Related Work §2.2 (인간-AI 평정자 일치도): A1, A2, B1, N2, N3, B3
  • Related Work §2.4 (인구통계 편향): B1, B2
  • Discussion (대체가능성 프레이밍 차별화): A1, A2, A4, N2

공통 비교 축

모든 노트는 동일 축으로 본 연구와 비교:

  • 과제: 이산 분류 / VA 차원 / 자유 서술 / 주석 생성
  • 자극 유형: 실사 얼굴 / AI 생성 얼굴 / 비얼굴 정서 자극 / 텍스트
  • 모델 범위: 단일 frontier / multi-LLM / open-source VLM / VLLM fine-tuning
  • 지표: accuracy / Pearson r / Cohen’s κ / Krippendorff’s α + 부트스트랩 z-score (본 연구)
  • 프레이밍: agreement / accuracy / replaceability (본 연구)

본 연구가 채우는 공백 (통합 Gap)

  1. 모든 선행 연구는 accuracy 또는 Pearson r 기반 → 집단 신뢰도 유지 여부(replaceability) 는 미검정
  2. 단일 frontier 또는 소수 모델 비교 → 8 VLM 조건 × thinking/non-thinking ablation 부재
  3. 자극 품질·인구통계 변인 통제 한계 → 완전 통제 요인 설계(race × gender × 5 emotion) 부재
  4. Discrete 또는 VA 중 하나만 평가 → discrete + valence + arousal 동시 평정 부재

11건의 항목