v10 References — LLM/VLM 기반 정서·Valence·Arousal 평정 선행연구
본 연구(GIST-AIFaceDB VLM 대체가능성)와 결이 유사한 선행 연구 11편의 개별 노트 인덱스.
각 노트에는 Paper Digest, Methods 요약, Key Findings, 본 연구와의 비교 테이블 + Gap 요약, BibTeX가 포함됨.
Tier A — 직접 결이 유사 (High relevance)
| # | Note | 한 줄 요약 | 관련도 |
|---|---|---|---|
| A1 | Alrasheed_2025_GPT4-GAPED-valence-arousal | GPT-4 zero-shot으로 GAPED 비얼굴 자극에 valence r=0.87, arousal r=0.72 달성 | High |
| A2 | Tak-Gratch_2024_GPT4-Average-Human-Emotion | GPT-4가 제3자 관점에서 평균적 인간 감정 인지를 모방 — 본 연구 “평균 인간 대체” 프레이밍의 직접 선행 | High |
| A3 | Harb_2025_GPT4o-Gemini-NimStim | GPT-4o·Gemini가 NimStim calm/neutral/surprise에서 인간 수준; 모호 감정에서 열세 | High |
| A4 | Bhattacharyya-Wang_2025_NAACL-VLM-Emotion-Eval | 5개 dataset × 7 VLM × 8 prompt perturbation — zero-shot VLM이 지도학습에 전반적으로 열세 | High |
| A5 | Mulukutla_2025_OpenSource-VLM-FER2013 | 오픈소스 VLM(CLIP 64.07%, Phi-3.5 51.66%) vs EfficientNet-B0 86.44% on FER-2013 | High |
Tier B — 관련도 높음 (Medium-High)
| # | Note | 한 줄 요약 | 관련도 |
|---|---|---|---|
| B1 | Refoua_2026_Multimodal-LLM-RMET-CrossEthnic | ChatGPT-4/4o/Claude 3 Opus가 RMET 3-ethnic(White/Black/Korean)에서 일관되게 ≥85th percentile | Medium-High |
| B2 | AlDahoul_2026_FaceScanPaliGemma-MultiAgent | Multi-agent PaliGemma로 emotion(59.4%)·race·gender·age 동시 인식 | Medium |
| B3 | Zhang_2024_LLM-Affective-Computing-Survey | NLP 관점 LLM affective computing 서베이 — robust 평가 부재를 본 연구가 보완 | Medium |
Tier N — 신규 발굴 (Semantic Scholar / arXiv MCP)
| # | Note | 한 줄 요약 | 관련도 |
|---|---|---|---|
| N1 | Wang_2025_SEKE-VLLM-emotion-instruction | VLLM 자기검증(SEKE) 파이프라인으로 discrete + valence-arousal + action unit 주석을 동시 생성 | High |
| N2 | Mehra_2025_Beyond-Vision-LLM-VA | FaceChannel VA 수치만 LLM에 주입 — 이산 분류는 약하나 자유 서술은 인간과 정렬 | High |
| N3 | Martinez_2024_LLM-MWE-valence-arousal | ChatGPT-4o로 단어·MWE concreteness/valence/arousal 규준 추정, 인간 norm과 r≈0.8 | High |
인용 전략 매핑 (Section → Notes)
- Related Work §2.1 (감정 인식 VLM): A3, A4, A5, B2, N1
- Related Work §2.2 (인간-AI 평정자 일치도): A1, A2, B1, N2, N3, B3
- Related Work §2.4 (인구통계 편향): B1, B2
- Discussion (대체가능성 프레이밍 차별화): A1, A2, A4, N2
공통 비교 축
모든 노트는 동일 축으로 본 연구와 비교:
- 과제: 이산 분류 / VA 차원 / 자유 서술 / 주석 생성
- 자극 유형: 실사 얼굴 / AI 생성 얼굴 / 비얼굴 정서 자극 / 텍스트
- 모델 범위: 단일 frontier / multi-LLM / open-source VLM / VLLM fine-tuning
- 지표: accuracy / Pearson r / Cohen’s κ / Krippendorff’s α + 부트스트랩 z-score (본 연구)
- 프레이밍: agreement / accuracy / replaceability (본 연구)
본 연구가 채우는 공백 (통합 Gap)
- 모든 선행 연구는 accuracy 또는 Pearson r 기반 → 집단 신뢰도 유지 여부(replaceability) 는 미검정
- 단일 frontier 또는 소수 모델 비교 → 8 VLM 조건 × thinking/non-thinking ablation 부재
- 자극 품질·인구통계 변인 통제 한계 → 완전 통제 요인 설계(race × gender × 5 emotion) 부재
- Discrete 또는 VA 중 하나만 평가 → discrete + valence + arousal 동시 평정 부재