v10 References — LLM/VLM 기반 정서·Valence·Arousal 평정 선행연구

본 연구(GIST-AIFaceDB VLM 대체가능성)와 결이 유사한 선행 연구 11편의 개별 노트 인덱스.
각 노트에는 Paper Digest, Methods 요약, Key Findings, 본 연구와의 비교 테이블 + Gap 요약, BibTeX가 포함됨.

Tier A — 직접 결이 유사 (High relevance)

#	Note	한 줄 요약	관련도
A1	Alrasheed_2025_GPT4-GAPED-valence-arousal	GPT-4 zero-shot으로 GAPED 비얼굴 자극에 valence r=0.87, arousal r=0.72 달성	High
A2	Tak-Gratch_2024_GPT4-Average-Human-Emotion	GPT-4가 제3자 관점에서 평균적 인간 감정 인지를 모방 — 본 연구 “평균 인간 대체” 프레이밍의 직접 선행	High
A3	Harb_2025_GPT4o-Gemini-NimStim	GPT-4o·Gemini가 NimStim calm/neutral/surprise에서 인간 수준; 모호 감정에서 열세	High
A4	Bhattacharyya-Wang_2025_NAACL-VLM-Emotion-Eval	5개 dataset × 7 VLM × 8 prompt perturbation — zero-shot VLM이 지도학습에 전반적으로 열세	High
A5	Mulukutla_2025_OpenSource-VLM-FER2013	오픈소스 VLM(CLIP 64.07%, Phi-3.5 51.66%) vs EfficientNet-B0 86.44% on FER-2013	High

Tier B — 관련도 높음 (Medium-High)

#	Note	한 줄 요약	관련도
B1	Refoua_2026_Multimodal-LLM-RMET-CrossEthnic	ChatGPT-4/4o/Claude 3 Opus가 RMET 3-ethnic(White/Black/Korean)에서 일관되게 ≥85th percentile	Medium-High
B2	AlDahoul_2026_FaceScanPaliGemma-MultiAgent	Multi-agent PaliGemma로 emotion(59.4%)·race·gender·age 동시 인식	Medium
B3	Zhang_2024_LLM-Affective-Computing-Survey	NLP 관점 LLM affective computing 서베이 — robust 평가 부재를 본 연구가 보완	Medium

Tier N — 신규 발굴 (Semantic Scholar / arXiv MCP)

#	Note	한 줄 요약	관련도
N1	Wang_2025_SEKE-VLLM-emotion-instruction	VLLM 자기검증(SEKE) 파이프라인으로 discrete + valence-arousal + action unit 주석을 동시 생성	High
N2	Mehra_2025_Beyond-Vision-LLM-VA	FaceChannel VA 수치만 LLM에 주입 — 이산 분류는 약하나 자유 서술은 인간과 정렬	High
N3	Martinez_2024_LLM-MWE-valence-arousal	ChatGPT-4o로 단어·MWE concreteness/valence/arousal 규준 추정, 인간 norm과 r≈0.8	High

인용 전략 매핑 (Section → Notes)

Related Work §2.1 (감정 인식 VLM): A3, A4, A5, B2, N1
Related Work §2.2 (인간-AI 평정자 일치도): A1, A2, B1, N2, N3, B3
Related Work §2.4 (인구통계 편향): B1, B2
Discussion (대체가능성 프레이밍 차별화): A1, A2, A4, N2

공통 비교 축

모든 노트는 동일 축으로 본 연구와 비교:

과제: 이산 분류 / VA 차원 / 자유 서술 / 주석 생성
자극 유형: 실사 얼굴 / AI 생성 얼굴 / 비얼굴 정서 자극 / 텍스트
모델 범위: 단일 frontier / multi-LLM / open-source VLM / VLLM fine-tuning
지표: accuracy / Pearson r / Cohen’s κ / Krippendorff’s α + 부트스트랩 z-score (본 연구)
프레이밍: agreement / accuracy / replaceability (본 연구)

본 연구가 채우는 공백 (통합 Gap)

모든 선행 연구는 accuracy 또는 Pearson r 기반 → 집단 신뢰도 유지 여부(replaceability) 는 미검정
단일 frontier 또는 소수 모델 비교 → 8 VLM 조건 × thinking/non-thinking ablation 부재
자극 품질·인구통계 변인 통제 한계 → 완전 통제 요인 설계(race × gender × 5 emotion) 부재
Discrete 또는 VA 중 하나만 평가 → discrete + valence + arousal 동시 평정 부재

11건의 항목