6. 결론

본 연구는 1,440장의 AI 생성 얼굴 자극에 대해 여덟 VLM 조건을 1,000명의 인간 평정자와 심리측정적으로 비교하여, VLM이 인간 감정 평정자를 대체할 수 있는 조건과 한계를 체계적으로 특성화하였다. 다섯 가지 핵심 발견이 도출된다.

첫째, 높은 상관은 대체 가능성을 의미하지 않는다. 여덟 VLM 조건은 valence에서 r = .891-.963의 높은 Pearson 상관을 달성하지만, 부트스트랩 z-score 분석에서 대부분의 VLM은 인간 개인보다 집단 평균에서 유의하게 더 크게 벗어난다( = 95.4-100%). Krippendorff’s α 분석에서 VLM을 1,001번째 평정자로 추가해도 집단 신뢰도는 저하되지 않으나(valence Δα = +0.004 ~ +0.006; arousal Δα = +0.003 ~ +0.009), 이는 대규모 풀에서의 희석 효과이며 개인 수준의 대체 가능성을 의미하지 않는다.

둘째, VLM은 인간 평정자 집단의 응답 다양성을 반영하지 못한다. VLM 간 valence SD는 인간 SD의 33-84%에 그치며, 일부 모델은 동일 감정에 대해 고유값 1-2개만을 산출한다. 이 응답 획일성은 감정 연구에서 이론적으로 중요한 평정자 간 변동을 제거한다.

셋째, 대체 가능성은 감정 범주와 측정 차원에 따라 이질적이다. 대체 가능성 판정 매트릭스(Table 8)에서 완전 대체 가능 기준을 충족하는 셀은 존재하지 않으며, 행복과 중립의 범주 분류는 보정 필요(calibratable) 수준에 해당하나, 슬픔과 혐오의 범주 분류는 대체 불가이다. Valence와 arousal에서 일부 감정-모델 조합이 부분 가능 수준에 도달하나, 다수 모델에서 일관되게 대체 가능한 차원은 없다. 이 매트릭스는 “VLM을 쓸 수 있는가”라는 이분법적 질문을 “어떤 감정의 어떤 차원에서 어떤 조건으로 쓸 수 있는가”라는 조건부 질문으로 전환하는 실용적 가이드라인을 제공한다.

넷째, 인구통계 편향은 모델별로 방향, 규모, 영향 차원이 다르며(인종 격차: 3.8–10.1 pp), 단일 편향 감사가 VLM 간에 일반화될 수 없다. Gemma3 계열에서 규모 증가에 따른 인종 격차의 단조 감소(4B: 6.0 pp, 12B: 4.8 pp, 27B: 3.8 pp)는 모델 규모가 공정성을 개선할 수 있음을 시사한다.

다섯째, Gemini 2.5 Flash NoThink 조건(accuracy = 0.878)이 Thinking 조건(0.874)을 소폭 상회하여, thinking 모드가 Gemini의 감정 분류에 인과적으로 기여하지 않음을 시사한다. Gemma3-27B(0.831)는 non-thinking 로컬 모델 중 최고 성능을 달성하며, 슬픔 정확도(0.546)에서 thinking 모델인 Qwen3-VL(0.546)과 동등하여 모델 규모가 thinking 모드를 부분적으로 보상할 수 있음을 보인다.

이러한 발견은 보정과 편향 감사 없이는 VLM 감정 평정이 인간 판단을 대체할 수 없음을 보여준다. VLM은 고각성 범주 분류에서 조건부로 활용 가능하나, 차원적 평정과 저강도 감정(특히 슬픔)에서는 구조적 한계를 가진다. 향후 연구는 대체 가능성 판정 기준의 외부 검증, 아핀 보정의 out-of-sample 성능 검증, 소규모 평정자 풀에서의 alpha 민감도 분석, 실제 얼굴 자극으로의 복제, 다양한 문화권 평정자 집단으로의 확장을 포함해야 한다.


Revision History (이 섹션 관련)

Iteration#IssueSeverityHow FixedStatus
v2→v3#14”Strength inversion” overclaimed despite confoundCriticalDowngraded with explicit confound caveatDone
v3→v4#18”Robust implications” in conclusionMajorChanged to “requiring further validation”Done
v9→v10Conclusion rewritten around replaceability verdictCritical5 findings reframed, central verdict: “조건부 활용 가능, 차원적 평정은 대체 불가”, future work expandedDone
v10→v10.2ICC replaced with z-score in finding 1Critical”ICC < .20” → “z-score p_sig = 95.4-100%”; delta_alpha notation updated to ΔαDone
v10.2→v10.4Numerical cross-check with Results tablesMajor(1) 인종 격차 3.8-9.4→3.8-10.1 pp (Table 7 Qwen3-VL=10.1). (2) Δα range split by dimension. (3) Finding 3: Table 8 overclaim corrected (슬픔/arousal 부분 가능 셀 존재)Done