초록

시각-언어 모델(Vision Language Models, VLMs)은 인간 감정 주석의 확장 가능한 대안으로 활용되고 있으나, 기존 평가는 정확도와 상관에 머물러 VLM이 인간 평정자를 실질적으로 대체할 수 있는지에 대한 심리측정적 답변을 제공하지 못한다. 본 연구는 VLM을 인간 감정 평정 패러다임의 1,001번째 평정자로 취급하는 대체 가능성 평가 프레임워크를 도입하여, 7개의 VLM과 1개의 thinking 억제 조건을 포함한 8개 조건을 1,000명의 인간 참가자와 비교한다. 비교는 3개 인종(Black, Caucasian, Korean), 2개 성별, 6개 기본 감정에 걸쳐 균형 잡힌 1,440장의 AI 생성 얼굴 이미지에서 수행되었다. Krippendorff’s alpha(VLM 추가 시 변화량 Δα), 부트스트랩 z-score, 응답 다양성 분석을 통해 범주적 일치도, 차원적 합치도, 응답 획일성, 인구통계학적 편향을 평가하였다.

8개 VLM 조건은 보통에서 거의 완벽한 수준의 범주적 일치도(kappa = 0.536-0.853)를 보이며, valence에서 높은 상관(r = .891-.963)을 달성한다. 그러나 부트스트랩 z-score 분석에서 대부분의 VLM은 인간 개인보다 집단 평균에서 유의하게 더 크게 벗어나( = 95.4-100%), 높은 상관이 대체 가능성을 의미하지 않음을 보여준다. VLM을 1,001번째 평정자로 추가해도 집단 수준 Krippendorff’s alpha는 저하되지 않으나(valence Δα = +0.004 ~ +0.006; arousal Δα = +0.003 ~ +0.009), 개인 수준에서의 교환 가능성은 달성되지 않는다. VLM 간 valence SD는 인간 SD의 33-84%에 그쳐 응답 획일성을 보이며, 일부 모델은 동일 감정에 대해 고유값 1-2개만을 산출한다.

감정 x 차원별 대체 가능성 판정 매트릭스에서 완전 대체 가능(Δα ≥ 0 AND 다수 모델 ) 기준을 충족하는 셀은 존재하지 않는다. 행복과 중립의 범주 분류는 보정 필요(calibratable) 수준에 해당하며, 일부 감정-차원 조합에서 소수 모델이 부분 가능 수준에 도달하나, 슬픔과 혐오의 범주 분류는 대체 불가이다. 인구통계 편향은 모델별로 방향과 규모가 다르며(인종 격차: 3.8–10.1 pp), 각 배치 맥락이 개별 감사를 필요로 한다. Gemini 2.5 Flash NoThink 조건(0.878)이 Thinking 조건(0.874)을 소폭 상회하여 thinking 모드의 인과적 역할은 확립되지 않으며, Gemma3-27B(0.831)는 non-thinking 로컬 모델 중 최고 성능을 달성하고 슬픔에서 thinking 모델과 동등한 정확도(0.546)를 보인다. VLM은 고각성 범주 분류에서 조건부로 활용 가능하나, 차원적 평정과 저강도 감정에서는 보정과 편향 감사 없이 인간 판단을 대체할 수 없다.

핵심어: 시각-언어 모델, 얼굴 감정 인식, 대체 가능성 평가, 심리측정적 일치도, Krippendorff’s alpha, 부트스트랩 z-score, 응답 획일성, 정서가-각성도, 인구통계학적 편향, AI 생성 얼굴

Keywords: Vision Language Models, Facial Emotion Recognition, Replaceability Assessment, Psychometric Agreement, Krippendorff’s Alpha, Bootstrap z-score, Response Stereotypy, Valence-Arousal, Demographic Bias, AI-Generated Faces


Revision History (이 섹션 관련)

Iteration#IssueSeverityHow FixedStatus
v7→v8-1#10All inline number references inconsistent with corrected tablesMajorSystematic search-and-replaceDone
v9→v10Abstract completely rewritten for replaceability framing; keywords updatedCriticalNew framing: VLM-as-1001st-rater, Δα/z-score framework, replaceability matrix. Keywords: +대체 가능성 평가, Krippendorff’s alpha, 응답 획일성; −이중 처리 이론, Chain-of-Thought 추론Done
v10→v10.2ICC removed from abstract and keywordsCriticalICC replaced with Δα + bootstrap z-score; keywords: ICC → 부트스트랩 z-scoreDone
v10.2→v10.4Numerical cross-check with Results tablesMajor(1) 인종 격차 3.8-9.4→3.8-10.1 pp (Table 7 Qwen3-VL=10.1). (2) Δα range split by dimension (valence +0.004~+0.006; arousal +0.003~+0.009). (3) Table 8 description: 슬픔/arousal 대체불가 overclaim corrected to match actual matrix (부분 가능 셀 존재). (4) 대체 가능 기준을 기반으로 통일Done