2. 관련 연구

2.1 감정 인식을 위한 VLM

VLM의 얼굴 감정 인식 적용은 혼재된 결과를 보이며, 기존 평가는 정확도 중심에 머물러 대체 가능성에 대한 답을 제공하지 못한다. Mulukutla et al. (2025)은 7개 감정 클래스의 35,887장 저해상도 그레이스케일 이미지를 포함하는 FER-2013에서 오픈소스 VLM과 전통 모델의 실증적 비교를 수행하였다. 전통 모델인 EfficientNet-B0 (86.44% 정확도)과 ResNet-50 (85.72%)이 VLM을 20-35 pp 능가하였으며, CLIP은 64.07%, Phi-3.5 Vision은 51.66%를 달성하였다. 이러한 성능 격차는 VLM의 일반적 시각 이해가 FER 능력으로 자동 전환되지 않음을 시사하나, 정확도 지표만으로는 VLM이 인간 평정자를 대체할 수 있는지를 판단할 수 없다.

프론티어 API 모델은 더 유망한 결과를 보여준다. NimStim 데이터셋에 대한 평가에서 GPT-4o와 Gemini가 차분한, 중립, 놀람 표정에서 인간 수행과 동등하거나 능가하나, 더 모호한 감정에서는 성능이 저하되었다(Harb et al., 2025). Refoua et al. (2026)은 ChatGPT-4, ChatGPT-4o, Claude 3 Opus를 백인, 흑인, 한국인 얼굴 자극을 포함한 Reading the Mind in the Eyes Test (RMET)에서 평가하여, ChatGPT-4o가 세 민족 버전 모두에서 인간 85번째 백분위 이상의 정확도로 민족 간 일관된 성능을 달성함을 보고하였다. AlDahoul et al. (2026)은 감정(59.4% 정확도), 인종, 성별, 나이를 포함한 동시적 얼굴 속성 인식을 위한 다중 에이전트 VLM 시스템 FaceScanPaliGemma를 개발하였다. Bhattacharyya and Wang (2025)은 NAACL에서 유발 감정 인식을 위한 VLM의 포괄적 평가를 제시하여, 제로샷 VLM이 지도학습 시스템에 뒤처짐을 확인하였다. 이들 연구는 VLM의 감정 인식 능력을 정확도로 측정하지만, VLM이 인간 평정자 풀의 구성원으로 기능할 수 있는지, 즉 심리측정적 일치도가 인간 내 수준에 도달하는지는 평가하지 않는다. 본 연구는 세 매개변수 규모(4B, 11-27B, 프론티어)와 두 추론 모드(표준 및 thinking)에 걸친 여덟 VLM 조건을 완전 통제 요인 자극 설계에서 평가하되, Krippendorff’s α와 부트스트랩 z-score를 통한 대체 가능성 판정을 추가함으로써 이 문헌을 확장한다.

2.2 인간-AI 평정자 일치도 연구

평정자 간 신뢰도(inter-rater reliability)는 심리측정학의 핵심 개념으로, 복수의 평정자가 동일 대상에 대해 일치된 평가를 산출하는 정도를 정량화한다. Shrout and Fleiss (1979)는 급내상관계수(ICC)의 여섯 가지 유형을 체계화하였으나, ICC는 모든 평정자가 모든 항목을 평정한 완전 교차 행렬을 전제하므로, 각 참가자가 일부 이미지만 평정하는 불완전 블록 설계에는 적합하지 않다. 이러한 설계에서는 Krippendorff’s α(Krippendorff, 2011)가 결측치에 강건하고 개별 평정자의 원시 응답을 직접 사용할 수 있어 더 적합한 대안이다.

인간과 기계 평정자의 일치도 연구는 임상심리학에서 오랜 전통을 가지며, 최근 대규모 언어 모델로 확장되고 있다. Tak and Gratch (2024)는 GPT-4가 제3자 관점에서 평균적 인간의 감정 인지를 모방함을 발견하였다. Alrasheed et al. (2025)은 GAPED 데이터베이스의 비-얼굴 정서 이미지(풍경, 동물, 추상 장면)에서 감정을 해석하는 GPT-4의 능력을 평가하여, 제로샷 조건에서 valence r = 0.87, arousal r = 0.72의 상관을 달성함을 보고하였다. Zhang et al. (2024)은 LLM이 감성 분류와 같은 정서 이해 과제에서 뛰어나지만 차원적 감정 추정에서의 성능은 탐구가 부족하다는 포괄적 서베이를 제공한다. 이들 연구는 인간-VLM 간 Pearson 상관이나 정확도를 보고하지만, Krippendorff’s α와 같은 평정자 교환 가능성 지표를 적용하지 않아 “VLM을 인간 평정자 풀에 추가했을 때 집단 신뢰도가 유지되는가”라는 질문에 답하지 못한다.

한편, 슬픔-중립 혼동은 FER 문헌에서 잘 문서화된 현상으로, 대체 가능성의 한계를 보여주는 사례이다. Mejia-Escobar et al. (2023)은 FER-2013의 7,206장 슬픈 이미지 중 1,328장이 중립으로 오분류되었다고 보고하였다. AffectNet 분석(Savchenko et al., 2024)에서는 슬픔 사례의 29%가 중립으로 분류되었다. 이 혼동이 VLM에서도 체계적으로 나타나는지, 그리고 이것이 대체 가능성의 감정별 이질성에 어떻게 기여하는지는 조사되지 않았다. 본 연구는 Krippendorff’s α와 부트스트랩 z-score 기반 대체 가능성 프레임워크를 VLM 감정 평정에 적용하고, 감정 범주별로 대체 가능성이 어떻게 달라지는지를 체계적으로 분석함으로써 이 공백을 연결한다.

2.3 이중 처리 이론과 감정 인식

Kahneman(2011)의 이중 처리 이론(dual-process theory)은 System 1(빠르고 자동적이며 직관적인 처리)과 System 2(느리고 심사숙고적이며 노력이 드는 추론)를 구분한다. 인간 감정 인식에서 이 프레임워크의 관련성을 지지하는 증거가 있다: Calvo and Nummenmaa (2013)는 행복 인식이 10-20 ms의 노출만 필요한 반면 슬픔은 70-200 ms를 필요로 함을 보여주었으며, 이는 슬픔 인식이 System 1 처리만으로는 달성될 수 없음을 시사한다. VLM의 thinking 모드(응답 전 명시적 추론 흔적 생성)와 non-thinking 모드(직접 응답 생성)의 아키텍처적 구분은 이 프레임워크와 느슨한 유비를 형성한다. 본 연구는 이중 처리 이론을 주된 프레이밍이 아닌 보조적 이론적 맥락으로 활용하며, 대체 가능성 평가에서 thinking 모드의 역할을 ablation 분석에서 탐색한다.

2.4 자동 정서 인식에서의 인구통계 편향

자동 정서 인식에서 문서화된 인종 및 성별 격차는 VLM이 인간 평정자를 대체할 때 공정성 위험으로 확대된다. Jankowiak et al. (2024)은 불균형한 훈련 데이터가 인구통계 집단 간 체계적 성능 격차로 전파됨을 보여주었다. FER에서의 성별 편향은 표상적 편향(불균등한 인구통계 대표성)과 고정관념적 편향(감정과 인구통계 간 체계적 연관; Dominguez-Catena et al., 2024) 모두로 나타난다. 인간 감정 인식 자체도 인구통계적으로 중립적이지 않다: 성별-감정 고정관념은 관찰자로 하여금 남성 얼굴을 분노와, 여성 얼굴을 행복 및 슬픔과 연관짓게 하며(Plant et al., 2000), 이러한 고정관념적 연관은 얼굴 단서가 통제될 때 역전될 수 있다(Hess et al., 2004). 이러한 인간 편향은 훈련 데이터셋으로 전파되며, AffectNet (Mollahosseini et al., 2017)은 약 450,000장 이미지에 12명의 주석자를 사용하고 대부분의 이미지는 단일 주석을 받아 웹 규모 데이터에 대한 VLM 사전훈련에 의해 증폭될 수 있다.

VLM이 인간 평정자를 대체하는 맥락에서 이 편향은 단순한 인식 오류가 아니라 연구 데이터의 체계적 왜곡이 된다. 인간 평정자 집단의 편향은 다수 평정자의 평균화를 통해 부분적으로 상쇄되지만, 단일 VLM이 전체 평정을 대체하면 해당 모델의 편향이 곧 연구의 편향이 된다. 본 연구는 인종, 성별, 감정 효과의 직교 추정을 가능케 하는 요인 설계를 사용하여 편향 분석을 여덟 VLM 조건으로 확장하며, 대체 가능성 판정에서 공정성 기준을 통합한다.

2.5 감정 연구에서의 AI 생성 자극

전통적 얼굴 데이터베이스인 KDEF, ADFES, FER-2013, AffectNet는 표정 품질, 조명, 인구통계적 균형에서 통제되지 않은 변이로 어려움을 겪는다. AI 생성 얼굴 자극은 통제된 생성을 통해 이러한 한계를 해결한다. 본 연구에서 사용된 GIST-AIFaceDB는 동일한 회색 배경, 네이비 티셔츠, 정면 자세 등 표준화된 특징을 가진 중립 기본 얼굴을 생성한 후, 정체성을 유지하면서 각각을 다섯 가지 감정 표현으로 변환한다. 이 파이프라인은 주어진 정체성에 대한 표현 간 차이가 오직 감정 조작에만 귀인될 수 있도록 보장한다. 생태적 타당도는 인간 자연스러움 평정에 의해 지지된다: 평균 자연스러움은 9점 척도에서 5.26(공포)에서 6.94(행복)로, 참가자들이 자극을 중등도에서 높은 수준의 사실성으로 인식했음을 나타낸다. Baudouin et al. (2025)은 얼굴 자극의 출처에 관계없이 차원적 평정을 신뢰롭게 수집할 수 있다는 증거를 제공한다.


Revision History (이 섹션 관련)

Iteration#IssueSeverityHow FixedStatus
v2→v3#5AffectNet “12 raters per image” factual errorCriticalCorrected to “12 annotators across ~450K images, most single-annotated”Done
v2→v3#6Missing Bhattacharyya & Wang (NAACL 2025)CriticalAdded citation in Section 2.1 + ReferencesDone
v2→v3#7Hess et al. (2004) misattributed (actual finding = reversal)CriticalCorrected description, added Plant et al. (2000) as primaryDone
v3→v4#16Alrasheed et al. GAPED = non-facial imagesMajorAdded “non-facial affective images (landscapes, animals, abstract scenes)“Done
v3→v4#17FaceScanPaliGemma (2026) missingMajorAdded to Section 2.1 + ReferencesDone
v9→v10Major restructuring for replaceability framingMajorSection 2.2 renamed (“인간-AI 평정자 일치도 연구”), 2.3 shortened, v9 2.4 merged into 2.2, replaceability framing added, renumbered (2.5→2.4, 2.6→2.5)Done
v10→v10.2ICC reframed as methodologically limitedCriticalICC described as inappropriate for incomplete block designs; Krippendorff’s α positioned as preferred alternative. Shrout & Fleiss (1979) retained for ICC limitation contextDone