02_introduction

1. 서론

1.1 VLM의 감정 평정 대체 가능성 문제

감정 정보의 자동 처리에 대한 수요는 정신건강 챗봇, 반응형 가상 비서, 정서적 튜터링 시스템 등 정서 컴퓨팅 전반에서 지속적으로 증가하고 있다. 이러한 시스템의 효과는 정서적 정합성(affective alignment), 즉 기계의 감정 단서 해석이 인간 심리학적 기준과 일치하는 정도에 달려 있다(Pantic et al., 2005). 정서적 정합성의 검증은 대규모 인간 평정 데이터를 필요로 하는데, 1,000명의 평정자로부터 72,000개의 응답을 수집하는 작업은 시간적·재정적 투자가 크다. 이러한 비용 구조가 시각-언어 모델(Vision Language Models, VLMs)을 인간 감정 평정의 확장 가능한 대체 수단으로 활용하려는 동기를 만들어 낸다.

시각-언어 모델(VLM)은 시각 인코더와 대규모 언어 모델을 통합하여 자연어 프롬프팅을 통한 이미지 조건부 텍스트 생성을 가능하게 하는 멀티모달 생성 모델이다. 과제 특화 얼굴 표정 인식(Facial Expression Recognition, FER) 모델이 감정 레이블 데이터셋에서 종단 간 학습되어 고정된 감정 범주를 출력하는 반면, VLM은 지시 프롬프팅을 통해 범주적 분류와 차원적 평정을 모두 유연하게 생성할 수 있다. 이러한 유연성은 VLM이 인간 평정자처럼 범주와 차원을 통합적으로 판단하는 방식을 반영할 수 있다는 가능성을 제기한다.

VLM이 인간 평정자를 실질적으로 대체할 수 있는지를 평가하려면 차원적 측정 프레임워크가 필요하다. 정서 원환 모형(Circumplex Model of Affect; Russell, 1980)은 모든 정서적 경험을 정서가(valence, 쾌-불쾌)와 각성도(arousal, 생리적 활성화)로 정의되는 연속적 2차원 공간에 배치하는 이론적 프레임워크이다. 원형 모형은 원래 자기보고 정서 경험을 위해 공식화되었지만, 관찰자 평정 얼굴 표정 인식을 특성화하는 데 널리 채택되어 왔다(Baudouin et al., 2025). 타인의 감정 인식과 자신의 감정 경험이 서로 다른 과정을 수반할 수 있음을 주의하면서 이 관행을 따른다. 이 차원적 프레임워크는 범주적 분류만으로는 드러나지 않는 미묘한 인식적 불일치를 탐지할 수 있는, 이산 라벨보다 풍부한 표상적 어휘를 제공한다.

VLM이 인간 평정자를 대체할 수 있는지는 인식 정확도가 아니라 인간 집단과의 심리측정적 일치도에 의해 판단되어야 한다. 정확도(accuracy)와 Pearson 상관(r)은 정답 라벨 또는 인간 평균에 대한 VLM의 편차를 측정하지만, 인간 평정자 자체의 변동성을 고려하지 않는다. 인간의 감정 인식은 본질적으로 가변적이며, 차원적 평정에서의 평정자 간 신뢰도는 구조적으로 낮은 수준에 머무른다. Krippendorff’s α는 결측치에 강건하고 개별 평정자의 원시 응답을 직접 사용하는 다중 평정자 신뢰도 지표로(Krippendorff, 2011), 정확도가 포착하지 못하는 “VLM을 인간 평정자 풀에 추가했을 때 집단 신뢰도가 유지되는가”라는 질문에 답할 수 있다. 이 관점에서 VLM 평가의 핵심 질문은 “VLM이 얼마나 정확한가”가 아니라 “VLM을 1,001번째 평정자로 편입했을 때 집단의 측정 품질이 유지되는가”로 전환된다.

1.2 평가의 공백

기존 VLM 감정 평가 연구는 정답 라벨에 대한 정확도와 인간 평균에 대한 상관을 주요 지표로 사용해왔으나(Khare et al., 2024; Telceken et al., 2025), 이는 대체 가능성 판단에 필요한 네 가지 측정 조건을 충족하지 못한다.

첫째, 기존 벤치마크는 Krippendorff’s α와 같은 심리측정적 일치도 지표를 채택하지 않아, VLM이 개별 인간 평정자 수준의 신뢰도에 도달하는지 알 수 없다. 인간 평정자 간 신뢰도를 기준으로 설정하지 않으면, 모델의 오류가 진정한 실패를 반영하는 것인지 아니면 감정 인식의 본질적 주관성을 반영하는 것인지 판단할 수 없다.

둘째, 기존 연구는 VLM 응답의 분포적 특성을 검토하지 않아, VLM이 자극 변동에 무관하게 획일적(stereotyped) 응답을 생성하는 문제가 규명되지 않았다. 응답 획일성은 VLM이 동일 감정 범주 내 개별 이미지의 정서적 미세 차이를 탐지하지 못하고 범주 전체를 단일 값으로 축소하는 현상을 가리킨다. 정확도가 높은 모델이라도 240장의 행복 이미지에 동일한 valence 값을 산출한다면, 인간 평정자 집단의 자연스러운 응답 변동을 반영하지 못하여 유효한 대체가 아니다. 인간 평정자가 동일 감정 범주 내에서도 이미지에 따라 다양한 반응을 보이는 것은 개인차와 자극 특이성의 정상적 표현이며, 이 다양성의 유지는 대체 가능성의 필요조건이다.

셋째, 감정 범주와 측정 차원을 교차한 세분화 분석이 부재하여, 일부 조건에서의 높은 일치도가 전체 대체 가능성으로 과잉 일반화될 위험이 있다. 특정 감정(예: 행복)에서 높은 분류 정확도를 보이면서도 다른 감정(예: 슬픔)에서는 현저히 낮은 정확도를 보일 수 있으며, 특정 차원(valence)에서 높은 상관이 관찰되더라도 다른 차원(arousal)에서는 중등도에 그칠 수 있다. 이러한 감정별·차원별 이질성을 무시한 전체 수준 요약은 “대체 가능”이라는 과도한 결론이나 “대체 불가”라는 과소 결론으로 이어질 수 있다.

넷째, VLM의 인구통계적 편향은 인식 오류 관점이 아니라 대체 맥락에서의 공정성 위험으로 재구성되어야 한다. 상업적 FER API에서 인구통계적 격차가 문서화되어 있으나(Rhue, 2018; Jankowiak et al., 2024), VLM에 대한 체계적 편향 분석은 부재하다. VLM이 인간 평정자를 대체하면 해당 VLM의 편향이 곧 연구의 편향이 된다. 특정 인종-성별 집단에 대한 체계적 과소 또는 과대 평정은 데이터 품질 문제일 뿐 아니라 윤리적 위험이기도 하다.

1.3 기여와 연구 질문

이상의 네 가지 측정 공백을 해소하기 위해, 본 논문은 정서 컴퓨팅, 심리측정학, 멀티모달 AI 평가의 교차점에 다섯 가지 기여를 한다.

첫째, VLM-as-1001st-rater 심리측정 프레임워크를 도입한다. 이 프레임워크는 VLM을 독립된 인간 평정자 한 명으로 간주하고, 1,000명의 인간 평정자 풀에 1,001번째 평정자로 추가했을 때 집합적 신뢰도(Krippendorff’s α)가 유지되는지를 기준으로 대체 가능성을 판정한다. Krippendorff’s α 변화량(Δα)과 부트스트랩 z-score의 두 지표를 통합하여, 정확도 기반 평가에서 포착되지 않는 VLM 행동의 차원 — 극성 과장 편향, 응답 획일성, 감정 선택적 불안정성 — 을 드러낸다(Section 3.4.2).

둘째, VLM 응답의 획일성을 정량화한다. VLM 예측의 고유값 수, 표준편차, 모델 간 분산을 인간 응답 다양성과 비교하여, VLM이 인간 평정자 집단의 응답 변동성을 반영하는지 아니면 획일적 응답을 산출하는지를 평가한다(Section 4.4).

셋째, 감정 범주(6) × 측정 차원(범주 분류, valence, arousal)의 교차 셀별로 대체 가능성을 판정하는 매트릭스를 제시한다. 이 매트릭스는 “어떤 감정의 어떤 차원에서 VLM을 인간 평정자 대신 사용할 수 있는가”라는 실용적 질문에 대한 조건부 답변을 제공하며, 본 연구의 핵심 방법론적 기여이다(Section 4.6).

넷째, 완전 교차된 3(인종) × 2(성별) × 6(감정) 요인 설계에서 1,440장의 AI 생성 얼굴 이미지를 사용하여, 인구통계 편향이 VLM 대체 시 공정성 위험을 만드는지를 8개 VLM 조건에 걸쳐 감사한다(Section 4.5).

다섯째, 7개 VLM과 1개 thinking 억제 조건(Gemini 2.5 Flash NoThink)을 포함한 8개 조건을 비교한다. Gemma3 계열(4B, 12B, 27B)은 동일 아키텍처 내 3점 스케일링 시리즈를 구성하여 모델 규모가 대체 가능성에 미치는 영향을 탐색할 수 있으며, Gemini의 thinking/NoThink 쌍은 추론 모드의 within-model 비교를 제공한다(Section 4A). 프론티어 API 모델의 편입은 비용 효율적으로, 본 연구에서 Gemini 2.5 Flash(1,440장 × 2회, 약 30,000원)와 GPT-4o-mini(1,440장 × 1회, 약 15,000원)의 총 API 비용은 약 45,000원(≈$33)에 불과하여, 로컬 하드웨어 제약 없이 성능 상한 설정과 양자화 효과 분리가 가능하였다.

본 연구는 탐색적 성격을 지닌다. 사전 등록된 가설을 검증하기보다, VLM 감정 평정의 대체 가능성 조건을 체계적으로 특성화하여 향후 확인적 연구를 위한 검증 가능한 기준을 생성한다. 연구 질문은 대체 가능성의 네 축을 다룬다:

RQ1: VLM을 인간 평정자 풀에 추가했을 때 심리측정적 일치도(Krippendorff’s α)는 유지되는가?

RQ2: VLM은 인간 평정자 집단의 응답 다양성을 반영하는가, 획일적 응답을 보이는가?

RQ3: 대체 가능성은 감정 범주와 측정 차원(범주 분류/정서가/각성도)에 따라 어떻게 달라지는가?

RQ4: VLM의 인구통계 편향은 인간 평정자를 대체할 때 공정성 위험을 만드는가?

Revision History (이 섹션 관련)

Iteration	#	Issue	Severity	How Fixed	Status
v2→v3	#11	Exploratory study not framed as such	Major	Added explicit exploratory framing in Section 1.3	Done
v2→v3	#12	Circumplex model scope (self-report vs observer)	Major	Added scope distinction in Section 1.1	Done
v4→v5	#22	Contribution 3 still framed as “discover”	Major	Reframed to “document” with output-pipeline attribution	Done
v4→v5	#23	Contribution 4 still implies genuine complementarity	Major	Added explicit informational-advantage caveat	Done
v7→v8-2	#22	Contribution #3 too conditional	Minor	Reframed as methodological contribution	Done
v9→v10	—	Major reframing: descriptive → replaceability assessment	Critical	Complete rewrite: “VLM이 인간 평정자를 대체할 수 있는가?” framing, 4 new RQs (Δα, 응답 다양성, 감정×차원, 공정성), dual-process demoted, 8 conditions, 5 new contributions (replaceability matrix, response homogeneity, VLM-as-1001st-rater)	Done
v10→v10.2	—	ICC removed from Introduction	Critical	ICC references replaced with Krippendorff’s α throughout (Section 1.1 framing, 1.2 gap 1, 1.3 RQ1 and contribution 1). Cicchetti (1994) criteria removed from gap description	Done
v10.2→v10.3	—	Obsidian callout blocks in submission draft	Major	Removed “Key Change” FER vs VLM callout (content already in §1.1), removed API cost callout and integrated cost data into §1.3 contribution 5	Done
v10.2→v10.3	—	Contribution section cross-references misaligned	Minor	Fixed: contribution 2 → §4.4, contribution 3 → §4.6, contribution 4 → §4.5	Done

Juhyeon's Blog

탐색기