시각-언어 모델은 인간 감정 평정자를 대체할 수 있는가. AI 생성 얼굴 자극에서

저자: Jini Tae, Ju-Hyeon Park, Wonil Choi

소속: Gwangju Institute of Science and Technology (GIST), South Korea

초록

시각-언어 모델(Vision Language Models, VLMs)은 인간 감정 주석의 확장 가능한 대안으로 활용되고 있으나, 기존 평가는 정확도와 상관에 머물러 VLM이 인간 평정자를 실질적으로 대체할 수 있는지에 대한 심리측정적 답변을 제공하지 못한다. 본 연구는 VLM을 인간 감정 평정 패러다임의 1,001번째 평정자로 취급하는 대체 가능성 평가 프레임워크를 도입하여, 7개의 VLM과 1개의 thinking 억제 조건을 포함한 8개 조건을 1,000명의 인간 참가자와 비교한다. 비교는 3개 인종(Black, Caucasian, Korean), 2개 성별, 6개 기본 감정에 걸쳐 균형 잡힌 1,440장의 AI 생성 얼굴 이미지에서 수행되었다. Krippendorff’s alpha(VLM 추가 시 변화량 Δα), 부트스트랩 z-score, 응답 다양성 분석을 통해 범주적 일치도, 차원적 합치도, 응답 획일성, 인구통계학적 편향을 평가하였다.

8개 VLM 조건은 보통에서 거의 완벽한 수준의 범주적 일치도(kappa = 0.536-0.853)를 보이며, valence에서 높은 상관(r = .891-.963)을 달성한다. 그러나 부트스트랩 z-score 분석에서 대부분의 VLM은 인간 개인보다 집단 평균에서 유의하게 더 크게 벗어나( $p_{sig}$ = 95.4-100%), 높은 상관이 대체 가능성을 의미하지 않음을 보여준다. VLM을 1,001번째 평정자로 추가해도 집단 수준 Krippendorff’s alpha는 저하되지 않으나(valence Δα = +0.004 ~ +0.006; arousal Δα = +0.003 ~ +0.009), 개인 수준에서의 교환 가능성은 달성되지 않는다. VLM 간 valence SD는 인간 SD의 33-84%에 그쳐 응답 획일성을 보이며, 일부 모델은 동일 감정에 대해 고유값 1-2개만을 산출한다.

감정 x 차원별 대체 가능성 판정 매트릭스에서 완전 대체 가능(Δα ≥ 0 AND 다수 모델 $W_{1 SD} \geq W_{1 SD}^{LOO}$ ) 기준을 충족하는 셀은 존재하지 않는다. 행복과 중립의 범주 분류는 보정 필요(calibratable) 수준에 해당하며, 일부 감정-차원 조합에서 소수 모델이 부분 가능 수준에 도달하나, 슬픔과 혐오의 범주 분류는 대체 불가이다. 인구통계 편향은 모델별로 방향과 규모가 다르며(인종 격차: 3.8–10.1 pp), 각 배치 맥락이 개별 감사를 필요로 한다. Gemini 2.5 Flash NoThink 조건(0.878)이 Thinking 조건(0.874)을 소폭 상회하여 thinking 모드의 인과적 역할은 확립되지 않으며, Gemma3-27B(0.831)는 non-thinking 로컬 모델 중 최고 성능을 달성하고 슬픔에서 thinking 모델과 동등한 정확도(0.546)를 보인다. VLM은 고각성 범주 분류에서 조건부로 활용 가능하나, 차원적 평정과 저강도 감정에서는 보정과 편향 감사 없이 인간 판단을 대체할 수 없다.

핵심어: 시각-언어 모델, 얼굴 감정 인식, 대체 가능성 평가, 심리측정적 일치도, Krippendorff’s alpha, 부트스트랩 z-score, 응답 획일성, 정서가-각성도, 인구통계학적 편향, AI 생성 얼굴

Keywords: Vision Language Models, Facial Emotion Recognition, Replaceability Assessment, Psychometric Agreement, Krippendorff’s Alpha, Bootstrap z-score, Response Stereotypy, Valence-Arousal, Demographic Bias, AI-Generated Faces

1. 서론

1.1 VLM의 감정 평정 대체 가능성 문제

감정 정보의 자동 처리에 대한 수요는 정신건강 챗봇, 반응형 가상 비서, 정서적 튜터링 시스템 등 정서 컴퓨팅 전반에서 지속적으로 증가하고 있다. 이러한 시스템의 효과는 정서적 정합성(affective alignment), 즉 기계의 감정 단서 해석이 인간 심리학적 기준과 일치하는 정도에 달려 있다(Pantic et al., 2005). 정서적 정합성의 검증은 대규모 인간 평정 데이터를 필요로 하는데, 1,000명의 평정자로부터 72,000개의 응답을 수집하는 작업은 시간적·재정적 투자가 크다. 이러한 비용 구조가 시각-언어 모델(Vision Language Models, VLMs)을 인간 감정 평정의 확장 가능한 대체 수단으로 활용하려는 동기를 만들어 낸다.

시각-언어 모델(VLM)은 시각 인코더와 대규모 언어 모델을 통합하여 자연어 프롬프팅을 통한 이미지 조건부 텍스트 생성을 가능하게 하는 멀티모달 생성 모델이다. 과제 특화 얼굴 표정 인식(Facial Expression Recognition, FER) 모델이 감정 레이블 데이터셋에서 종단 간 학습되어 고정된 감정 범주를 출력하는 반면, VLM은 지시 프롬프팅을 통해 범주적 분류와 차원적 평정을 모두 유연하게 생성할 수 있다. 이러한 유연성은 VLM이 인간 평정자처럼 범주와 차원을 통합적으로 판단하는 방식을 반영할 수 있다는 가능성을 제기한다.

VLM이 인간 평정자를 실질적으로 대체할 수 있는지를 평가하려면 차원적 측정 프레임워크가 필요하다. 정서 원환 모형(Circumplex Model of Affect; Russell, 1980)은 모든 정서적 경험을 정서가(valence, 쾌-불쾌)와 각성도(arousal, 생리적 활성화)로 정의되는 연속적 2차원 공간에 배치하는 이론적 프레임워크이다. 원형 모형은 원래 자기보고 정서 경험을 위해 공식화되었지만, 관찰자 평정 얼굴 표정 인식을 특성화하는 데 널리 채택되어 왔다(Baudouin et al., 2025). 타인의 감정 인식과 자신의 감정 경험이 서로 다른 과정을 수반할 수 있음을 주의하면서 이 관행을 따른다. 이 차원적 프레임워크는 범주적 분류만으로는 드러나지 않는 미묘한 인식적 불일치를 탐지할 수 있는, 이산 라벨보다 풍부한 표상적 어휘를 제공한다.

VLM이 인간 평정자를 대체할 수 있는지는 인식 정확도가 아니라 인간 집단과의 심리측정적 일치도에 의해 판단되어야 한다. 정확도(accuracy)와 Pearson 상관(r)은 정답 라벨 또는 인간 평균에 대한 VLM의 편차를 측정하지만, 인간 평정자 자체의 변동성을 고려하지 않는다. 인간의 감정 인식은 본질적으로 가변적이며, 차원적 평정에서의 평정자 간 신뢰도는 구조적으로 낮은 수준에 머무른다. Krippendorff’s α는 결측치에 강건하고 개별 평정자의 원시 응답을 직접 사용하는 다중 평정자 신뢰도 지표로(Krippendorff, 2011), 정확도가 포착하지 못하는 “VLM을 인간 평정자 풀에 추가했을 때 집단 신뢰도가 유지되는가”라는 질문에 답할 수 있다. 이 관점에서 VLM 평가의 핵심 질문은 “VLM이 얼마나 정확한가”가 아니라 “VLM을 1,001번째 평정자로 편입했을 때 집단의 측정 품질이 유지되는가”로 전환된다.

1.2 평가의 공백

기존 VLM 감정 평가 연구는 정답 라벨에 대한 정확도와 인간 평균에 대한 상관을 주요 지표로 사용해왔으나(Khare et al., 2024; Telceken et al., 2025), 이는 대체 가능성 판단에 필요한 네 가지 측정 조건을 충족하지 못한다.

첫째, 기존 벤치마크는 Krippendorff’s α와 같은 심리측정적 일치도 지표를 채택하지 않아, VLM이 개별 인간 평정자 수준의 신뢰도에 도달하는지 알 수 없다. 인간 평정자 간 신뢰도를 기준으로 설정하지 않으면, 모델의 오류가 진정한 실패를 반영하는 것인지 아니면 감정 인식의 본질적 주관성을 반영하는 것인지 판단할 수 없다.

둘째, 기존 연구는 VLM 응답의 분포적 특성을 검토하지 않아, VLM이 자극 변동에 무관하게 획일적(stereotyped) 응답을 생성하는 문제가 규명되지 않았다. 응답 획일성은 VLM이 동일 감정 범주 내 개별 이미지의 정서적 미세 차이를 탐지하지 못하고 범주 전체를 단일 값으로 축소하는 현상을 가리킨다. 정확도가 높은 모델이라도 240장의 행복 이미지에 동일한 valence 값을 산출한다면, 인간 평정자 집단의 자연스러운 응답 변동을 반영하지 못하여 유효한 대체가 아니다. 인간 평정자가 동일 감정 범주 내에서도 이미지에 따라 다양한 반응을 보이는 것은 개인차와 자극 특이성의 정상적 표현이며, 이 다양성의 유지는 대체 가능성의 필요조건이다.

셋째, 감정 범주와 측정 차원을 교차한 세분화 분석이 부재하여, 일부 조건에서의 높은 일치도가 전체 대체 가능성으로 과잉 일반화될 위험이 있다. 특정 감정(예: 행복)에서 높은 분류 정확도를 보이면서도 다른 감정(예: 슬픔)에서는 현저히 낮은 정확도를 보일 수 있으며, 특정 차원(valence)에서 높은 상관이 관찰되더라도 다른 차원(arousal)에서는 중등도에 그칠 수 있다. 이러한 감정별·차원별 이질성을 무시한 전체 수준 요약은 “대체 가능”이라는 과도한 결론이나 “대체 불가”라는 과소 결론으로 이어질 수 있다.

넷째, VLM의 인구통계적 편향은 인식 오류 관점이 아니라 대체 맥락에서의 공정성 위험으로 재구성되어야 한다. 상업적 FER API에서 인구통계적 격차가 문서화되어 있으나(Rhue, 2018; Jankowiak et al., 2024), VLM에 대한 체계적 편향 분석은 부재하다. VLM이 인간 평정자를 대체하면 해당 VLM의 편향이 곧 연구의 편향이 된다. 특정 인종-성별 집단에 대한 체계적 과소 또는 과대 평정은 데이터 품질 문제일 뿐 아니라 윤리적 위험이기도 하다.

1.3 기여와 연구 질문

이상의 네 가지 측정 공백을 해소하기 위해, 본 논문은 정서 컴퓨팅, 심리측정학, 멀티모달 AI 평가의 교차점에 다섯 가지 기여를 한다.

첫째, VLM-as-1001st-rater 심리측정 프레임워크를 도입한다. 이 프레임워크는 VLM을 독립된 인간 평정자 한 명으로 간주하고, 1,000명의 인간 평정자 풀에 1,001번째 평정자로 추가했을 때 집합적 신뢰도(Krippendorff’s α)가 유지되는지를 기준으로 대체 가능성을 판정한다. Krippendorff’s α 변화량(Δα)과 부트스트랩 z-score의 두 지표를 통합하여, 정확도 기반 평가에서 포착되지 않는 VLM 행동의 차원 — 극성 과장 편향, 응답 획일성, 감정 선택적 불안정성 — 을 드러낸다(Section 3.4.2).

둘째, VLM 응답의 획일성을 정량화한다. VLM 예측의 고유값 수, 표준편차, 모델 간 분산을 인간 응답 다양성과 비교하여, VLM이 인간 평정자 집단의 응답 변동성을 반영하는지 아니면 획일적 응답을 산출하는지를 평가한다(Section 4.4).

셋째, 감정 범주(6) × 측정 차원(범주 분류, valence, arousal)의 교차 셀별로 대체 가능성을 판정하는 매트릭스를 제시한다. 이 매트릭스는 “어떤 감정의 어떤 차원에서 VLM을 인간 평정자 대신 사용할 수 있는가”라는 실용적 질문에 대한 조건부 답변을 제공하며, 본 연구의 핵심 방법론적 기여이다(Section 4.6).

넷째, 완전 교차된 3(인종) × 2(성별) × 6(감정) 요인 설계에서 1,440장의 AI 생성 얼굴 이미지를 사용하여, 인구통계 편향이 VLM 대체 시 공정성 위험을 만드는지를 8개 VLM 조건에 걸쳐 감사한다(Section 4.5).

다섯째, 7개 VLM과 1개 thinking 억제 조건(Gemini 2.5 Flash NoThink)을 포함한 8개 조건을 비교한다. Gemma3 계열(4B, 12B, 27B)은 동일 아키텍처 내 3점 스케일링 시리즈를 구성하여 모델 규모가 대체 가능성에 미치는 영향을 탐색할 수 있으며, Gemini의 thinking/NoThink 쌍은 추론 모드의 within-model 비교를 제공한다(Section 4A). 프론티어 API 모델의 편입은 비용 효율적으로, 본 연구에서 Gemini 2.5 Flash(1,440장 × 2회, 약 30,000원)와 GPT-4o-mini(1,440장 × 1회, 약 15,000원)의 총 API 비용은 약 45,000원(≈$33)에 불과하여, 로컬 하드웨어 제약 없이 성능 상한 설정과 양자화 효과 분리가 가능하였다.

본 연구는 탐색적 성격을 지닌다. 사전 등록된 가설을 검증하기보다, VLM 감정 평정의 대체 가능성 조건을 체계적으로 특성화하여 향후 확인적 연구를 위한 검증 가능한 기준을 생성한다. 연구 질문은 대체 가능성의 네 축을 다룬다:

RQ1: VLM을 인간 평정자 풀에 추가했을 때 심리측정적 일치도(Krippendorff’s α)는 유지되는가?

RQ2: VLM은 인간 평정자 집단의 응답 다양성을 반영하는가, 획일적 응답을 보이는가?

RQ3: 대체 가능성은 감정 범주와 측정 차원(범주 분류/정서가/각성도)에 따라 어떻게 달라지는가?

RQ4: VLM의 인구통계 편향은 인간 평정자를 대체할 때 공정성 위험을 만드는가?

2. 관련 연구

2.1 감정 인식을 위한 VLM

VLM의 얼굴 감정 인식 적용은 혼재된 결과를 보이며, 기존 평가는 정확도 중심에 머물러 대체 가능성에 대한 답을 제공하지 못한다. Mulukutla et al. (2025)은 7개 감정 클래스의 35,887장 저해상도 그레이스케일 이미지를 포함하는 FER-2013에서 오픈소스 VLM과 전통 모델의 실증적 비교를 수행하였다. 전통 모델인 EfficientNet-B0 (86.44% 정확도)과 ResNet-50 (85.72%)이 VLM을 20-35 pp 능가하였으며, CLIP은 64.07%, Phi-3.5 Vision은 51.66%를 달성하였다. 이러한 성능 격차는 VLM의 일반적 시각 이해가 FER 능력으로 자동 전환되지 않음을 시사하나, 정확도 지표만으로는 VLM이 인간 평정자를 대체할 수 있는지를 판단할 수 없다.

프론티어 API 모델은 더 유망한 결과를 보여준다. NimStim 데이터셋에 대한 평가에서 GPT-4o와 Gemini가 차분한, 중립, 놀람 표정에서 인간 수행과 동등하거나 능가하나, 더 모호한 감정에서는 성능이 저하되었다(Harb et al., 2025). Refoua et al. (2026)은 ChatGPT-4, ChatGPT-4o, Claude 3 Opus를 백인, 흑인, 한국인 얼굴 자극을 포함한 Reading the Mind in the Eyes Test (RMET)에서 평가하여, ChatGPT-4o가 세 민족 버전 모두에서 인간 85번째 백분위 이상의 정확도로 민족 간 일관된 성능을 달성함을 보고하였다. AlDahoul et al. (2026)은 감정(59.4% 정확도), 인종, 성별, 나이를 포함한 동시적 얼굴 속성 인식을 위한 다중 에이전트 VLM 시스템 FaceScanPaliGemma를 개발하였다. Bhattacharyya and Wang (2025)은 NAACL에서 유발 감정 인식을 위한 VLM의 포괄적 평가를 제시하여, 제로샷 VLM이 지도학습 시스템에 뒤처짐을 확인하였다. 이들 연구는 VLM의 감정 인식 능력을 정확도로 측정하지만, VLM이 인간 평정자 풀의 구성원으로 기능할 수 있는지, 즉 심리측정적 일치도가 인간 내 수준에 도달하는지는 평가하지 않는다. 본 연구는 세 매개변수 규모(4B, 11-27B, 프론티어)와 두 추론 모드(표준 및 thinking)에 걸친 여덟 VLM 조건을 완전 통제 요인 자극 설계에서 평가하되, Krippendorff’s α와 부트스트랩 z-score를 통한 대체 가능성 판정을 추가함으로써 이 문헌을 확장한다.

2.2 인간-AI 평정자 일치도 연구

평정자 간 신뢰도(inter-rater reliability)는 심리측정학의 핵심 개념으로, 복수의 평정자가 동일 대상에 대해 일치된 평가를 산출하는 정도를 정량화한다. Shrout and Fleiss (1979)는 급내상관계수(ICC)의 여섯 가지 유형을 체계화하였으나, ICC는 모든 평정자가 모든 항목을 평정한 완전 교차 행렬을 전제하므로, 각 참가자가 일부 이미지만 평정하는 불완전 블록 설계에는 적합하지 않다. 이러한 설계에서는 Krippendorff’s α(Krippendorff, 2011)가 결측치에 강건하고 개별 평정자의 원시 응답을 직접 사용할 수 있어 더 적합한 대안이다.

인간과 기계 평정자의 일치도 연구는 임상심리학에서 오랜 전통을 가지며, 최근 대규모 언어 모델로 확장되고 있다. Tak and Gratch (2024)는 GPT-4가 제3자 관점에서 평균적 인간의 감정 인지를 모방함을 발견하였다. Alrasheed et al. (2025)은 GAPED 데이터베이스의 비-얼굴 정서 이미지(풍경, 동물, 추상 장면)에서 감정을 해석하는 GPT-4의 능력을 평가하여, 제로샷 조건에서 valence r = 0.87, arousal r = 0.72의 상관을 달성함을 보고하였다. Zhang et al. (2024)은 LLM이 감성 분류와 같은 정서 이해 과제에서 뛰어나지만 차원적 감정 추정에서의 성능은 탐구가 부족하다는 포괄적 서베이를 제공한다. 이들 연구는 인간-VLM 간 Pearson 상관이나 정확도를 보고하지만, Krippendorff’s α와 같은 평정자 교환 가능성 지표를 적용하지 않아 “VLM을 인간 평정자 풀에 추가했을 때 집단 신뢰도가 유지되는가”라는 질문에 답하지 못한다.

한편, 슬픔-중립 혼동은 FER 문헌에서 잘 문서화된 현상으로, 대체 가능성의 한계를 보여주는 사례이다. Mejia-Escobar et al. (2023)은 FER-2013의 7,206장 슬픈 이미지 중 1,328장이 중립으로 오분류되었다고 보고하였다. AffectNet 분석(Savchenko et al., 2024)에서는 슬픔 사례의 29%가 중립으로 분류되었다. 이 혼동이 VLM에서도 체계적으로 나타나는지, 그리고 이것이 대체 가능성의 감정별 이질성에 어떻게 기여하는지는 조사되지 않았다. 본 연구는 Krippendorff’s α와 부트스트랩 z-score 기반 대체 가능성 프레임워크를 VLM 감정 평정에 적용하고, 감정 범주별로 대체 가능성이 어떻게 달라지는지를 체계적으로 분석함으로써 이 공백을 연결한다.

2.3 이중 처리 이론과 감정 인식

Kahneman(2011)의 이중 처리 이론(dual-process theory)은 System 1(빠르고 자동적이며 직관적인 처리)과 System 2(느리고 심사숙고적이며 노력이 드는 추론)를 구분한다. 인간 감정 인식에서 이 프레임워크의 관련성을 지지하는 증거가 있다: Calvo and Nummenmaa (2013)는 행복 인식이 10-20 ms의 노출만 필요한 반면 슬픔은 70-200 ms를 필요로 함을 보여주었으며, 이는 슬픔 인식이 System 1 처리만으로는 달성될 수 없음을 시사한다. VLM의 thinking 모드(응답 전 명시적 추론 흔적 생성)와 non-thinking 모드(직접 응답 생성)의 아키텍처적 구분은 이 프레임워크와 느슨한 유비를 형성한다. 본 연구는 이중 처리 이론을 주된 프레이밍이 아닌 보조적 이론적 맥락으로 활용하며, 대체 가능성 평가에서 thinking 모드의 역할을 ablation 분석에서 탐색한다.

2.4 자동 정서 인식에서의 인구통계 편향

자동 정서 인식에서 문서화된 인종 및 성별 격차는 VLM이 인간 평정자를 대체할 때 공정성 위험으로 확대된다. Jankowiak et al. (2024)은 불균형한 훈련 데이터가 인구통계 집단 간 체계적 성능 격차로 전파됨을 보여주었다. FER에서의 성별 편향은 표상적 편향(불균등한 인구통계 대표성)과 고정관념적 편향(감정과 인구통계 간 체계적 연관; Dominguez-Catena et al., 2024) 모두로 나타난다. 인간 감정 인식 자체도 인구통계적으로 중립적이지 않다: 성별-감정 고정관념은 관찰자로 하여금 남성 얼굴을 분노와, 여성 얼굴을 행복 및 슬픔과 연관짓게 하며(Plant et al., 2000), 이러한 고정관념적 연관은 얼굴 단서가 통제될 때 역전될 수 있다(Hess et al., 2004). 이러한 인간 편향은 훈련 데이터셋으로 전파되며, AffectNet (Mollahosseini et al., 2017)은 약 450,000장 이미지에 12명의 주석자를 사용하고 대부분의 이미지는 단일 주석을 받아 웹 규모 데이터에 대한 VLM 사전훈련에 의해 증폭될 수 있다.

VLM이 인간 평정자를 대체하는 맥락에서 이 편향은 단순한 인식 오류가 아니라 연구 데이터의 체계적 왜곡이 된다. 인간 평정자 집단의 편향은 다수 평정자의 평균화를 통해 부분적으로 상쇄되지만, 단일 VLM이 전체 평정을 대체하면 해당 모델의 편향이 곧 연구의 편향이 된다. 본 연구는 인종, 성별, 감정 효과의 직교 추정을 가능케 하는 요인 설계를 사용하여 편향 분석을 여덟 VLM 조건으로 확장하며, 대체 가능성 판정에서 공정성 기준을 통합한다.

2.5 감정 연구에서의 AI 생성 자극

전통적 얼굴 데이터베이스인 KDEF, ADFES, FER-2013, AffectNet는 표정 품질, 조명, 인구통계적 균형에서 통제되지 않은 변이로 어려움을 겪는다. AI 생성 얼굴 자극은 통제된 생성을 통해 이러한 한계를 해결한다. 본 연구에서 사용된 GIST-AIFaceDB는 동일한 회색 배경, 네이비 티셔츠, 정면 자세 등 표준화된 특징을 가진 중립 기본 얼굴을 생성한 후, 정체성을 유지하면서 각각을 다섯 가지 감정 표현으로 변환한다. 이 파이프라인은 주어진 정체성에 대한 표현 간 차이가 오직 감정 조작에만 귀인될 수 있도록 보장한다. 생태적 타당도는 인간 자연스러움 평정에 의해 지지된다: 평균 자연스러움은 9점 척도에서 5.26(공포)에서 6.94(행복)로, 참가자들이 자극을 중등도에서 높은 수준의 사실성으로 인식했음을 나타낸다. Baudouin et al. (2025)은 얼굴 자극의 출처에 관계없이 차원적 평정을 신뢰롭게 수집할 수 있다는 증거를 제공한다.

3. 방법

Figure 1은 전체 연구 파이프라인을 제시하며, 1,440장의 AI 생성 자극이 인간 평정과 VLM 추론을 거쳐 대체 가능성 판정에서 수렴하는 과정을 보여준다.

flowchart TB
    subgraph Stimuli["자극 생성"]
        A["OpenArt<br>STOIQO NewReality Flux"] -->|"240개 중립 얼굴"| B["Nano-Banana<br>Gemini 2.5 Flash Image"]
        B -->|"정체성당 5개 감정"| C["GIST-AIFaceDB<br>1,440장 이미지<br>3 인종 × 2 성별 × 6 감정 × 40 ID"]
    end

    subgraph Human["인간 평정 (N = 1,000)"]
        C --> D["참가자당 72장 이미지<br>총 72,000개 응답"]
        D --> E["Valence 1–9<br>Arousal 1–9<br>자연스러움 1–9<br>반응 시간"]
    end

    subgraph VLM["VLM 추론 (8개 조건)"]
        C --> F1["로컬 비-Thinking<br>Gemma3-4B, Gemma3-12B,<br>Gemma3-27B, LLaMA-3.2-11B-Vision"]
        C --> F2["로컬 Thinking<br>Qwen3-VL-4B"]
        C --> F3["프론티어 API<br>GPT-4o-mini,<br>Gemini 2.5 Flash (Thinking),<br>Gemini 2.5 Flash (NoThink)"]
        F1 --> H["Context-Carry<br>3단계 프롬프팅"]
        F2 --> H
        F3 --> H
        H --> I["감정 + Valence + Arousal<br>+ Thinking 흔적"]
    end

    subgraph Analysis["대체 가능성 평가"]
        E --> L["합치도 지표:<br>Cohen's κ, Pearson r,<br>Bland-Altman, LMM"]
        I --> L
        L --> L2["대체 가능성 분석:<br>Krippendorff's α (Δα),<br>z-score, 응답 다양성"]
        L2 --> M["대체 가능성 판정 매트릭스:<br>감정 × 차원별<br>✅ 대체 가능 / ⭐ 부분 가능 / ⚠️ 보정 필요 / ❌ 대체 불가"]
    end

    style Stimuli fill:#e1f5fe,stroke:#0288d1
    style Human fill:#fff3e0,stroke:#f57c00
    style VLM fill:#e8f5e9,stroke:#388e3c
    style Analysis fill:#f3e5f5,stroke:#7b1fa2

Figure 1. 전체 연구 파이프라인. AI 생성 자극(파란색)은 1,000명의 인간 평정자(주황색)와 세 규모 및 두 추론 모드에 걸친 여덟 VLM 조건(초록색)에 의해 평가되며, 합치도 지표와 대체 가능성 분석(보라색)을 거쳐 감정 × 차원별 대체 가능성 판정 매트릭스로 수렴한다.

3.1 자극

자극 세트는 GIST AI 생성 얼굴 데이터베이스(GIST-AIFaceDB, 심사 중)의 1,440장 AI 생성 얼굴 이미지로 구성된다. 생성 파이프라인은 2단계 과정을 사용하였다. 1단계에서는 OpenArt 플랫폼에 배치된 STOIQO NewReality Flux 모델을 사용하여 세 인종 집단(흑인, 백인, 한국인)과 두 성별(남성, 여성)에 걸쳐 회색 배경의 표준화된 네이비 티셔츠를 입은 다양한 가상 정체성을 묘사하는 240개의 중립 기본 얼굴을 생성하였다. 2단계에서는 Google AI Studio(Gemini 2.5 Flash Image)에 구현된 이미지 편집 모델인 Nano-Banana를 사용하여 각 중립 얼굴을 정체성, 조명, 배경을 유지하면서 분노, 혐오, 공포, 행복, 슬픔의 다섯 가지 추가 감정 표현으로 변환하였다.

그 결과 완전 교차 요인 설계 — 3(인종) × 2(성별) × 6(감정) × 40(정체성) — 는 균형 잡힌 셀 크기를 가진 1,440장의 이미지를 산출한다: 감정당 240장, 인종당 480장, 성별당 720장, 인종-성별-감정 조합당 80장. 이 균형 설계는 교란 없이 모든 인구통계 효과의 직교 추정을 가능케 한다.

3.2 인간 평정 절차

1,000명의 한국 성인(여성 500명, 남성 500명; 나이 M = 44.6, SD = 13.7, 범위 20–69세)이 온라인 플랫폼을 통해 모집되었으며, 연령 코호트와 성별에 걸쳐 균형 잡힌 모집이 이루어졌다(IRB 면제 승인). 각 참가자는 총 1,440장에서 무작위로 선택된 72장의 이미지를 평가하였으며, 모든 이미지는 무선화된 순서로 제시되었다. 이 역균형 교차 설계를 통해 각 이미지는 50개의 독립 평정을 받았으며, valence(1–9 Likert 척도), arousal(1–9), 자연스러움(1–9) 세 차원에서 총 72,000개의 응답을 산출하였다. 각 평정에 대해 반응 시간이 기록되었다.

Krippendorff’s α(서열)로 산출된 평정자 간 신뢰도가 인간 일치 기준을 확립하였다: valence α = 0.498(나쁨-보통), arousal α = 0.116(나쁨), 자연스러움 α = 0.126(나쁨). 이 값들은 절대적 기준에서 낮으나, 감정 평정 연구의 전형적 범위 내에 속하며 정서 인식의 본질적 주관성을 반영한다. 선형 혼합효과 모델(LMM)은 평정자 개인차(valence σ² = 0.450, arousal σ² = 0.696)가 이미지 수준 분산보다 valence에서 11배, arousal에서 32배 지배적임을 확인하여, 낮은 신뢰도가 자극 모호성이 아닌 평정자 이질성에 의해 주도됨을 확인하였다.

3.3 VLM 추론

본 연구는 모델 규모, 배포 방식, 추론 모드를 체계적으로 교차한 8가지 VLM 조건을 구성하였다. Table 1은 모델 사양을 요약한다.

Table 1. VLM 사양.

Model	Provider	Parameters	Quantization	Thinking	Backend	Key Settings
Gemma3-4B-IT	Google	4B	QAT 4-bit	No	MLX (local)	temp=0
Gemma3-12B-IT	Google	12B	QAT 4-bit	No	MLX (local)	temp=0
Gemma3-27B-IT	Google	27B	QAT 4-bit	No	MLX (local)	temp=0
LLaMA-3.2-11B-Vision	Meta	11B	4-bit	No	MLX (local)	temp=0
Qwen3-VL-4B-Thinking	Alibaba	4B	4-bit	Yes (budget=1024)	MLX (local)	temp=0, rep_penalty=1.5
GPT-4o-mini	OpenAI	Frontier	Full-precision	No	API	temp=0, seed=42, image_detail=high
Gemini 2.5 Flash	Google	Frontier	Full-precision	Yes (dynamic)	API	temp=0, includeThoughts=true
Gemini 2.5 Flash (NoThink)	Google	Frontier	Full-precision	No (budget=0; ~199 internal tokens persist)	API	temp=0, includeThoughts=false

Gemma3 계열(4B, 12B, 27B)은 동일 아키텍처 패밀리 내에서 매개변수 규모의 영향을 조사할 수 있는 3점 스케일링 시리즈를 구성한다. Gemini 2.5 Flash (NoThink) 조건은 동일 프론티어 모델에서 thinking 모드를 억제한 within-model 비교를 제공한다. thinking_budget을 0으로 설정하였으나, 본 연구 실험에서 API는 추론 단계당 평균 약 199개의 내부 thinking 토큰을 보고하여, 외부 추론 흔적만 억제되고 내부 계산은 완전히 제거되지 않았다. 이 조건은 ablation이 아닌 독립적 모델 조건으로 전체 분석에 포함된다.

네 로컬 non-thinking 모델(Gemma3-4B, Gemma3-12B, Gemma3-27B, LLaMA-3.2-11B)은 메모리 효율적 추론을 위해 4-bit 양자화와 함께 MLX 프레임워크를 통해 Apple Silicon(M1 Max, 32 GB)에 배치되었다. Gemma3 계열은 QAT(Quantization-Aware Training) 방식으로 양자화되었다. QAT는 학습 과정에서 가중치를 저비트 정수로 압축하도록 훈련된 경량화 기법으로, 사후 양자화(post-training quantization)보다 정밀도 손실이 적다. Qwen3-VL-4B-Thinking은 동일 하드웨어에서 Chain-of-Thought 추론이 활성화된 상태로 배치되었다: 모델은 JSON 응답을 생성하기 전에 <think>...</think> 태그 내에서 명시적 추론을 생성하며, 양자화 모델에서의 무한 생성을 방지하기 위해 추론 단계당 1,024 토큰의 thinking_budget을 설정하였다. GPT-4o-mini는 결정론적 설정(temperature = 0, seed = 42, image_detail = “high”)으로 OpenAI API를 통해 접근하였다. Gemini 2.5 Flash는 두 조건으로 배치되었다: thinking 조건은 동적 thinking 예산과 includeThoughts: true로 추론 흔적을 수집하며, NoThink 조건은 thinking_budget = 0과 includeThoughts: false로 외부 추론 흔적을 억제한다.

모든 모델은 결정론적 출력을 위해 temperature = 0(탐욕 디코딩)으로 실행되었다. 전정밀도로 작동하는 세 프론티어 API 조건(GPT-4o-mini, Gemini 2.5 Flash, Gemini 2.5 Flash NoThink)의 포함은 양자화 아티팩트에 구애받지 않는 성능 상한을 설정하고, 양자화 효과와 아키텍처적 한계를 부분적으로 분리할 수 있게 한다. 최근 연구는 비전 토큰이 언어 토큰보다 양자화 손실에 덜 민감하며, 모달리티 균형 양자화가 VLM 품질을 효과적으로 유지함을 보여준다(Li et al., 2025).

추론은 3단계 context-carry 프롬프팅 전략을 따랐으며, 이전 출력이 후속 예측의 맥락으로 전달되어 인간 순차 판단의 정박 효과를 반영한다. 1단계에서 모델은 6개 강제 선택 범주(행복, 슬픔, 분노, 공포, 혐오, 중립)에서 얼굴 감정을 JSON 출력으로 분류하였다. 2단계에서는 분류된 감정이 전달되어 모델이 1–9 척도로 valence를 평정하였다. 3단계에서는 분류된 감정과 valence 평정 모두 전달되어 모델이 1–9 척도로 arousal을 평정하였다. 이 전략은 구조적 오류 전파를 도입한다: 1단계의 분류 오류가 후속 valence와 arousal 평정에 체계적으로 영향을 미친다. 응답 파싱은 캐스케이드 전략을 사용하였다: 직접 JSON 파싱, 마크다운 펜스 제거, 정규식 폴백. 여덟 조건 모두 1,440장의 이미지를 성공적으로 처리하여 총 11,520개(8 조건 × 1,440장)의 VLM 예측을 산출하였다.

3.4 통계 분석

왜 Spearman 상관이 아닌가. 선행 연구에서 VLM-인간 비교에 흔히 사용되는 Spearman 순위 상관( $r_{s}$ )은 두 변수의 순위 단조성(monotonic association)만을 측정하며, 절대적 수준 차이를 반영하지 못한다. 예를 들어, VLM이 모든 valence를 +2만큼 체계적으로 과대평가하더라도 순위가 보존되면 $r_{s} \approx 1.0$ 이 산출된다. 대체 가능성 판정에서는 순위 정렬뿐 아니라 절대적 수치의 일치가 요구되므로, 본 연구는 상관 지표로 선형 관계의 강도와 방향을 포착하는 Pearson $r$ 을, 절대적 합치도 지표로 개별 평정자의 원시 응답을 직접 사용하며 결측치에 강건한 Krippendorff’s α를 채택하였다. Bland-Altman 분석은 편향의 크기·방향(편향 $\overset{ˉ}{d}$ )과 이미지 간 확산( $S D_{d}$ )을 함께 진단한다. 평균 절대 오차(MAE)는 $(\overset{ˉ}{d}, S D_{d})$ 쌍의 파생량이므로 본 연구에서는 보조 지표로 Supplementary S4에 분리 보고한다.

본 연구는 세 가지 분석 대상 — 정서 분류(범주형), valence(연속형), arousal(연속형) — 에 따라 서로 다른 지표 체계를 적용한다. 각 분석 대상의 데이터 유형이 다르므로 적합한 지표도 다르며, 합치도 지표(§3.4.1–3.4.2)와 대체 가능성 지표(§3.4.3)는 각각 “VLM이 인간과 얼마나 비슷한가”와 “VLM이 인간을 대체할 수 있는가”라는 서로 다른 질문에 답한다. 범주형 분류에서는 높은 합치도(κ)가 곧 대체 가능성을 의미하므로 두 개념이 사실상 동일하다. 그러나 연속형 차원(valence, arousal)에서는 합치도가 다차원적으로 분해된다: 신호 추적(Pearson $r$ — 같은 이미지 속성에 반응하는가), 척도 교정(Bland-Altman bias — 같은 방식으로 숫자를 쓰는가), 범위 소속( $\pm 1 S D$ % — 인간이 줄 법한 값을 주는가). 이 세 차원은 독립적이므로 — 예컨대 $r$ 이 높아도 체계적 편향이 존재하거나, 편향이 없어도 응답 다양성이 부족할 수 있으므로 — 합치도는 대체 가능성의 필요조건이지 충분조건이 아니며, 양자를 별도로 평가해야 한다. 이에 더해 인구통계학적 편향 분석(§3.4.4)은 “VLM의 오차가 인구통계 속성에 따라 달라지는가”라는 직교적 질문을 다룬다. Table 1a는 분석 대상별 사용 지표를 요약한다.

Table 1a. 분석 대상별 사용 지표 요약.

분석 대상	데이터 유형	합치도 지표 (§3.4.1–3.4.2)	대체 가능성 지표 (§3.4.3)
정서 분류	범주형 (6개 클래스)	Cohen’s κ, Accuracy, Precision, Recall, F1-macro	— (κ와 recall로 직접 판정)
Valence	연속형 (1–9 척도)	Pearson r, Bland-Altman (Bias, LoA)	Krippendorff’s α (Δα), z-score ( $W_{1 SD}$ )
Arousal	연속형 (1–9 척도)	Pearson r, Bland-Altman (Bias, LoA)	Krippendorff’s α (Δα), z-score ( $W_{1 SD}$ )
공통 (차원적)	—	LMM (편향 분해)	응답 다양성 분석, 대체 가능성 판정 매트릭스

3.4.1 정서 분류 분석 지표

정서 분류는 6개 감정 범주(행복, 슬픔, 분노, 공포, 혐오, 중립) 간 범주적 일치도를 평가한다. 범주형 데이터는 연속형 지표(상관, Bland-Altman)가 아닌 범주 전용 지표를 필요로 한다. 여섯 감정 범주는 자연스러운 서열 구조를 갖지 않으므로(예: “분노”가 “공포”보다 크다고 할 수 없으므로), 가중 κ가 아닌 비가중 Cohen’s κ를 사용한다.

Cohen’s κ (비가중). 두 평정자 간 범주적 일치도를 우연 일치를 보정하여 측정하는 지표이다(Cohen, 1960):

$κ = \frac{p _{o} - p _{e}}{1 - p _{e}}$

여기서 $p_{o} = \frac{1}{N} \sum_{k = 1}^{K} n_{kk}$ 는 관측된 일치 비율로, $N$ 개 항목 중 두 평정자가 동일 범주 $k$ 에 배정한 빈도 $n_{kk}$ 의 합이다. $p_{e} = \sum_{k = 1}^{K} p_{k \cdot} \cdot p_{\cdot k}$ 는 우연에 의해 기대되는 일치 비율로, 각 평정자의 범주별 주변 확률의 곱의 합이다. κ = 1이면 완전 일치, κ = 0이면 우연 수준, κ < 0이면 우연보다 낮은 체계적 불일치를 의미한다. 본 연구에서는 의도된 감정 라벨(ground truth)과 VLM 예측 범주 간 κ를 산출하였다. 판정 기준은 Landis and Koch(1977)의 가이드라인을 따른다: κ < .00 poor, .00–.20 slight, .21–.40 fair, .41–.60 moderate, .61–.80 substantial, .81–1.00 almost perfect.

κ는 전체 일치도를 단일 수치로 요약하지만, 어떤 감정에서 실패하는지를 드러내지 못한다. 감정별 분류 성능의 세부 프로파일을 진단하기 위해 정확도, 정밀도, 재현율, F1-score를 함께 산출하였다.

정확도 (Accuracy). 전체 이미지 중 올바르게 분류된 비율이다:

$Accuracy = \frac{1}{N} \sum_{k = 1}^{K} T P_{k}$

여기서 $T P_{k}$ 는 감정 범주 $k$ 의 참양성(true positive) 수, $N$ 은 전체 이미지 수이다. 정확도는 직관적이나, 특정 감정의 체계적 실패를 전체 수치에서 희석시킬 수 있다. 예를 들어, 슬픔 재현율이 0.125(240장 중 30장만 정답)이더라도 나머지 5개 감정의 높은 정확도에 의해 전체 정확도는 0.724로 보고된다.

정밀도 (Precision). 특정 감정 $k$ 로 예측한 이미지 중 실제로 해당 감정인 비율이다:

$Precision_{k} = \frac{T P _{k}}{T P _{k} + F P _{k}}$

여기서 $F P_{k}$ 는 다른 감정을 감정 $k$ 로 잘못 분류한 위양성 수이다. 정밀도가 낮다는 것은 모델이 해당 감정을 과잉 탐지(over-detection)함을 의미한다. 예를 들어, 중립 정밀도가 낮으면 슬픔이나 혐오 이미지를 중립으로 잘못 분류하는 경향을 반영한다.

재현율 (Recall). 실제 감정 $k$ 인 이미지 중 올바르게 해당 감정으로 분류된 비율이다:

$Recall_{k} = \frac{T P _{k}}{T P _{k} + F N _{k}}$

여기서 $F N_{k}$ 는 실제 감정 $k$ 를 다른 범주로 잘못 분류한 위음성 수이다. 재현율이 낮다는 것은 모델이 해당 감정을 체계적으로 놓침(under-detection)을 의미한다. 본 연구에서 슬픔 재현율은 대체 가능성의 핵심 진단 지표로, 대부분의 VLM이 슬픈 얼굴을 중립으로 오분류하는 패턴을 드러낸다.

F1-score와 Macro F1. 정밀도와 재현율의 조화 평균으로, 두 지표 간 균형을 단일 수치로 요약한다:

$F 1_{k} = \frac{2 \cdot Precision _{k} \cdot Recall _{k}}{Precision _{k} + Recall _{k}}$

$F 1_{macro} = \frac{1}{K} \sum_{k = 1}^{K} F 1_{k}$

Macro F1은 각 범주에 동일한 가중치를 부여하므로, 소수 범주의 실패도 전체 점수에 균등하게 반영된다. 본 연구의 균형 설계(범주당 240장)에서 accuracy와 macro F1의 차이는 주로 모델이 특정 감정에서 정밀도와 재현율의 불균형을 보이는 정도를 반영한다.

3.4.2 차원적 평정(Valence, Arousal) 합치도 지표

Valence(1–9)와 arousal(1–9)은 모두 등간(interval) 수준의 연속형 변수이므로 동일한 지표 체계를 적용한다. 차원적 평정에서의 합치도는 “VLM이 인간 평정 평균과 얼마나 비슷한 값을 산출하는가”를 묻는다. 이를 위해 상관(패턴의 유사성), 오차(절대적 편차 크기), 편향(체계적 방향성)의 세 측면을 각각 다른 지표로 포착한다.

Pearson 상관계수 ( $r$ ) — 패턴의 유사성. 두 연속 변수 간 선형 관계의 강도와 방향을 측정한다:

$r = \frac{\sum _{j = 1}^{N} ( x _{j} - x ˉ ) ( y _{j} - y ˉ )}{\sum _{j = 1}^{N} ( x _{j} - x ˉ ) ^{2} \cdot \sum _{j = 1}^{N} ( y _{j} - y ˉ ) ^{2}}$

여기서 $x_{j}$ 는 이미지 $j$ 에 대한 VLM 예측값, $y_{j}$ 는 해당 이미지를 평정한 인간 50명의 평균값이다. 각 참가자가 1,440장 중 72장만 평정하는 역균형 설계이므로, 개별 참가자와 VLM 간 직접 상관은 산출할 수 없다. 대신, 이미지별로 50명의 평정을 집계한 평균( $\overset{y}{ˉ}_{j}$ )을 준거(reference)로 사용하여, 1,440개의 (VLM 예측, 인간 평균) 쌍에 대해 상관을 산출하였다.

이 접근의 한계는 인간 평정의 이미지 내 변산(within-image variance)을 무시한다는 점이다. 인간 50명의 arousal 평정이 $\overset{y}{ˉ}_{j} = 5.0$ , $S D_{j} = 2.0$ 인 이미지에서 VLM이 6.0을 예측하면, 이 편차(1.0점)는 인간 변동 범위( $\pm 1 S D$ ) 이내이지만 Pearson r 계산에서는 단순히 잔차로만 반영된다. 반대로, $S D_{j} = 0.3$ 인 이미지에서 동일한 1.0점 편차는 인간 분포에서 3.3 표준편차에 해당하는 이상치이나, r 계산에서는 동일한 가중치를 받는다. 즉, Pearson r은 인간 평정자 집단 내 자연스러운 변동성을 고려하지 못하며, 높은 r이 곧 인간 수준의 일치를 의미하지 않는다.

그럼에도 Pearson r을 유지하는 이유는 대체 가능성 판정 체계에서 보정 가능성의 진단 도구로 기능하기 때문이다. ICC가 낮을 때 그 원인이 (a) 체계적 편향(r은 높으나 절대 수준이 다름)인지, (b) 비체계적 오류(r도 낮음)인지를 구분해야 한다. 전자는 아핀 보정( $y^{'} = a \cdot y + b$ )으로 교정 가능하고, 후자는 교정이 불가능하다. 인간 변동성을 고려한 대체 가능성 판단은 ICC(2,1), Krippendorff’s α, z-score ( $W_{1 SD}$ )가 담당하며(Section 3.4.3), Pearson r은 이들 지표의 해석을 보완하는 역할에 한정된다.

Pearson r이 제공하는 보정 가능성 진단은 Bland-Altman 분석만으로도 충분히 수행할 수 있다. Bias가 크고 LoA 폭이 좁으면 체계적 편향(아핀 보정 가능)을, LoA 폭이 넓으면 비체계적 오류(보정 불가)를 의미하므로, r 없이도 동일한 결론에 도달할 수 있다. 그럼에도 Pearson r을 보고하는 이유는 두 가지이다. 첫째, 선행 VLM 감정 평가 연구(Khare et al., 2024; Telceken et al., 2025)가 모두 r을 주요 지표로 보고하므로, r을 생략하면 직접적 비교가 불가능해진다. 둘째, “r = .963이지만 ICC < .20”이라는 대비는 본 연구의 핵심 메시지 — 높은 상관이 대체 가능성을 보장하지 않는다 — 를 독자에게 가장 직관적으로 전달하는 수단이다. 독자에게 익숙한 언어(r)로 먼저 접근시킨 후, 그 한계를 Bland-Altman과 Krippendorff’s α로 드러내는 구조가 논증적으로 더 효과적이다.

Bland-Altman 분석 — 체계적 편향과 일치 범위. 두 측정 방법 간 체계적 편향(bias)과 일치 한계(limits of agreement)를 동시에 진단하는 방법이다(Bland & Altman, 1986).

설계 한계: 인간 평정의 불완전 블록과 평균 축약. 본 연구의 인간 평정 데이터는 역균형 교차 설계(counterbalanced crossed design)로 수집되어, 각 참가자가 전체 1,440장 중 72장(5%)만을 평정하였다. 결과적으로 참가자 x 이미지 행렬의 95%가 결측이며, 완전 교차 행렬을 전제하는 표준 평정자 간 합치도 분석(예: 모든 평정자에 대한 ICC(2,1))을 직접 적용할 수 없다. 이 구조적 제약 때문에 본 연구는 Bland-Altman 분석의 방법 A로 이미지별 인간 50명 평정의 산술평균( $\overset{y}{ˉ}_{j}$ )을 사용하였다.

이 축약은 두 가지 타협을 수반한다. 첫째, 이미지 내 50명의 원시 평정을 단일 스칼라로 수렴시키는 과정에서 이미지 내부(within-image)의 인간 평정자 간 변산이 소거된다. 특히 valence/arousal은 본 데이터에서 Krippendorff α = 0.498(valence), α = 0.116(arousal)로 인간 내부 변산이 큰 차원이므로, 이 축약은 엄밀한 평정자 수준의 편차 분석이 아니다. 둘째, 따라서 Bland-Altman으로 산출된 bias와 LoA는 “VLM이 인간 집단의 중심 경향(central tendency)으로부터 얼마나 떨어져 있는가”의 방향성과 크기에 대한 요약 지표로 해석되어야 하며, “VLM이 임의의 인간 개인을 대체할 수 있는가”라는 대체 가능성 판정의 엄밀한 증거로 해석되어서는 안 된다.

이러한 한계 때문에 본 연구는 Bland-Altman을 보조 진단 지표로 위치시키고, 개별 인간 평정자의 응답을 직접 사용하는 두 지표 — Krippendorff’s α(결측치에 강건)와 z-score ( $W_{1 SD}$ )(이미지별 인간 $S D_{j}^{human}$ 로 정규화) — 를 대체 가능성 판정의 주요 근거로 사용한다(Section 3.4.3). Bland-Altman은 “편향이 어느 방향으로 얼마나 있는가”를 원단위로 보여주는 해석 친화적 요약을, z-score ( $W_{1 SD}$ )는 “그 편차가 인간 내 변동 기준으로 얼마나 큰가”를 정량화하는 엄밀한 판정을 각각 담당한다.

본 연구에서 방법 A는 이미지별 인간 평정자 50명의 평균( $\overset{y}{ˉ}_{j}$ ), 방법 B는 VLM의 단일 예측값( $x_{j}$ )이다. 각 이미지 $j$ 에 대해 두 측정값의 차이 $d_{j} = \overset{y}{ˉ}_{j} - x_{j}$ 를 산출한 후, 편향과 95% 일치 한계를 정의한다:

$Bias = \overset{ˉ}{d} = \frac{1}{N} \sum_{j = 1}^{N} d_{j}$

$S D_{d} = \frac{1}{N - 1} \sum_{j = 1}^{N} (d_{j} - \overset{ˉ}{d})^{2}$

$LoA = \overset{ˉ}{d} \pm 1.96 \cdot S D_{d}$

여기서 $S D_{d}$ 는 차이값( $d_{j}$ )의 표본표준편차(자유도 $N - 1$ )이다. 주의할 점은 $S D_{d}$ 가 **“인간 평정자 간 변동”이 아니라 “이미지 집합 전체에 걸쳐 VLM 예측과 인간 합의값의 차이가 이미지마다 얼마나 달라지는가”**를 측정한다는 것이다. 구체적으로, 이미지 $j$ 의 차이값 $d_{j}$ 는 이미 해당 이미지 내 50명 인간 평정의 평균( $\overset{y}{ˉ}_{j}$ )과 VLM의 단일 예측값( $x_{j}$ )으로 축약된 스칼라이므로, $S D_{d}$ 계산 과정에서 인간 내부 변산( $S D_{j}^{human}$ )은 소거된다. 즉, $S D_{d}$ 는 이미지 간(between-image) 변동성을 반영하며, 이미지 내(within-image) 변동성은 반영하지 않는다.

본 연구에서는 Bland-Altman 분석을 두 수준에서 산출하였다. 전체 수준에서는 모델당 1,440장 이미지 전체에 대해 단일 $\overset{ˉ}{d}$ 와 $S D_{d}$ 를 산출하였고(Tables 4 [valence], 5 [arousal]), 감정별 수준에서는 각 감정 $e$ 에 속하는 240장 이미지에 대해 감정-특정 $\overset{ˉ}{d}_{e}$ 와 $S D_{d, e}$ 를 산출하여 감정 범주별 편향 프로파일을 진단하였다(Tables 4a [valence], 5a [arousal]; Figures 2, 3).

$S D_{d}$ 의 해석은 bias와의 상대적 크기에 의존한다. $∣ \overset{ˉ}{d} ∣ ≫ S D_{d}$ 인 경우(예: $\overset{ˉ}{d} = + 2.65$ , $S D_{d} = 0.52$ ) 모든 이미지에서 VLM이 거의 일정한 양만큼 체계적으로 편향되어 있음을 의미하며, 상수 보정(bias 빼기) 또는 아핀 보정( $y^{'} = a y + b$ )으로 교정 가능하다. 반대로 $∣ \overset{ˉ}{d} ∣ ≲ S D_{d}$ 인 경우(예: $\overset{ˉ}{d} = - 0.47$ , $S D_{d} = 1.88$ ) 편향의 방향과 크기가 이미지마다 들쭉날쭉하여 단순 보정으로 교정할 수 없는 비체계적 오류에 해당한다. Bias가 0에서 유의하게 벗어나면 체계적 과대/과소평가를 의미하고, LoA의 폭( $2 \times 1.96 \cdot S D_{d}$ )은 개별 이미지 수준에서의 일치도를 반영한다. 높은 Pearson r이 반드시 높은 절대적 일치를 의미하지 않는 상황(예: 체계적으로 +2점 편향된 예측)을 Bland-Altman이 포착한다. 또한 Bland-Altman 산점도(x축: 두 측정의 평균, y축: 차이)의 기울기를 통해 비례 편향(proportional bias) — 측정 수준이 높을수록(또는 낮을수록) 편차가 체계적으로 변하는 패턴 — 을 시각적으로 진단할 수 있다.

다만, 인간 측의 값이 50명의 평균으로 평활화되어 있으므로, 차이값( $d_{j}$ )은 거의 전적으로 VLM 쪽의 편차를 반영한다는 점에 유의해야 한다. Bland-Altman 분석은 편향의 방향과 크기를 원단위(1–9 척도)로 제공하고 비례 편향을 진단하는 반면, 인간 평정의 이미지 내 변동성( $S D_{j}^{human}$ )을 고려하지 않는다 — 인간 평정자 간 불일치가 큰 이미지와 작은 이미지에서 동일한 1점 차이를 동등하게 취급한다. 이러한 한계는 Section 3.4.3의 z-score ( $W_{1 SD}$ ) 분석이 보완한다: z-score는 각 이미지의 차이를 해당 이미지의 인간 표준편차( $S D_{j}^{human}$ )로 정규화하여( $z_{j} = (x_{j} - \overset{y}{ˉ}_{j}) / S D_{j}^{human}$ ), 인간 내 변동성을 기준으로 VLM 편차를 재맥락화한다.

선형 혼합효과 모델 (LMM) — 편향의 원천 분해. 군집 수준 편향이 감정에 따라 다른지(상호작용 효과)를 검증하기 위해, R의 lme4 패키지(Bates et al., 2015)로 적합된 LMM을 Satterthwaite 자유도(lmerTest)와 함께 사용하였다. LMM은 고정 효과(fixed effects)와 무선 효과(random effects)를 동시에 추정하여, 반복 측정 데이터에서 집단 수준의 체계적 차이와 개별 이미지의 변동을 분리한다:

$y_{ij} = β_{0} + β_{1} \cdot rater_type_{i} + β_{2} \cdot emotion_{j} + β_{3} \cdot (rater_type_{i} \times emotion_{j}) + u_{j} + ε_{ij}$

여기서 $β_{0}$ 는 절편, $β_{1}$ 은 평정자 유형(인간 vs. VLM)의 주효과, $β_{2}$ 는 감정 범주의 주효과, $β_{3}$ 는 상호작용 효과, $u_{j} \sim N (0, σ_{u}^{2})$ 는 이미지별 무선 절편, $ε_{ij} \sim N (0, σ_{ε}^{2})$ 는 잔차이다. 상호작용 항 $β_{3}$ 가 유의하면 VLM의 편향이 감정에 따라 다름을 의미하며, 이는 특정 감정에서의 선택적 실패를 포착한다.

3.4.3 대체 가능성 분석 지표

Section 3.4.1–3.4.2의 합치도 지표가 “VLM이 인간 평균과 얼마나 비슷한가”를 정량화하는 반면, 대체 가능성 분석은 “VLM이 인간 평정자 풀의 구성원으로 기능할 수 있는가”를 판정한다. 합치도가 높더라도 대체가 불가능한 경우가 있다: Pearson r = .95이더라도 VLM이 모든 이미지에 동일한 값을 부여하거나, 체계적으로 극단값을 과장하면 인간 평정자 한 명을 대신할 수 없다. 대체 가능성(replaceability)은 VLM의 평정이 인간 평정자 집단 내 개인 간 변동 범위 이내에 놓이는 정도를 가리키는 조작적 개념으로, 본 연구에서는 세 가지 분석을 통해 이를 평가한다.

왜 ICC(2,1)과 Lin’s CCC를 사용하지 않는가. 급내상관계수 ICC(2,1)(Shrout & Fleiss, 1979)과 Lin’s concordance correlation coefficient(CCC; Lin, 1989)는 두 측정 방법 간 절대적 합치도를 추정하는 표준 지표이나, 본 연구의 역균형 설계에는 적합하지 않다. ICC(2,1)은 모든 평정자가 모든 항목을 평정한 완전 교차 행렬을 전제하나, 본 연구에서 각 참가자는 1,440장 중 72장만 평정하므로 평정자 x 이미지 행렬의 95%가 결측이다. 인간 평균을 단일 “평정자”로 축약하여 VLM과 2인 ICC를 산출할 수는 있으나, 이 경우 (a) k=2에서 ICC(2,1)은 CCC와 수학적으로 동치이며(Lin, 1989; Nickerson, 1997) “다중 평정자 교환 가능성”이라는 ICC 본래의 해석이 성립하지 않고, (b) 인간 내 변산이 소거된 집계값을 사용하므로 개별 평정자 수준의 교환 가능성을 반영하지 못한다. CCC를 직접 산출하는 경우에도 동일한 한계가 적용된다: CCC는 Pearson $r$ 과 bias correction factor $C_{b}$ 의 곱( $ρ_{c} = r \times C_{b}$ )으로 분해되며, 두 성분 모두 이미지별 인간 평균 $\overset{y}{ˉ}_{j}$ 와 VLM 예측 $x_{j}$ 의 쌍 위에서 계산되므로 이미지 내 인간 변산을 고려하지 못한다. 또한, CCC가 단일 수치로 혼합하는 패턴 일치( $r$ )와 절대적 편향( $C_{b}$ )은 본 연구에서 Pearson $r$ (Section 3.4.2)과 Bland-Altman 분석(Section 3.4.2)으로 이미 분해 보고되어 진단적 정보량이 더 크다. 이에 본 연구는 결측치에 강건하고 개별 응답을 직접 사용하는 Krippendorff’s α를 절대적 합치도의 대안 지표로 채택하였으며, 인간 개인의 편차 분포와 직접 비교하는 z-score ( $W_{1 SD}$ )와 함께 대체 가능성의 핵심 지표로 사용한다.

Krippendorff’s α (VLM 포함) — 집단 신뢰도 유지 여부. Krippendorff’s α는 명목·순서·등간·비율 척도 모두에 적용 가능하며 평정자 수와 결측치에 강건한 다중 평정자 신뢰도 지표이다(Krippendorff, 2011). 본 연구처럼 각 참가자가 전체 이미지의 일부(72/1,440)만 평정하는 불완전 블록 설계에서도 결측값을 자연스럽게 처리하며, 인간 평균이 아닌 개별 참가자의 원시 응답을 직접 사용한다는 점에서 본 연구의 대체 가능성 판정에 가장 적합한 지표이다. 산출 공식은 다음과 같다:

$α = 1 - \frac{D _{o}}{D _{e}}$

여기서 $D_{o} = \frac{1}{n ^{'}} \sum_{c, k} o_{c k} \cdot δ_{c k}^{2}$ 는 관측된 불일치, $D_{e} = \frac{1}{n ^{'} ( n ^{'} - 1 )} \sum_{c, k} n_{c} \cdot n_{k} \cdot δ_{c k}^{2}$ 는 우연에 의해 기대되는 불일치이다. $o_{c k}$ 는 값 $c$ 와 $k$ 가 동일 단위 내에서 동시 관측된 빈도, $n_{c}$ 와 $n_{k}$ 는 각 값의 주변 빈도, $n^{'}$ 는 총 관측 쌍 수, $δ_{c k}^{2}$ 는 척도 유형에 따른 차이 함수(interval 척도의 경우 $(c - k)^{2}$ )이다. 1,000명 인간 평정자 풀에 VLM을 1,001번째 평정자로 추가한 후 α 변화량을 산출하였다:

$Δ α = α_{human+VLM} - α_{human only}$

Δα가 양수이면 VLM 편입이 집단 신뢰도를 유지 또는 향상시키며, 음수이면 저하시킨다. valence와 arousal 각각 interval 수준에서 산출하였다.

α의 핵심 아이디어는 “실제로 관측된 불일치가 우연에 의해 기대되는 불일치보다 얼마나 작은가”를 측정하는 것이다. 같은 이미지를 평정한 두 사람의 응답이 다르면 불일치가 발생한다. 1-9 척도에서 무작위로 숫자를 고르더라도 어느 정도 불일치는 생기며, 이것이 $D_{e}$ (기대 불일치)이다. 평정자들이 체계적으로 일치한다면 실제 불일치 $D_{o}$ 는 $D_{e}$ 보다 작아지고, $D_{o} / D_{e} < 1$ 이므로 α > 0이 된다. 완전 일치하면 $D_{o} = 0$ 이므로 α = 1이고, 우연 수준이면 $D_{o} = D_{e}$ 이므로 α = 0이다. 이 구조가 결측치에 강건한 이유는 α가 동일 이미지를 공유하는 평정자 쌍에서만 불일치를 계산하기 때문이다. 평정자 x 이미지 행렬의 결측 셀은 자연스럽게 제외되므로, 본 연구의 역균형 설계(참가자당 72/1,440장)에서 α가 ICC보다 적합하다. VLM을 1,001번째 평정자로 추가하면, VLM은 1,440장 모두를 평정했으므로 모든 인간 평정자와 겹치는 이미지가 존재한다. Δα는 이 추가가 전체 불일치를 증가시키는지(VLM이 집단에서 이탈) 감소시키는지(VLM이 집단에 동화)를 직접 측정한다.

z-score 분석 ( $W_{1 SD}$ ) — 인간 변동 범위 이내 여부. VLM의 편차가 인간 개인의 자연스러운 편차 범위를 초과하는지를 검증한다. 각 이미지 $j$ 에 대해 VLM $i$ 의 예측값 $x_{ij}$ 를 인간 분포 기준으로 z-score로 변환하였다:

$z_{ij}^{VLM} = \frac{x _{ij} - M _{j}}{S D _{j}}$

여기서 $M_{j}$ 와 $S D_{j}$ 는 이미지 $j$ 에 대한 인간 평정자 50명의 평균과 표준편차이다. $∣ z_{ij}^{VLM} ∣ \leq 1.0$ 이면 VLM 예측이 인간 분포의 ±1SD 이내, 즉 정규분포 가정 시 인간 평정자의 약 68.3%가 포함되는 전형적 변동 범위 안에 위치함을 의미한다. 이를 이미지 전체에 걸쳐 집계한 범위 소속 비율 $W_{1 SD}$ 를 정의한다:

$W_{1 SD}^{VLM} = \frac{1}{N} \sum_{j = 1}^{N} 1 [∣ z_{ij}^{VLM} ∣ \leq 1.0]$

$W_{1 SD}$ 는 0~1.0 범위의 비율로, 1.0에 가까울수록 VLM 예측이 인간 분포의 중심부(±1SD)에 밀집함을 나타낸다.

인간 LOO 기저선. VLM의 $W_{1 SD}$ 를 해석하기 위한 비교 기준으로, 인간 개인의 Leave-One-Out(LOO) $W_{1 SD}$ 를 산출하였다. 각 이미지 $j$ 에서 평정자 $h$ 를 제외한 나머지 49명의 평균과 표준편차( $M_{j}^{(- h)}$ , $S D_{j}^{(- h)}$ )를 기준으로 해당 평정자의 |z|를 계산한다:

$z_{hj}^{LOO} = \frac{x _{hj} - M _{j}^{(- h)}}{S D _{j}^{(- h)}}$

이미지당 50명 전원에 대해 이 LOO |z|를 산출하면, 각 평정자가 나머지 집단 대비 얼마나 벗어나는지의 결정적(deterministic) 기저선이 확보된다. 인간 LOO $W_{1 SD}^{LOO}$ 는 전체 LOO |z| 중 $∣ z ∣ \leq 1.0$ 인 비율로, 평정자 50명 × 이미지 1,440장 = 72,000개의 LOO 관측치로부터 산출된다. 이 기저선은 “인간 한 명이 나머지 집단과 얼마나 일치하는가”의 자연적 수준을 반영하며, 본 데이터에서 valence $W_{1 SD}^{LOO}$ ≈ 0.70, arousal $W_{1 SD}^{LOO}$ ≈ 0.69이다. VLM의 $W_{1 SD}$ 가 이 기저선에 근접할수록 VLM이 인간 개인과 유사한 수준의 편차를 보임을 의미한다.

$W_{1 SD}$ 의 핵심 질문은 “VLM의 평정이 인간도 흔히 하는 수준인가, 아니면 인간이라면 하지 않을 수준인가”이다. 예를 들어, 어떤 슬픈 얼굴 이미지에 대해 인간 50명의 valence 평정이 평균 3.0, 표준편차 1.5라고 하자. VLM이 4.0을 예측하면 |z| = 0.67로 +-1SD 이내이며 이 이미지는 $W_{1 SD}$ 에 기여한다. 반면 VLM이 7.0을 예측하면 |z| = 2.67로 +-1SD 밖이며 기여하지 않는다. $W_{1 SD}$ = 0.23이면 1,440장 중 약 330장에서만 VLM이 인간 범위 안이며, $W_{1 SD}$ = 0.70이면 인간 개인(LOO 약 0.70)과 동등한 수준이다.

응답 다양성 분석 — 획일성 진단. VLM 예측의 고유값 수(unique values), 표준편차, 분포 형태를 인간 응답 다양성과 비교하여, VLM이 인간 평정자 집단의 응답 변동성을 반영하는지 아니면 획일적(stereotyped) 응답을 산출하는지를 평가하였다. 구체적으로, 각 차원에서 VLM의 응답 표준편차 $S D_{VLM}$ 과 인간 평정자 집단의 평균 이미지별 표준편차 $\overline{S D}_{human}$ 을 비교하였다. 7개 VLM 간 분산(inter-LLM variance)은 감정 $e$ 별로 다음과 같이 산출하였다:

$σ_{LLM, e}^{2} = \frac{1}{N _{e}} \sum_{j \in e} Var (x_{1 j}, x_{2 j}, \dots, x_{7 j})$

여기서 $x_{ij}$ 는 모델 $i$ 의 이미지 $j$ 에 대한 예측값, $N_{e}$ 는 감정 $e$ 에 속하는 이미지 수이다. 이를 인간 평정자 7명을 비복원 추출한 표본의 동일 분산과 부트스트랩 비교하여 표본 크기 비대칭을 보정하였다(1,000회 반복, seed = 42).

대체 가능성 판정 기준. 상기 지표들을 종합하여, 감정 범주(6) × 측정 차원(범주 분류, valence, arousal)별로 네 수준의 판정을 순차적으로 적용하였다. 첫째, Δα ≥ 0(VLM 편입이 집단 신뢰도를 저하시키지 않음)이고 $W_{1 SD}^{VLM} \geq W_{1 SD}^{LOO}$ (VLM의 범위 소속 비율이 인간 LOO 기저선 이상)인 경우 대체 가능(✅)으로 판정하며, 이는 VLM이 인간 평정자 풀의 구성원으로 기능할 수 있는 수준을 가리킨다. 인간 LOO 기저선은 감정별로 산출되므로(예: valence 행복 0.62, 슬픔 0.73), 판정 기준은 감정 난이도에 자동 적응한다. 둘째, Δα ≥ 0이되 기준을 충족하는 모델이 소수(1-3개)에 한정되는 경우 부분 가능(⭐)으로 판정한다. 이는 특정 모델 조건에서만 대체 가능성이 확인되며, 모델 선택에 의존적임을 의미한다. 셋째, Δα ≥ 0이되 Bland-Altman Bias가 유의하게 0에서 벗어나고 LoA 폭이 인간 내 변동 범위 이내인 경우 보정 필요(⚠️)로 판정한다. 이 경우 집단 신뢰도는 유지되나 체계적 편향이 존재하여, 아핀 보정(y’ = a·y + b)으로 교정이 가능하다. 넷째, Δα < 0(VLM 편입이 집단 신뢰도를 저하)이거나 기준을 충족하는 모델이 없는 경우 대체 불가(❌)로 판정하며, 이는 보정으로도 교정이 불가능한 구조적 한계를 의미한다. 이 네 수준은 상호 배타적이며, 가장 엄격한 기준(대체 가능)에서 순차적으로 완화하여 적용한다.

이러한 다중 기준 접근은 단일 지표(예: 정확도)로는 포착할 수 없는 다차원적 특성을 반영하며, 후속 연구자가 자신의 VLM 배치에 적용할 수 있는 실용적 가이드라인을 제공한다.

3.4.4 인구통계학적 편향 분석

§3.4.1–3.4.2의 합치도 지표가 “VLM이 인간 평균과 얼마나 비슷한가”를, §3.4.3의 대체 가능성 지표가 “VLM이 인간 평정자를 대체할 수 있는가”를 묻는 반면, 본 섹션의 인구통계학적 편향 분석은 “VLM의 오차가 자극의 인구통계 속성(인종, 성별)에 따라 체계적으로 달라지는가”라는 직교적 질문에 답한다. §3.1의 3(인종) × 2(성별) × 6(감정) × 40(정체성) 완전 균형 설계는 이 질문에 대한 교란 없는 직교 추정을 가능케 한다. 본 연구는 두 수준에서 분석을 수행한다: 분류 수준에서는 인종과 성별을 각각 독립된 병렬 mixed-effects logistic regression으로 검증하고(인종과 성별은 각각 별도의 모형에 투입), 차원 수준에서는 valence/arousal 편향이 emotion-dependent 측정치라는 사실을 고려하여 감정을 stratification 축으로 떼어내고 각 감정 내에서 race × gender 2원 factorial ANOVA를 수행한다. 결과는 Results §4.5의 Tables 7–7c 및 Figures 7–7b에 보고된다.

분류 수준의 인구통계 편향 (mixed-effects logistic regression). 이진 정오(correct: VLM 예측 = ground-truth 라벨) 결과에 대한 인구통계 효과는 다음 두 모형의 우도비(χ²) 검정으로 검증하였다:

$correct \sim race + (1 ∣ gt_emotion)$
$correct \sim gender + (1 ∣ gt_emotion)$

감정 카테고리(gt_emotion)는 random intercept로 처리하여 감정 간 난이도 차이를 흡수하였다. 인종 효과는 race 항이 포함된 모형과 포함되지 않은 null 모형의 우도비 검정으로, 성별 효과는 동일한 방식으로 gender 항에 대해 각각 검증하였다. 결과는 χ²(df)·p-value로 Results §4.5에 F1-macro 기반 Table 7/7a와 함께 보고된다.

우도비(LR) χ² 검정. 분류 수준 분석에 사용된 χ² 검정은 우도비 검정(likelihood-ratio test)으로, 단일 분할표의 관측-기대 빈도를 직접 비교하는 Pearson χ² 적합도 검정과는 다르다. 두 중첩 모형의 로그우도 차이에 $- 2$ 를 곱한 값이 Wilks’ theorem에 의해 점근적으로 χ² 분포를 따른다는 원리를 이용한다:

$χ_{Δ df}^{2} = - 2 \cdot (ℓ_{reduced} - ℓ_{full})$

여기서 $ℓ$ 은 각 모형의 ML 로그우도, $Δ df$ 는 larger 모형이 reduced 모형 대비 추가한 자유 파라미터의 수이다. 본 연구에서 인종(3 수준)은 $Δ df = 2$ , 성별(2 수준)은 $Δ df = 1$ 이므로 Results Section 4.5에 각각 χ²(2), χ²(1)로 보고된다. 본 섹션 후반부의 차원 수준 분석(emotion-stratified bias ~ race * gender factorial ANOVA)은 nested F-test를 사용하는 반면, 분류 수준은 LR χ² 검정을 사용한다. 두 검정은 “중첩 모형 간 적합도 개선 여부”라는 동일한 논리 구조를 갖지만, 로지스틱 회귀는 이항 종속변수와 비선형 링크 함수(logit)로 인해 정규 오차 가정이 성립하지 않고, random intercept로 인해 잔차 자유도가 불확실하므로 점근적 LR χ² 검정이 적합하다.

차원 수준의 인구통계 편향 (emotion-stratified race × gender factorial ANOVA). Valence와 arousal의 편향값(bias = VLM 예측 − 인간 평균)은 emotion-dependent 측정치이다: “happy의 valence 8.2”와 “sad의 valence 2.4”는 동일 measurement scale이지만 의미 공간이 다르며(normative 수준과 분산이 감정 범주에 따라 크게 상이), bias ~ race × emotion 같은 단일 회귀는 서로 다른 분모(잔차 분산)를 가진 감정별 편차를 같은 residual 공간에 pooling한다. 본 연구는 이 emotion-dependence 문제를 해결하는 동시에 race × gender 교차(intersectional) 편향을 형식 검정하기 위해, 감정을 stratification 축으로 떼어내고 각 감정 내에서 race × gender 2원 factorial ANOVA를 수행한다. 이는 수학적으로 3원 모형 bias ~ race × gender × emotion의 emotion-strata 분해이자, 해석 가능한 6개의 2원 ANOVA로 재표현한 것이다 (감정당 240장 × 6 cell(3 race × 2 gender) × 40 identity의 완전 균형 설계가 각 감정 stratum 내에서도 직교성을 유지).

VLM은 이미지당 단 하나의 예측값을 산출하므로 이미지 수준의 random intercept (1|image_id)를 추정할 수 없어, mixed-effects 모델이 아닌 고정효과 factorial ANOVA를 선택하였다. 각 모델 × 감정 × 차원(valence, arousal) 조합에 대해 다음 네 개의 선형 모형을 R의 lm()으로 적합하였다:

$M_{full} : bias \sim race \times gender (full: 주효과 2 개 + 교차 상호작용)$
$M_{add} : bias \sim race + gender (additive: 주효과만, 교차 없음)$
$M_{race} : bias \sim race (race-only)$
$M_{gen} : bias \sim gender (gender-only)$

세 개의 nested F-검정으로 효과를 분리한다:

Race 주효과는 $M_{gen}$ 과 $M_{add}$ 의 F-검정으로 검증한다. Gender를 이미 통제한 모형에 race 항을 추가할 때 잔차 제곱합이 유의하게 감소하는지를 묻는다 — $F (2, 236)$ , 3 race 수준 $\to$ 2 df:

$F_{race} = \frac{( RS S _{M_{gen}} - RS S _{M_{add}} ) / ( d f _{M_{gen}} - d f _{M_{add}} )}{RS S _{M_{add}} / d f _{M_{add}}}$

Gender 주효과는 $M_{race}$ 와 $M_{add}$ 의 F-검정으로 동일 원리로 검증한다 — $F (1, 236)$ , 2 gender 수준 $\to$ 1 df.
Race × gender 교차 상호작용은 $M_{add}$ 와 $M_{full}$ 의 F-검정으로 검증한다. 주효과만 있는 가산 모형에 교차 항을 추가할 때의 설명력 증가를 묻는다 — $F (2, 234)$ , $(3 - 1) (2 - 1) = 2$ df. 유의하면 특정 race × gender 조합(예: Caucasian 여성 vs Caucasian 남성)이 동일 감정 안에서 구분되는 편향을 받음을 의미하며, 이는 Figure 7b에서 시각화된 intersectional 패턴의 형식 통계 확증이다.

효과 크기는 $η^{2}$ (해당 항의 제곱합 / 총 제곱합)로 보고한다. 감정 stratum도 완전 균형 설계(3 × 2 × 40 = 240장)이므로 Type I·II·III 제곱합이 동일한 결과를 산출하며(아래 callout 참조), 본 분석은 R anova(lm_fit) 기본값인 Type I SS를 사용하였다. 사후 검정은 race × gender 교차 상호작용이 유의한 (모델, 감정, 차원) 조합에 한해 emmeans 패키지의 Tukey 조정 쌍별 비교를 6 cell 간에 실시한다.

다중검정 보정. 차원 수준 분석은 총 8 모델 × 2 차원(valence, arousal) × 6 감정 × 3 항(race, gender, race:gender) = 288개의 nested F-검정을 포함한다. 다중검정 부담은 (모델, 차원) 가족 내에서 Benjamini-Hochberg FDR 보정으로 통제한다 (총 16 families = 8 models × 2 dimensions; 가족당 6 emotions × 3 terms = 18 검정, $α = 0.05$ ). 원 $p_{raw}$ 와 보정 $q_{B H}$ 두 값을 병기하며, 유의성 표기(✱)는 $q_{B H}$ 기준으로 판정한다. 분류 수준의 LR χ² 검정은 별도 가족으로 취급되어 본 보정 체계에 포함되지 않는다. Results §4.5의 Tables 7b–7c에 각 (모델, 감정, 차원) 조합의 race 주효과·gender 주효과·교차 상호작용 $F$ , $η^{2}$ , $p_{raw}$ , $q_{B H}$ 가 보고된다.

인종 × 성별 교차(intersectional) 편향의 형식 검정. 이전 버전(v10.6)의 본 연구는 race × gender 교차 항을 형식 통계 검정에 포함하지 않고 Figure 7b의 시각화만 제공했으며, 형식 검정은 §5.7 Limitation으로 이관한 상태였다. v10.7의 방법론 재설계에서 본 절의 emotion-stratified race × gender factorial ANOVA가 이 한계를 해소한다: 각 감정 stratum 내에서 race × gender 교차 항 $F (2, 234)$ 가 nested F-검정으로 검증되며, $q_{B H} < .05$ 인 (모델, 감정, 차원) 조합에 대해 6 cell 간 Tukey 조정 쌍별 비교가 Results §4.5에 보고된다. Figure 7b는 이 분석의 시각적 동반자이며, 특히 Gemma3-12B의 Caucasian 남/녀 F1 격차(17.2 pp, 분류 수준)와 같은 패턴이 차원 수준 교차 검정과 직접 대응된다. 단, 본 분석은 단일 통합 3원 모형(bias ~ race × gender × emotion)이나 identity 수준 random effects를 사용하지 않으며, 감정 간 race × gender 이질성의 3원 형식 검정도 수행하지 않는다. 감정 간 heterogeneity의 aggregate view가 필요한 독자는 v10.6의 bias ~ race × emotion / bias ~ gender × emotion omnibus 분석 결과를 Supplementary §S5에서 참조할 수 있다.

ANOVA에서 “Type I/II/III SS”는 가설검정의 1종/2종 오류와는 전혀 다른 개념으로, 여러 요인이 있을 때 총 제곱합(total SS)을 각 요인에 어떻게 귀속시킬 것인가에 대한 세 가지 계산 방식을 가리킨다. Type I(순차적)은 항의 투입 순서에 의존하고(R anova() 기본값), Type II(주변적)는 같은 레벨 항끼리 상호 조정하며(R car::Anova() 기본값), Type III(부분적)는 상호작용을 포함한 모든 다른 항으로 조정한 후의 고유 SS를 계산한다(SPSS 기본값). Section 3.1의 3(인종) x 2(성별) x 6(감정) x 40(정체성) 완전 균형 요인 설계에서는 모든 셀의 $n$ 이 같아 요인 간 직교성이 성립하므로( $Cov (X_{A}, X_{B}) = 0$ ), Type I/II/III 선택이 결과에 영향을 주지 않는다. 본 분석이 Type I SS를 명시한 것은 재현 가능성을 위한 표기 관례이다.

3.4.5 지표의 집계 단위와 사용 목적

§3.4.1–§3.4.3에서 정의한 지표들을 “인간 평정 내 평균화 여부”의 축으로 재정렬하면 세 계층이 드러난다. 차원적 합치도 지표(Pearson r, Bland-Altman, 감정-편향 LMM; §3.4.2)는 이미지당 인간 50명의 산술평균 $\overset{y}{ˉ}_{j}$ 를 단일 기준값으로 사용하고, §3.4.3의 Krippendorff’s α는 인간 개별 응답을 원 행렬 그대로 사용하며, §3.4.1의 Cohen’s κ는 인간 감정 범주 라벨이 수집되지 않은 관계로(§3.2는 valence·arousal·자연스러움 세 연속 차원만 평정) ground-truth 자극 라벨을 단일 준거로 사용한다. 세 계층 중 평정자 간 변산 자체를 판정 기준에 내재화하는 지표는 §3.4.3의 Krippendorff’s α와 z-score ( $W_{1 SD}$ )에 국한된다.

§3.4.2의 차원 합치도 지표 — Pearson $r$ , Bland-Altman의 편향 $\overset{ˉ}{d}$ 및 95% LoA, 감정-편향 LMM(rating ~ rater_type * emotion + (1|image_id)) — 는 모두 이미지 $j$ 의 $R \approx 50$ 개 독립 인간 평정 ${y_{j, 1}, \dots, y_{j, R}}$ 으로부터 산출된 이미지별 인간 기준값 $\overset{y}{ˉ}_{j} = (1/ R) \sum_{h = 1}^{R} y_{j, h}$ 와 VLM의 단일 예측 $x_{j}$ 의 쌍 배열( $N = 1, 440$ ) 위에서 계산된다. LMM의 경우 rater_type ∈ {human-agg, VLM}의 두 수준으로 이미지당 2행을 구성하여 이미지 간 변동을 $(1∣ image_id)$ 랜덤 절편으로 흡수한다. 이 파이프라인은 src/data/human_ratings.py의 HumanRatingStore._aggregate()가 image_id 기준 groupby().mean()으로 이미지별 평균을 1회 생성한 뒤, scripts/generate_comprehensive_stats.py의 compute_va_metrics()가 그 결과 배열 위에서 전 차원 지표를 호출하는 구조로 구현되어 있다. 동일한 $(\overset{y}{ˉ}_{j}, x_{j})$ 쌍에서 유도되는 보조 지표인 MAE는 Supplementary S4에 분리 보고한다.

Table 1b. §3.4.1–§3.4.3 일차(primary) 합치도·대체 가능성 지표의 집계 단위와 사용 목적 요약. 본 표는 v9 manuscript의 §3.4.1 서브섹션을 v10의 지표 체계로 필터링하여 재구성한 것이며, v10에서 제거된 지표(McNemar, Spearman ρ, ICC(2,1), paired t-test/Wilcoxon, Kruskal-Wallis)는 포함되지 않는다. 본 표는 “인간 평정 내 평균화 여부” 축만을 다루므로, 이 축과 무관한 v10 고유 분석(Accuracy·Precision·Recall·F1은 §3.4.1, z-score ( $W_{1 SD}$ )·Inter-LLM variance·응답 다양성은 §3.4.3, 인구통계 편향 ANOVA는 §3.4.4)은 본 표의 scope에서 제외된다.

지표	인간 평정 내 평균화 여부	비교 단위	용도
Krippendorff’s α (interval) (§3.4.3)	평균 X — 1,001 × 1,440 rater × image 원 행렬 (95% 결측)	평정자 간 등간 일치도	$Δ α = α_{human+VLM} - α_{human only}$ 로 집단 신뢰도 유지·저하 판정
Cohen’s κ (unweighted) (§3.4.1)	해당 없음 — ground-truth 자극 라벨 사용	이미지 × 6 범주	우연 보정 범주 일치 (VLM 예측 대 의도된 감정 라벨)
Pearson r (§3.4.2)	평균 O — 이미지별 $\overset{y}{ˉ}_{j}$	이미지 단위 선형 관계	선형 상관 + 아핀 보정 가능성 진단 (ICC 저하의 원인 분해)
Bland-Altman (Bias, 95% LoA) (§3.4.2)	평균 O — 이미지별 $\overset{y}{ˉ}_{j}$	이미지 단위 차이 $d_{j} = \overset{y}{ˉ}_{j} - x_{j}$ 분포	체계적 편향과 95% 일치 한계 (이미지 간 변동만 반영)
LMM (`rating ~ rater_type * emotion + (1\|image_id)`) (§3.4.2)	평균 O — rater_type ∈ {human-agg, VLM} 이미지당 2행	이미지 랜덤 절편으로 이미지 간 변동 흡수	감정별 체계적 편향과 rater_type × emotion 상호작용

표의 분할에 따라 지표는 세 계층으로 나뉜다. 범주 지표(Cohen’s κ, §3.4.1)는 인간 감정 범주 평정이 수집되지 않은 관계로 “인간 평정 내 평균화” 축 자체가 적용되지 않으며, 의도된 감정 라벨을 단일 준거로 사용한다. 차원 합치도 지표(Pearson r, Bland-Altman, 감정-편향 LMM, §3.4.2)는 이미지별 평균 $\overset{y}{ˉ}_{j}$ 를 1차 요약값으로 사용하여 이미지 간 변동을 포착하되 이미지 내 인간 변산( $S D_{j}^{human}$ )은 설계상 소거되며, 이 한계는 §3.4.2의 Bland-Altman 설계-한계 callout(본문 “설계 한계: 인간 평정의 불완전 블록과 평균 축약”)과 Pearson r 한계 해석에서 별도로 논의된다. 대체 가능성 지표(Krippendorff’s α, §3.4.3)는 이미지별 평균으로 수렴시키지 않고 인간 개별 응답을 직접 사용하여, 평균화가 소거한 within-image 변산을 판정 기준으로 복원한다.

차원 합치도 지표가 이미지 내 인간 변산을 직접 모델링하지 않는다는 선택의 근거는 네 가지이다. 첫째, VLM은 이미지당 단일 점추정치만 산출하므로 비교 구조 자체가 점 대 점 요약을 요구하며, 이 제약은 인간 평정의 집계 수준을 이미지 평균으로 맞추는 것을 자연스럽게 만든다. 둘째, $R \approx 50$ 일 때 이미지 평균 $\overset{y}{ˉ}_{j}$ 의 표준오차는 원 평정 표준편차의 $1/ 50 \approx 0.14 σ$ 로 축소되어, 이미지 간 비교 신호에 개입하는 평균 추정 오차의 상한이 0.14σ 수준이다. 셋째, §3.2의 차원 Krippendorff’s α 값(valence α = 0.498, arousal α = 0.116)은 within-image 변산이 무시할 수 없는 크기임을 보여주므로, 본 연구는 차원적 합치도 지표(Pearson r, Bland-Altman, LMM)를 단독 근거로 삼지 않고 §3.4.3의 Krippendorff’s α Δα와 z-score ( $W_{1 SD}$ ) — 이 두 지표는 인간 개별 응답을 직접 사용하여 within-image 변산을 판정 기준에 내재화한다 — 를 주요 대체 가능성 판정 지표로 병기하며, 차원적 합치도 결론이 §3.4.3의 판정과 충돌하는 경우는 §5 Discussion에서 명시한다. 넷째, Pearson $r$ (단위 무관)은 선행 VLM 감정 평가 문헌(Khare et al., 2024; Telceken et al., 2025)과 직접 비교 가능한 단위라는 점에서 1차 요약 지표로 유지된다. 선행 문헌이 함께 보고하는 MAE(원 1–9 척도 단위 보존)는 본 연구에서 산출된 $(\overset{ˉ}{d}, S D_{d})$ 의 근사 파생량이므로 Supplementary S4에 분리 보고하여, 주 본문 지표가 네 축(Pearson r, Bland-Altman, LMM, §3.4.3 대체 가능성 지표) 간 orthogonality를 유지하도록 하였다.

4. 결과

4.1 범주적 일치도

Table 2는 여덟 VLM 조건의 감정 분류 성능을 제시하며, κ = 0.536(LLaMA)에서 0.853(Gemini NoThink)에 이르는 넓은 분포에서 세 가지 구조적 패턴이 드러난다. 여기서 범주적 일치도(categorical agreement)란 예측 감정 레이블과 인간 다수결 레이블 간 우연 보정 일치 수준을 Cohen’s kappa로 정량화한 지표를 가리키며, κ = 0.536은 보통(moderate), 0.853은 거의 완벽(near-perfect) 수준에 해당한다.

Table 2. 전체 감정 분류 성능 (조건당 N = 1,440장 이미지).

순위	모델	Thinking	파라미터 규모	Accuracy	F1_macro	Cohen’s kappa
—	Human	—	—	0.993	0.993	0.992
1	Gemini 2.5 Flash (NoThink)	N (budget=0)	Frontier	0.878	0.873	0.853
2	Gemini 2.5 Flash	Y	Frontier	0.874	0.869	0.848
3	Gemma3-27B	N	27B	0.831	0.827	0.798
4	GPT-4o-mini	N	Frontier	0.807	0.786	0.768
5	Qwen3-VL-4B	Y	4B	0.800	0.799	0.761
6	Gemma3-12B	N	12B	0.759	0.728	0.711
7	Gemma3-4B	N	4B	0.724	0.682	0.668
8	LLaMA-3.2-11B	N	11B	0.613	0.536	0.536

첫째, Gemini 2.5 Flash NoThink 조건(accuracy = 0.878)이 Gemini 2.5 Flash Thinking 조건(0.874)을 소폭 상회한다. 동일 모델에서 thinking_budget을 0으로 설정한 조건이 동적 thinking 조건과 동등하거나 이를 상회하는 결과는, thinking 모드가 Gemini의 감정 분류 성능에 인과적으로 기여하지 않음을 시사한다. 이 within-model 비교의 상세 분석은 Section 4A.1에서 제시한다.

둘째, Gemma3-27B(accuracy = 0.831, kappa = 0.798)가 non-thinking 로컬 모델 중 최고 성능을 달성하며, 프론티어 모델인 GPT-4o-mini(0.807)를 상회한다. Gemma3 계열의 3점 스케일링(4B: 0.724, 12B: 0.759, 27B: 0.831)은 동일 아키텍처 내에서 규모 증가가 범주적 정확도를 개선함을 보이며, 상세 분석은 Section 4A.2에서 제시한다.

셋째, 모델 규모가 성능을 일관되게 예측하지 못한다. 11B LLaMA(kappa = 0.536)가 4B Gemma3(kappa = 0.668)보다 낮고, 12B Gemma3(kappa = 0.711)가 4B Qwen3-VL(kappa = 0.761)보다 낮다. 아키텍처, 훈련 데이터, 추론 모드의 차이가 파라미터 수만큼 중요함을 확인한다.

Table 3은 여덟 조건과 인간의 감정별 분류 정확도(recall)를 제시하며, 감정 범주에 따른 극단적 성능 양극화를 드러낸다.

Table 3. 감정별 분류 정확도 (Recall). 인간 다수결 정서 레이블을 정답으로 간주.

감정	Gemini-NT	Gemini-T	GPT-4o	Qwen3-VL	LLaMA	Gemma3-4B	Gemma3-12B	Gemma3-27B	Human
행복	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000
중립	1.000	0.992	1.000	0.963	1.000	1.000	1.000	1.000	1.000
공포	0.967	0.971	0.929	0.896	0.654	0.979	0.979	0.963	1.000
분노	0.913	0.908	0.925	0.858	0.925	0.400	0.925	0.713	0.979
혐오	0.788	0.788	0.733	0.538	0.008	0.838	0.383	0.767	0.979
슬픔	0.600	0.583	0.254	0.546	0.092	0.125	0.267	0.546	1.000

Table 3a는 감정별 정밀도(precision)를 제시하여, recall과의 비교를 통해 오분류의 방향성을 진단한다.

Table 3a. 감정별 분류 정밀도 (Precision). 해당 감정으로 예측한 이미지 중 실제 정답 비율.

감정	Gemini-NT	Gemini-T	GPT-4o	Qwen3-VL	LLaMA	Gemma3-4B	Gemma3-12B	Gemma3-27B	Human
행복	1.000	0.992	0.996	0.980	1.000	1.000	1.000	1.000	1.000
중립	0.803	0.847	0.583	0.750	0.500	0.519	0.609	0.682	1.000
공포	0.903	0.896	0.945	0.843	1.000	0.914	0.887	0.967	1.000
분노	0.768	0.732	0.742	0.626	0.421	0.793	0.603	0.753	0.979
혐오	0.883	0.867	0.921	0.860	1.000	0.611	0.844	0.739	0.979
슬픔	0.993	0.993	1.000	1.000	0.759	1.000	1.000	0.985	1.000

Table 3과 Table 3a를 대조하면 오분류의 비대칭성이 드러난다. 슬픔은 recall이 극히 낮으나(0.092–0.600) precision은 거의 완벽하다(0.759–1.000). 이는 VLM이 슬픔으로 예측한 이미지는 실제로 슬픈 이미지이지만, 대다수의 슬픈 이미지를 슬픔으로 인식하지 못함을 의미한다 — 즉, 과소탐지(under-detection) 오류이다. 반대로 중립은 recall이 높으나(0.963–1.000) precision이 낮아(0.500–0.847), VLM이 슬픔과 혐오 이미지를 중립으로 과잉 흡수하는 패턴을 확인한다.

행복과 중립은 여덟 조건 모두에서 완벽하거나 거의 완벽하게 분류되어 사실상 해결된 범주이다. 공포는 LLaMA(0.654)를 제외한 모든 조건에서 0.896 이상의 정확도를 보인다. 분노와 혐오는 모델별 변이가 크며, Gemma3 계열은 규모에 따라 비단조적 패턴을 보인다: 분노에서 4B(0.400)가 극히 낮으나 12B(0.925)에서 급등한 뒤 27B(0.713)에서 다시 하락하고, 혐오에서는 반대로 4B(0.838)가 높으나 12B(0.383)에서 급락한 뒤 27B(0.767)에서 회복한다. 이 상보적 오류 프로파일은 규모 증가가 분노-혐오 간 내부 표상을 질적으로 재편함을 시사한다(Section 4A.2 참조).

슬픔은 대체 가능성 관점에서 가장 심각한 범주이다. 여덟 조건 중 recall에서 0.600을 초과하는 조건이 없으며, non-thinking 소형 모델(Gemma3-4B: 0.125, LLaMA: 0.092)은 10% 미만의 정확도를 보인다. 슬픔의 주된 오류 경로는 중립 흡수이다: non-thinking VLM은 슬픈 이미지의 대부분을 중립으로 분류한다. Gemma3-27B(0.546)는 non-thinking 모델임에도 thinking 모델인 Qwen3-VL(0.546)과 동등한 슬픔 정확도를 달성하여, thinking 모드뿐 아니라 규모 증가 역시 슬픔 인식 개선의 경로가 될 수 있음을 시사한다(Section 4A.2 참조).

4.2 Valence 일치도

여덟 VLM 조건 모두 전체 valence 상관 r = .891–.963을 달성하나, 이는 감정 분류 정확도의 파생 지표이므로 감정 내 상관과 z-score 범위 소속 분석으로 실질적 변별력을 별도 검증한다. 그러나 이 전체 상관은 감정 범주 간 분산(between-emotion variance)에 의해 지배되므로, VLM의 “valence 감지 능력”이 아니라 “감정 분류 정확도의 파생 지표”로 해석해야 한다(상세는 Table 4b와 뒤의 분석 참조). Table 4는 전체 valence 통계를 제시한다.

Table 4. Valence 예측 통계 (모델당 N = 1,440). Bias = Bland-Altman mean difference $\overset{ˉ}{d}$ (human − VLM; 양수 = VLM 과소평정). $S D_{d}$ = 차이값의 표준편차 (Table 4a의 감정별 $S D_{d}$ 와 단위 일치). 95% Bland-Altman LoA는 $\overset{ˉ}{d} \pm 1.96 \cdot S D_{d}$ 로 환산 가능하나, $d$ 의 정규성 가정을 피하고 감정별 분해와 단위를 맞추기 위해 $S D_{d}$ 를 직접 보고한다. 본 전체 수준 요약 지표는 감정 범주 간 편향 차이에 의해 부풀려져 있으며, 감정 수준의 해석은 Table 4a와 Figure 2 참조. 모델별 평균 절대 오차(MAE)는 $(\overset{ˉ}{d}, S D_{d})$ 쌍에서 근사적으로 유도되는 보조 지표이므로 Supplementary S4에 분리 보고한다.

모델	Thinking	Pearson r	Bias ( $\overset{ˉ}{d}$ )	$S D_{d}$
Gemini 2.5 Flash	Y	.963	1.280	1.617
Gemini 2.5 Flash (NoThink)	N	.963	1.269	1.614
GPT-4o-mini	N	.938	1.018	1.596
Qwen3-VL-4B	Y	.913	0.824	1.403
LLaMA-3.2-11B	N	.899	0.857	1.738
Gemma3-4B	N	.891	0.291	1.530
Gemma3-12B	N	.922	0.876	1.535
Gemma3-27B	N	.915	0.515	1.390

차이값 $S D_{d}$ 는 주로 감정 범주 간 편향 차이를 반영하며, 이미지 수준의 일치 범위로 직접 해석될 수 없다. Gemma3-27B(1.390)가 가장 작고 LLaMA-3.2-11B(1.738)가 가장 커, 모델 간 상대적 예측 안정성을 비교하는 거친 요약 지표로 기능한다. 차이값 $d_{j}$ 의 분산은 감정 범주 간 편향 차이(예: Gemini 2.5 Flash-Thinking에서 행복 bias = −1.59, 공포 bias = +2.65, 차이 4.24점)와 감정 내 잔차의 합으로 분해되며, 본 데이터에서는 감정 간 편향 차이가 전체 $S D_{d}$ 의 지배적 요소이다. 따라서 전체 $S D_{d}$ 는 주로 “VLM이 감정 범주마다 편향 방향을 달리하는 정도”를 반영한다. 이미지 수준의 일치 범위를 정확히 읽으려면 감정별 $S D_{d}$ 를 제시하는 Table 4a와 Figure 2를 참조해야 한다.

감정별 분해에서는 동일 모델 내에서도 $S D_{d}$ 가 최대 6배 이상 달라져, 정서별 분해 없이는 예측 정밀도를 변별할 수 없음이 확인된다. 예컨대 Gemini 2.5 Flash-Thinking은 행복(0.24)과 공포(0.48)에서는 좁은 $S D_{d}$ 를 보이지만, 슬픔(0.96)에서는 약 4배 넓어진다. GPT-4o-mini 역시 행복(0.21)과 공포(1.38)의 $S D_{d}$ 비가 6배 이상이다. 이처럼 모델 내 정서별 $S D_{d}$ 편차가 체계적으로 존재하므로, 전체 $S D_{d}$ 를 단일 지표로 보고하는 것만으로는 모델의 예측 정밀도를 정서 차원에서 변별할 수 없으며, 정서별 분해가 분석적으로 필수적이다.

편향이 감정에 따라 달라지는지를 진단하기 위해, 감정별 Bland-Altman bias를 산출하였다. Table 4a는 감정 × 모델별 valence 편향을 제시하며, Figure 2는 이를 히트맵으로 시각화한다.

Table 4a. 감정별 Valence Bland-Altman Bias (human − VLM). 각 셀은 bias ( $S D_{d}$ ) 형식이며, $S D_{d}$ 는 해당 감정 × 모델에서 차이값의 표준편차(240개 이미지 기준). 양수 = VLM 과소평정.

감정	Gemini-T	Gemini-NT	GPT-4o	Gemma3-27B	Qwen3-VL	Gemma3-12B	Gemma3-4B	LLaMA-3.2-11B
행복	−1.587 (0.24)	−1.591 (0.23)	−1.599 (0.21)	−0.941 (0.51)	−0.866 (0.49)	−1.020 (0.53)	−1.257 (0.48)	−1.582 (0.23)
슬픔	+1.648 (0.96)	+1.540 (0.99)	+0.536 (1.04)	+0.452 (1.29)	+1.165 (1.44)	+0.711 (1.29)	−0.381 (1.56)	−0.527 (1.05)
분노	+2.358 (0.45)	+2.404 (0.42)	+1.750 (0.50)	+1.350 (0.55)	+1.466 (0.79)	+1.746 (0.65)	+1.054 (1.10)	+2.062 (1.00)
공포	+2.654 (0.52)	+2.620 (0.49)	+2.929 (0.46)	+1.970 (0.29)	+2.087 (0.63)	+2.383 (0.49)	+1.987 (0.30)	+2.679 (0.53)
혐오	+2.435 (0.39)	+2.444 (0.39)	+2.231 (0.52)	+1.435 (0.44)	+1.560 (0.70)	+2.056 (0.67)	+1.394 (0.79)	+2.231 (0.85)
중립	+0.170 (0.36)	+0.195 (0.33)	+0.262 (0.33)	−1.176 (0.67)	−0.472 (0.90)	−0.618 (0.92)	−1.051 (0.40)	+0.278 (0.33)

Valence 감정별 Bland-Altman 편향 히트맵

Figure 2. 모델 × 감정별 valence Bland-Altman 편향(human − VLM) 히트맵. 셀 색상: 빨강 = VLM 과소평정(bias > 0), 파랑 = VLM 과대평정(bias < 0). 셀 숫자: bias(상단) / $S D_{d}$ (하단, 괄호). $S D_{d}$ 의 정의와 해석은 Methods Section 3.4.2 및 아래 본문을 참조.

Table 4a(및 Figure 2)에서 네 가지 핵심 패턴이 관찰된다.

첫째, 세 부정 감정의 공통된 과소평정. 공포(+1.970 ~ +2.929), 혐오(+1.394 ~ +2.444), 분노(+1.054 ~ +2.404)에서 여덟 모델 전체가 인간보다 부정적으로 평정하는 극성 과장 편향이 나타난다. 편향 크기는 공포 > 혐오 > 분노 순이다.

둘째, 세 부정 감정의 체계성 그라디언트. 편향의 체계성은 $∣ bias ∣/ S D_{d}$ 비율로 정량화되며, 이 비율이 클수록 단일 상수 오프셋으로 보정 가능하다. 비율이 1 근처이면 이미지 간 편차가 평균 편향에 맞먹어 단일 오프셋으로는 교정되지 않는다.

세 부정 감정 간 체계성은 공포 > 혐오 > 분노 순으로 감소하며, 동일 그라디언트가 대부분의 모델 내부에서도 유지된다. 공포는 8개 모델 전체에서 비율이 3.31(Qwen3-VL) ~ 6.79(Gemma3-27B) 범위에 고르게 분포하여, 세 부정 감정 중 유일하게 모든 모델에서 “단일 오프셋으로 보정 가능한” 수준의 체계적 편향을 보인다. 혐오(1.76–6.27)와 분노(0.96–5.72)는 범위가 훨씬 넓고 하단이 1 근처까지 내려간다: Gemini 계열(T·NT 공통)은 세 감정 모두에서 비율 ≥ 5로 강한 체계성을 유지하는 반면, Gemma3-4B의 분노는 $∣ bias ∣ \approx S D_{d}$ (0.96)이고 혐오도 1.76에 불과하여 단일 오프셋 보정이 어려운 수준이다(모델별 구체적 수치 예: Gemma3-27B 6.79/3.26/2.45, LLaMA 5.05/2.62/2.06, Gemma3-4B 6.62/1.76/0.96 — 모두 공포/혐오/분노 순).

따라서 “부정 감정의 과소평정”이 여덟 VLM의 공통 속성이라는 결론은 유지되지만, 이 편향이 감정별 아핀 보정(Section 3.4.3)으로 제거 가능한지 여부는 감정 범주와 모델에 따라 갈린다.

셋째, 행복의 반대 방향 편향. 모든 모델이 음수 편향(−0.866 ~ −1.599)을 보여 인간보다 더 긍정적으로 평정하며, bias/SD 비율은 약 1.6~7.6으로 체계적이다.

넷째, 중립의 모델 의존적 분기. Gemini 계열과 LLaMA는 소폭 양수(+0.170 ~ +0.278), Gemma3-27B(−1.176)와 Gemma3-4B(−1.051)는 음수로, 후자는 중립 이미지에 대해 인간보다 높은 valence를 산출한다. 이러한 감정 의존적 편향은 단일 아핀 보정이 아닌 감정 범주별 차등 보정이 필요함을 시사한다.

극성 과장 편향은 프론티어 전정밀도 모델(Gemini, GPT-4o-mini)에서도 $\overset{ˉ}{d} = + 1.018$ – $+ 1.280$ 로 지속되어 양자화 아티팩트가 아닌 구조적 속성임을 확인한다. Gemma3 계열에서는 규모 증가가 편향을 완화하여, 27B가 가장 작은 편향( $\overset{ˉ}{d}$ = +0.515)과 가장 작은 $S D_{d}$ (1.390)를 동시에 달성하여 여덟 모델 중 valence에서 가장 안정적인 예측을 제공한다. Pearson $r$ 순위(Gemini-T .963 > GPT-4o .938 > Gemma3-27B .915)와 편향· $S D_{d}$ 순위(Gemma3-27B 최소 vs. Gemini-T 최대)는 서로 역전되며, 이 해리는 “높은 선형 상관이 대체 가능성을 보장하지 않는다”는 본 연구의 핵심 주장을 확인한다.

전체 상관 vs. 감정 내 상관. Table 4의 전체 r(.891–.963)이 감정 분류의 파생 지표일 가능성을 검증하기 위해 각 감정 범주 내 240장 이미지에 대해 상관을 재산출하였다(Table 4b).

Table 4b. 감정 내 Valence Pearson r. 각 감정 범주 안의 240장 이미지에 대해 VLM 예측과 인간 평균 간 상관을 산출. ”—“는 VLM이 해당 감정의 모든 이미지에 동일한 값을 부여하여(예측 SD = 0) 상관이 정의되지 않는 경우.

감정	Gemini-T	Gemini-NT	GPT-4o	Gemma3-27B	Qwen3-VL	Gemma3-12B	Gemma3-4B	LLaMA-3.2-11B
행복	−.039	−.026	—	+.029	+.027	+.035	+.209	+.106
슬픔	+.370	+.423	+.479	+.522	+.396	+.510	+.519	+.368
분노	+.109	+.053	+.380	+.245	+.281	+.331	+.337	+.248
공포	+.279	+.312	+.161	—	+.084	+.320	+.195	+.182
혐오	+.215	+.160	+.344	+.330	+.228	+.406	+.361	+.236
중립	+.482	+.437	+.322	+.422	+.112	+.402	+.555	—
평균	+.236	+.226	+.337	+.310	+.188	+.334	+.363	+.228

감정 내 상관의 평균은 .188–.363 범위로 전체 상관(.891–.963)의 약 1/4 수준이다. 특히 행복에서 여덟 모델 모두 r ≈ 0을 보이며(−.039 ~ +.209), GPT-4o-mini는 모든 행복 이미지에 valence = 9를 일관되게 부여하여 변별이 불가능하다(SD = 0). Gemma3-27B(공포)와 LLaMA(중립)에서도 같은 획일적 응답 패턴이 관찰된다.

이 결과는 본 연구의 3단계 context-carry 프롬프팅(Section 3.3)과 일관된다. 1단계에서 감정을 분류한 후 2단계에서 해당 감정의 “전형적 valence”를 할당하는 전략이 지배적이므로, 전체 r은 VLM의 valence 감지 능력이 아니라 **감정 분류 정확도의 선형 사영(linear projection)**에 가깝다. 이 구조 때문에 분류 κ가 높은 모델(Gemini 계열, GPT-4o-mini)이 전체 r에서 우위를 보이는 반면, 감정 내 r에서는 오히려 소형 모델이 역전하는 역설이 나타난다 — Gemma3-4B는 분류 정확도가 낮지만 감정 내 평균 r(.363)은 가장 높다.

높은 Pearson r이 대체 가능성을 보장하는지 검증하기 위해 인간 개별 응답을 직접 사용하는 Krippendorff’s α와 z-score 범위 소속 비율( $W_{1 SD}$ )을 산출하였다(Section 3.4.3).

집단 수준에서의 대체 가능성을 평가하기 위해, 1,000명 인간 평정자 풀에 VLM을 1,001번째 평정자로 추가했을 때 valence Krippendorff’s alpha 변화를 산출하였다. Table 4c는 valence Krippendorff’s α 결과를 제시한다.

Table 4c. Valence Krippendorff’s α: VLM을 1,001번째 평정자로 추가 시 변화량.

모델	α (with VLM)	Δα
Human-only (baseline)	0.498	—
Gemma3-27B	0.504	+0.006
Gemma3-4B	0.503	+0.006
Gemma3-12B	0.503	+0.005
Qwen3-VL-4B	0.503	+0.005
GPT-4o-mini	0.503	+0.005
Gemini 2.5 Flash (NoThink)	0.502	+0.005
Gemini 2.5 Flash	0.502	+0.004
LLaMA-3.2-11B	0.502	+0.004

모든 VLM에서 Δα가 양수(+0.004 ~ +0.006)로, VLM 추가가 집단 수준의 valence 신뢰도를 저하시키지 않는다. Gemma3-27B가 가장 큰 Δα(+0.006)를 보인다. 그러나 이 결과는 1,000명이라는 대규모 풀에서 단일 평정자 추가의 영향이 구조적으로 작을 수밖에 없음을 반영하며, VLM이 인간 평정자와 동등함을 의미하지 않는다.

개인 수준에서의 valence 편차를 정량화하기 위해, z-score 범위 소속 분석을 수행하였다. 각 이미지에서 VLM 예측의 |z|가 1.0 이하(인간 분포 ±1SD 이내)인 비율 $W_{1 SD}$ 를 산출하고, 인간 LOO 기저선과 비교하였다. Table 4d는 valence z-score 결과를 제시한다.

Table 4d. Valence z-score 요약.

모델	\|z\| M	$W_{1 SD}$
Human (LOO)	0.784	0.70
Gemini 2.5 Flash	1.272	0.23
Gemini 2.5 Flash (NoThink)	1.266	0.24
GPT-4o-mini	1.122	0.37
Qwen3-VL-4B	1.027	0.46
Gemma3-4B	1.059	0.41
Gemma3-12B	1.131	0.35
LLaMA-3.2-11B	1.175	0.36
Gemma3-27B	0.995	0.49

주: |z| M = 평균 절대 z-score. $W_{1 SD}$ = VLM 예측이 인간 분포 ±1SD 이내인 이미지 비율 (0~1.0). 인간 LOO 기저선은 50명 전원의 결정적 Leave-One-Out으로 산출.

인간 개인의 LOO 기준선은 valence $W_{1 SD}^{LOO}$ = 0.70이다. 집계 수준에서 모든 VLM은 이보다 현저히 낮은 $W_{1 SD}$ (0.23–0.49)를 보인다. Gemma3-27B( $W_{1 SD}$ = 0.49)가 VLM 중 인간 기저선에 가장 근접하며, Gemini 계열은 가장 낮은 $W_{1 SD}$ (0.23–0.24)를 보여, 높은 Pearson r(.963)에도 불구하고 1,440장 중 약 330장에서만 인간 범위 안에 든다. 그러나 이 집계 $W_{1 SD}$ 는 여섯 감정 범주의 혼합 결과이며, 특정 감정에서의 범위 소속 여부는 감정별 분해를 통해서만 확인할 수 있다 — Section 4.6 Table 8(대체 가능성 매트릭스)의 판정은 정서별 $W_{1 SD}$ 를 기준으로 하므로 이 분해가 필수적이다.

정서별 z-score. 동일한 z-score 범위 소속 분석을 여섯 감정 범주 각각에 독립적으로 적용하였다. 대체 가능성 판정은 해당 감정의 인간 LOO $W_{1 SD}^{LOO}$ 이상을 기준으로 한다(Section 3.4.3). Table 4e는 그 결과를 제시한다.

Table 4e. 정서별 Valence z-score. 각 셀은 $∣ z ∣ M$ ( $W_{1 SD}$ ) 형식. 굵은 글씨 = $W_{1 SD} \geq W_{1 SD}^{LOO}$ (해당 감정에서 VLM의 valence 예측이 인간 개인의 범위 소속 수준 이상 — 즉 개인 수준 대체 가능성).

감정	Human LOO	Gemini-T	Gemini-NT	GPT-4o	Gemma3-27B	Qwen3-VL	Gemma3-12B	Gemma3-4B	LLaMA-3.2-11B
행복	0.828 (0.62)	1.238 (0.06)	1.242 (0.06)	1.249 (0.05)	0.724 (0.69)	0.671 (0.75)	0.789 (0.61)	0.982 (0.39)	1.236 (0.07)
슬픔	0.783 (0.73)	1.221 (0.27)	1.159 (0.30)	0.637 (0.74)	0.862 (0.62)	1.206 (0.26)	0.860 (0.50)	1.050 (0.34)	0.772 (0.83)
분노	0.804 (0.70)	1.573 (0.06)	1.606 (0.04)	1.160 (0.38)	0.935 (0.62)	1.059 (0.49)	1.174 (0.34)	0.966 (0.60)	1.477 (0.14)
공포	0.808 (0.70)	1.683 (0.01)	1.662 (0.01)	1.877 (0.00)	1.252 (0.12)	1.354 (0.11)	1.511 (0.03)	1.261 (0.11)	1.703 (0.04)
혐오	0.801 (0.69)	1.633 (0.01)	1.639 (0.01)	1.504 (0.10)	0.973 (0.53)	1.092 (0.41)	1.391 (0.14)	1.023 (0.48)	1.556 (0.08)
중립	0.683 (0.79)	0.287 (0.99)	0.286 (1.00)	0.305 (0.98)	1.227 (0.39)	0.783 (0.75)	1.059 (0.49)	1.069 (0.51)	0.308 (0.98)

주: 각 셀은 $∣ z ∣ M$ ( $W_{1 SD}$ ) 형식. Human LOO = 인간 50명 전원의 결정적 LOO 기저선. 굵은 글씨 = VLM $W_{1 SD} \geq$ Human LOO $W_{1 SD}$ .

집계 수준에서 모든 VLM의 valence $W_{1 SD}$ 가 인간 기저선(0.70)의 절반 수준이었던 것과 달리, 정서별 분해는 다수의 부분 대체 가능 셀을 드러낸다. (1) 행복 × Valence: Qwen3-VL(0.75)과 Gemma3-27B(0.69)가 인간 기저선(0.62) 이상이다. 행복의 인간 LOO 기저선이 0.62로 여섯 감정 중 가장 낮은데, 이는 행복이 극단적 valence 값(8–9)에 집중되어 소폭 편차도 |z| > 1.0이 되기 쉽기 때문이다. (2) 슬픔 × Valence: GPT-4o-mini(0.74)와 LLaMA-3.2-11B(0.83)가 인간 기저선(0.73) 이상이다. LLaMA는 슬픔에 대해 분류 recall이 극히 낮았지만(0.092), 슬픔으로 분류한 이미지에 대해서는 인간과 유사한 valence를 부여하는 상반된 패턴이다. (3) 분노·공포·혐오는 모든 모델에서 인간 기저선(0.69–0.70)을 충족하는 모델이 없으며, 이는 Table 4a에서 관찰된 극성 과장 편향(bias +1.05 ~ +2.93)과 일관된다 — VLM이 체계적으로 과소 평정하는 감정은 개인 수준에서도 일관되게 벗어난다. (4) 중립 × Valence는 Gemini 계열, GPT-4o-mini, LLaMA가 $W_{1 SD}$ ≈ 0.98–1.00으로 인간 기저선(0.79)을 크게 상회하지만, 이는 VLM이 중립 이미지에 인간 평균과 매우 유사한 값을 획일적으로 부여하기 때문이다(Section 4.4 참조) — 높은 $W_{1 SD}$ 가 반드시 양질의 변별을 의미하지 않는다. Valence에서 대체 가능성이 존재하는 구체적 감정 × 모델 조합은 Section 4.6 Table 8에 종합한다.

Figure 4f는 위 분석의 z-score 분포를 시각화한다. 각 감정 행의 위쪽에 인간 LOO z-score의 밀도 곡선을, 아래쪽에 8개 VLM의 개별 z-score를 모델별 색상으로 산포하여, $W_{1 SD}$ 수치 이면의 분포 형태를 직접 비교할 수 있다. 회색 음영 영역은 ±1 SD 범위(인간 분포 안)를 나타낸다. 공포(Fear 행)에서 모든 VLM 점이 회색 영역 바깥 좌측으로 치우쳐 있어(z < −1), Table 4e의 $W_{1 SD}$ = 0.00–0.12과 일치하는 체계적 이탈이 시각적으로 확인된다. 반면 중립(Neutral 행)에서는 일부 모델의 점이 z ≈ 0에 극도로 밀집되어, 높은 $W_{1 SD}$ (≈ 1.00)가 인간 변별력의 재현이 아닌 획일적 응답에 기인함을 보여준다.

Valence z-score 분포

Figure 4f. 감정별 Valence z-score 분포. 각 감정 행의 상단 = 인간 LOO z-score 밀도 곡선, 하단 = 8개 VLM의 z-score 산포(모델별 색상). 회색 음영 = ±1 SD 범위. 점선 = z = ±1. z = (VLM 예측 − 인간 평균) / 인간 SD. N = 240 images per emotion per model.

4.3 Arousal 일치도

Arousal 상관은 r = .622–.797로 valence보다 낮으며, 전체 상관과 감정 내 상관의 괴리가 valence보다 더 크다. Table 5는 arousal 통계를 제시한다. Arousal 상관은 모든 조건에서 valence보다 낮으며(r = .622–.797), 체계적인 thinking 이점은 관찰되지 않는다. 전체 상관은 valence와 동일하게 감정 범주 간 분산에 의해 지배되므로, 감정 내 변별력은 Table 5b에서 별도로 검증한다.

Table 5. Arousal 예측 통계 (모델당 N = 1,440). 편향 = Bland-Altman mean difference $\overset{ˉ}{d}$ (human − VLM; 양수 = VLM 과소평정, 음수 = VLM 과대평정). $S D_{d}$ = 차이값의 표준편차 (Table 5a의 감정별 $S D_{d}$ 와 단위 일치). 95% Bland-Altman LoA는 $\overset{ˉ}{d} \pm 1.96 \cdot S D_{d}$ 로 환산 가능하나, $d$ 의 정규성 가정을 피하기 위해 $S D_{d}$ 를 직접 보고한다. 본 전체 수준 요약 지표는 감정 범주 간 편향 차이에 의해 부풀려져 있으며, 감정 수준의 해석은 Table 5a와 Figure 3 참조. 모델별 평균 절대 오차(MAE)는 $(\overset{ˉ}{d}, S D_{d})$ 쌍에서 근사적으로 유도되는 보조 지표이므로 Supplementary S4에 분리 보고한다.

모델	Thinking	Pearson r	편향 ( $\overset{ˉ}{d}$ )	$S D_{d}$
LLaMA-3.2-11B	N	.797	0.250	1.973
Gemini 2.5 Flash (NoThink)	N	.775	−0.742	1.871
Gemini 2.5 Flash	Y	.767	−0.813	1.954
Gemma3-4B	N	.759	0.113	1.342
Qwen3-VL-4B	Y	.758	−0.073	2.188
Gemma3-27B	N	.724	−0.076	1.327
Gemma3-12B	N	.623	1.117	1.364
GPT-4o-mini	N	.622	0.104	1.814

Non-thinking 모델인 LLaMA(r = .797)와 Gemma3-4B(r = .759)가 thinking 모델인 Gemini(r = .767)와 Qwen3-VL(r = .758)에 필적하거나 이를 상회하여, Chain-of-Thought 추론이 차원적 강도 추정에 일관된 이점을 주지 않음을 보인다(Section 4A 참조). Gemma3-4B( $\overset{ˉ}{d}$ = +0.113, $S D_{d}$ = 1.342)와 Gemma3-27B( $\overset{ˉ}{d}$ = −0.076, $S D_{d}$ = 1.327)가 여덟 모델 중 가장 작은 편향과 $S D_{d}$ 를 동시에 달성하여, Gemma3 계열이 arousal 차원에서 프론티어 모델(Gemini $\overset{ˉ}{d} \approx - 0.8$ , $S D_{d} \approx 1.9$ )을 실질적으로 상회한다. 이 두 Gemma3 모델의 편향은 영(零)에 가까워, 인간 개인의 LOO 기저선(Table 5d에서 |z| = 0.794)과 가장 근접한 위치에 놓인다 — Section 4.3 후반의 부트스트랩 z-score 분석에서 두 모델만이 인간 개인과 통계적으로 구별되지 않는다는 결과와 수렴하는 발견이다.

Bland-Altman 분석은 arousal 편향의 방향이 모델에 따라 분기됨을 보인다. Gemini 계열(편향 = −0.742 ~ −0.813)과 Qwen3-VL(−0.073)은 과대평정하는 반면, Gemma3-12B(+1.117)와 LLaMA(+0.250)는 과소평정한다. $S D_{d}$ 는 Gemma3-27B(1.327)와 Gemma3-4B(1.342)가 가장 작고 Qwen3-VL(2.188)이 가장 크다. Valence에서와 동일하게 전체 $S D_{d}$ 는 감정 간 편향 차이에 의해 부풀려져 있으며(예: Table 5a 중립 +0.56 ~ +2.91 vs. 공포 −2.34 ~ −0.58), 이미지 수준 해석은 Table 5a와 Figure 3을 참조한다.

감정별 arousal 편향은 Table 5a와 Figure 3에 제시한다.

Table 5a. 감정별 Arousal Bland-Altman Bias (human − VLM). 각 셀은 bias ( $S D_{d}$ ) 형식이며, $S D_{d}$ 는 해당 감정 × 모델에서 차이값의 표준편차(240개 이미지 기준). 양수 = VLM 과소평정, 음수 = VLM 과대평정.

감정	Gemini-T	Gemini-NT	GPT-4o	Gemma3-27B	Qwen3-VL	Gemma3-12B	Gemma3-4B	LLaMA-3.2-11B
행복	−1.905 (0.54)	−1.726 (0.48)	−0.860 (0.68)	−0.005 (0.51)	−1.555 (0.56)	+1.578 (1.00)	−0.301 (0.46)	−2.385 (0.76)
슬픔	−0.009 (1.31)	+0.371 (1.20)	+1.729 (0.69)	+1.175 (0.88)	+1.375 (1.88)	+2.333 (0.68)	+1.042 (1.36)	+2.104 (0.39)
분노	−1.784 (0.58)	−1.751 (0.54)	−0.372 (1.53)	−0.847 (0.76)	−0.563 (1.75)	+0.366 (1.06)	−0.242 (1.04)	+0.495 (1.20)
공포	−2.100 (0.52)	−2.079 (0.43)	−2.338 (0.83)	−1.700 (0.46)	−2.134 (0.54)	−0.584 (0.51)	−1.300 (0.48)	−1.213 (1.80)
혐오	−1.959 (0.60)	−1.959 (0.53)	+1.904 (1.47)	−0.709 (0.65)	−0.471 (1.88)	+0.629 (1.01)	−0.413 (0.81)	+0.583 (1.55)
중립	+2.882 (0.74)	+2.694 (0.53)	+0.561 (0.64)	+1.632 (0.46)	+2.911 (0.44)	+2.377 (0.57)	+1.894 (0.46)	+1.915 (0.38)

Arousal 감정별 Bland-Altman 편향 히트맵

Figure 3. 모델 × 감정별 arousal Bland-Altman 편향(human − VLM) 히트맵. 셀 색상: 빨강 = VLM 과소평정(bias > 0), 파랑 = VLM 과대평정(bias < 0). 셀 숫자: bias(상단) / $S D_{d}$ (하단, 괄호). $S D_{d}$ 의 정의는 Methods Section 3.4.2 및 아래 본문을 참조.

Arousal 편향은 valence보다 복잡한 패턴을 보인다. 중립에서는 GPT-4o-mini(+0.56, bias/SD = 0.87)를 제외한 일곱 모델이 강한 양수 편향(+1.63 ~ +2.91, bias/SD ≈ 3.5–6.7)을 보여 VLM이 중립 이미지의 arousal을 체계적으로 낮게 평정한다. 공포에서는 모든 모델이 음수 편향(−0.584 ~ −2.338)으로 과대평정한다. 혐오에서는 모델 간 편향 방향이 분기되어(GPT-4o-mini: +1.904, Gemini: −1.959) 모델 간 내부 arousal 기준점의 이질성이 가장 극명하며, Qwen3-VL(−0.47, SD = 1.88)처럼 bias가 SD에 묻히는 비체계적 오류 셀도 나타난다. 이러한 감정별 편향의 방향 및 크기 차이는 Methods Section 3.4.2의 LMM RaterType × Emotion 상호작용의 유의성과 일관되며, 단일 보정 계수가 아닌 감정 범주별 차등 보정이 필요함을 확인한다.

전체 상관 vs. 감정 내 상관. Valence에서와 동일한 분해를 arousal에도 적용하였다(Table 5b).

Table 5b. 감정 내 Arousal Pearson r. 각 감정 범주 안의 240장 이미지에 대해 VLM 예측과 인간 평균 간 상관을 산출.

감정	Gemini-T	Gemini-NT	GPT-4o	Gemma3-27B	Qwen3-VL	Gemma3-12B	Gemma3-4B	LLaMA-3.2-11B
행복	+.211	+.243	+.201	+.208	+.048	+.140	+.137	+.011
슬픔	+.305	+.354	−.229	+.382	+.223	+.182	+.320	+.244
분노	+.340	+.293	+.166	+.343	+.255	+.289	+.380	+.127
공포	+.152	+.195	+.378	+.326	+.082	+.255	+.241	+.295
혐오	+.278	+.301	−.036	+.398	+.275	+.311	+.411	+.131
중립	+.007	+.081	+.075	+.050	+.027	−.042	−.008	−.021
평균	+.215	+.245	+.093	+.285	+.152	+.189	+.247	+.131

Arousal의 감정 내 상관은 더욱 낮아 .093–.285 범위이며, 전체 상관(.622–.797)의 약 1/3 수준이다. 특히 중립에서 모든 모델이 |r| < 0.10으로 사실상 변별력이 없으며, GPT-4o-mini는 슬픔(−.229)과 혐오(−.036)에서 음의 상관을 보여 VLM의 arousal 순위가 인간과 역방향으로 정렬된다. Gemma3-27B(평균 +.285)가 가장 높은 감정 내 상관을 보이나, r = .285는 Cohen(1988) 기준 소효과(r < .30) 범주에 해당한다.

Arousal에서 전체 상관과 감정 내 상관의 괴리는 valence보다 크다(전체 ≈ 3 × 감정 내). 이는 arousal이 valence보다 감정 범주 간 분산으로의 환원이 더 강하다는 것을 시사한다 — 즉, VLM에게 arousal은 “감정 종류마다 정해진 값”에 가깝고, 얼굴의 실제 각성 강도에 대한 측정은 거의 수행되지 않는다. 인간 평정자 간 arousal 신뢰도가 낮은 것(α = 0.116; Section 3.2)과 합쳐서 보면, arousal은 분류에 부수된 파생 지표가 아닌 독립적 차원으로 VLM이 측정하기에 구조적으로 가장 어려운 대상이다.

집단 수준의 arousal 신뢰도에서, Table 5c는 arousal Krippendorff’s α 결과를 제시한다.

Table 5c. Arousal Krippendorff’s α: VLM을 1,001번째 평정자로 추가 시 변화량.

모델	α (with VLM)	Δα
Human-only (baseline)	0.116	—
LLaMA-3.2-11B	0.126	+0.009
Qwen3-VL-4B	0.125	+0.009
Gemini 2.5 Flash (NoThink)	0.125	+0.008
Gemini 2.5 Flash	0.124	+0.008
Gemma3-4B	0.123	+0.007
Gemma3-27B	0.122	+0.006
GPT-4o-mini	0.122	+0.005
Gemma3-12B	0.120	+0.003

모든 VLM에서 Δα가 양수(+0.003 ~ +0.009)로, VLM 추가가 집단 수준의 arousal 신뢰도를 저하시키지 않는다. Valence(Δα = +0.004 ~ +0.006)보다 arousal(Δα = +0.003 ~ +0.009)에서 변화 폭이 더 넓으며, 이는 인간 평정자 간 arousal 신뢰도 자체가 낮아(α = 0.116) VLM 추가의 상대적 영향이 더 크게 나타나기 때문이다. 다만, 이는 대규모 풀에서의 희석 효과를 반영한다.

개인 수준의 arousal 편차를 정량화한 z-score 범위 소속 분석에서, valence와 다른 패턴이 나타난다. Table 5d는 arousal z-score 결과를 제시한다.

Table 5d. Arousal z-score 요약.

모델	\|z\| M	$W_{1 SD}$
Human (LOO)	0.794	0.69
Gemini 2.5 Flash	1.276	0.30
Gemini 2.5 Flash (NoThink)	1.228	0.32
GPT-4o-mini	1.053	0.51
Qwen3-VL-4B	1.319	0.31
Gemma3-4B	0.740	0.70
Gemma3-12B	0.954	0.54
LLaMA-3.2-11B	1.157	0.40
Gemma3-27B	0.759	0.69

인간 개인의 LOO 기준선은 arousal $W_{1 SD}^{LOO}$ = 0.69이다. Gemma3-4B와 Gemma3-27B를 제외한 여섯 VLM은 집계 수준에서 이보다 현저히 낮은 $W_{1 SD}$ (0.30–0.54)를 보인다. Gemma3-4B의 arousal $W_{1 SD}$ = 0.70은 인간 기준선(0.69)과 사실상 동일하며, Gemma3-27B(0.69) 역시 기저선에 근접한다. 그러나 이 집계 수준 $W_{1 SD}$ 는 감정 범주 간 분산이 섞인 결과이며, 개별 감정 내에서 VLM이 인간 개인과 얼마나 가까운지는 감정별 분해를 통해서만 확인할 수 있다.

정서별 z-score. Table 4e에서와 동일한 z-score 범위 소속 분석을 arousal에도 적용하였다. Table 5e는 그 결과를 제시한다.

Table 5e. 정서별 Arousal z-score. 각 셀은 $∣ z ∣ M$ ( $W_{1 SD}$ ) 형식. 굵은 글씨 = $W_{1 SD} \geq W_{1 SD}^{LOO}$ (해당 감정에서 VLM의 arousal 예측이 인간 개인의 범위 소속 수준 이상).

감정	Human LOO	Gemini-T	Gemini-NT	GPT-4o	Gemma3-27B	Qwen3-VL	Gemma3-12B	Gemma3-4B	LLaMA-3.2-11B
행복	0.795 (0.71)	1.242 (0.33)	1.122 (0.43)	0.603 (0.83)	0.299 (1.00)	1.011 (0.55)	1.037 (0.46)	0.312 (1.00)	1.614 (0.02)
슬픔	0.796 (0.70)	0.713 (0.73)	0.703 (0.77)	1.164 (0.42)	0.889 (0.62)	1.408 (0.31)	1.566 (0.13)	1.050 (0.43)	1.415 (0.08)
분노	0.806 (0.68)	1.218 (0.31)	1.199 (0.35)	0.972 (0.56)	0.678 (0.80)	1.117 (0.48)	0.598 (0.79)	0.565 (0.85)	0.688 (0.80)
공포	0.801 (0.70)	1.414 (0.11)	1.401 (0.08)	1.602 (0.13)	1.145 (0.33)	1.439 (0.09)	0.424 (0.97)	0.874 (0.70)	1.218 (0.47)
혐오	0.807 (0.69)	1.335 (0.25)	1.327 (0.25)	1.570 (0.19)	0.559 (0.89)	1.192 (0.44)	0.673 (0.73)	0.496 (0.90)	0.859 (0.69)
중립	0.762 (0.69)	1.733 (0.07)	1.619 (0.05)	0.409 (0.93)	0.983 (0.47)	1.747 (0.01)	1.429 (0.18)	1.145 (0.32)	1.149 (0.31)

주: 각 셀은 $∣ z ∣ M$ ( $W_{1 SD}$ ) 형식. Human LOO = 인간 50명 전원의 결정적 LOO 기저선. 굵은 글씨 = VLM $W_{1 SD} \geq$ Human LOO $W_{1 SD}$ .

Arousal에서는 valence보다 많은 부분 대체 가능 셀이 발생한다. (1) 슬픔: 두 Gemini 모델(Gemini-T: $W_{1 SD}$ = 0.73, Gemini-NT: 0.77)이 인간 기저선(0.70)을 상회한다. (2) 분노: Gemma3-27B(0.80), LLaMA-3.2-11B(0.80), Gemma3-12B(0.79), Gemma3-4B(0.85) 네 모델이 인간 기저선(0.68) 이상이다. (3) 혐오: Gemma3-4B(0.90), Gemma3-27B(0.89), Gemma3-12B(0.73) 세 모델이 인간 기저선(0.69) 이상이다. LLaMA-3.2-11B(0.69)는 기저선과 동일하나 소수점 3자리에서 미달(0.692 vs. 0.691)한다. (4) 행복: GPT-4o-mini(0.83), Gemma3-4B(1.00), Gemma3-27B(1.00) 세 모델이 인간 기저선(0.71) 이상이다. 다만 Gemma3-4B와 Gemma3-27B의 $W_{1 SD}$ = 1.00은 모든 이미지에서 |z| ≤ 1.0임을 의미하는데, |z| M이 각각 0.31, 0.30으로 인간 LOO(0.80)보다 훨씬 작다. 이는 VLM이 행복 arousal에서 인간보다 오히려 더 획일적인 값을 부여하여, “범위 안에 들지만 변이가 과도하게 적은” 상태에 해당한다(Section 4.4 참조). (5) 공포: Gemma3-12B(0.97)와 Gemma3-4B(0.70)가 인간 기저선(0.70) 이상이다. Gemma3-12B의 0.97은 본 분석 전체에서 가장 높은 $W_{1 SD}$ 중 하나이나, |z| M = 0.42로 인간 LOO(0.80)보다 훨씬 작아 역시 획일적 응답에 기인한다. (6) 중립: GPT-4o-mini(0.93)만이 인간 기저선(0.69) 이상이다. 이 결과는 집계 수준에서 인간 기저선에 근접했던 Gemma3-4B·Gemma3-27B의 arousal $W_{1 SD}$ 가 정서별로 보면 행복의 과도한 획일성에 의해 끌어올려진 것임을 드러낸다. Arousal 전체에서 대체 가능성이 존재하는 구체적 감정 × 모델 조합은 Section 4.6 Table 8에 종합한다.

Figure 5f는 위 분석의 arousal z-score 분포를 시각화한다. 감정별 VLM 편향 방향이 분기되어 valence(Figure 4f)보다 이질적인 분포를 형성한다. 분노(Angry 행)에서 다수 모델의 점이 회색 ±1 SD 영역 안에 분포하여 Table 5e의 높은 $W_{1 SD}$ (0.56–0.85)와 일치한다. 반면 중립(Neutral 행)에서는 대부분 VLM 점이 양수 방향(z > 1)으로 치우쳐, arousal 과소평정(bias > 0)이 시각적으로 확인된다. 행복(Happy 행)에서 Gemma3-4B·Gemma3-27B의 점이 z ≈ 0에 극도로 밀집되어 있어( $W_{1 SD}$ = 1.00), “범위 안이지만 변이가 과도하게 적은” 획일적 응답 패턴이 드러난다.

Arousal z-score 분포

Figure 5f. 감정별 Arousal z-score 분포. 각 감정 행의 상단 = 인간 LOO z-score 밀도 곡선, 하단 = 8개 VLM의 z-score 산포(모델별 색상). 회색 음영 = ±1 SD 범위. 점선 = z = ±1. z = (VLM 예측 − 인간 평균) / 인간 SD. N = 240 images per emotion per model.

Valence–Arousal 2차원 분포. Section 4.2–4.3의 결과를 2차원 정서 공간에 결합하여 시각화하면 VLM과 인간의 차원적 평정 구조가 질적으로 다름이 드러난다(Figure 4a, 4b). 대체 가능성 질문과의 정합성을 위해 인간 평정은 두 가지 수준 — 개별 평정(50 rater × 1,440 image = 72,000)과 이미지당 평균(1,440) — 을 함께 제시하며, 평균화가 평정자 간 자연스러운 변동성을 얼마나 압축하는지 직접 확인할 수 있도록 하였다.

인간 Valence-Arousal 2D 산점도

Figure 4a. 인간 평정의 Valence–Arousal 2차원 분포. 좌: 50 rater × 1,440 image = 72,000 개별 평정. 우: 이미지당 평균(1,440점, 각 점은 동일 이미지에 대한 최대 50명 평정의 산술 평균). x축 = valence (1–9), y축 = arousal (1–9), 색상 = 정답 감정 범주, 큰 테두리 마커 = 감정 범주별 중심(centroid). 정수 척도 상의 시각적 중첩을 완화하기 위해 좌우 모두 동일 지터(SD = 0.08)를 적용하였고, 좌 패널은 점 개수가 50배 많아 alpha = 0.04(우 패널은 0.35)로 조정하였다. 두 패널의 대비는 인간 평정을 이미지당 하나로 평균화할 때 상실되는 평정자 간 변동성을 직접 보여준다 — Krippendorff α(valence .498, arousal .116)의 시각적 대응물이다.

VLM Valence-Arousal 2D 산점도

Figure 4b. 여덟 개 VLM의 Valence–Arousal 2차원 분포(2 × 4 그리드). 각 패널은 해당 모델의 1,440개 예측이며, 축·색상·centroid 표기·지터·alpha 규약은 Figure 4a 우 패널(alpha = 0.35)과 동일하여 Figure 4a 우 패널과 직접 비교 가능하다.

Figure 4a–4b에서 네 가지 구조적 대비가 관찰된다.

첫째, 인간 분포의 연속 확산성. 인간 패널은 각 감정 범주 내에서 valence와 arousal이 격자 전역에 걸쳐 확산되어 있다. 예를 들어 행복 이미지에 대한 인간 평정은 valence 5–9, arousal 2–9에 걸쳐 분포하며, 슬픔은 valence 1–6, arousal 1–8에 걸쳐 퍼져 있다. 이는 동일 이미지에 대해서도 인간 평정자 50명이 서로 상당히 다른 좌표를 부여함을 의미하며, Krippendorff α = 0.498(valence), α = 0.116(arousal)의 중등도~낮은 신뢰도 수치가 “왜 그렇게 낮은가”를 시각적으로 확인시킨다. 감정 범주 간 경계는 넓게 중첩되며, 단일 “정답 좌표”가 존재하지 않는다.

둘째, VLM 분포의 이산 응집성. 모든 VLM 패널에서 응답값이 소수의 격자점(주로 1, 2, 5, 8, 9)에 강하게 응집되어, 감정 범주별로 거의 고정된 좌표에 “덩어리”가 형성된다. 예를 들어 GPT-4o-mini는 행복 이미지의 거의 전부를 (9, 7) 근처에, 슬픔 이미지의 대다수를 (1, 3) 근처에 배치한다. 이는 Section 4.2, 4.3에서 감정 내 Pearson r이 낮았던(valence 평균 .19–.36, arousal 평균 .09–.29) 근본 원인을 시각적으로 확인시킨다 — VLM은 감정 범주를 인식하면 해당 범주의 “전형 좌표”를 할당하며, 범주 내부의 연속 변이를 거의 감지하지 못한다.

셋째, 감정 중심(centroid)의 위치 편향. VLM은 인간보다 극단적 좌표에 중심을 배치한다. 인간의 경우 행복 중심이 약 (7.4, 5.8), 슬픔 중심이 약 (4.0, 4.3) 부근에 있어 척도 중간 영역에 머무르는 반면, 대부분의 VLM에서 행복 중심은 (8.5–9.0, 6.5–7.5), 슬픔 중심은 (2.0–2.5, 3.0–4.0) 근처로 이동한다. 이는 Section 4.2의 극성 과장 편향(polarity exaggeration bias)이 arousal 차원에서도 반복됨을 보여준다. 특히 Gemini 계열은 공포·혐오·분노의 세 “부정” 감정 중심이 (2, 8) 근처에 거의 중첩되어, 부정 감정 내 차원적 변별이 거의 없음을 드러낸다.

넷째, 변동성(spread)의 비대칭. 인간 분포가 VLM 분포를 **포함(envelop)**한다는 점이 시각적으로 명확하다. 거의 모든 VLM 응답 좌표는 인간 평정자 중 누군가가 이미 부여한 좌표에 해당하지만, 그 역은 성립하지 않는다 — 인간이 부여하는 많은 좌표(예: 슬픔에서 valence = 4, arousal = 6)를 VLM은 전혀 산출하지 않는다. 이는 본 연구의 응답 다양성 분석(Section 4.4)에서 VLM 간 SD가 인간 간 SD보다 낮은 것과 일관되며, VLM이 인간 평정자 집단의 변동 범위 일부에만 머무름을 확인한다.

Gemma3-4B와 Gemma3-27B는 VLM 중 인간 분포에 가장 근접한 형태를 보인다. 두 모델의 중심 위치가 인간 중심에 상대적으로 가깝고 격자 응집 정도가 약해, 앞선 z-score와 $(\overset{ˉ}{d}, S D_{d})$ 분석에서 두 모델이 예외적 패턴을 보였던 이유를 분포 수준에서 설명한다. Figure 4a–4b는 본 논문의 핵심 주장 — VLM의 차원적 평정은 감정 범주별 전형 좌표 할당에 가까우며, 인간 집단의 변동 범위 일부만을 재현한다 — 을 시각적으로 집약한다. 특히 Figure 4a 우 패널(이미지당 평균)과 Figure 4b를 동일 N = 1,440 수준에서 직접 대조하면, 인간 평균은 감정 간 경계가 연속적으로 이어지는 반면 VLM은 정수 격자점에 응집되는 근본적 차이가 드러난다.

4.4 응답 패턴 비교

VLM 간 valence SD는 인간 SD의 33–84%에 그쳐, 여섯 감정 범주 전체에서 VLM이 인간보다 획일적인 응답을 산출한다. VLM이 인간 평정자를 대체하려면 정확도뿐 아니라 응답 다양성도 인간 수준을 반영해야 한다. Table 6은 7개 VLM 간 분산과 인간 7명 샘플 분산(부트스트랩 보정)을 비교한다.

Table 6. 감정별 VLM 간 vs. 인간 간 응답 다양성 (SD). VLM: 7개 모델 간 SD 평균. 인간: 50명 중 7명 비복원 추출 부트스트랩 SD 평균.

감정	VLM Valence SD	Human Valence SD	VLM Arousal SD	Human Arousal SD
행복	0.431	1.290	1.427	1.563
슬픔	1.185	1.406	1.247	1.511
분노	0.699	1.517	1.286	1.471
공포	0.544	1.598	0.966	1.500
혐오	0.618	1.506	1.665	1.490
중립	0.782	1.011	0.899	1.694

VLM vs Human SD 비교

Figure 5. VLM 간 응답 표준편차와 인간 7명 부트스트랩 표준편차의 비교. 대각선은 동등 기준선. 대각선 아래 = VLM이 인간보다 획일적.

VLM 간 valence SD는 인간 SD의 33%(행복: 0.431 vs. 1.290)에서 84%(슬픔: 1.185 vs. 1.406)에 그치며, 여섯 감정 모두에서 인간보다 낮다. 이는 VLM이 동일 감정에 대해 인간 평정자 집단보다 획일적인(stereotyped) 응답을 산출함을 의미한다.

슬픔은 예외적으로 VLM 간 분산이 인간에 근접하나(valence: 84%, arousal: 83%), 이는 다양성의 반영이 아니라 불안정성의 반영이다. 일부 모델(GPT-4o-mini, Gemma3-12B, LLaMA)은 슬픔 valence에서 고유값이 1-2개에 불과하여 동일 값을 반복 출력하는 반면, 다른 모델(Gemma3-4B, Qwen3-VL)은 넓은 범위에 걸쳐 불안정한 예측을 보인다. 이 두 극단 사이의 차이가 VLM 간 분산을 인위적으로 높인다.

Arousal에서는 혐오가 VLM SD(1.665) > 인간 SD(1.490)인 유일한 감정으로, 모델 간 혐오 arousal 판단의 불일치가 인간 간 불일치를 초과한다. 이는 VLM이 혐오의 각성도에 대해 안정적 내부 기준점을 보유하지 않음을 시사한다.

감정별 SD 비교 박스플롯

Figure 6. 감정별 이미지 수준 VLM 간 SD(파란색)와 인간 7명 부트스트랩 SD(주황색) 분포. 박스플롯 중앙선은 중앙값, 상자는 IQR.

행복 valence에서의 획일성은 개별 모델 수준에서 더 극단적이다. GPT-4o-mini는 240장의 행복 이미지에 동일한 valence 값(9.00)을 산출하여 고유값이 1개이며, LLaMA도 중립 valence에서 고유값 1개(5.00)를 보인다. 이러한 정형화된 출력은 VLM이 동일 감정 범주 내 이미지 간 정서적 미세 차이를 탐지하지 못하고 범주 전체를 단일 값으로 축소하는 현상을 반영한다.

획일화와 탐욕 디코딩의 관계. 본 연구의 모든 VLM은 temperature = 0(탐욕 디코딩)으로 실행되었으므로, 관찰된 획일화가 디코딩 전략의 부산물이라는 해석이 가능하다. 그러나 각 감정 범주에는 40명의 정체성, 3개 인종, 2개 성별에 걸친 240장의 상이한 자극이 포함되어 표정 강도·얼굴 형태·피부톤·조명에서 상당한 물리적 변이가 존재한다. 그럼에도 VLM이 동일 범주의 거의 모든 이미지에 동일 값을 산출한다는 것은(예: GPT-4o-mini 행복 valence 고유값 = 1), 240개의 상이한 자극이 모델 내부에서 사실상 동일한 입력으로 처리됨을 의미하며, 디코딩 전략의 부산물이 아니라 모델의 정서 표상 해상도 한계를 반영한다.

4.5 인구통계학적 편향

인종·성별 편향의 방향과 규모는 모델별로 이질적이어서 단일 감사 결과가 다른 모델로 일반화될 수 없으며, macro-F1 기반 demographic delta는 accuracy 기반보다 체계적으로 크게 측정되어 단순 정확도 감사가 편향을 과소 보고함을 드러낸다. VLM이 인간 평정자를 대체하면 해당 모델의 인구통계 편향이 곧 연구의 편향이 된다. Tables 7과 7a는 각각 인종별·성별 감정 분류 성능을 제시한다. 본 절의 주지표는 macro-F1 이며, 독자의 참조 편의를 위해 raw accuracy도 괄호로 병기한다. 이 선택은 Table 2가 이미 Accuracy와 F1-macro를 병행 보고한다는 점, 그리고 Section 4.2에서 관찰된 감정별 과소·과잉 예측(예: GPT-4o-mini의 슬픔 recall 0.09, 대부분 모델의 중립 과잉 흡수)이 존재하는 상황에서 slice 내부 class 수가 균등하더라도 예측 분포의 불균형이 accuracy에는 반영되지 않고 macro-F1에만 반영된다는 사실에 근거한다. 감정 인식 벤치마크(FER2013, RAF-DB, AffectNet) 및 공정성 감사(FairFace 계열) 문헌 공통으로 group-wise macro-F1을 accuracy보다 선호하는 것과 같은 맥락이다. 결과적으로, 아래에서 보듯 F1-기반 demographic delta는 accuracy-기반 delta보다 체계적으로 더 크게 측정되며, 이는 단순 정확도만으로는 VLM의 인구통계 편향이 과소 보고되고 있었음을 의미한다.

Table 7. 인종별 감정 분류 성능. 각 셀은 F1-macro (Accuracy) 형식이며, “최대 delta”는 F1-macro 기준으로 산출한 인종 간 최대 격차(pp)이다. N = 480 per (model × race) cell.

모델	Black	Caucasian	Korean	최대 delta (F1)
Human	1.000 (100.0%)	0.979 (97.9%)	1.000 (100.0%)	2.1 pp
Gemini 2.5 Flash (NoThink)	0.910 (91.0%)	0.857 (86.0%)	0.850 (86.3%)	5.9 pp
Gemini 2.5 Flash	0.903 (90.4%)	0.847 (85.2%)	0.854 (86.5%)	5.6 pp
Gemma3-27B	0.835 (84.0%)	0.803 (80.8%)	0.841 (84.6%)	3.8 pp
GPT-4o-mini	0.801 (81.9%)	0.751 (77.3%)	0.806 (82.9%)	5.4 pp
Qwen3-VL-4B	0.740 (75.2%)	0.811 (80.2%)	0.841 (84.6%)	10.1 pp
Gemma3-12B	0.691 (74.0%)	0.710 (75.0%)	0.763 (78.8%)	7.2 pp
Gemma3-4B	0.735 (76.0%)	0.650 (70.0%)	0.648 (71.0%)	8.7 pp
LLaMA-3.2-11B	0.493 (58.5%)	0.539 (60.6%)	0.570 (64.8%)	7.7 pp

Table 7a. 성별 감정 분류 성능. 각 셀은 F1-macro (Accuracy) 형식이며, delta는 F1-macro 기준 |Woman − Man| (pp)이다. N = 720 per (model × gender) cell.

모델	Man	Woman	delta (F1)
Human	0.986 (98.6%)	1.000 (100.0%)	1.4 pp
Gemini 2.5 Flash (NoThink)	0.841 (85.0%)	0.905 (90.6%)	6.4 pp
Gemini 2.5 Flash	0.853 (86.0%)	0.884 (88.8%)	3.1 pp
Gemma3-27B	0.802 (81.4%)	0.846 (84.9%)	4.4 pp
GPT-4o-mini	0.723 (76.4%)	0.840 (85.0%)	11.7 pp
Qwen3-VL-4B	0.751 (76.4%)	0.838 (83.6%)	8.7 pp
Gemma3-12B	0.645 (70.8%)	0.796 (81.0%)	15.1 pp
Gemma3-4B	0.693 (73.2%)	0.668 (71.5%)	2.5 pp
LLaMA-3.2-11B	0.523 (62.1%)	0.541 (60.6%)	1.8 pp

인종 효과의 통계적 유의성을 우도비 검정(mixed-effects logistic regression: correct ~ race + (1|gt_emotion))으로 검증한 결과, 여덟 VLM 중 다섯 모델에서 인종 효과가 유의하였다: Qwen3-VL(χ²(2) = 17.10, p < .001), LLaMA(χ²(2) = 13.92, p < .001), Gemma3-4B(χ²(2) = 11.68, p = .003), GPT-4o-mini(χ²(2) = 9.88, p = .007), Gemini NoThink(χ²(2) = 9.21, p = .010). Gemma3-27B는 인종 효과가 비유의하여(χ²(2) = 3.45, p = .178), 인종 간 균등한 성능을 보인다. LR-χ² 검정은 이미지 수준 correct 결과에 대한 정확도 기반 통계이나, 아래의 F1 기반 요약 지표와 일관된 방향성을 가진다.

성별 효과는 더 광범위하다. Gemma3-12B(χ²(1) = 42.42, p < .001), GPT-4o-mini(χ²(1) = 31.52, p < .001), Qwen3-VL(χ²(1) = 15.20, p < .001), Gemini NoThink(χ²(1) = 12.94, p < .001)에서 유의한 성별 효과가 관찰되었으며, 대부분 여성 얼굴에서 더 높은 성능을 보인다(Table 7a; F1-macro 기준 delta 6.4-15.1 pp). Gemma3-4B(χ²(1) = 1.16, p = .282)와 LLaMA(χ²(1) = 1.18, p = .277)는 성별 효과가 비유의하다.

Gemma3-27B는 로컬 모델 중 가장 작은 인종 격차(F1 기준 3.8 pp)를 보이며, 프론티어 모델(Gemini: 5.6-5.9 pp, GPT-4o-mini: 5.4 pp)보다도 작다. Qwen3-VL은 가장 큰 인종 격차(F1 기준 10.1 pp)를 보이며, 한국인 얼굴(F1 = 0.841)을 흑인 얼굴(F1 = 0.740)보다 선호하는 패턴을 나타낸다.

지표 선택의 실질적 효과. macro-F1로 전환했을 때 대부분 모델의 demographic delta는 accuracy-기반 delta보다 커진다. 가장 극적인 사례는 Gemma3-12B의 성별 격차로, accuracy 기준 10.2 pp에서 F1 기준 15.1 pp로 확대된다(여성 0.796 vs 남성 0.645). GPT-4o-mini의 성별 격차 역시 8.6 pp → 11.7 pp, LLaMA의 인종 격차는 6.3 pp → 7.7 pp로 커진다. 이 확대는 우연이 아니라 이 모델들이 남성/흑인/백인 slice에서 특정 감정(주로 슬픔·혐오)을 거의 예측하지 않아 해당 클래스의 F1이 무너지는 현상을 반영한다 — accuracy는 이 “클래스 드롭아웃”을 한 장의 오답으로만 카운트하지만 macro-F1은 precision과 recall 양쪽에서 이를 페널티하여 편향의 규모를 더 충실히 드러낸다. 반대로 Gemini 계열과 Gemma3-27B처럼 예측 분포가 균형 잡힌 모델은 accuracy와 F1의 delta가 거의 동일하다(≤ 1 pp 차이).

편향 방향은 모델별로 다르다. Gemini 계열과 GPT-4o-mini는 흑인 얼굴에서 가장 높은 F1을 보이는 반면, Qwen3-VL과 LLaMA는 한국인 얼굴에서 가장 높다. 성별에서는 Gemma3-12B의 격차(15.1 pp)가 가장 크며, Gemma3-4B(2.5 pp)와 LLaMA(1.8 pp)는 성별 간 상대적으로 균등한 성능을 보인다. Gemma3-4B는 여덟 VLM 중 유일하게 남성 얼굴(F1 = 0.693)이 여성(0.668)보다 다소 높은 반전 패턴을 나타낸다.

모델 × 인종별 감정 분류 macro-F1 막대 그래프

Figure 7. 모델별 인종 slice의 emotion classification macro-F1. 회색 점선은 인간 기저선(세 인종 평균 macro-F1 ≈ 0.99). Table 7의 시각적 등가물. N = 480 per (모델 × 인종) cell. 막대 순서는 Table 7과 동일. Qwen3-VL(파란 막대가 주황·초록보다 현저히 낮음), Gemma3-4B(파란 막대가 가장 높음)와 같은 모델 간 극성(polarity) 반전을 한눈에 볼 수 있다.

모델 × 성별 감정 분류 macro-F1 막대 그래프

Figure 7a. 모델별 성별 slice의 emotion classification macro-F1. 회색 점선은 인간 기저선(≈ 0.99). Table 7a의 시각적 등가물. N = 720 per (모델 × 성별) cell. Gemma3-12B, GPT-4o-mini, Qwen3-VL에서 여성 막대가 남성보다 크게 높은 체계적 편향이 가시적이며, Gemma3-4B만 반전 방향을 보인다.

모델별 인종 × 성별 상호작용 패널

Figure 7b. Race × Gender 상호작용(2 × 4 small-multiples). 각 패널은 한 VLM이고, 패널 내 x축 = 인종, 막대 색 = 성별. 회색 점선은 여섯 (인종 × 성별) 셀에 걸친 인간 기저선 평균. N = 240 per cell. 패널 내부에서 같은 인종의 두 막대(남/녀) 차이가 커지면 해당 모델의 성별 편향이 해당 인종에서 증폭된다는 의미이고, 패널 간 동일 (인종, 성별) 좌표의 막대가 달라지면 model-level bias의 규모 차이를 보여준다. 여섯 셀 간 F1 최대 격차는 Qwen3-VL-4B(Δ = 0.229)와 Gemma3-12B(Δ = 0.225)에서 가장 크고, Gemma3-27B(0.081)와 Gemini 2.5 Flash Thinking(0.090)에서 가장 작다 — 이는 Tables 7b–7c의 감정별 race × gender factorial ANOVA 및 Supplementary §S5에 archive된 v10.6 omnibus 분석과 함께 해석된다. 특히 Gemma3-12B 패널에서 Caucasian 남성(F1 = 0.614)이 Caucasian 여성(0.786)보다 17.2 pp 낮아 단일 인종 slice 내에서도 성별 편향이 극대화되는 것을 확인할 수 있으며, 이 intersectional 패턴은 Table 7b의 해당 (모델, 감정, valence) 조합의 race × gender 교차 상호작용 검정으로 통계적 확증을 제공한다.

차원적 편향(Valence, Arousal)의 인구통계 효과. 분류 수준(Tables 7/7a, Figures 7-7b)에서 관찰된 인구통계 편향이 차원적 평정에서도 재현되는지, 그리고 race × gender 교차(intersectional) 편향이 존재하는지를 검증하기 위해, VLM-인간 편향(bias = VLM 예측 − 인간 평균)에 대해 감정별 stratified race × gender factorial ANOVA를 수행하였다. Valence와 arousal의 측정값은 감정 범주에 따라 normative 수준과 분산이 크게 달라지는 emotion-dependent 변수이므로(예: happy valence 평균 ≠ sad valence 평균), 감정을 회귀 변수가 아닌 stratification 축으로 취급하여 각 감정 내에서 race 주효과·gender 주효과·race × gender 교차 상호작용을 nested F-검정으로 분리한다(Methods §3.4.4 참조). 다중검정 부담은 (모델, 차원) 가족 내에서 Benjamini-Hochberg FDR로 보정한다 (16 families, 가족당 18 tests, $α = 0.05$ ; 원 $p_{raw}$ 와 $q_{B H}$ 병기). 본 설계는 기존 bias ~ race × emotion / bias ~ gender × emotion 병렬 omnibus ANOVA(Supplementary §S5에 archive)를 대체하며, Figure 7b에 시각화된 intersectional 패턴에 대한 첫 번째 형식 통계 검정을 제공한다.

Table 7b. 감정별 race × gender의 valence bias factorial ANOVA. 각 셀은 F (η²) 형식이며, 별표는 $q_{B H}$ 기준 (* $q_{B H} < .05$ , ** $q_{B H} < .01$ , *** $q_{B H} < .001$ ). df는 race $(2, 236)$ , gender $(1, 236)$ , race × gender $(2, 234)$ — main effects는 additive 모형의 잔차 df(240 − 1 − 2 − 1 = 236)를, interaction은 full 모형의 잔차 df(240 − 1 − 2 − 1 − 2 = 234)를 사용한다. 감정을 1차 분류축으로 배치하여 동일 감정 내 모델 간 비교를 용이하게 하였다(Figure 7d 참조). 데이터 소스: outputs/stratified_only.xlsx sheet 27_Demo_DimStratified_ANOVA.

감정	모델	race $F (2, 236)$ ( $η^{2}$ )	gender $F (1, 236)$ ( $η^{2}$ )	race × gender $F (2, 234)$ ( $η^{2}$ )
행복	Gemini-2.5-Flash	1.61 (0.013)	11.74 (0.047)**	1.20 (0.010)
	Gemini-2.5-Flash-NoThink	1.32 (0.011)	10.79 (0.043)**	1.85 (0.015)
	GPT-4o-mini	0.93 (0.007)	18.48 (0.072)***	3.14 (0.024)
	Qwen3-VL-4B	0.89 (0.007)	1.00 (0.004)	3.66 (0.030)
	Gemma3-4B	44.57 (0.264)***	13.05 (0.039)**	4.22 (0.024)*
	Gemma3-12B	82.11 (0.410)***	0.01 (0.000)	4.28 (0.021)*
	Gemma3-27B	96.19 (0.446)***	3.13 (0.007)	6.76 (0.030)**
	LLaMA-3.2-11B	3.02 (0.024)	7.17 (0.029)*	0.48 (0.004)
슬픔	Gemini-2.5-Flash	1.40 (0.011)	18.28 (0.071)***	1.90 (0.015)
	Gemini-2.5-Flash-NoThink	0.84 (0.006)	55.03 (0.188)***	0.16 (0.001)
	GPT-4o-mini	9.20 (0.051)***	107.63 (0.297)***	7.50 (0.039)**
	Qwen3-VL-4B	24.84 (0.151)***	43.67 (0.133)***	13.71 (0.075)***
	Gemma3-4B	1.57 (0.010)	70.74 (0.228)***	2.68 (0.017)
	Gemma3-12B	8.75 (0.051)***	90.93 (0.264)***	1.39 (0.008)
	Gemma3-27B	8.43 (0.051)**	79.04 (0.238)***	8.08 (0.046)**
	LLaMA-3.2-11B	1.18 (0.009)	21.92 (0.084)***	0.13 (0.001)
분노	Gemini-2.5-Flash	1.82 (0.015)	7.37 (0.030)*	4.59 (0.036)*
	Gemini-2.5-Flash-NoThink	2.80 (0.023)	7.46 (0.030)*	5.95 (0.046)*
	GPT-4o-mini	8.22 (0.064)**	3.43 (0.013)	3.72 (0.028)
	Qwen3-VL-4B	6.80 (0.054)**	2.12 (0.008)	1.08 (0.009)
	Gemma3-4B	3.72 (0.030)*	8.19 (0.033)**	6.17 (0.047)**
	Gemma3-12B	4.78 (0.036)*	18.26 (0.069)***	0.61 (0.005)
	Gemma3-27B	5.45 (0.044)*	0.84 (0.003)	0.52 (0.004)
	LLaMA-3.2-11B	10.74 (0.083)***	0.12 (0.000)	1.13 (0.009)
공포	Gemini-2.5-Flash	1.96 (0.016)	0.04 (0.000)	1.50 (0.012)
	Gemini-2.5-Flash-NoThink	4.35 (0.036)*	0.04 (0.000)	1.95 (0.016)
	GPT-4o-mini	1.11 (0.009)	4.83 (0.020)	0.13 (0.001)
	Qwen3-VL-4B	5.54 (0.045)*	0.98 (0.004)	0.18 (0.001)
	Gemma3-4B	2.11 (0.016)	23.50 (0.089)***	0.41 (0.003)
	Gemma3-12B	0.04 (0.000)	0.98 (0.004)	1.29 (0.011)
	Gemma3-27B	2.33 (0.017)	37.85 (0.136)***	1.61 (0.011)
	LLaMA-3.2-11B	20.21 (0.133)***	26.51 (0.088)***	6.99 (0.044)**
혐오	Gemini-2.5-Flash	2.36 (0.019)	8.31 (0.033)*	1.48 (0.012)
	Gemini-2.5-Flash-NoThink	1.25 (0.010)	4.79 (0.020)	2.79 (0.023)
	GPT-4o-mini	5.38 (0.043)*	2.00 (0.008)	3.14 (0.025)
	Qwen3-VL-4B	12.34 (0.094)***	1.60 (0.006)	5.77 (0.042)**
	Gemma3-4B	1.31 (0.010)	14.94 (0.059)***	6.20 (0.047)**
	Gemma3-12B	6.19 (0.041)**	56.18 (0.184)***	0.45 (0.003)
	Gemma3-27B	2.01 (0.017)	0.36 (0.002)	0.65 (0.005)
	LLaMA-3.2-11B	6.78 (0.054)**	2.41 (0.010)	0.92 (0.007)
중립	Gemini-2.5-Flash	0.27 (0.002)	0.97 (0.004)	5.42 (0.044)*
	Gemini-2.5-Flash-NoThink	1.42 (0.012)	2.08 (0.009)	7.35 (0.058)**
	GPT-4o-mini	6.07 (0.049)**	0.08 (0.000)	7.75 (0.059)**
	Qwen3-VL-4B	5.84 (0.047)**	0.11 (0.000)	0.95 (0.008)
	Gemma3-4B	20.63 (0.149)***	0.07 (0.000)	1.90 (0.014)
	Gemma3-12B	25.22 (0.135)***	86.05 (0.231)***	12.34 (0.060)***
	Gemma3-27B	70.52 (0.370)***	4.53 (0.012)	0.34 (0.002)
	LLaMA-3.2-11B	10.11 (0.079)***	1.19 (0.005)	10.53 (0.076)***

Table 7c. 감정별 race × gender의 arousal bias factorial ANOVA. 구조는 Table 7b와 동일.

감정	모델	race $F (2, 236)$ ( $η^{2}$ )	gender $F (1, 236)$ ( $η^{2}$ )	race × gender $F (2, 234)$ ( $η^{2}$ )
행복	Gemini-2.5-Flash	1.31 (0.011)	2.77 (0.011)	0.26 (0.002)
	Gemini-2.5-Flash-NoThink	0.87 (0.007)	2.11 (0.009)	5.88 (0.047)**
	GPT-4o-mini	15.68 (0.106)***	28.71 (0.097)***	3.13 (0.021)
	Qwen3-VL-4B	1.08 (0.009)	3.33 (0.014)	0.82 (0.007)
	Gemma3-4B	0.02 (0.000)	20.48 (0.080)***	4.79 (0.036)*
	Gemma3-12B	13.65 (0.099)***	11.88 (0.043)**	8.36 (0.057)***
	Gemma3-27B	26.76 (0.184)***	0.64 (0.002)	9.55 (0.061)***
	LLaMA-3.2-11B	6.69 (0.053)**	3.43 (0.014)	7.26 (0.055)**
슬픔	Gemini-2.5-Flash	6.85 (0.048)*	35.95 (0.126)***	0.91 (0.006)
	Gemini-2.5-Flash-NoThink	9.57 (0.054)***	99.07 (0.280)***	2.71 (0.015)
	GPT-4o-mini	7.22 (0.043)**	86.89 (0.258)***	2.21 (0.013)
	Qwen3-VL-4B	11.33 (0.081)***	20.08 (0.072)***	1.02 (0.007)
	Gemma3-4B	4.29 (0.031)*	29.68 (0.108)***	7.72 (0.053)**
	Gemma3-12B	8.81 (0.069)***	0.08 (0.000)	0.89 (0.007)
	Gemma3-27B	2.57 (0.018)	43.97 (0.154)***	5.01 (0.034)*
	LLaMA-3.2-11B	1.58 (0.013)	4.18 (0.017)	1.73 (0.014)
분노	Gemini-2.5-Flash	0.86 (0.007)	7.73 (0.031)*	2.36 (0.019)
	Gemini-2.5-Flash-NoThink	2.65 (0.020)	21.64 (0.082)***	5.69 (0.042)**
	GPT-4o-mini	9.97 (0.077)***	1.76 (0.007)	0.19 (0.001)
	Qwen3-VL-4B	9.15 (0.069)***	10.42 (0.039)**	3.08 (0.023)
	Gemma3-4B	10.89 (0.082)***	6.40 (0.024)*	3.30 (0.025)*
	Gemma3-12B	15.30 (0.103)***	30.53 (0.103)***	15.61 (0.094)***
	Gemma3-27B	8.34 (0.065)***	3.42 (0.013)	3.89 (0.030)*
	LLaMA-3.2-11B	33.11 (0.205)***	21.18 (0.065)***	26.67 (0.135)***
공포	Gemini-2.5-Flash	0.31 (0.003)	0.78 (0.003)	0.67 (0.006)
	Gemini-2.5-Flash-NoThink	0.15 (0.001)	4.48 (0.019)	0.52 (0.004)
	GPT-4o-mini	17.25 (0.124)***	7.15 (0.026)*	0.08 (0.001)
	Qwen3-VL-4B	0.18 (0.001)	0.02 (0.000)	1.54 (0.013)
	Gemma3-4B	2.79 (0.022)	11.75 (0.046)**	0.18 (0.001)
	Gemma3-12B	2.77 (0.023)	1.27 (0.005)	2.58 (0.021)
	Gemma3-27B	13.12 (0.093)***	19.07 (0.068)***	6.19 (0.042)**
	LLaMA-3.2-11B	87.25 (0.389)***	38.49 (0.086)***	16.50 (0.065)***
혐오	Gemini-2.5-Flash	0.63 (0.005)	4.50 (0.019)	0.12 (0.001)
	Gemini-2.5-Flash-NoThink	1.32 (0.011)	8.52 (0.034)**	0.72 (0.006)
	GPT-4o-mini	2.85 (0.023)	4.90 (0.020)*	1.85 (0.015)
	Qwen3-VL-4B	12.30 (0.086)***	24.89 (0.087)***	1.43 (0.010)
	Gemma3-4B	2.99 (0.024)	10.71 (0.042)**	6.05 (0.046)**
	Gemma3-12B	18.63 (0.135)***	3.54 (0.013)	12.41 (0.082)***
	Gemma3-27B	13.06 (0.099)***	0.99 (0.004)	3.17 (0.024)
	LLaMA-3.2-11B	52.80 (0.277)***	39.77 (0.104)***	12.69 (0.061)***
중립	Gemini-2.5-Flash	2.34 (0.019)	0.56 (0.002)	0.53 (0.004)
	Gemini-2.5-Flash-NoThink	6.72 (0.054)**	1.42 (0.006)	0.25 (0.002)
	GPT-4o-mini	3.59 (0.028)*	17.12 (0.066)***	9.50 (0.068)***
	Qwen3-VL-4B	0.69 (0.006)	0.27 (0.001)	2.92 (0.024)
	Gemma3-4B	8.20 (0.064)**	5.22 (0.020)*	7.05 (0.052)**
	Gemma3-12B	59.94 (0.281)***	71.08 (0.166)***	10.15 (0.044)***
	Gemma3-27B	13.61 (0.084)***	62.48 (0.192)***	8.93 (0.051)***
	LLaMA-3.2-11B	4.70 (0.038)*	1.28 (0.005)	0.52 (0.004)

주요 intersectional 발견 (race × gender 교차 상호작용 $q_{B H} < .05$ ). BH FDR 보정 이후 여덟 모델 모두에서 적어도 하나의 (감정, 차원) 조합에 race × gender 교차 상호작용이 유의하였으며 (총 38개 조합), 모델별 분포는 다음과 같다:

Gemma3-4B (8개 조합, 가장 많음): 행복 valence $F (2, 234) = 4.22$ , $η^{2} = 0.024$ , $q_{B H} = .029$ ; 행복 arousal $F = 4.79$ , $q_{B H} = .016$ ; 분노 valence $F = 6.17$ , $q_{B H} = .005$ ; 분노 arousal $F = 3.30$ , $q_{B H} = .049$ ; 혐오 valence $F = 6.20$ , $q_{B H} = .005$ ; 혐오 arousal $F = 6.05$ , $q_{B H} = .005$ ; 슬픔 arousal $F = 7.72$ , $q_{B H} = .002$ ; 중립 arousal $F = 7.05$ , $q_{B H} = .003$ .
Gemma3-27B (7개 조합): 행복 valence $F = 6.76$ , $q_{B H} = .004$ ; 행복 arousal $F = 9.55$ , $q_{B H} < .001$ ; 슬픔 valence $F = 8.08$ , $q_{B H} = .001$ ; 슬픔 arousal $F = 5.01$ , $q_{B H} = .011$ ; 분노 arousal $F = 3.89$ , $q_{B H} = .030$ ; 공포 arousal $F = 6.19$ , $q_{B H} = .004$ ; 중립 arousal $F = 8.93$ , $q_{B H} < .001$ .
Gemma3-12B (6개 조합, 특히 분노·혐오·중립 arousal에서 큰 효과): 행복 valence $F = 4.28$ , $q_{B H} = .025$ ; 행복 arousal $F = 8.36$ , $q_{B H} < .001$ ; 분노 arousal $F = 15.61$ , $η^{2} = 0.094$ , $q_{B H} < .001$ ; 혐오 arousal $F = 12.41$ , $η^{2} = 0.082$ , $q_{B H} < .001$ ; 중립 valence $F = 12.34$ , $q_{B H} < .001$ ; 중립 arousal $F = 10.15$ , $q_{B H} < .001$ .
LLaMA-3.2-11B (6개 조합, 전체 분석 최대 효과 크기): 분노 arousal $F = 26.67$ , $η^{2} = 0.135$ , $q_{B H} < .001$ ; 공포 arousal $F = 16.50$ , $η^{2} = 0.065$ , $q_{B H} < .001$ ; 혐오 arousal $F = 12.69$ , $η^{2} = 0.061$ , $q_{B H} < .001$ ; 행복 arousal $F = 7.26$ , $q_{B H} = .002$ ; 공포 valence $F = 6.99$ , $q_{B H} = .003$ ; 중립 valence $F = 10.53$ , $q_{B H} < .001$ .
Gemini-2.5-Flash-NoThink (4개 조합): 행복 arousal $F = 5.88$ , $q_{B H} = .010$ ; 분노 valence $F = 5.95$ , $q_{B H} = .014$ ; 분노 arousal $F = 5.69$ , $q_{B H} = .010$ ; 중립 valence $F = 7.35$ , $q_{B H} = .007$ .
GPT-4o-mini (3개 조합, 모두 중립·슬픔에 집중): 슬픔 valence $F = 7.50$ , $q_{B H} = .002$ ; 중립 valence $F = 7.75$ , $q_{B H} = .002$ ; 중립 arousal $F = 9.50$ , $q_{B H} < .001$ .
Gemini-2.5-Flash (2개 조합): 분노 valence $F = 4.59$ , $q_{B H} = .033$ ; 중립 valence $F = 5.42$ , $q_{B H} = .022$ .
Qwen3-VL-4B (2개 조합, 가장 적음): 슬픔 valence $F = 13.71$ , $η^{2} = 0.075$ , $q_{B H} < .001$ ; 혐오 valence $F = 5.77$ , $q_{B H} = .009$ .

가장 큰 단일 효과는 LLaMA-3.2-11B의 분노 arousal race × gender 교차 상호작용 ( $F (2, 234) = 26.67$ , $η^{2} = 0.135$ )이며, 이는 분노 얼굴 내에서 race와 gender가 비가산적(non-additive)으로 결합된 구분되는 arousal 편향 패턴을 가리킨다. Gemma3-12B의 분노 arousal 또한 $η^{2} = 0.094$ 의 큰 교차 효과를 보인다. 두 모델은 모두 공포·혐오 arousal에서도 큰 교차 상호작용을 공유한다. 이는 고각성(high-arousal) 부정 감정 범주(분노, 공포, 혐오)가 intersectional 편향에 가장 취약한 strata임을 시사한다.

Figure 7d: 감정별 교차 상호작용 일관성 히트맵. Figure 7d는 race × gender 교차 상호작용 효과 크기( $η^{2}$ )를 감정(행) × 모델(열) 히트맵으로 시각화한다(왼쪽: valence bias, 오른쪽: arousal bias). 감정 행을 가로로 훑으면 해당 감정의 교차 상호작용이 모델 전반에 걸쳐 일관적인지(행 전체가 진한 색) 아니면 모델 특이적인지를 즉시 확인할 수 있다. 중립 valence는 5/8 모델에서 유의한 교차 효과를 보여 가장 일관되게 intersection-prone한 감정이며, 분노 arousal(5/8 유의, 평균 $η^{2} = 0.046$ )과 행복 arousal(5/8 유의, 평균 $η^{2} = 0.036$ )이 그 뒤를 잇는다. 반면 공포 valence는 1/8 모델에서만 유의하여(LLaMA-3.2-11B 단독), 해당 감정에서는 race와 gender가 대체로 독립적으로 작용함을 보여준다. 이러한 감정 간 일관성 차이는 intersectional 편향이 모델 아키텍처의 우연이 아닌 감정 범주에 내재하는 자극 특성(예: 고각성 부정 감정의 인종·성별 표현 다양성)과 결합되어 발생할 가능성을 시사한다.

Figure 7d. 감정별 × 모델별 race × gender 교차 상호작용 효과 크기( $η^{2}$ ) 히트맵. 왼쪽 패널: valence bias, 오른쪽 패널: arousal bias. 셀 색 농도는 $η^{2}$ 크기에 비례하며(제곱근 스케일링), 별표는 BH FDR 보정 유의 수준을 나타낸다 (* $q_{B H} < .05$ , ** $q_{B H} < .01$ , *** $q_{B H} < .001$ ). 굵은 글씨는 유의한 셀, 회색 글씨는 비유의 셀. N = 240 per cell.

Figure 7d

Figure 7b와의 수렴. Figure 7b의 시각적 가장 큰 격차로 논의된 Gemma3-12B의 Caucasian 남/녀 F1 17.2 pp 격차(분류 수준)는 차원 수준에서 두 갈래로 재현된다. 첫째, Table 7b에서 Gemma3-12B의 행복 valence race × gender 상호작용이 유의하며( $F (2, 234) = 4.28$ , $q_{B H} = .025$ ), 이는 행복 얼굴의 valence 편향이 race와 gender 결합에 따라 달라짐을 의미한다. 둘째, Gemma3-12B의 행복 valence race 주효과 자체가 전체 분석에서 가장 큰 단일 race 주효과 중 하나로( $F (2, 236) = 82.11$ , $η^{2} = 0.410$ ), 인종 간 큰 편향 격차를 확증한다. Gemma3-27B도 동일한 행복 valence race 주효과를 공유하며( $F = 96.19$ , $η^{2} = 0.446$ ), Gemma3 계열의 행복 얼굴 인종 편향이 분류·차원 수준에서 공통으로 드러난다.

감정 간 heterogeneity (descriptive). 감정별 stratified 분석은 감정 간 이질성을 형식 검정하지 않으나, 각 모델의 6 stratum에서 유의한(q_{BH} < .05) 주효과 항의 수를 모델별로 요약하면 전반적 편향 강도를 서술적으로 비교할 수 있다:

모델	valence - race 유의 감정 수 / 6	valence - gender 유의 감정 수 / 6	arousal - race 유의 감정 수 / 6	arousal-gender 유의 감정 수 / 6
Gemini-2.5-Flash	0/6	4/6	1/6	2/6
Gemini-2.5-Flash-NoThink	1/6	3/6	2/6	3/6
GPT-4o-mini	4/6	2/6	5/6	5/6
Qwen3-VL-4B	5/6	1/6	3/6	3/6
Gemma3-4B	3/6	5/6	3/6	6/6
Gemma3-12B	5/6	4/6	5/6	3/6
Gemma3-27B	4/6	2/6	5/6	3/6
LLaMA-3.2-11B	4/6	3/6	5/6	3/6

Gemini 2.5 Flash(thinking)는 valence race 주효과가 0/6 감정에서 유의하여 전반적 race robustness가 가장 높고, Gemma3-4B는 arousal gender 주효과가 6/6 감정에서 유의하여 가장 광범위한 gender 편향을 보인다. 주효과 패턴은 모델별로 이질적이므로 단일 편향 감사가 다른 모델로 일반화될 수 없다. 감정 간 race·gender 효과 이질성의 aggregate formal test는 수행하지 않으며, 필요한 독자는 Supplementary §S5의 v10.6 archive (bias ~ race × emotion / bias ~ gender × emotion omnibus 분석의 interaction term $F$ 값)를 참조할 수 있다.

분류 수준과의 관계. 분류 수준에서 가장 큰 인종 격차를 보인 Qwen3-VL-4B(F1 delta 10.1 pp)는 차원 수준 valence race 주효과에서도 5/6 감정에서 유의하지만 race × gender 교차는 2/6 감정에서만 유의하여, 이 모델의 인종 편향은 주로 단변량(race만) 으로 작동하고 intersectional 요소는 상대적으로 약함을 보여준다. 반면 Gemma3-4B와 Gemma3-12B는 분류 수준 F1 delta가 중간 수준(8.7, 7.2 pp)이지만 차원 수준 race × gender 교차는 각각 8, 6 조합에서 유의하여, 분류로는 가시화되지 않는 intersectional 편향이 차원 수준에서 드러난다. 이는 차원적 편향 감사가 분류 accuracy만으로는 포착되지 않는 편향 축을 드러낼 수 있다는 추가 증거다.

본 분석이 도출한 이질성은 단일 편향 감사가 VLM 간에 일반화될 수 없으며, 각 배치 맥락이 인종·성별·교차(intersectional) 세 축 모두에 대한 개별 평가를 필요로 함을 확인한다. 나아가, 감정별 stratified 분석은 race × gender 교차 편향이 특정 감정에서 선택적으로 증폭됨을 드러내며, 분류 정확도나 omnibus 평균만으로는 이런 국소적 편향을 포착할 수 없으므로, VLM의 인구통계 공정성 평가는 분류·차원·교차 세 수준 모두에서 수행되어야 한다.

4.6 대체 가능성 판정 매트릭스

이상의 분석을 종합하여 감정 범주(6) × 측정 차원(3)별 대체 가능성을 판정한다. 완전 대체 가능 셀은 0개이며, 판정은 집계 수준이 아닌 정서별 분해 수준에서만 가능하다. Table 8은 Section 3.4.3에서 정의한 기준을 적용한 결과이며, 차원적 평정의 $W_{1 SD}$ 는 집계 수준(Tables 4d/5d)이 아닌 정서별 결과(Tables 4e/5e) 를 사용한다. 판정은 $W_{1 SD}^{VLM} \geq W_{1 SD}^{LOO}$ (인간 LOO 기저선 이상)를 기준으로 하되, 1–3개 모델에서만 기준을 충족하는 셀은 ⭐ 부분 가능 으로 별도 표기하여 “전반적 대체는 불가하나 특정 모델에서 개인 수준 대체가 성립한다”는 의미를 담는다. 개별 모델 수준 판정은 Supplementary에 제시한다.

Table 8. 감정 x 차원별 대체 가능성 판정 매트릭스. 대체 가능 (Δα ≥ 0 AND 다수 모델 정서별 $W_{1 SD} \geq W_{1 SD}^{LOO}$ ) = ✅, 부분 가능 (Δα ≥ 0 AND 1–3개 모델 기준 충족) = ⭐, 보정 필요 (Δα ≥ 0 AND 체계적 편향 존재 AND 기준 미충족) = ⚠️, 대체 불가 (Δα < 0 OR 기준 충족 모델 없음) = ❌. 정서별 $W_{1 SD}$ 값은 Tables 4e, 5e 참조.

	범주 분류	Valence	Arousal
행복	⚠️ 보정 필요	⭐ 부분 가능 (2개 모델)	⭐ 부분 가능 (3개 모델)
중립	⚠️ 보정 필요	⭐ 부분 가능 (4개 모델)	⭐ 부분 가능 (1개 모델)
공포	⚠️ 모델 의존	❌ 대체 불가	⭐ 부분 가능 (2개 모델)
분노	⚠️ 모델 의존	❌ 대체 불가	⭐ 부분 가능 (4개 모델)
혐오	❌ 대체 불가	❌ 대체 불가	⭐ 부분 가능 (3개 모델)
슬픔	❌ 대체 불가	⭐ 부분 가능 (2개 모델)	⭐ 부분 가능 (2개 모델)

주 1: “모델 의존”은 일부 모델에서 κ ≥ .80이나 다른 모델에서 .40 미만인 감정을 나타냄.

주 2: ⭐ 부분 가능 셀의 구체적 모델- $W_{1 SD}$ (인간 LOO 기저선) 조합 — 행복 × Valence (LOO 0.62): Qwen3-VL (0.75), Gemma3-27B (0.69); 슬픔 × Valence (LOO 0.73): LLaMA (0.83), GPT-4o-mini (0.74); 중립 × Valence (LOO 0.79): Gemini-NT (1.00), Gemini-T (0.99), LLaMA (0.98), GPT-4o-mini (0.98); 행복 × Arousal (LOO 0.71): Gemma3-27B (1.00), Gemma3-4B (1.00), GPT-4o-mini (0.83); 슬픔 × Arousal (LOO 0.70): Gemini-NT (0.77), Gemini-T (0.73); 분노 × Arousal (LOO 0.68): Gemma3-4B (0.85), Gemma3-27B (0.80), LLaMA (0.80), Gemma3-12B (0.79); 공포 × Arousal (LOO 0.70): Gemma3-12B (0.97), Gemma3-4B (0.70); 혐오 × Arousal (LOO 0.69): Gemma3-4B (0.90), Gemma3-27B (0.89), Gemma3-12B (0.73); 중립 × Arousal (LOO 0.69): GPT-4o-mini (0.93). 행복·공포 arousal에서 $W_{1 SD}$ = 0.97–1.00을 보이는 모델(Gemma3-4B, Gemma3-12B, Gemma3-27B)은 |z| M이 인간 LOO보다 현저히 낮아(0.30–0.42 vs. 0.70–0.80) 획일적 응답에 기인한 수치임에 유의.

집계 수준 판정(Tables 4d/5d)만으로는 여덟 개 모델 전체가 거의 모든 감정 × 차원 셀에서 “대체 불가”로 분류되지만, 정서별 분해(Tables 4e/5e)는 다수의 셀에서 특정 모델이 인간 개인 수준 기저선에 도달한다는 사실을 드러낸다. 공통 패턴: (1) 두 Gemini 모델은 슬픔 × Arousal 에서 인간 기저선을 상회하는 $W_{1 SD}$ (0.73–0.77 vs. LOO 0.70)를 달성하고, (2) Gemma3 계열 모델(27B, 12B, 4B)은 분노·혐오·공포 × Arousal 에서 광범위한 부분 대체 가능성을 보이며, (3) LLaMA와 GPT-4o-mini는 슬픔 × Valence 에서 각각 0.83, 0.74로 인간 기저선(0.73)을 충족한다. Valence에서 중립은 4개 모델이 기준을 충족하나, 이는 VLM의 획일적 응답(Section 4.4)에 기인하므로 해석에 주의가 필요하다. Arousal에서는 분노 가 4개 모델로 가장 많은 부분 대체 가능성을 보이는데, 이는 분노 arousal의 인간 간 신뢰도가 다른 감정보다 더 낮아( $α_{arousal} = 0.116$ 의 주 기여 범주) 달성 가능 천장이 낮기 때문이다. 이상에서, Valence의 경우 Δα ≥ 0이고 편향이 체계적이므로 감정별 아핀 보정(Section 3.4.3)으로 ⭐·⚠️ 셀이 ✅ 수준으로 상향될 가능성이 있다. 집계 수준에서 모든 VLM의 $W_{1 SD}$ 가 인간 기저선의 절반 수준인 상황에서 개별 모델-감정 조합에서 진정한 대체 가능성이 관찰된다는 사실은, 대체 가능성 평가가 반드시 감정 차원에서 수행되어야 함을 확인한다.

4A. Ablation Studies

본 절에서는 메인 분석을 보완하는 세 가지 탐색적 분석을 제시한다: Gemini 2.5 Flash의 within-model output suppression test, Gemma3 계열의 3점 스케일링 비교, thinking 토큰 분석. 이 분석들은 교란 요인의 제약으로 인해 확정적 결론보다는 향후 연구를 위한 시사점을 제공한다.

4A.1 Gemini Output Suppression Test

최근 일부 VLM은 최종 답변을 생성하기 전에 중간 추론 과정을 명시적 텍스트로 출력하는 “thinking” (또는 Chain-of-Thought) 모드를 지원한다. Thinking 모드가 활성화되면 모델은 <think>...</think> 태그 내에서 자기 대화(self-dialogue)를 생성한 후 최종 판단을 출력한다. 본 연구에서 Qwen3-VL-4B과 Gemini 2.5 Flash가 thinking 모드로 운용되었으며, Gemini 2.5 Flash (NoThink)는 동일 모델에서 이 기능을 억제한 조건이다. 본 절에서는 이 억제가 성능에 미치는 영향을 검토한다.

Gemini 2.5 Flash NoThink 조건은 Section 4.1에서 독립적 모델 조건으로 분석되었으며, 여기서는 thinking 모드의 인과적 역할에 대한 within-model 비교의 함의를 논의한다.

Table 4A-1. Gemini 2.5 Flash output suppression test (N = 1,440).

조건	thinking_budget	보고된 내부 토큰	정확도	슬픔 정확도
Thinking (기본)	-1 (동적)	~500+	87.4%	58.3%
NoThink (억제)	0	~199	87.8%	60.0%
차이			-0.4 pp	-1.7 pp

불완전한 변인 통제. 본 비교는 thinking 모드의 효과를 검증하기 위해 API의 thinking_budget 파라미터를 0으로 설정하여 Chain-of-Thought를 억제하는 조건을 설계하였다. 그러나 실제 API 응답을 분석한 결과, 예산을 0으로 설정해도 모델은 추론 단계당 평균 약 199개의 내부 thinking 토큰을 여전히 생성하였다(Table 4A-1). 즉, “thinking 있음 vs. 없음”이 아니라 “thinking 많음(~500+ 토큰) vs. 적음(~199 토큰)“의 비교가 되어, CoT를 완전히 배제한 통제 조건이 성립하지 않았다. 이는 폐쇄형 API의 내부 작동을 연구자가 완전히 통제할 수 없는 구조적 한계이며, 이 결과로부터 thinking 모드의 인과적 효과를 추론하는 것은 적절하지 않다.

thinking_budget=0을 설정해도 내부 추론이 비활성화되지 않는다. API는 여전히 추론 단계당 평균 약 199개의 내부 thinking 토큰을 보고하며, 기본 동적 예산의 500+ 토큰과 비교된다. NoThink 조건(87.8%)이 Thinking 조건(87.4%)을 소폭 상회하며, 슬픔에서도 억제 조건(60.0%)이 전체 thinking 조건(58.3%)보다 높아, 교차 모델 비교에서 관찰된 thinking 이점 패턴과 반대 방향이다.

이 결과는 두 가지 해석을 지지한다. 첫째, thinking_budget=0이 내부 계산을 완전히 제거하지 못하므로, 이 test는 thinking 모드의 인과적 역할에 대해 정보를 제공하지 못한다. 둘째, Gemini의 프론티어 성능(87.4-87.8%)은 thinking 모드보다는 모델 아키텍처, 훈련 데이터, 규모의 차이를 반영할 가능성이 높다. Thinking을 진정으로 비활성화할 수 있는 모델에서의 깨끗한 ablation이 인과적 증거를 제공할 것이다.

4A.2 Gemma3 스케일링 비교 (4B vs. 12B vs. 27B)

Gemma3 계열은 동일 아키텍처 패밀리 내에서 매개변수 규모(4B, 12B, 27B)가 감정 인식과 대체 가능성에 미치는 영향을 탐색할 수 있는 유일한 3점 스케일링 시리즈이다. Table 4A-2는 세 모델의 감정별 분류 정확도를 제시한다.

Table 4A-2. Gemma3 4B vs. 12B vs. 27B 감정별 분류 정확도.

감정	Gemma3-4B	Gemma3-12B	Gemma3-27B	4B→12B delta	12B→27B delta
행복	1.000	1.000	1.000	0.000	0.000
중립	1.000	1.000	1.000	0.000	0.000
공포	0.979	0.979	0.963	0.000	-0.017
분노	0.400	0.929	0.713	+0.529	-0.217
혐오	0.838	0.383	0.767	-0.455	+0.383
슬픔	0.125	0.267	0.546	+0.142	+0.279
전체	0.724	0.759	0.831	+0.035	+0.072

전체 정확도는 규모에 따라 단조 증가한다: 4B(0.724) → 12B(0.759) → 27B(0.831). 12B→27B 단계(+7.2 pp)가 4B→12B 단계(+3.5 pp)보다 두 배 이상 큰 향상을 보여, 스케일링 효과가 선형적이지 않음을 시사한다.

감정별 분석은 더 복잡한 패턴을 드러낸다. 4B와 12B 사이의 상보적 오류 프로파일(분노: 4B 0.400 vs. 12B 0.929, 혐오: 4B 0.838 vs. 12B 0.383)은 27B에서 부분적으로 해소된다. 27B는 혐오에서 0.767로 12B(0.383)를 크게 개선하면서도, 분노에서 0.713으로 12B(0.929)보다 후퇴한다. 규모 증가가 모든 감정에서 균일한 개선을 가져오는 것이 아니라, 감정 범주별로 질적으로 다른 내부 표상 변화를 유발함을 확인한다.

슬픔에서 27B의 0.546은 non-thinking 모델 중 가장 높은 정확도이며, thinking 모델인 Qwen3-VL(0.546)과 동등하다. Section 4A.3에서 thinking 모드가 슬픔처럼 모호한 감정의 인식을 개선할 수 있음이 관찰되었는데, 본 스케일링 비교는 매개변수 규모의 증가 역시 슬픔 인식 개선의 또 다른 경로가 될 수 있음을 시사한다. 다만, 두 모델은 아키텍처와 훈련 데이터가 다르므로 thinking 모드와 규모 증가의 기여를 분리할 수 없으며, 이 관찰은 탐색적 수준에 머문다.

차원적 비교:

차원	지표	Gemma3-4B	Gemma3-12B	Gemma3-27B	스케일링 패턴
Valence	Pearson r	.891	.922	.915	12B 최고
Valence	MAE	1.456	1.581	1.365	27B 최저 (최우수)
Valence	편향 (M)	0.291	0.876	0.515	4B 최소 편향
Arousal	Pearson r	.759	.623	.724	비단조 (4B > 27B > 12B)
Arousal	MAE	1.137	1.463	1.156	비단조 (4B ≈ 27B < 12B)
인종 격차	최대 delta	6.0 pp	4.8 pp	3.8 pp	단조 감소 (27B 최공정)

범주적 분류에서의 단조 증가 패턴이 차원적 평정으로 일관되게 전이되지 않는다. Valence 상관은 12B(.922)가 27B(.915)를 상회하나, MAE는 27B(1.365)가 세 모델 중 가장 낮다. Arousal에서는 4B가 상관(.759)과 MAE(1.137) 모두에서 27B를 소폭 상회하여 비단조적 패턴을 보인다. 이 해리는 스케일링이 범주적 판단과 차원적 추정에 상이한 경로로 영향을 미침을 시사한다.

인종 격차는 규모에 따라 단조 감소한다(4B: 6.0 pp → 12B: 4.8 pp → 27B: 3.8 pp). 27B의 3.8 pp는 프론티어 모델(Gemini: 5.0-5.2 pp, GPT-4o-mini: 5.6 pp)보다도 작아, 규모 증가가 인구통계 공정성을 개선할 수 있음을 시사한다.

한계: Gemma3 계열은 동일 아키텍처이지만 모두 QAT 4-bit 양자화가 적용되었으며, 양자화가 세 규모에서 동일한 영향을 미치는지는 알 수 없다. N=1 패밀리로는 스케일링 법칙에 대한 일반적 결론을 도출할 수 없으며, 이 관찰은 향후 다양한 아키텍처에 걸친 체계적 비교를 위한 탐색적 시사점으로 해석되어야 한다.

4A.3 Thinking 토큰 분석

Chain-of-Thought 추론 흔적은 감정에 따른 모델 처리 어려움에 대한 탐색적 관찰을 제공한다. Table 4A-3은 두 thinking 모델의 감정별 평균 thinking 길이를 제시한다.

Table 4A-3. 감정별 평균 thinking 길이.

감정	Gemini (문자)	Qwen3-VL (토큰)	인간 RT (Mdn, 초)
행복	949	1,608	1.676
중립	989	—	1.723
공포	1,011	2,221	1.695
분노	925	—	1.707
혐오	966	3,460	1.723
슬픔	1,290	3,915	1.745

슬픔은 두 모델 모두에서 가장 긴 thinking 흔적을 유발한다: Gemini는 행복 자극보다 슬픈 자극에 대해 36% 더 많은 문자를 생성하고, Qwen3-VL은 143% 더 많은 토큰을 생성한다. 감정 수준의 VLM thinking 길이와 인간 arousal 반응 시간 간의 Spearman 상관은 rho = +0.899 (p = .015)이다. 여섯 감정 범주만으로는 이 상관이 시사적(suggestive)이며, 작은 표본 크기가 통계적 검정력을 제한한다.

Thinking 길이는 정확도에 따라서도 차이를 보인다. Gemini에서 오답 시행(M = 5,793 chars)은 정답 시행(M = 5,142 chars)보다 13% 더 긴 흔적을 보인다(Mann-Whitney U, p < .001). Qwen3-VL에서는 정답 시행(M = 8,056 tokens)이 오답 시행(M = 7,155 tokens)보다 오히려 더 길어, 모델 간 반대 방향의 패턴이 관찰된다. 이 불일치는 thinking 길이와 정확도의 관계가 모델 아키텍처에 의존하며, “더 많은 thinking = 더 나은 결과”라는 단순한 해석을 지지하지 않음을 보여준다.

슬픔에 대한 더 긴 thinking 흔적의 대안적 설명으로는 자극 모호성에 의한 장황함(모델이 더 깊은 추론보다 더 많은 대안을 열거)과 훈련 데이터 아티팩트(thinking 모델이 모호한 입력에 더 긴 출력을 생성하도록 훈련)가 있다. 이 분석은 v9에서 주요 결과로 제시되었으나, 인과적 해석의 제약으로 인해 v10에서는 ablation 분석으로 이동하였다.

5. 논의

5.1 대체 가능성의 조건과 한계

본 연구의 핵심 발견은 높은 상관이 대체 가능성을 의미하지 않는다는 것이다. 여덟 VLM 조건은 valence에서 r = .891-.963의 높은 Pearson 상관을 달성하지만, 부트스트랩 z-score 분석에서 대부분의 VLM은 인간 개인보다 집단 평균에서 유의하게 더 크게 벗어난다( $p_{sig}$ = 95.4-100%). 대체 가능성 판정 매트릭스(Table 8)에서 대체 가능(Δα ≥ 0 AND $p_{sig}$ < 50%)을 충족하는 셀은 존재하지 않는다. 이 결과는 상관 기반 평가가 대체 가능성을 과대추정할 수 있음을 보여준다.

이 해리의 원인은 Pearson r의 구조적 한계에서 비롯된다. Pearson r은 이미지별 인간 평균과의 선형 패턴만을 측정하여, 인간 평정자 내 변산과 절대적 수준 차이(level difference)를 무시한다. 이는 측정 일치도(agreement) 평가에서 Pearson r의 부적절성을 지적한 Bland and Altman(1986)의 고전적 비판과 정확히 일치한다 — 두 측정 방법이 체계적으로 다른 절대 수준을 산출하더라도 완벽한 선형 관계가 유지될 수 있으며, 이 경우 r = 1.0이 달성되지만 두 방법은 상호 대체 불가능하다. VLM이 인간보다 체계적으로 극단적인 값을 산출하더라도(극성 과장 편향) 순위 정렬만 유지되면 높은 r이 달성되며, 이는 정서 컴퓨팅 문헌에서 VLM의 “높은 상관”이 대체 가능성의 증거로 제시되는 관행에 대한 주의를 환기한다. 반면 부트스트랩 z-score는 각 이미지에서 VLM의 편차를 인간 개인의 자연스러운 편차 분포와 직접 비교하므로, 인간 변동성을 고려한 대체 가능성 판단이 가능하다. 이 구분은 VLM을 “인식 도구”가 아닌 “대체 평정자”로 평가할 때 핵심적이다.

집단 수준과 개인 수준의 대체 가능성은 상이한 결론을 산출한다. Krippendorff’s alpha 분석(Tables 4c, 5c)에서 VLM을 1,001번째 평정자로 추가했을 때 delta_alpha는 valence에서 +0.004 ~ +0.006, arousal에서 +0.003 ~ +0.009로 모두 양수이며, VLM 추가가 집단 신뢰도를 저하시키지 않는다. 이 결과만 보면 VLM이 대체 가능한 것처럼 보인다. 그러나 이는 1,000명이라는 대규모 풀에서 단일 이탈값이 희석되는 구조적 결과이다. 부트스트랩 z-score 분석(Tables 4d, 5d)은 개인 수준에서 다른 그림을 보여준다: 대부분의 VLM은 인간 LOO 기준선보다 유의하게 큰 |z|를 보이며(valence: 0.995-1.272 vs. 인간 0.784), 2,000회 반복의 100%에서 인간 개인과 구별된다. Gemma3-4B의 arousal(|z| = 0.740, 32.5%만 유의)과 Gemma3-27B의 arousal(|z| = 0.759, 95.4% 유의)만이 인간 기준선에 근접한다.

차원별로 대체 가능성의 패턴이 구분된다. 범주적 분류에서 행복과 중립은 대부분의 모델에서 kappa >= .80으로, 보정 필요(calibratable) 수준에 해당한다. 이 감정들은 인간 정확도도 거의 완벽(0.993)하므로, 대체 가능하다기보다 과제 자체가 용이한 것이다. 공포와 분노는 모델에 따라 성능이 달라 특정 모델에서만 보정 필요 수준에 도달한다. 혐오와 슬픔은 대체 불가이다. Valence에서는 높은 상관에도 불구하고 극성 과장 편향으로 인해 z-score 기준 인간 범위를 체계적으로 초과하여 대부분 대체 불가이나, 편향이 체계적이므로 아핀 보정의 적용 가능성이 존재한다(Section 5.4). Arousal은 인간 평정자 간 신뢰도 자체가 alpha = 0.116으로 극히 낮아 달성 가능한 천장이 구조적으로 제한되며, 모든 감정-모델 조합에서 대체 불가이다.

5.2 VLM 응답의 획일성 문제

VLM의 대체 가능성을 제약하는 두 번째 구조적 한계는 응답 획일성이다. Table 6에서 VLM 간 valence SD는 인간 SD의 33%(행복: 0.431 vs. 1.290)에서 84%(슬픔: 1.185 vs. 1.406)에 그치며, 여섯 감정 모두에서 인간보다 낮다. 이는 VLM이 동일 감정 범주 내 이미지 간 정서적 미세 차이를 탐지하지 못하고 범주 전체를 유사한 값으로 축소하는 경향을 반영한다.

획일성의 극단적 사례는 개별 모델 수준에서 확인된다. GPT-4o-mini는 240장의 행복 이미지에 동일한 valence 값(9.00)을 산출하여 고유값이 1개이며, LLaMA도 중립 valence에서 고유값 1개(5.00)를 보인다. 인간 평정자는 동일 감정 범주 내에서도 이미지에 따라 다양한 반응을 보이며, 이 다양성은 개인차와 자극 특이성의 정상적 표현이다. 모든 이미지에 동일 값을 산출하는 VLM은 이 다양성을 포착하지 못하므로, 정확도가 높더라도 유효한 대체가 아니다.

슬픔은 VLM 간 분산이 인간에 근접하는 예외적 감정이나(valence SD: 1.185 vs. 1.406), 이는 다양성이 아닌 불안정성을 반영한다. 일부 모델(Gemma3-12B, LLaMA)은 슬픔 valence에서 고유값이 1-2개로 동일 값을 반복 출력하는 반면, 다른 모델(Gemma3-4B, Qwen3-VL)은 넓은 범위에 걸쳐 불안정한 예측을 보인다. 이 두 극단 사이의 차이가 VLM 간 분산을 인위적으로 높인다.

응답 획일성은 VLM이 인간 평정자를 대체할 때 연구 데이터의 분포적 특성을 왜곡하는 실질적 위험을 만든다. 감정 연구에서 평정자 간 변동성은 잡음이 아니라 연구 대상 자체인 경우가 많다. 개인차 연구, 정서적 모호성 분석, 감정 범주의 경계 탐구 등에서 VLM의 획일적 응답은 이론적으로 중요한 변동을 제거한다.

획일성의 잠재적 완화 전략으로 온도(temperature) 조절과 반복 샘플링이 고려될 수 있다. 높은 온도에서의 다회 추론은 단일 결정적 응답 대비 분포적 다양성을 증가시킬 수 있으나, 이 전략이 인간 평정자 간 자연스러운 변동과 동일한 구조적 특성(예: 자극 특이성에 의한 체계적 변동 vs. 무작위 잡음)을 재현하는지는 실증적으로 검증되지 않았다. 온도 증가가 의미 있는 개인차를 모방하는 것인지, 단순히 출력 잡음을 추가하는 것인지의 구분은 향후 VLM 기반 평정 연구의 핵심 검증 과제이다.

5.3 슬픔-중립 혼동: 대체 불가능한 영역의 사례

슬픔은 대체 가능성 매트릭스(Table 8)에서 세 차원 모두 대체 불가로 판정된 유일한 감정이며, 대체 가능성의 감정별 이질성을 보여주는 사례이다. 여덟 조건 중 슬픔 분류 정확도가 0.600을 초과하는 조건이 없으며, non-thinking 소형 모델은 10% 미만의 정확도를 보인다. 주된 오류 경로는 중립 흡수로, VLM이 슬픔을 감정의 부재로 취급한다.

Gemma3-27B(0.546)가 non-thinking 모델임에도 thinking 모델인 Qwen3-VL(0.546)과 동등한 슬픔 정확도를 달성한 관찰은 탐색적이지만 시사적이다. 이 결과는 슬픔 인식에서 명시적 Chain-of-Thought 추론이 아닌 모델 규모 자체가 성능의 주된 결정 인자일 수 있음을 시사한다. Gemma3 스케일링(4B: 0.125, 12B: 0.267, 27B: 0.546)은 규모 증가에 따른 슬픔 정확도의 단조 증가를 보여주며(Section 4A.2), 향후 더 큰 규모의 모델에서 슬픔 대체 가능성이 개선될 가능성을 시사한다.

슬픔 인식의 보편적 어려움은 인간에게서도 관찰된다. 인간 평정자는 슬픔 자극에서 가장 긴 arousal 반응 시간(Mdn = 1.745초)을 보이며, Calvo and Nummenmaa(2013)는 슬픔 인식이 행복보다 3.5-10배 긴 노출을 필요로 함을 보고하였다. 이 병행 패턴은 이중 처리 이론(Kahneman, 2011)의 관점에서 슬픔이 빠른 패턴 매칭을 넘어서는 처리를 요구하는 감정임을 시사하나, VLM의 thinking 흔적과 인간의 숙고적 처리 간의 유비는 기능적이지 기계적이지 않다. 본 연구에서 이중 처리 프레임워크는 보조적 해석 도구로 활용되며, 인과적 주장으로 확장되지 않는다.

인간 반응 시간(RT) 데이터는 이 패턴을 감정 전반으로 확장할 수 있는 가능성을 시사한다. Valence RT는 행복(Mdn = 2.139초)과 중립(2.157초)에서 가장 짧고, 공포(2.518초)에서 가장 긴 380ms의 범위를 보이는 반면, arousal RT는 69ms의 좁은 범위(1.676-1.745초)에 걸쳐 감정 범주 간 차이가 미미하다. 이 차원 간 비대칭은 arousal 판단이 감정 범주에 상대적으로 독립적인 처리를 거치는 반면, valence 판단은 감정의 범주적 모호성에 더 민감하게 영향받을 수 있음을 시사하며, 본 연구에서 관찰된 차원별 대체 가능성의 차이(Section 5.1)와도 맥락을 같이한다.

여섯 감정에 걸친 valence RT와 VLM 평균 분류 정확도 간의 Spearman 상관은 ρ ≈ +0.60으로, 인간에게 차원적 판단이 오래 걸리는 감정이 VLM에게도 범주적 분류가 어려운 경향이 있다. 그러나 공포는 이 패턴의 주요 예외이다: 인간은 공포 자극의 valence 판단에 가장 오래 걸리지만(2.518초), VLM 분류 정확도는 0.917로 높다. 이 해리는 공포의 차원적 모호성(부정적이지만 높은 arousal로 인해 dimensional space에서 위치가 복잡)이 인간의 연속적 평정을 어렵게 만드는 반면, VLM은 범주적 라벨(“fearful”)을 비교적 쉽게 판별함을 시사한다. 공포의 자연스러움 평정이 여섯 감정 중 가장 낮다는 점(M = 5.260)도 이 차원적 처리 어려움에 기여할 수 있다.

이러한 관찰은 탐색적이며, 본 연구의 RT 데이터는 감정 수준 요약(N = 6)으로만 보고되어 통계적 검정력이 제한적이다. 향후 연구에서는 이미지 수준의 RT를 VLM 오답 확률과 직접 연결하는 로지스틱 회귀, RT를 인간-VLM 차원적 불일치(MAE)의 예측 변인으로 사용하는 분석, 나아가 자연스러움 → RT → VLM 일치도 경로에서의 매개 효과 검정이 처리 난이도의 인간-VLM 병행 구조를 보다 엄밀하게 검증할 수 있을 것이다.

이는 정신건강 지원 및 공감 에이전트 설계에서의 VLM 배치에 중대한 위험을 제기한다. 슬픔을 감정적 중립과 구별할 수 없는 시스템은 고통 감지에 근본적으로 실패할 것이며, 이는 정서 컴퓨팅이 사회적 이익을 약속하는 핵심 적용 영역이다(Pantic et al., 2005).

5.4 극성 과장 편향: 보정 가능성

여덟 VLM 조건 모두 체계적으로 valence 극단성을 증폭하며(Table 4; 감정별 프로파일은 Table 4a 및 Figure 2), 이 극성 과장 편향(polarity exaggeration bias)은 프론티어 전정밀도 모델에서도 지속된다. 부정적 감정은 더 부정적으로, 긍정적 감정은 인간 평정보다 더 긍정적으로 평정되며, 이는 양자화 아티팩트가 아닌 VLM 감정 처리의 구조적 속성이다.

극성 과장의 일관성은 대체 가능성 판정에서 “보정 필요” 범주의 근거를 제공한다. 편향이 체계적이고 방향이 예측 가능하므로, 감정 범주별 아핀 보정(y’ = a*y + b)이 높은 순위 상관을 유지하면서 절대 오차를 줄일 수 있다. Gemma3-27B는 가장 낮은 MAE(1.365)를 달성하여 일부 모델이 다른 모델보다 적은 보정을 필요로 함을 보여준다.

구체적으로, 아핀 보정은 각 감정 범주 내에서 VLM 예측값을 인간 평균값에 대해 최소자승 회귀하여 기울기(a)와 절편(b)을 추정하는 절차이다. Table 4a의 편향 프로파일에서 공포의 bias/ $S D_{d}$ 비율이 모든 모델에서 3.31 이상으로 가장 높아, 단일 오프셋 보정의 효과가 가장 클 것으로 예상된다. 반면 슬픔과 분노 등 bias/ $S D_{d}$ 가 1 근처인 감정-모델 조합에서는 아핀 보정의 이득이 제한적일 수 있다. 보정의 실행 가능성은 향후 연구에서 실증적으로 검증되어야 하며, 핵심 검증 과제는 세 가지이다: (1) 보정 매개변수의 자극 세트 의존성 — 동일 감정 범주의 다른 자극 세트(out-of-sample)에서 in-sample 보정 계수가 유지되는지, (2) 보정 후 z-score 범위 소속 비율( $W_{1 SD}$ )이 인간 LOO 기저선에 도달하는지, (3) 보정이 응답 획일성(Section 5.2)을 완화하지 못하는 한계 — 아핀 변환은 분산을 스케일링하지만 고유값 수를 증가시키지 않으므로, 단일 값 출력 문제는 보정으로 해결되지 않는다.

5.5 인구통계 편향과 공정성

VLM이 인간 평정자를 대체하면 해당 모델의 인구통계 편향이 곧 연구의 편향이 된다. 인간 평정자 집단에서는 개인의 편향이 다수 평정자의 평균화를 통해 부분적으로 상쇄되지만, 단일 VLM이 전체 평정을 담당하면 이 상쇄 기제가 작동하지 않는다.

Table 7에서 인종별 분류 성능 격차(F1-macro 기준)는 3.8 pp(Gemma3-27B)에서 10.1 pp(Qwen3-VL)까지 분포한다. 편향 방향은 모델별로 다르다: Gemini 계열과 GPT-4o-mini는 흑인 얼굴에서 가장 높은 정확도를 보이는 반면, Qwen3-VL과 LLaMA는 한국인 얼굴에서 가장 높다. Gemma3 계열에서 규모 증가에 따라 인종 격차가 단조 감소하는 패턴(4B: 6.0 pp, 12B: 4.8 pp, 27B: 3.8 pp)은 모델 규모가 인구통계 공정성을 개선할 수 있음을 시사하나, N=1 패밀리의 관찰이므로 일반화에 주의가 필요하다.

이 이질성은 VLM 대체 시 모델별 편향 감사가 필수적임을 확인한다. 단일 모델에 대한 편향 특성화가 다른 모델로 전이될 수 없으며, 배치 대상 인구통계 집단과 감정 범주에 대한 개별 평가가 요구된다. 나아가, v10.7의 감정별 stratified race × gender factorial ANOVA(Methods §3.4.4, Tables 7b–7c)는 Figure 7b에 시각화된 intersectional 패턴(예: Gemma3-12B의 Caucasian 남/녀 F1 격차 17.2 pp)에 대한 첫 번째 형식 통계 검정을 제공하며, 일부 모델·감정 조합에서 race × gender 교차 편향이 특정 감정 안에서 선택적으로 증폭됨을 드러낸다. 이는 단일 인구통계 축(인종 단독 혹은 성별 단독) 감사만으로는 intersectional 편향을 포착할 수 없음을 보여주며, 감정·인종·성별의 세 축을 모두 함께 고려한 세분화된 감사가 필요함을 시사한다.

5.6 실용적 지침

이상의 발견을 종합하여, VLM을 감정 평정에 활용하고자 하는 연구자를 위한 조건부 지침을 제시한다.

첫째, VLM은 인간 평정자의 완전한 대체가 아닌 보조 도구로 위치시켜야 한다. 대체 가능성 매트릭스(Table 8)에서 완전 대체 가능 셀이 없다는 결과는, 현재 세대의 VLM이 독립적 평정자로 기능하기에 불충분함을 의미한다. 다만, 부분 대체 가능 셀이 다수 존재하므로, 특정 감정-차원 조합에서 예비 스크리닝이나 대규모 데이터셋의 초기 라벨링에 VLM을 활용하고 인간 평정자가 이를 검증하는 혼합 전략이 비용 효율적일 수 있다.

둘째, VLM 선택은 목표 감정과 측정 차원에 따라 달라져야 한다. 단일 “최선의” 모델은 존재하지 않는다 — Gemma3-27B는 valence에서 가장 안정적이지만( $\overset{ˉ}{d}$ = 0.515, $S D_{d}$ = 1.390), arousal에서는 Gemma3-4B와 동등하며, 슬픔 분류에서는 Qwen3-VL과 동률이다. 연구자는 자신의 연구 설계에서 관심 있는 감정-차원 조합에 대해 Table 8의 판정을 참조해야 한다.

셋째, VLM 출력에 대한 감정별 아핀 보정은 극성 과장 편향이 체계적인 조건(특히 공포, 행복)에서 우선 적용해야 하며, 보정 계수의 교차 검증이 필수적이다.

넷째, 인구통계 편향 감사는 모델과 대상 집단에 특이적으로 수행되어야 한다. 하나의 모델에 대한 편향 프로파일이 다른 모델로 전이되지 않으며(Section 5.5), 감정 범주에 따라 편향 방향이 달라질 수 있다.

5.7 한계

몇 가지 한계가 이 발견의 일반화 가능성을 제약한다(총 16개).

첫째, 인간 참가자가 전적으로 한국 성인이어서 기준선에 문화적 편향을 도입할 수 있다. 다양한 평정자 집단으로의 교차문화적 복제가 필요하다. 둘째, 교차 모델 분석에서의 성능 차이는 추론 모드, 아키텍처, 훈련 데이터를 교란시킨다. Gemini output suppression test(Section 4A.1)는 내부 토큰이 지속되어 비정보적이었으며, 깨끗한 within-model ablation이 필요하다. 셋째, Gemini 2.5 Flash는 thinking_budget=0에서도 약 199개의 내부 토큰을 생성하여 외부 통제가 불가능하다. 넷째, Qwen3-VL의 thinking budget 제약(단계당 1,024 토큰)이 심사숙고적 추론의 이점을 제한할 수 있다. 다섯째, 자극은 정적인 단일 감정 이미지인 반면 실제 감정 인식은 동적이고 다중 모달이다. 여섯째, context-carry 프롬프팅 전략은 구조적 오류 전파를 도입한다. 일곱째, 모든 자극이 AI 생성 얼굴이며, 실제 얼굴 자극으로의 복제가 필요하다. 여덟째, VLM thinking 흔적과 인간 숙고의 유비는 기능적이지 기계적이지 않다. 아홉째, Gemini 2.5 Flash Image가 자극 생성에 사용되고 Gemini 2.5 Flash가 평정자로 사용되어 잠재적 순환성이 존재한다. 열째, 동일 프롬프트가 모든 모델에 사용되었으나 대안적 프롬프팅 전략에 대한 일반화 가능성은 검증되지 않았다.

v10에서 추가된 한계로, 열한째, 대체 가능성 판정 매트릭스의 기준(Δα ≥ 0 AND $p_{sig}$ < 50%)은 본 연구에서 제안된 것으로, 외부적으로 검증되지 않았다. 이 기준의 타당성은 향후 다양한 데이터셋과 평정 맥락에서의 교차 검증을 필요로 한다. 열두째, Krippendorff alpha의 안정성은 N=1,000이라는 대규모 평정자 풀에서 관찰된 것으로, 소규모 평정자 풀(예: N=10-50)에서 VLM 추가가 alpha에 미치는 영향은 달라질 수 있다. 열셋째, 8개 VLM 조건은 현재 가용한 모델의 부분 집합이며, 다른 아키텍처(예: InternVL, Phi-4 Vision)로의 일반화는 추가 실험을 필요로 한다.

v10.7에서 추가된 한계로, 열넷째, 감정별 stratified race × gender factorial ANOVA(§3.4.4)는 각 감정 stratum 내에서 intersectional 편향을 형식 검정하나, 감정 간 race × gender 이질성 자체의 3원 형식 검정(즉 emotion × race × gender 3-way interaction)은 수행하지 않는다. Stratum 수준 결과의 이질성은 서술적 추론에 의존하며, 엄밀한 aggregate 검정이 필요한 독자는 Supplementary §S5의 v10.6 omnibus 결과를 참조해야 한다. 열다섯째, 차원 수준 분석은 identity 수준의 random effects를 모델링하지 않는 고정효과 ANOVA이다. 40명 identity 내 반복 측정 구조(각 정체성당 6 감정 표현)는 현재 설계에서 factor 간 직교성으로 대부분 흡수되나, 엄밀한 identity-clustering 보정은 향후 mixed-effects 확장에서 다루어야 한다. 열여섯째, 차원 수준 분석의 다중검정 보정은 (모델, 차원) 가족 내 BH FDR로 수행되나, 가족 간에는 독립 보정되므로 “전체 288 검정 중 몇 %가 유의한가?” 같은 통합적 해석은 권장되지 않는다.

6. 결론

본 연구는 1,440장의 AI 생성 얼굴 자극에 대해 여덟 VLM 조건을 1,000명의 인간 평정자와 심리측정적으로 비교하여, VLM이 인간 감정 평정자를 대체할 수 있는 조건과 한계를 체계적으로 특성화하였다. 다섯 가지 핵심 발견이 도출된다.

첫째, 높은 상관은 대체 가능성을 의미하지 않는다. 여덟 VLM 조건은 valence에서 r = .891-.963의 높은 Pearson 상관을 달성하지만, 부트스트랩 z-score 분석에서 대부분의 VLM은 인간 개인보다 집단 평균에서 유의하게 더 크게 벗어난다( $p_{sig}$ = 95.4-100%). Krippendorff’s α 분석에서 VLM을 1,001번째 평정자로 추가해도 집단 신뢰도는 저하되지 않으나(valence Δα = +0.004 ~ +0.006; arousal Δα = +0.003 ~ +0.009), 이는 대규모 풀에서의 희석 효과이며 개인 수준의 대체 가능성을 의미하지 않는다.

둘째, VLM은 인간 평정자 집단의 응답 다양성을 반영하지 못한다. VLM 간 valence SD는 인간 SD의 33-84%에 그치며, 일부 모델은 동일 감정에 대해 고유값 1-2개만을 산출한다. 이 응답 획일성은 감정 연구에서 이론적으로 중요한 평정자 간 변동을 제거한다.

셋째, 대체 가능성은 감정 범주와 측정 차원에 따라 이질적이다. 대체 가능성 판정 매트릭스(Table 8)에서 완전 대체 가능 기준을 충족하는 셀은 존재하지 않으며, 행복과 중립의 범주 분류는 보정 필요(calibratable) 수준에 해당하나, 슬픔과 혐오의 범주 분류는 대체 불가이다. Valence와 arousal에서 일부 감정-모델 조합이 부분 가능 수준에 도달하나, 다수 모델에서 일관되게 대체 가능한 차원은 없다. 이 매트릭스는 “VLM을 쓸 수 있는가”라는 이분법적 질문을 “어떤 감정의 어떤 차원에서 어떤 조건으로 쓸 수 있는가”라는 조건부 질문으로 전환하는 실용적 가이드라인을 제공한다.

넷째, 인구통계 편향은 모델별로 방향, 규모, 영향 차원이 다르며(인종 격차: 3.8–10.1 pp), 단일 편향 감사가 VLM 간에 일반화될 수 없다. Gemma3 계열에서 규모 증가에 따른 인종 격차의 단조 감소(4B: 6.0 pp, 12B: 4.8 pp, 27B: 3.8 pp)는 모델 규모가 공정성을 개선할 수 있음을 시사한다.

다섯째, Gemini 2.5 Flash NoThink 조건(accuracy = 0.878)이 Thinking 조건(0.874)을 소폭 상회하여, thinking 모드가 Gemini의 감정 분류에 인과적으로 기여하지 않음을 시사한다. Gemma3-27B(0.831)는 non-thinking 로컬 모델 중 최고 성능을 달성하며, 슬픔 정확도(0.546)에서 thinking 모델인 Qwen3-VL(0.546)과 동등하여 모델 규모가 thinking 모드를 부분적으로 보상할 수 있음을 보인다.

이러한 발견은 보정과 편향 감사 없이는 VLM 감정 평정이 인간 판단을 대체할 수 없음을 보여준다. VLM은 고각성 범주 분류에서 조건부로 활용 가능하나, 차원적 평정과 저강도 감정(특히 슬픔)에서는 구조적 한계를 가진다. 향후 연구는 대체 가능성 판정 기준의 외부 검증, 아핀 보정의 out-of-sample 성능 검증, 소규모 평정자 풀에서의 alpha 민감도 분석, 실제 얼굴 자극으로의 복제, 다양한 문화권 평정자 집단으로의 확장을 포함해야 한다.

References

AlDahoul, N., et al. (2026). FaceScanPaliGemma: Multi-agent vision language models for facial attribute recognition. Scientific Reports, 16.

Alrasheed, H., Alghihab, A., Pentland, A., & Alghowinem, S. (2025). Evaluating the capacity of large language models to interpret emotions in images. PLOS ONE, 20(6), e0324127.

Barrett, L. F. (2017). The theory of constructed emotion: An active inference account of interoception and categorization. Social Cognitive and Affective Neuroscience, 12(1), 1-23.

Bates, D., Machler, M., Bolker, B., & Walker, S. (2015). Fitting linear mixed-effects models using lme4. Journal of Statistical Software, 67(1), 1-48.

Baudouin, J.-Y., Gallian, F., Pinoit, J.-M., & Damon, F. (2025). Arousal, valence, and discrete categories in facial emotion. Scientific Reports, 15(1), 40268.

Bhattacharyya, A., & Wang, S. (2025). Evaluating vision-language models for emotion recognition. In Findings of the Association for Computational Linguistics: NAACL 2025.

Calvo, M. G., & Nummenmaa, L. (2013). Wait, are you sad or angry? Large exposure time differences required for the categorization of facial expressions of emotion. Journal of Vision, 13(4), 14.

Cicchetti, D. V. (1994). Guidelines, criteria, and rules of thumb for evaluating normed and standardized assessment instruments in psychology. Psychological Assessment, 6(4), 284-290.

Dominguez-Catena, I., Paternain, D., & Galar, M. (2024). Less can be more: Representational vs. stereotypical gender bias in facial expression recognition. Progress in Artificial Intelligence, 13, 255-273.

Grynberg, D., Chang, B., Corneille, O., Maurage, P., Vermeulen, N., Berthoz, S., & Luminet, O. (2012). Alexithymia and the processing of emotional facial expressions: A systematic review, quantitative and qualitative meta-analysis. PLOS ONE, 7(8), e40259.

Harb, E., et al. (2025). Evaluating the performance of general purpose large language models in identifying human facial emotions. npj Digital Medicine, 8.

Hess, U., Adams, R. B., Jr., & Kleck, R. E. (2004). Facial appearance, gender, and emotion expression. Emotion, 4(4), 378-388.

Hugenberg, K., & Bodenhausen, G. V. (2003). Facing prejudice: Implicit prejudice and the perception of facial threat. Psychological Science, 14(6), 640-643.

Jankowiak, P., et al. (2024). Metrics for dataset demographic bias: A case study on facial expression recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 46(8), 5520-5536.

Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.

Khare, S. K., Blanes-Vidal, V., Nadimi, E. S., & Acharya, U. R. (2024). Emotion recognition and artificial intelligence: A systematic review (2014-2023). Information Fusion, 102, 102019.

Li, Y., et al. (2025). MBQ: Modality-balanced quantization for large vision-language models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).

Mejia-Escobar, C., Gallego-Molina, N. J., & Arias-Vergara, T. (2023). Towards a better performance in facial expression recognition: A data-centric approach. Computational Intelligence and Neuroscience, 2023.

Mollahosseini, A., Hasani, B., & Mahoor, M. H. (2017). AffectNet: A database for facial expression, valence, and arousal computing in the wild. IEEE Transactions on Affective Computing, 10(1), 18-31.

Mulukutla, V. K., Pavarala, S. S., Rudraraju, S. R., & Bonthu, S. (2025). Evaluating open-source vision language models for facial emotion recognition against traditional deep learning models. arXiv preprint arXiv:2508.13524.

Pantic, M., Sebe, N., Cohn, J. F., & Huang, T. (2005). Affective multimodal human-computer interaction. In Proceedings of the 13th ACM International Conference on Multimedia (pp. 669-676).

Plant, E. A., Hyde, J. S., Keltner, D., & Devine, P. G. (2000). The gender stereotyping of emotions. Psychology of Women Quarterly, 24(1), 81-92.

Qiao, Y., et al. (2025). Empathy and emotion recognition: A three-level meta-analysis. Psychological Methods.

Refoua, S., Elyoseph, Z., Piterman, H., et al. (2026). Evaluation of cross-ethnic emotion recognition capabilities in multimodal large language models using the reading the mind in the eyes test. Scientific Reports, 16.

Russell, J. A. (1980). A circumplex model of affect. Journal of Personality and Social Psychology, 39(6), 1161-1178.

Savchenko, A. V., et al. (2024). AffectNet+: Soft-label facial expression recognition with improved dataset and enhanced training pipeline. arXiv preprint arXiv:2410.22506.

Scherer, K. R. (2009). The dynamic architecture of emotion: Evidence for the component process model. Cognition and Emotion, 23(7), 1307-1351.

Shrout, P. E., & Fleiss, J. L. (1979). Intraclass correlations: Uses in assessing rater reliability. Psychological Bulletin, 86(2), 420-428.

Tak, A. N., & Gratch, J. (2024). GPT-4 emulates average-human emotional cognition from a third-person perspective. In Proceedings of the 12th International Conference on Affective Computing and Intelligent Interaction (ACII).

Telceken, M., Akgun, D., Kacar, S., Yesin, K., & Yildiz, M. (2025). Can artificial intelligence understand our emotions? Deep learning applications with face recognition. Current Psychology, 44(9), 7946-7956.

Zhang, Y., Yang, X., Xu, X., et al. (2024). Affective computing in the era of large language models: A survey from the NLP perspective. arXiv preprint arXiv:2408.04638.

Supplementary

S1. FER 기준 비교

다섯 개의 FER 특화 모델 — PosterV2 (kappa = 0.878), MobileViT (kappa = 0.848), EfficientNet (kappa = 0.823), BEiT (kappa = 0.713), EmoNet (kappa = 0.665) — 이 동일한 1,440장 이미지에서 평가되었다. FER 모델은 대부분의 VLM보다 높은 분류 정확도를 달성하지만, 거의 0이거나 음의 arousal 상관(r = .126-.448)을 보인다. 상보적 성능 프로파일 — 분류와 valence에서의 FER 우위, arousal에서의 VLM 우위 — 은 근본적으로 다른 처리 전략을 시사하나, VLM이 context-carry 설계를 통해 arousal 평정 시 범주적 라벨에 접근하는 근본적으로 다른 정보 체제에서 작동하므로 이 비교가 엄격하게 동등하지는 않다.

Table S1. VLM 및 FER 모델 통합 순위 (13개 모델 조건).

순위	모델	유형	Thinking	정확도	kappa
1	PosterV2	FER	—	0.899	0.878
2	Gemini 2.5 Flash (NoThink)	VLM	N (budget=0)	0.878	0.853
3	MobileViT	FER	—	0.875	0.848
4	Gemini 2.5 Flash	VLM	Y	0.874	0.848
5	EfficientNet	FER	—	0.854	0.823
6	Gemma3-27B	VLM	N	0.831	0.798
7	GPT-4o-mini	VLM	N	0.807	0.768
8	Qwen3-VL-4B	VLM	Y	0.800	0.761
9	BEiT	FER	—	0.766	0.713
10	Gemma3-12B	VLM	N	0.759	0.711
11	EmoNet	FER	—	0.731	0.665
12	Gemma3-4B	VLM	N	0.724	0.668
13	LLaMA-3.2-11B	VLM	N	0.613	0.536

Table S2. Valence 예측: FER 모델.

Model	Pearson r	MAE
MobileViT	.950	0.916
EfficientNet	.940	1.063
EmoNet	.928	0.795

Table S3. Arousal 예측: FER 모델.

Model	Pearson r	MAE
EfficientNet	.448	1.696
MobileViT	.409	1.864
EmoNet	.126	1.369

S2. VLM 프롬프트 프로토콜

모든 VLM 추론에는 두 가지 프롬프트 전략이 사용되었다: (1) context-carry (3-step 순차 질의)와 (2) json-single (1-step 통합 질의). Context-carry 전략은 인간 실험 절차를 모사하여 감정 범주 → valence → arousal 순서로 질문하되, 이전 단계의 응답이 다음 단계 프롬프트에 맥락으로 포함된다. 유효 감정 범주는 모든 모델에서 동일하게 happy, sad, angry, fear, disgust, neutral이다.

S2.1 Context-carry 전략 (3-step)

Step 1 — Emotion classification:

What is the facial expression in this image?
Choose one from: happy, sad, angry, fear, disgust, neutral.
Respond with ONLY a JSON object: {“emotion”: “<your answer>”}

Step 2 — Valence rating:

You identified this face as {emotion}.
How pleasant is this facial expression?
Rate from 1 to 9 where 1 is very unpleasant and 9 is very pleasant.
Respond with ONLY a JSON object: {“valence”: <integer 1-9>}

Step 3 — Arousal rating:

You identified this face as {emotion} with pleasantness {valence} out of 9.
How intense or activated is the emotion in this face?
Rate from 1 to 9 where 1 is very calm and 9 is very excited.
Respond with ONLY a JSON object: {“arousal”: <integer 1-9>}

여기서 {emotion}과 {valence}는 이전 단계의 모델 응답으로 동적 치환된다. 이 순차적 맥락 전달 설계는 인간이 감정을 먼저 범주화한 후 차원적 평정을 수행하는 절차를 반영한다.

S2.2 JSON-single 전략 (1-step)

단일 프롬프트로 세 가지 평정을 동시에 요청하였다:

Analyze the facial expression in this image.

Respond with ONLY a JSON object (no other text):
{“emotion”: “<one of: happy, sad, angry, fear, disgust, neutral>”, “valence”: <integer 1-9, 1=very unpleasant, 9=very pleasant>, “arousal”: <integer 1-9, 1=very calm, 9=very excited>}

S2.3 HuggingFace 로컬 모델 프롬프트

Base VQA 모델은 JSON 형식 지시를 따르지 못하므로, 단순 텍스트 응답 형식을 사용하였다:

Step 1 — Emotion:

What is the facial expression in this image?
Choose one from: happy, sad, angry, fear, disgust, neutral. Answer with a single word only.

Step 2 — Valence:

You identified this face as {emotion}.
How pleasant is this facial expression?
Rate from 1 to 9 where 1 is very unpleasant and 9 is very pleasant.
Answer with a single number only.

Step 3 — Arousal:

You identified this face as {emotion} with pleasantness {valence} out of 9.
How intense or activated is the emotion in this face?
Rate from 1 to 9 where 1 is very calm and 9 is very excited.
Answer with a single number only.

S2.4 응답 파싱

모델 응답은 3단계 캐스케이드로 파싱되었다: (1) 직접 JSON 파싱, (2) Markdown 코드 펜스 제거 후 JSON 파싱, (3) 정규표현식 기반 폴백 추출. Valence와 arousal은 [1, 9] 범위로 클램핑되었으며, 감정명은 처음 3글자 기준 퍼지 매칭을 통해 정규화되었다.

Table S4. 모델별 프롬프트 전략 및 백엔드 요약.

모델	백엔드	프롬프트 전략	Thinking
PaliGemma2	HuggingFace	context-carry	아니오
LLaMA-3.2-11B	HuggingFace	context-carry	아니오
Gemma3-4B	MLX	json-single	아니오
Gemma3-12B	Ollama	json-single	아니오
Gemma3-27B	Ollama	json-single	아니오
Qwen3-VL-4B	Ollama	json-single	예
GPT-4o-mini	OpenAI API	context-carry	아니오
Gemini 2.5 Flash	Google API	context-carry	예
Gemini 2.5 Flash (NoThink)	Google API	context-carry	N (budget=0)

S3. 감정별 z-score 상세 (부트스트랩 없음)

Table S5는 감정별 × 모델별 |z| 기술 통계를 제시한다. 이 분석은 Section 4.2.5의 전체 수준 z-score 분석을 감정 범주별로 분해하여, 대체 가능성의 감정별 이질성을 추가적으로 드러낸다.

주: 이 테이블의 상세 수치는 comprehensive_stats.xlsx의 23_ZScore_Per_Emotion 시트를 참조.

S4. 평균 절대 오차 (MAE)

S4.1 Supplementary로 분리된 이유

MAE는 차이값 $d_{j} = x_{j} - \overset{y}{ˉ}_{j}$ 의 절대값 평균으로, Bland-Altman 분석의 편향 $\overset{ˉ}{d}$ 와 $S D_{d}$ 에서 근사적으로 유도된다. 폴디드 정규분포 관계로부터:

$MAE = E [∣ d ∣] \approx \overset{ˉ}{d}^{2} + (2/ π) \cdot S D_{d}^{2}$

v10 데이터에서 여덟 VLM 조건 중 여섯 개는 이 근사가 보고 MAE와 $Δ \leq 0.05$ 이내에서 일치하며(Table S5), 나머지 두 개(Gemma3-4B, Gemma3-27B)는 $Δ \approx 0.16$ – $0.22$ 로 약간 벗어난다 — 두 모델은 $∣ \overset{ˉ}{d} ∣$ 가 매우 작아( $\leq 0.52$ ) 폴디드 정규분포의 꼬리 효과가 상대적으로 커지기 때문이다. 그럼에도 MAE는 ( $\overset{ˉ}{d}$ , $S D_{d}$ ) 쌍과 구조적으로 독립적인 정보를 제공하지 않으며, 본 연구의 대체 가능성 판정 프레임(§3.4.3)에서 Bland-Altman 쌍과 중복된다. 따라서 v10.5부터 MAE는 주 본문의 Tables 3/4에서 제거되고 본 supplementary에 분리 보고된다.

MAE를 supplementary로나마 유지하는 이유는 선행 VLM 감정 평가 문헌(Khare et al., 2024; Telceken et al., 2025)이 MAE를 주 지표로 채택하여, 직접 비교 가능성을 위해 원 1–9 척도 단위로 보존된 오차 지표가 필요하기 때문이다.

S4.2 정의 및 계산

평균 절대 오차 (MAE) — 절대적 편차 크기. VLM 예측과 인간 평정 간 편차의 평균적 크기를 직접 해석 가능한 단위로 제공한다:

$MAE = \frac{1}{N} \sum_{j = 1}^{N} ∣ x_{j} - \overset{y}{ˉ}_{j} ∣$

MAE = 1.5는 VLM이 평균적으로 인간 평정과 1–9 척도에서 1.5점 차이를 보임을 의미한다. Pearson $r$ 과 달리 방향성이 없으므로, 과대평가와 과소평가가 상쇄되지 않고 누적된다.

계산 단위. 이미지 $j$ 의 $R \approx 50$ 개 독립 인간 평정 ${y_{j, 1}, \dots, y_{j, R}}$ 에 대해 이미지별 인간 기준값을 $\overset{y}{ˉ}_{j} = (1/ R) \sum_{h = 1}^{R} y_{j, h}$ 로 먼저 산출한 뒤, $MAE = (1/ N) \sum_{j = 1}^{N} ∣ x_{j} - \overset{y}{ˉ}_{j} ∣$ ( $N = 1, 440$ )로 정의한다. 본 파이프라인은 src/data/human_ratings.py의 HumanRatingStore._aggregate()가 image_id 기준 groupby().mean()으로 이미지별 평균을 1회 생성한 뒤, scripts/generate_comprehensive_stats.py의 compute_va_metrics()가 그 결과 배열 위에서 MAE를 산출하는 구조로 구현되어 있다. 이 집계는 이미지 간(between-image) 변동만 반영하며, 이미지 내(within-image) 인간 평정자 간 변산은 소거된다(§3.4.2의 Bland-Altman 설계-한계 callout과 동일한 구조적 제약).

S4.3 폴디드 정규 근사 검증

Table S5는 위 근사 식을 v10의 여덟 VLM에 적용한 결과이다. Gemma3 계열 두 모델을 제외하면 근사 MAE와 보고 MAE의 차이가 0.05 이하이며, 이 차이의 대부분은 차이값 $d_{j}$ 의 분포가 정확히 Gaussian이 아닌 데서 오는 낮은 차수 보정이다.

Table S5. Valence MAE의 ( $\overset{ˉ}{d}$ , $S D_{d}$ ) 기반 폴디드 정규 근사 검증. 근사 MAE $= \overset{ˉ}{d}^{2} + 0.637 \cdot S D_{d}^{2}$ ( $0.637 \approx 2/ π$ ). $Δ$ = |근사 − 보고|.

모델	$\overset{ˉ}{d}$	$S D_{d}$	근사 MAE	보고 MAE	$Δ$
Gemini 2.5 Flash	1.280	1.617	1.82	1.842	0.02
Gemini 2.5 Flash (NoThink)	1.269	1.614	1.81	1.832	0.02
GPT-4o-mini	1.018	1.596	1.58	1.626	0.05
Qwen3-VL-4B	0.824	1.403	1.41	1.445	0.03
LLaMA-3.2-11B	0.857	1.738	1.66	1.702	0.04
Gemma3-4B	0.291	1.530	1.24	1.456	0.22
Gemma3-12B	0.876	1.535	1.56	1.581	0.02
Gemma3-27B	0.515	1.390	1.21	1.365	0.16

S4.4 Valence MAE 전체 결과

Table S6. 여덟 VLM의 Valence MAE (모델당 $N = 1, 440$ ). 본 표는 v10.4 이전 주 본문 Table 3의 MAE 열에서 이동된 값이다.

모델	Thinking	MAE
Gemini 2.5 Flash	Y	1.842
Gemini 2.5 Flash (NoThink)	N (budget=0)	1.832
GPT-4o-mini	N	1.626
Qwen3-VL-4B	Y	1.445
LLaMA-3.2-11B	N	1.702
Gemma3-4B	N	1.456
Gemma3-12B	N	1.581
Gemma3-27B	N	1.365

S4.5 Arousal MAE 전체 결과

Table S7. 여덟 VLM의 Arousal MAE (모델당 $N = 1, 440$ ). 본 표는 v10.4 이전 주 본문 Table 4의 MAE 열에서 이동된 값이다.

모델	Thinking	MAE
Gemini 2.5 Flash	Y	1.951
Gemini 2.5 Flash (NoThink)	N (budget=0)	1.877
GPT-4o-mini	N	1.572
Qwen3-VL-4B	Y	2.013
LLaMA-3.2-11B	N	1.763
Gemma3-4B	N	1.137
Gemma3-12B	N	1.463
Gemma3-27B	N	1.156

S4.6 인간 MAE 기저선과의 비교

MAE의 스케일-의존적 해석을 보정하기 위해, 인간 평정자 집단 내에서의 두 가지 MAE 기저선을 산출하여 VLM MAE의 판독 앵커로 사용할 수 있다. 첫째, LOO(Leave-One-Out) MAE는 각 평정자의 응답값과 해당 이미지의 나머지 평정자들의 평균 사이의 평균 절대 차이이다 — VLM MAE의 정의(“예측값 ↔ 인간 평균”)와 구조적으로 동일한 비교이다. 둘째, 쌍별(pairwise) MAE는 같은 이미지의 두 평정자 사이의 평균 절대 차이이다.

Table S8. 인간 MAE 기저선 및 VLM MAE 비율. LOO는 각 평정자 vs. 나머지 평정자 평균의 평균 절대 차이(직접 비교 baseline); 쌍별은 모든 평정자 쌍의 평균. 원본 데이터: data/human_ratings/ratings.csv ( $N = 72, 000$ rater–image 쌍).

차원	인간 LOO MAE	인간 쌍별 MAE	VLM MAE 범위	VLM/LOO 비율
Valence	1.080	1.489	1.365–1.842	1.26× – 1.71×
Arousal	1.205	1.680	1.137–2.013	0.94× – 1.67×

세 가지 관찰이 도출된다. 첫째, valence에서 여덟 VLM 모두 인간 LOO MAE(1.080)보다 큰 MAE를 보이며(1.26–1.71배), Gemma3-27B(1.26배)가 기저선에 가장 근접한다. 둘째, arousal에서 Gemma3-4B(MAE = 1.137, 0.94×)와 Gemma3-27B(MAE = 1.156, 0.96×) 두 모델은 인간 LOO 기저선(1.205)보다 작은 MAE를 달성한다 — 두 모델의 arousal 예측은 “평균적인 인간 평정자”가 집단 평균으로부터 떨어진 거리보다 오히려 가깝다. 이 결과는 Section 4.3 Tables 4d/4e의 부트스트랩 z-score 분석에서 두 모델만이 집계 수준 인간 개인 기저선과 통계적으로 구별되지 않는다는 결과(Gemma3-4B $p_{sig} = 32.5%$ , Gemma3-27B $p_{sig} = 95.4%$ )와 수렴한다 — 동일한 “arousal에서 Gemma3 계열의 인간-수준 정확도” 현상을 MAE와 z-score의 두 독립 지표가 공통으로 포착한다. 셋째, 인간 쌍별 MAE(valence 1.489, arousal 1.680) 기준으로 보면 VLM MAE가 이보다 낮거나 비슷한 범위이지만, 쌍별 MAE는 “두 개인 평정자 간 불일치”이므로 VLM MAE(“단일 예측값 vs. 집단 평균”)와 구조가 달라 엄밀한 anchor는 LOO MAE이다.

S5. Dimensional Demographic Omnibus Analysis (Archived from v10.6 §4.5)

S5 Preamble. This section archives the dimensional demographic analyses previously reported in the main text §4.5 (v10.6). Following the v10.7 methodological restructuring, these analyses were superseded by emotion-stratified race × gender factorial ANOVAs (main text Tables 7b, 7c) that better respect the emotion-dependence of valence/arousal bias measurements. The v10.6 omnibus bias ~ race × emotion and bias ~ gender × emotion analyses are retained here verbatim for (a) readers interested in aggregate cross-emotion demographic effects, (b) cross-validation of per-emotion patterns against the omnibus race × emotion and gender × emotion interactions, and (c) methodological transparency regarding the v10.6 → v10.7 transition. No re-analysis was performed; every number, table, and narrative paragraph below is copied verbatim from v10.6 05_results.md (lines 408–468). Internal references to “Table 6b/6c/6d/6e” in the archived text have been updated to “Table S5.1/S5.2/S5.3/S5.4” to avoid collision with the main-text Tables 7b and 7c. Cross-references to the v10.6 classification-level tables and figures (Tables 6/6a, Figures 6-6b) have also been re-aliased to their current counterparts (Tables 7/7a, Figures 7-7b) so that the archived paragraphs remain navigable from the current body.

S5.1 Archived introduction paragraph (from v10.6 line 408)

차원적 편향(Valence, Arousal)의 인구통계 효과. 분류 수준(Tables 7/7a, Figures 7-7b)에서 관찰된 인구통계 편향이 차원적 평정에서도 재현되는지를 검증하기 위해, VLM-인간 편향(bias = VLM 예측 − 인간 평균)에 대한 요인 ANOVA를 실시하였다. 각 모델별로 중첩 모형 비교를 통해 인구통계 주효과와 인구통계 × 감정 상호작용을 검정하였다. Tables S5.1–S5.4는 인종 및 성별 각각에 대한 valence와 arousal 편향 분석 결과를 제시한다.

Table S5.1 [= v10.6 Table 6b]. 인종이 valence 편향에 미치는 효과. 주효과: val_bias ~ race + emotion vs val_bias ~ emotion; 상호작용: val_bias ~ race × emotion vs val_bias ~ race + emotion.

모델	인종 주효과 F(2,1432)	η²	p	인종×감정 F(10,1422)	η²	p
Gemma3-27B	48.20	.016	< .001***	11.16	.017	< .001***
Gemma3-12B	44.61	.016	< .001***	4.83	.008	< .001***
Qwen3-VL-4B	38.29	.020	< .001***	7.29	.018	< .001***
LLaMA-3.2-11B	17.25	.004	< .001***	4.77	.006	< .001***
GPT-4o-mini	16.10	.003	< .001***	3.56	.003	< .001***
Gemma3-4B	3.00	.001	.050	4.10	.009	< .001***
Gemini 2.5 Flash	0.61	.000	.543	1.65	.001	.088
Gemini 2.5 Flash (NoThink)	0.58	.000	.562	1.70	.001	.076

Table S5.2 [= v10.6 Table 6c]. 인종이 arousal 편향에 미치는 효과. 주효과: aro_bias ~ race + emotion vs aro_bias ~ emotion; 상호작용: aro_bias ~ race × emotion vs aro_bias ~ race + emotion.

모델	인종 주효과 F(2,1432)	η²	p	인종×감정 F(10,1422)	η²	p
LLaMA-3.2-11B	126.12	.051	< .001***	26.53	.045	< .001***
Gemma3-12B	54.89	.027	< .001***	7.00	.016	< .001***
GPT-4o-mini	37.50	.016	< .001***	1.72	.004	.071
Gemma3-27B	34.40	.011	< .001***	4.18	.006	< .001***
Qwen3-VL-4B	23.75	.012	< .001***	6.42	.016	< .001***
Gemma3-4B	13.54	.007	< .001***	3.54	.009	< .001***
Gemini 2.5 Flash (NoThink)	3.19	.001	.041*	5.01	.004	< .001***
Gemini 2.5 Flash	2.60	.001	.075	3.67	.004	< .001***

Table S5.3 [= v10.6 Table 6d]. 성별이 valence 편향에 미치는 효과. 주효과: val_bias ~ gender + emotion vs val_bias ~ emotion; 상호작용: val_bias ~ gender × emotion vs val_bias ~ gender + emotion.

모델	성별 주효과 F(1,1433)	η²	p	성별×감정 F(5,1428)	η²	p
Gemma3-12B	174.62	.030	< .001***	29.21	.023	< .001***
Gemma3-4B	47.77	.011	< .001***	34.53	.035	< .001***
GPT-4o-mini	36.96	.003	< .001***	50.44	.019	< .001***
Gemma3-27B	23.64	.004	< .001***	41.21	.031	< .001***
Qwen3-VL-4B	22.90	.006	< .001***	13.93	.018	< .001***
Gemini 2.5 Flash (NoThink)	13.85	.001	< .001***	33.93	.012	< .001***
LLaMA-3.2-11B	5.29	.001	.022*	10.46	.006	< .001***
Gemini 2.5 Flash	2.37	.000	.124	13.35	.005	< .001***

Table S5.4 [= v10.6 Table 6e]. 성별이 arousal 편향에 미치는 효과. 주효과: aro_bias ~ gender + emotion vs aro_bias ~ emotion; 상호작용: aro_bias ~ gender × emotion vs aro_bias ~ gender + emotion.

모델	성별 주효과 F(1,1433)	η²	p	성별×감정 F(5,1428)	η²	p
GPT-4o-mini	55.01	.012	< .001***	1.62	.002	.152
LLaMA-3.2-11B	54.63	.012	< .001***	13.30	.014	< .001***
Gemma3-12B	49.81	.013	< .001***	6.24	.008	< .001***
Qwen3-VL-4B	39.77	.010	< .001***	10.93	.014	< .001***
Gemma3-4B	13.08	.004	< .001***	17.92	.023	< .001***
Gemini 2.5 Flash (NoThink)	11.38	.001	< .001***	53.29	.020	< .001***
Gemini 2.5 Flash	3.17	.000	.075	20.07	.010	< .001***
Gemma3-27B	0.22	.000	.637	23.18	.017	< .001***

S5.5 Archived narrative paragraphs (from v10.6 lines 462–468)

S5.5.1 Race main effects (archived from v10.6 line 462). 인종 주효과는 valence에서 5개 모델, arousal에서 7개 모델에서 유의하였다(Tables S5.1–S5.2). 주목할 점은 Gemini 2.5 Flash가 valence와 arousal 모두에서 인종 주효과가 비유의한 유일한 모델이라는 것이다 — 이는 분류 수준에서 인종 효과가 유의했던 것(χ²(2) = 8.24, p = .016)과 대비되며, 분류에서의 인종 편향이 차원적 평정의 체계적 편향으로 전이되지 않음을 시사한다. 다만, Gemini 2.5 Flash의 arousal에서 인종 × 감정 상호작용은 유의하여(F(10,1422) = 3.67, p < .001, η² = .004; Table S5.2), 전반적 인종 편향은 없으나 특정 감정에서 인종 간 편향 차이가 존재함을 보여준다.

S5.5.2 Gender main effects (archived from v10.6 line 464). 성별 주효과는 valence에서 7개 모델, arousal에서 6개 모델에서 유의하였다(Tables S5.3–S5.4). Gemma3-12B의 valence 성별 효과(F(1,1433) = 174.62, η² = .030; Table S5.3)가 전체 주효과 중 가장 큰 효과 크기를 보이며, 여성 얼굴에 대한 valence 편향(1.140)이 남성(0.612)보다 0.528점 더 크다. 반면 Gemma3-27B는 arousal에서 성별 주효과가 비유의하나(F(1,1433) = 0.22, p = .637), 성별 × 감정 상호작용은 유의하여(F(5,1428) = 23.18, η² = .017, p < .001; Table S5.4), 전체 평균으로는 편향이 상쇄되지만 감정별로는 성별 간 편향 방향이 다름을 의미한다.

S5.5.3 Demographic × emotion interactions (archived from v10.6 line 466). 인구통계 × 감정 상호작용은 인종(valence 6/8, arousal 7/8)과 성별(valence 8/8, arousal 7/8) 모두에서 광범위하게 유의하였다. 이는 인구통계 편향이 모든 감정에 균일하게 작용하는 것이 아니라, 특정 감정-인구통계 조합에서 선택적으로 증폭됨을 의미한다. 특히 성별 × 감정 상호작용은 valence에서 8개 모델 전체에서 유의하여, Gemini 2.5 Flash처럼 성별 주효과가 비유의한 모델에서도 감정별로는 성별 편향이 존재한다.

S5.5.4 LLaMA arousal race effect (largest effect size in archived analysis) (archived from v10.6 line 468). LLaMA-3.2-11B의 arousal 인종 효과는 주효과(F(2,1432) = 126.12, η² = .051)와 상호작용(F(10,1422) = 26.53, η² = .045) 모두에서 전체 분석 최대의 효과 크기를 보인다. 이 모델은 흑인 얼굴의 arousal을 과소평가하고(−0.349) 한국인 얼굴은 과대평가하는(+0.712) 반전 패턴을 보이며, 인종 간 편향 격차가 1.061점에 달한다. 이는 분류에서의 인종 격차(6.3 pp)보다 차원적 수준에서 훨씬 더 심각한 편향이 존재함을 보여준다.

S5.6 Cross-reference to main text

For the emotion-stratified race × gender analysis that supersedes these archived omnibus results, see main text §4.5 Tables 7b and 7c. The v10.7 analysis shares the same raw val_bias / aro_bias quantities as the v10.6 omnibus but partitions them by emotion stratum, enabling formal tests of intersectional (race × gender) bias while sacrificing the direct test of race × emotion and gender × emotion heterogeneity — which readers can instead recover from Tables S5.1–S5.4 above.

S6. 평가 대상 VLM 상세 사양

본 연구는 세 개의 직교 설계 축 — (1) 파라미터 규모(4B / 11–12B / 27B / 프론티어), (2) 배포 방식(로컬 MLX / API), (3) 추론 모드(Non-thinking / Thinking) — 을 교차하는 8개 VLM 조건을 평가하였다. 본 섹션은 각 모델의 개발사, 출시 시기, 파라미터 규모, 추론 모드 지원 여부, 주요 특징, 그리고 본 연구 채택 근거를 기술한다. 추론 설정(temperature, budget 등)의 전체 사양은 Methods Table 1을 참조하라.

Table S6. 본 연구에서 평가된 8개 VLM 조건의 개발사·출시 시기·규모·추론 모드 요약.

모델	개발사	출시 (공개)	파라미터	Reasoning	가중치
Gemini 2.5 Flash (Thinking)	Google DeepMind	2025-04 (preview), 2025-06 (GA)	비공개 (frontier)	Yes (dynamic budget)	Closed (API)
Gemini 2.5 Flash (NoThink)	Google DeepMind	2025-04 (preview), 2025-06 (GA)	비공개 (frontier)	비활성화 (budget = 0; ~199 잔존 토큰)	Closed (API)
GPT-4o-mini	OpenAI	2024-07-18	비공개 (frontier, 경량)	No	Closed (API)
Qwen3-VL-4B-Thinking	Alibaba (Qwen team)	2025 (Qwen3-VL 계열)	4B	Yes (budget = 1,024)	Open (Apache 2.0)
LLaMA-3.2-11B-Vision	Meta AI	2024-09-25	11B (LLM) + ViT	No	Open (Llama Community License)
Gemma3-4B-IT	Google DeepMind	2025-03-12	4B	No	Open (Gemma Terms of Use)
Gemma3-12B-IT	Google DeepMind	2025-03-12	12B	No	Open (Gemma Terms of Use)
Gemma3-27B-IT	Google DeepMind	2025-03-12	27B	No	Open (Gemma Terms of Use)

S6.1 Gemini 2.5 Flash (Thinking / NoThink)

개발사: Google DeepMind.
출시: 2025년 4월 17일 Google I/O에서 preview 공개, 2025년 6월 일반 공개(GA).
파라미터: 비공개(frontier 상용 모델). Gemini 2.5 Pro의 경량·저지연 변형으로 설계.
특징: Gemini 2.5 세대에서 도입된 controllable thinking budget API 파라미터를 통해 생성 이전 내부 chain-of-thought 토큰 수를 0에서 수천 개까지 동적으로 조절할 수 있는 최초의 상용 멀티모달 모델 중 하나이다. includeThoughts 플래그로 사고 과정 노출 여부도 제어 가능하다. 네이티브 멀티모달(이미지·오디오·비디오·텍스트) 입력과 1M 토큰 컨텍스트를 지원한다.
Reasoning: Thinking 조건은 includeThoughts=true + 동적 budget으로 모델이 내부적으로 필요한 만큼 사고하도록 허용하였다. NoThink 조건은 thinkingBudget=0으로 설정하였으나, API 로그 기준 약 199개의 내부 토큰이 잔존한다(Methods Table 1 주석). 따라서 본 연구의 NoThink 조건은 “완전 비활성화”가 아니라 “최소 사고 모드”로 해석해야 한다.
본 연구 채택 근거: 동일한 가중치·데이터·아키텍처 내에서 추론 모드만을 분리할 수 있는 유일한 모델이기 때문이다. 이는 “프론티어 모델이 인간과 유사한 감정 평정을 산출하는 이유가 reasoning에 의한 것인가, 단순히 학습된 사전분포에 의한 것인가”라는 핵심 질문에 대한 within-model ablation을 가능하게 한다.

S6.2 GPT-4o-mini

개발사: OpenAI.
출시: 2024년 7월 18일. GPT-4o의 저비용·저지연 변형으로 공개.
파라미터: 비공개. GPT-4o의 축약 버전으로, 2024년 중반 프론티어 모델 중 MMLU ~82% 수준을 유지하면서 API 단가를 ~15× 낮춘 경량 변형이다.
특징: 네이티브 멀티모달(텍스트·이미지·오디오) 입력, 128K 컨텍스트, JSON 모드·함수 호출·structured output을 완비한다. o1/o3 계열과 달리 명시적 reasoning token 메커니즘을 갖지 않으며, 단일 패스로 즉각 응답한다.
Reasoning: No. 내부 chain-of-thought을 노출하는 인터페이스가 없다.
본 연구 채택 근거: (1) 가장 널리 사용되는 상용 프론티어 API의 대표 주자이며, (2) temperature=0 + seed=42 + image_detail=high 조합으로 재현 가능한 결정론적 출력이 가능하고, (3) reasoning 모드가 없는 프론티어 API로서 Gemini 2.5 Flash(Thinking)와의 직접 비교 대상이 된다. 특히 “reasoning 없는 프론티어 API”가 “reasoning 있는 open-weight 소형 모델(Qwen3-VL-4B-Thinking)“보다 나은지를 검증하기 위한 비교 기준이다.

S6.3 Qwen3-VL-4B-Thinking

개발사: Alibaba Cloud, Qwen team.
출시: Qwen3-VL 계열은 2025년 공개. -Thinking 파생형은 동일 계열 내 사고형 변형이다.
파라미터: 4B (Qwen3 LLM 백본 + ViT vision encoder).
특징: Qwen3 세대에서는 Instruct와 Thinking 두 가지 파생 variant가 별도 학습되며, Thinking 변형은 DeepSeek-R1 스타일의 명시적 <think>...</think> 블록을 출력한다. 동적 해상도 지원, M-RoPE, 일반 VQA 벤치마크에서 동일 규모 개방 가중치 모델 중 최상위권 성능을 기록한다.
Reasoning: Yes. 본 연구에서는 thinking_budget=1024 토큰으로 제한하고 repetition_penalty=1.5를 적용하여 사고 루프 탈출을 보장하였다.
본 연구 채택 근거: 로컬·소형 규모에서 reasoning을 지원하는 거의 유일한 open-weight VLM이다. 이는 두 가지 관심 질문을 가능케 한다: (1) 4B 규모에서도 추론 능력이 감정 평정 편향을 완화하는가, (2) 프론티어 API의 thinking 모드 효과가 파라미터 규모에 의존하는가. MLX 백엔드에서 Apple M1 Max 32GB 상에 직접 로드 가능하다는 점도 결정적 선택 기준이었다.

S6.4 LLaMA-3.2-11B-Vision

개발사: Meta AI.
출시: 2024년 9월 25일 Meta Connect에서 공개. LLaMA 계열 최초의 멀티모달 모델.
파라미터: 11B LLM 백본 + 별도 ViT 기반 vision adapter(cross-attention 방식). 텍스트 가중치는 LLaMA-3.1-8B와 호환되며, 추가된 vision cross-attention 파라미터가 약 3B 가량 더해진 구조다.
특징: Cross-attention 기반 vision fusion을 채택하여 self-attention 내에서 이미지 토큰과 텍스트 토큰이 완전히 섞이는 Gemma3/Qwen3-VL/GPT-4o 계열과 구조적으로 다르다. 128K 컨텍스트, 영어·다국어 텍스트 지원.
Reasoning: No. LLaMA 3.x 세대는 명시적 reasoning 모드를 제공하지 않는다(LLaMA-4 세대부터 별도 Reasoning 변형이 등장).
본 연구 채택 근거: (1) Meta 계열 개방 가중치 멀티모달 모델 중 가장 널리 보급된 대표 주자이며, (2) 11B 규모에서 Gemma3-12B와 유사한 파라미터 수를 가져 동일 규모대에서 Google(Gemma)·Meta(LLaMA) 계열 간 직접 비교가 가능하고, (3) cross-attention 기반 vision fusion이라는 아키텍처적 차이가 감정 판단에 미치는 영향을 탐색할 수 있게 한다. 결과적으로 LLaMA가 가장 낮은 kappa(0.536)와 arousal 인종 편향(η² = .051)을 보인 것은 이 구조적 차이의 귀결 가능성을 시사한다(본문 §4.5, S5.5.4 참조).

S6.5 Gemma 3 계열 (4B / 12B / 27B)

개발사: Google DeepMind. Gemini 연구에서 파생된 개방 가중치 계열이다.
출시: 2025년 3월 12일. Gemma 1(2024-02)·Gemma 2(2024-06) 이후 세 번째 세대이며, 1B를 제외한 모든 크기(4B·12B·27B)가 vision 입력을 지원하는 최초의 Gemma 세대이다.
파라미터: 4B / 12B / 27B (세 가지 모두 instruction-tuned “IT” 변형 사용). 동일한 SigLIP 기반 vision encoder(896×896 네이티브)를 공유한다.
특징: (1) 128K 컨텍스트(4B는 32K), (2) 140개 이상 언어 지원, (3) 공식 QAT (Quantization-Aware Training) 4-bit 체크포인트 제공 — 본 연구는 이 QAT 변형을 사용하여 M1 Max 32GB 내 단일 GPU 추론을 보장하였다. Gemini 2.x 아키텍처의 축약형으로, local / global attention 5:1 교차 패턴과 RoPE 기반 long-context 확장을 공유한다.
Reasoning: No. Gemma 3는 명시적 thinking 모드를 지원하지 않는다(후속 Gemma 3n 및 Gemini Nano Thinking과 구분).
본 연구 채택 근거: 동일 아키텍처·동일 학습 데이터·동일 vision encoder 상에서 파라미터 규모만을 세 단계로 변화시킨 유일한 계열이기 때문이다. 이는 “VLM의 감정 평정 성능이 파라미터 수에 얼마나 민감한가”라는 질문에 대해 scaling family 내 순수한 규모 효과를 측정할 수 있게 한다. 실제로 본 연구는 Gemma3 계열에서 4B → 12B → 27B로 갈수록 kappa가 0.668 → 0.711 → 0.798로 단조 증가함을 확인하였으며(본문 §4.1), 이는 나머지 7개 모델에서 나타난 비단조적 규모-성능 관계(LLaMA-11B < Gemma3-4B 등)와 대조적으로 동일 아키텍처 내에서는 규모가 여전히 의미 있는 예측 변수임을 보여준다.

S6.6 선정 설계 요약

본 연구의 8개 모델 조건은 다음 세 쌍의 직접 비교를 구조적으로 가능하게 한다:

Reasoning 순수 효과 (동일 가중치 내): Gemini 2.5 Flash (Thinking) vs. Gemini 2.5 Flash (NoThink). 가중치·데이터·아키텍처가 동일하므로 추론 모드의 독립적 효과를 분리한다.
동일 아키텍처 내 규모 효과: Gemma3-4B vs. Gemma3-12B vs. Gemma3-27B. 세 모델 모두 동일한 SigLIP vision encoder와 QAT 4-bit 양자화를 공유한다.
동 규모 아키텍처 효과: LLaMA-3.2-11B (Meta, cross-attention fusion) vs. Gemma3-12B (Google, unified self-attention). 11–12B 규모에서 vision-text 융합 구조가 감정 평정에 미치는 영향을 측정할 수 있다.
Open vs. Closed 차이: 로컬 MLX 4개(Gemma3 × 3, LLaMA, Qwen3-VL) vs. 프론티어 API 3개(GPT-4o-mini, Gemini Thinking/NoThink). 배포 경계를 넘는 일반화 가능성을 평가한다.
Small reasoning vs. Large non-reasoning: Qwen3-VL-4B-Thinking vs. Gemma3-27B. “reasoning 있는 4B”가 “reasoning 없는 27B”보다 우수한지를 검증한다(본 연구 결과: 27B가 여전히 우세 — kappa 0.798 vs. 0.761).

이 5개 비교 축이 교차함으로써 본 연구는 단일 벤치마크 점수가 아닌 **설계 공간 내 위치(position in design space)**로서 각 모델의 감정 평정 특성을 진단할 수 있다.

Appendix: 투고 추천 학회 및 저널

본 연구의 핵심 기여 — 심리측정적 “VLM-as-1001st-rater” 대체 가능성 프레임워크 (Δα/부트스트랩 z-score/대체 가능성 매트릭스), 8개 VLM 조건 × 1,000명 인간 평정자 × 1,440장 AI 생성 얼굴(3인종 × 2성별 × 6감정) × 72,000 인간 응답 — 을 기준으로 주제 적합성과 학회/저널 평판(impact factor, 트랙 스코프, 선례 논문 유무)을 재조사하여 아래와 같이 재분류한다.

Tier 1: 주요 대상 (적합성 ★★★★★ · 평판 ★★★★★)

학회/저널	유형	적합 근거
IEEE Transactions on Affective Computing (TAFFC)	저널	감정 컴퓨팅 최상급 저널(IF 11.09, Q1). 본 연구의 학문적 본거지. 8개 조건 비교, 대체 가능성 매트릭스, Δα/z-score 기반 프레임워크, 그리고 72,000 인간 응답 + 1,440 얼굴의 재사용 가능 공개 벤치마크가 핵심 기여로 정렬됨
NeurIPS 2026 Evaluations & Datasets Track	학회	2026년부터 기존 Datasets & Benchmarks 트랙을 “Evaluations & Datasets”로 확장하며 human study · auditing · interaction protocols · metrics를 명시적으로 환영. 본 연구의 72k 인간 응답 벤치마크와 Δα/z-score 지표 개발이 트랙 스코프에 거의 1:1로 매칭. ML top-tier 평판. (초록 마감 2026-05-04 / 본문 마감 2026-05-06 임에 유의)
Nature Human Behaviour	저널	2025년 Liang et al.(Stanford)의 대규모 LLM-as-annotator 논문을 이미 출판한 선례 보유. IF ≈29. N=1,000 규모, 교차 인구통계 분석, 정서적 AI 배치의 사회적 함의가 NHB의 전형적 스코프와 정합

Tier 2: 유력 대안 — 방법론 자매 투고 및 정서과학 공동체 도달

학회/저널	유형	적합 근거
Behavior Research Methods	저널	Q1(IF 5.4), Psychonomic Society. 컴퓨터 기술 기반 심리학 연구 방법론이 공식 스코프. Δα/z-score/대체 가능성 루브릭을 재사용 가능한 심리측정 평가 프로토콜 방법론 논문으로 분리 제출 시 최적
Affective Science (Springer, Society for Affective Science 공식지)	저널	Q1(IF 2.6), 제출→1차 심사 중앙값 15일. 정서 순환 모형·심리측정 프레임워크·감정별(행복/중립/슬픔) 대체 가능성 이질성 결과가 정서과학 공동체의 핵심 관심사와 직접 정합
ACII 2026 (Affective Computing & Intelligent Interaction)	학회	감정 컴퓨팅 전문 학회. 심리측정 프레임워크와 대체 가능성 매트릭스가 새로운 기여. 단, 2026 메인 트랙 마감(2026-03-27)은 이미 경과하였으므로 LBR · 데모 · 워크샵 트랙 또는 2027 cycle 경로를 검토

Tier 3: 보조/조건부 — 2차 기여 중심의 서브 투고

학회/저널	유형	적합 근거
ACM FAccT 2026	학회	2026-06-25~28 Montréal, CFP 오픈(14p). audit/evaluation 논문 환영. 본 연구의 3×2×6 factorial 인구통계 편향 감사(인종 격차 3.8–10.1 pp, 모델별 방향·규모 상이)는 부차적 기여이나, FAccT의 “model-specific deployment audit” 관점으로 재프레이밍하면 적합
CHI 2026 — HEAL Workshop (Human-Evaluation of AI-generated content / LLM evaluation crisis)	워크샵	HCI/AI 공동체에서 “LLM evaluation crisis”를 정면으로 다루는 전용 워크샵. 초기 피드백·커뮤니티 가시성 확보용 채널로만 적합 (메인 트랙 풀페이퍼는 본 연구의 포지셔닝과 맞지 않음)
ACL Findings	학회	Calderon, Reichart, Dror “Alternative Annotator Test” (ACL 2025 Long)가 LLM annotator 통계적 정당화라는 인접 주제를 이미 다룸. NLP 공동체 내 빠른 가시성 확보 fallback 옵션