05_results

4. 결과

4.1 범주적 일치도

Table 2는 여덟 VLM 조건의 감정 분류 성능을 제시하며, κ = 0.536(LLaMA)에서 0.853(Gemini NoThink)에 이르는 넓은 분포에서 세 가지 구조적 패턴이 드러난다. 여기서 범주적 일치도(categorical agreement)란 예측 감정 레이블과 인간 다수결 레이블 간 우연 보정 일치 수준을 Cohen’s kappa로 정량화한 지표를 가리키며, κ = 0.536은 보통(moderate), 0.853은 거의 완벽(near-perfect) 수준에 해당한다.

Table 2. 전체 감정 분류 성능 (조건당 N = 1,440장 이미지).

순위	모델	Thinking	파라미터 규모	Accuracy	F1_macro	Cohen’s kappa
—	Human	—	—	0.993	0.993	0.992
1	Gemini 2.5 Flash (NoThink)	N (budget=0)	Frontier	0.878	0.873	0.853
2	Gemini 2.5 Flash	Y	Frontier	0.874	0.869	0.848
3	Gemma3-27B	N	27B	0.831	0.827	0.798
4	GPT-4o-mini	N	Frontier	0.807	0.786	0.768
5	Qwen3-VL-4B	Y	4B	0.800	0.799	0.761
6	Gemma3-12B	N	12B	0.759	0.728	0.711
7	Gemma3-4B	N	4B	0.724	0.682	0.668
8	LLaMA-3.2-11B	N	11B	0.613	0.536	0.536

첫째, Gemini 2.5 Flash NoThink 조건(accuracy = 0.878)이 Gemini 2.5 Flash Thinking 조건(0.874)을 소폭 상회한다. 동일 모델에서 thinking_budget을 0으로 설정한 조건이 동적 thinking 조건과 동등하거나 이를 상회하는 결과는, thinking 모드가 Gemini의 감정 분류 성능에 인과적으로 기여하지 않음을 시사한다. 이 within-model 비교의 상세 분석은 Section 4A.1에서 제시한다.

둘째, Gemma3-27B(accuracy = 0.831, kappa = 0.798)가 non-thinking 로컬 모델 중 최고 성능을 달성하며, 프론티어 모델인 GPT-4o-mini(0.807)를 상회한다. Gemma3 계열의 3점 스케일링(4B: 0.724, 12B: 0.759, 27B: 0.831)은 동일 아키텍처 내에서 규모 증가가 범주적 정확도를 개선함을 보이며, 상세 분석은 Section 4A.2에서 제시한다.

셋째, 모델 규모가 성능을 일관되게 예측하지 못한다. 11B LLaMA(kappa = 0.536)가 4B Gemma3(kappa = 0.668)보다 낮고, 12B Gemma3(kappa = 0.711)가 4B Qwen3-VL(kappa = 0.761)보다 낮다. 아키텍처, 훈련 데이터, 추론 모드의 차이가 파라미터 수만큼 중요함을 확인한다.

Table 3은 여덟 조건과 인간의 감정별 분류 정확도(recall)를 제시하며, 감정 범주에 따른 극단적 성능 양극화를 드러낸다.

Table 3. 감정별 분류 정확도 (Recall). 인간 다수결 정서 레이블을 정답으로 간주.

감정	Gemini-NT	Gemini-T	GPT-4o	Qwen3-VL	LLaMA	Gemma3-4B	Gemma3-12B	Gemma3-27B	Human
행복	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000
중립	1.000	0.992	1.000	0.963	1.000	1.000	1.000	1.000	1.000
공포	0.967	0.971	0.929	0.896	0.654	0.979	0.979	0.963	1.000
분노	0.913	0.908	0.925	0.858	0.925	0.400	0.925	0.713	0.979
혐오	0.788	0.788	0.733	0.538	0.008	0.838	0.383	0.767	0.979
슬픔	0.600	0.583	0.254	0.546	0.092	0.125	0.267	0.546	1.000

Table 3a는 감정별 정밀도(precision)를 제시하여, recall과의 비교를 통해 오분류의 방향성을 진단한다.

Table 3a. 감정별 분류 정밀도 (Precision). 해당 감정으로 예측한 이미지 중 실제 정답 비율.

감정	Gemini-NT	Gemini-T	GPT-4o	Qwen3-VL	LLaMA	Gemma3-4B	Gemma3-12B	Gemma3-27B	Human
행복	1.000	0.992	0.996	0.980	1.000	1.000	1.000	1.000	1.000
중립	0.803	0.847	0.583	0.750	0.500	0.519	0.609	0.682	1.000
공포	0.903	0.896	0.945	0.843	1.000	0.914	0.887	0.967	1.000
분노	0.768	0.732	0.742	0.626	0.421	0.793	0.603	0.753	0.979
혐오	0.883	0.867	0.921	0.860	1.000	0.611	0.844	0.739	0.979
슬픔	0.993	0.993	1.000	1.000	0.759	1.000	1.000	0.985	1.000

Table 3과 Table 3a를 대조하면 오분류의 비대칭성이 드러난다. 슬픔은 recall이 극히 낮으나(0.092–0.600) precision은 거의 완벽하다(0.759–1.000). 이는 VLM이 슬픔으로 예측한 이미지는 실제로 슬픈 이미지이지만, 대다수의 슬픈 이미지를 슬픔으로 인식하지 못함을 의미한다 — 즉, 과소탐지(under-detection) 오류이다. 반대로 중립은 recall이 높으나(0.963–1.000) precision이 낮아(0.500–0.847), VLM이 슬픔과 혐오 이미지를 중립으로 과잉 흡수하는 패턴을 확인한다.

행복과 중립은 여덟 조건 모두에서 완벽하거나 거의 완벽하게 분류되어 사실상 해결된 범주이다. 공포는 LLaMA(0.654)를 제외한 모든 조건에서 0.896 이상의 정확도를 보인다. 분노와 혐오는 모델별 변이가 크며, Gemma3 계열은 규모에 따라 비단조적 패턴을 보인다: 분노에서 4B(0.400)가 극히 낮으나 12B(0.925)에서 급등한 뒤 27B(0.713)에서 다시 하락하고, 혐오에서는 반대로 4B(0.838)가 높으나 12B(0.383)에서 급락한 뒤 27B(0.767)에서 회복한다. 이 상보적 오류 프로파일은 규모 증가가 분노-혐오 간 내부 표상을 질적으로 재편함을 시사한다(Section 4A.2 참조).

슬픔은 대체 가능성 관점에서 가장 심각한 범주이다. 여덟 조건 중 recall에서 0.600을 초과하는 조건이 없으며, non-thinking 소형 모델(Gemma3-4B: 0.125, LLaMA: 0.092)은 10% 미만의 정확도를 보인다. 슬픔의 주된 오류 경로는 중립 흡수이다: non-thinking VLM은 슬픈 이미지의 대부분을 중립으로 분류한다. Gemma3-27B(0.546)는 non-thinking 모델임에도 thinking 모델인 Qwen3-VL(0.546)과 동등한 슬픔 정확도를 달성하여, thinking 모드뿐 아니라 규모 증가 역시 슬픔 인식 개선의 경로가 될 수 있음을 시사한다(Section 4A.2 참조).

4.2 Valence 일치도

여덟 VLM 조건 모두 전체 valence 상관 r = .891–.963을 달성하나, 이는 감정 분류 정확도의 파생 지표이므로 감정 내 상관과 z-score 범위 소속 분석으로 실질적 변별력을 별도 검증한다. 그러나 이 전체 상관은 감정 범주 간 분산(between-emotion variance)에 의해 지배되므로, VLM의 “valence 감지 능력”이 아니라 “감정 분류 정확도의 파생 지표”로 해석해야 한다(상세는 Table 4b와 뒤의 분석 참조). Table 4는 전체 valence 통계를 제시한다.

Table 4. Valence 예측 통계 (모델당 N = 1,440). Bias = Bland-Altman mean difference $\overset{ˉ}{d}$ (human − VLM; 양수 = VLM 과소평정). $S D_{d}$ = 차이값의 표준편차 (Table 4a의 감정별 $S D_{d}$ 와 단위 일치). 95% Bland-Altman LoA는 $\overset{ˉ}{d} \pm 1.96 \cdot S D_{d}$ 로 환산 가능하나, $d$ 의 정규성 가정을 피하고 감정별 분해와 단위를 맞추기 위해 $S D_{d}$ 를 직접 보고한다. 본 전체 수준 요약 지표는 감정 범주 간 편향 차이에 의해 부풀려져 있으며, 감정 수준의 해석은 Table 4a와 Figure 2 참조. 모델별 평균 절대 오차(MAE)는 $(\overset{ˉ}{d}, S D_{d})$ 쌍에서 근사적으로 유도되는 보조 지표이므로 Supplementary S4에 분리 보고한다.

모델	Thinking	Pearson r	Bias ( $\overset{ˉ}{d}$ )	$S D_{d}$
Gemini 2.5 Flash	Y	.963	1.280	1.617
Gemini 2.5 Flash (NoThink)	N	.963	1.269	1.614
GPT-4o-mini	N	.938	1.018	1.596
Qwen3-VL-4B	Y	.913	0.824	1.403
LLaMA-3.2-11B	N	.899	0.857	1.738
Gemma3-4B	N	.891	0.291	1.530
Gemma3-12B	N	.922	0.876	1.535
Gemma3-27B	N	.915	0.515	1.390

차이값 $S D_{d}$ 는 주로 감정 범주 간 편향 차이를 반영하며, 이미지 수준의 일치 범위로 직접 해석될 수 없다. Gemma3-27B(1.390)가 가장 작고 LLaMA-3.2-11B(1.738)가 가장 커, 모델 간 상대적 예측 안정성을 비교하는 거친 요약 지표로 기능한다. 차이값 $d_{j}$ 의 분산은 감정 범주 간 편향 차이(예: Gemini 2.5 Flash-Thinking에서 행복 bias = −1.59, 공포 bias = +2.65, 차이 4.24점)와 감정 내 잔차의 합으로 분해되며, 본 데이터에서는 감정 간 편향 차이가 전체 $S D_{d}$ 의 지배적 요소이다. 따라서 전체 $S D_{d}$ 는 주로 “VLM이 감정 범주마다 편향 방향을 달리하는 정도”를 반영한다. 이미지 수준의 일치 범위를 정확히 읽으려면 감정별 $S D_{d}$ 를 제시하는 Table 4a와 Figure 2를 참조해야 한다.

감정별 분해에서는 동일 모델 내에서도 $S D_{d}$ 가 최대 6배 이상 달라져, 정서별 분해 없이는 예측 정밀도를 변별할 수 없음이 확인된다. 예컨대 Gemini 2.5 Flash-Thinking은 행복(0.24)과 공포(0.48)에서는 좁은 $S D_{d}$ 를 보이지만, 슬픔(0.96)에서는 약 4배 넓어진다. GPT-4o-mini 역시 행복(0.21)과 공포(1.38)의 $S D_{d}$ 비가 6배 이상이다. 이처럼 모델 내 정서별 $S D_{d}$ 편차가 체계적으로 존재하므로, 전체 $S D_{d}$ 를 단일 지표로 보고하는 것만으로는 모델의 예측 정밀도를 정서 차원에서 변별할 수 없으며, 정서별 분해가 분석적으로 필수적이다.

편향이 감정에 따라 달라지는지를 진단하기 위해, 감정별 Bland-Altman bias를 산출하였다. Table 4a는 감정 × 모델별 valence 편향을 제시하며, Figure 2는 이를 히트맵으로 시각화한다.

Table 4a. 감정별 Valence Bland-Altman Bias (human − VLM). 각 셀은 bias ( $S D_{d}$ ) 형식이며, $S D_{d}$ 는 해당 감정 × 모델에서 차이값의 표준편차(240개 이미지 기준). 양수 = VLM 과소평정.

감정	Gemini-T	Gemini-NT	GPT-4o	Gemma3-27B	Qwen3-VL	Gemma3-12B	Gemma3-4B	LLaMA-3.2-11B
행복	−1.587 (0.24)	−1.591 (0.23)	−1.599 (0.21)	−0.941 (0.51)	−0.866 (0.49)	−1.020 (0.53)	−1.257 (0.48)	−1.582 (0.23)
슬픔	+1.648 (0.96)	+1.540 (0.99)	+0.536 (1.04)	+0.452 (1.29)	+1.165 (1.44)	+0.711 (1.29)	−0.381 (1.56)	−0.527 (1.05)
분노	+2.358 (0.45)	+2.404 (0.42)	+1.750 (0.50)	+1.350 (0.55)	+1.466 (0.79)	+1.746 (0.65)	+1.054 (1.10)	+2.062 (1.00)
공포	+2.654 (0.52)	+2.620 (0.49)	+2.929 (0.46)	+1.970 (0.29)	+2.087 (0.63)	+2.383 (0.49)	+1.987 (0.30)	+2.679 (0.53)
혐오	+2.435 (0.39)	+2.444 (0.39)	+2.231 (0.52)	+1.435 (0.44)	+1.560 (0.70)	+2.056 (0.67)	+1.394 (0.79)	+2.231 (0.85)
중립	+0.170 (0.36)	+0.195 (0.33)	+0.262 (0.33)	−1.176 (0.67)	−0.472 (0.90)	−0.618 (0.92)	−1.051 (0.40)	+0.278 (0.33)

Valence 감정별 Bland-Altman 편향 히트맵

Figure 2. 모델 × 감정별 valence Bland-Altman 편향(human − VLM) 히트맵. 셀 색상: 빨강 = VLM 과소평정(bias > 0), 파랑 = VLM 과대평정(bias < 0). 셀 숫자: bias(상단) / $S D_{d}$ (하단, 괄호). $S D_{d}$ 의 정의와 해석은 Methods Section 3.4.2 및 아래 본문을 참조.

Table 4a(및 Figure 2)에서 네 가지 핵심 패턴이 관찰된다.

첫째, 세 부정 감정의 공통된 과소평정. 공포(+1.970 ~ +2.929), 혐오(+1.394 ~ +2.444), 분노(+1.054 ~ +2.404)에서 여덟 모델 전체가 인간보다 부정적으로 평정하는 극성 과장 편향이 나타난다. 편향 크기는 공포 > 혐오 > 분노 순이다.

둘째, 세 부정 감정의 체계성 그라디언트. 편향의 체계성은 $∣ bias ∣/ S D_{d}$ 비율로 정량화되며, 이 비율이 클수록 단일 상수 오프셋으로 보정 가능하다. 비율이 1 근처이면 이미지 간 편차가 평균 편향에 맞먹어 단일 오프셋으로는 교정되지 않는다.

세 부정 감정 간 체계성은 공포 > 혐오 > 분노 순으로 감소하며, 동일 그라디언트가 대부분의 모델 내부에서도 유지된다. 공포는 8개 모델 전체에서 비율이 3.31(Qwen3-VL) ~ 6.79(Gemma3-27B) 범위에 고르게 분포하여, 세 부정 감정 중 유일하게 모든 모델에서 “단일 오프셋으로 보정 가능한” 수준의 체계적 편향을 보인다. 혐오(1.76–6.27)와 분노(0.96–5.72)는 범위가 훨씬 넓고 하단이 1 근처까지 내려간다: Gemini 계열(T·NT 공통)은 세 감정 모두에서 비율 ≥ 5로 강한 체계성을 유지하는 반면, Gemma3-4B의 분노는 $∣ bias ∣ \approx S D_{d}$ (0.96)이고 혐오도 1.76에 불과하여 단일 오프셋 보정이 어려운 수준이다(모델별 구체적 수치 예: Gemma3-27B 6.79/3.26/2.45, LLaMA 5.05/2.62/2.06, Gemma3-4B 6.62/1.76/0.96 — 모두 공포/혐오/분노 순).

따라서 “부정 감정의 과소평정”이 여덟 VLM의 공통 속성이라는 결론은 유지되지만, 이 편향이 감정별 아핀 보정(Section 3.4.3)으로 제거 가능한지 여부는 감정 범주와 모델에 따라 갈린다.

셋째, 행복의 반대 방향 편향. 모든 모델이 음수 편향(−0.866 ~ −1.599)을 보여 인간보다 더 긍정적으로 평정하며, bias/SD 비율은 약 1.6~7.6으로 체계적이다.

넷째, 중립의 모델 의존적 분기. Gemini 계열과 LLaMA는 소폭 양수(+0.170 ~ +0.278), Gemma3-27B(−1.176)와 Gemma3-4B(−1.051)는 음수로, 후자는 중립 이미지에 대해 인간보다 높은 valence를 산출한다. 이러한 감정 의존적 편향은 단일 아핀 보정이 아닌 감정 범주별 차등 보정이 필요함을 시사한다.

극성 과장 편향은 프론티어 전정밀도 모델(Gemini, GPT-4o-mini)에서도 $\overset{ˉ}{d} = + 1.018$ – $+ 1.280$ 로 지속되어 양자화 아티팩트가 아닌 구조적 속성임을 확인한다. Gemma3 계열에서는 규모 증가가 편향을 완화하여, 27B가 가장 작은 편향( $\overset{ˉ}{d}$ = +0.515)과 가장 작은 $S D_{d}$ (1.390)를 동시에 달성하여 여덟 모델 중 valence에서 가장 안정적인 예측을 제공한다. Pearson $r$ 순위(Gemini-T .963 > GPT-4o .938 > Gemma3-27B .915)와 편향· $S D_{d}$ 순위(Gemma3-27B 최소 vs. Gemini-T 최대)는 서로 역전되며, 이 해리는 “높은 선형 상관이 대체 가능성을 보장하지 않는다”는 본 연구의 핵심 주장을 확인한다.

전체 상관 vs. 감정 내 상관. Table 4의 전체 r(.891–.963)이 감정 분류의 파생 지표일 가능성을 검증하기 위해 각 감정 범주 내 240장 이미지에 대해 상관을 재산출하였다(Table 4b).

Table 4b. 감정 내 Valence Pearson r. 각 감정 범주 안의 240장 이미지에 대해 VLM 예측과 인간 평균 간 상관을 산출. ”—“는 VLM이 해당 감정의 모든 이미지에 동일한 값을 부여하여(예측 SD = 0) 상관이 정의되지 않는 경우.

감정	Gemini-T	Gemini-NT	GPT-4o	Gemma3-27B	Qwen3-VL	Gemma3-12B	Gemma3-4B	LLaMA-3.2-11B
행복	−.039	−.026	—	+.029	+.027	+.035	+.209	+.106
슬픔	+.370	+.423	+.479	+.522	+.396	+.510	+.519	+.368
분노	+.109	+.053	+.380	+.245	+.281	+.331	+.337	+.248
공포	+.279	+.312	+.161	—	+.084	+.320	+.195	+.182
혐오	+.215	+.160	+.344	+.330	+.228	+.406	+.361	+.236
중립	+.482	+.437	+.322	+.422	+.112	+.402	+.555	—
평균	+.236	+.226	+.337	+.310	+.188	+.334	+.363	+.228

감정 내 상관의 평균은 .188–.363 범위로 전체 상관(.891–.963)의 약 1/4 수준이다. 특히 행복에서 여덟 모델 모두 r ≈ 0을 보이며(−.039 ~ +.209), GPT-4o-mini는 모든 행복 이미지에 valence = 9를 일관되게 부여하여 변별이 불가능하다(SD = 0). Gemma3-27B(공포)와 LLaMA(중립)에서도 같은 획일적 응답 패턴이 관찰된다.

이 결과는 본 연구의 3단계 context-carry 프롬프팅(Section 3.3)과 일관된다. 1단계에서 감정을 분류한 후 2단계에서 해당 감정의 “전형적 valence”를 할당하는 전략이 지배적이므로, 전체 r은 VLM의 valence 감지 능력이 아니라 **감정 분류 정확도의 선형 사영(linear projection)**에 가깝다. 이 구조 때문에 분류 κ가 높은 모델(Gemini 계열, GPT-4o-mini)이 전체 r에서 우위를 보이는 반면, 감정 내 r에서는 오히려 소형 모델이 역전하는 역설이 나타난다 — Gemma3-4B는 분류 정확도가 낮지만 감정 내 평균 r(.363)은 가장 높다.

높은 Pearson r이 대체 가능성을 보장하는지 검증하기 위해 인간 개별 응답을 직접 사용하는 Krippendorff’s α와 z-score 범위 소속 비율( $W_{1 SD}$ )을 산출하였다(Section 3.4.3).

집단 수준에서의 대체 가능성을 평가하기 위해, 1,000명 인간 평정자 풀에 VLM을 1,001번째 평정자로 추가했을 때 valence Krippendorff’s alpha 변화를 산출하였다. Table 4c는 valence Krippendorff’s α 결과를 제시한다.

Table 4c. Valence Krippendorff’s α: VLM을 1,001번째 평정자로 추가 시 변화량.

모델	α (with VLM)	Δα
Human-only (baseline)	0.498	—
Gemma3-27B	0.504	+0.006
Gemma3-4B	0.503	+0.006
Gemma3-12B	0.503	+0.005
Qwen3-VL-4B	0.503	+0.005
GPT-4o-mini	0.503	+0.005
Gemini 2.5 Flash (NoThink)	0.502	+0.005
Gemini 2.5 Flash	0.502	+0.004
LLaMA-3.2-11B	0.502	+0.004

모든 VLM에서 Δα가 양수(+0.004 ~ +0.006)로, VLM 추가가 집단 수준의 valence 신뢰도를 저하시키지 않는다. Gemma3-27B가 가장 큰 Δα(+0.006)를 보인다. 그러나 이 결과는 1,000명이라는 대규모 풀에서 단일 평정자 추가의 영향이 구조적으로 작을 수밖에 없음을 반영하며, VLM이 인간 평정자와 동등함을 의미하지 않는다.

개인 수준에서의 valence 편차를 정량화하기 위해, z-score 범위 소속 분석을 수행하였다. 각 이미지에서 VLM 예측의 |z|가 1.0 이하(인간 분포 ±1SD 이내)인 비율 $W_{1 SD}$ 를 산출하고, 인간 LOO 기저선과 비교하였다. Table 4d는 valence z-score 결과를 제시한다.

Table 4d. Valence z-score 요약.

모델	\|z\| M	$W_{1 SD}$
Human (LOO)	0.784	0.70
Gemini 2.5 Flash	1.272	0.23
Gemini 2.5 Flash (NoThink)	1.266	0.24
GPT-4o-mini	1.122	0.37
Qwen3-VL-4B	1.027	0.46
Gemma3-4B	1.059	0.41
Gemma3-12B	1.131	0.35
LLaMA-3.2-11B	1.175	0.36
Gemma3-27B	0.995	0.49

주: |z| M = 평균 절대 z-score. $W_{1 SD}$ = VLM 예측이 인간 분포 ±1SD 이내인 이미지 비율 (0~1.0). 인간 LOO 기저선은 50명 전원의 결정적 Leave-One-Out으로 산출.

인간 개인의 LOO 기준선은 valence $W_{1 SD}^{LOO}$ = 0.70이다. 집계 수준에서 모든 VLM은 이보다 현저히 낮은 $W_{1 SD}$ (0.23–0.49)를 보인다. Gemma3-27B( $W_{1 SD}$ = 0.49)가 VLM 중 인간 기저선에 가장 근접하며, Gemini 계열은 가장 낮은 $W_{1 SD}$ (0.23–0.24)를 보여, 높은 Pearson r(.963)에도 불구하고 1,440장 중 약 330장에서만 인간 범위 안에 든다. 그러나 이 집계 $W_{1 SD}$ 는 여섯 감정 범주의 혼합 결과이며, 특정 감정에서의 범위 소속 여부는 감정별 분해를 통해서만 확인할 수 있다 — Section 4.6 Table 8(대체 가능성 매트릭스)의 판정은 정서별 $W_{1 SD}$ 를 기준으로 하므로 이 분해가 필수적이다.

정서별 z-score. 동일한 z-score 범위 소속 분석을 여섯 감정 범주 각각에 독립적으로 적용하였다. 대체 가능성 판정은 해당 감정의 인간 LOO $W_{1 SD}^{LOO}$ 이상을 기준으로 한다(Section 3.4.3). Table 4e는 그 결과를 제시한다.

Table 4e. 정서별 Valence z-score. 각 셀은 $∣ z ∣ M$ ( $W_{1 SD}$ ) 형식. 굵은 글씨 = $W_{1 SD} \geq W_{1 SD}^{LOO}$ (해당 감정에서 VLM의 valence 예측이 인간 개인의 범위 소속 수준 이상 — 즉 개인 수준 대체 가능성).

감정	Human LOO	Gemini-T	Gemini-NT	GPT-4o	Gemma3-27B	Qwen3-VL	Gemma3-12B	Gemma3-4B	LLaMA-3.2-11B
행복	0.828 (0.62)	1.238 (0.06)	1.242 (0.06)	1.249 (0.05)	0.724 (0.69)	0.671 (0.75)	0.789 (0.61)	0.982 (0.39)	1.236 (0.07)
슬픔	0.783 (0.73)	1.221 (0.27)	1.159 (0.30)	0.637 (0.74)	0.862 (0.62)	1.206 (0.26)	0.860 (0.50)	1.050 (0.34)	0.772 (0.83)
분노	0.804 (0.70)	1.573 (0.06)	1.606 (0.04)	1.160 (0.38)	0.935 (0.62)	1.059 (0.49)	1.174 (0.34)	0.966 (0.60)	1.477 (0.14)
공포	0.808 (0.70)	1.683 (0.01)	1.662 (0.01)	1.877 (0.00)	1.252 (0.12)	1.354 (0.11)	1.511 (0.03)	1.261 (0.11)	1.703 (0.04)
혐오	0.801 (0.69)	1.633 (0.01)	1.639 (0.01)	1.504 (0.10)	0.973 (0.53)	1.092 (0.41)	1.391 (0.14)	1.023 (0.48)	1.556 (0.08)
중립	0.683 (0.79)	0.287 (0.99)	0.286 (1.00)	0.305 (0.98)	1.227 (0.39)	0.783 (0.75)	1.059 (0.49)	1.069 (0.51)	0.308 (0.98)

주: 각 셀은 $∣ z ∣ M$ ( $W_{1 SD}$ ) 형식. Human LOO = 인간 50명 전원의 결정적 LOO 기저선. 굵은 글씨 = VLM $W_{1 SD} \geq$ Human LOO $W_{1 SD}$ .

집계 수준에서 모든 VLM의 valence $W_{1 SD}$ 가 인간 기저선(0.70)의 절반 수준이었던 것과 달리, 정서별 분해는 다수의 부분 대체 가능 셀을 드러낸다. (1) 행복 × Valence: Qwen3-VL(0.75)과 Gemma3-27B(0.69)가 인간 기저선(0.62) 이상이다. 행복의 인간 LOO 기저선이 0.62로 여섯 감정 중 가장 낮은데, 이는 행복이 극단적 valence 값(8–9)에 집중되어 소폭 편차도 |z| > 1.0이 되기 쉽기 때문이다. (2) 슬픔 × Valence: GPT-4o-mini(0.74)와 LLaMA-3.2-11B(0.83)가 인간 기저선(0.73) 이상이다. LLaMA는 슬픔에 대해 분류 recall이 극히 낮았지만(0.092), 슬픔으로 분류한 이미지에 대해서는 인간과 유사한 valence를 부여하는 상반된 패턴이다. (3) 분노·공포·혐오는 모든 모델에서 인간 기저선(0.69–0.70)을 충족하는 모델이 없으며, 이는 Table 4a에서 관찰된 극성 과장 편향(bias +1.05 ~ +2.93)과 일관된다 — VLM이 체계적으로 과소 평정하는 감정은 개인 수준에서도 일관되게 벗어난다. (4) 중립 × Valence는 Gemini 계열, GPT-4o-mini, LLaMA가 $W_{1 SD}$ ≈ 0.98–1.00으로 인간 기저선(0.79)을 크게 상회하지만, 이는 VLM이 중립 이미지에 인간 평균과 매우 유사한 값을 획일적으로 부여하기 때문이다(Section 4.4 참조) — 높은 $W_{1 SD}$ 가 반드시 양질의 변별을 의미하지 않는다. Valence에서 대체 가능성이 존재하는 구체적 감정 × 모델 조합은 Section 4.6 Table 8에 종합한다.

Figure 4f는 위 분석의 z-score 분포를 시각화한다. 각 감정 행의 위쪽에 인간 LOO z-score의 밀도 곡선을, 아래쪽에 8개 VLM의 개별 z-score를 모델별 색상으로 산포하여, $W_{1 SD}$ 수치 이면의 분포 형태를 직접 비교할 수 있다. 회색 음영 영역은 ±1 SD 범위(인간 분포 안)를 나타낸다. 공포(Fear 행)에서 모든 VLM 점이 회색 영역 바깥 좌측으로 치우쳐 있어(z < −1), Table 4e의 $W_{1 SD}$ = 0.00–0.12과 일치하는 체계적 이탈이 시각적으로 확인된다. 반면 중립(Neutral 행)에서는 일부 모델의 점이 z ≈ 0에 극도로 밀집되어, 높은 $W_{1 SD}$ (≈ 1.00)가 인간 변별력의 재현이 아닌 획일적 응답에 기인함을 보여준다.

Valence z-score 분포

Figure 4f. 감정별 Valence z-score 분포. 각 감정 행의 상단 = 인간 LOO z-score 밀도 곡선, 하단 = 8개 VLM의 z-score 산포(모델별 색상). 회색 음영 = ±1 SD 범위. 점선 = z = ±1. z = (VLM 예측 − 인간 평균) / 인간 SD. N = 240 images per emotion per model.

4.3 Arousal 일치도

Arousal 상관은 r = .622–.797로 valence보다 낮으며, 전체 상관과 감정 내 상관의 괴리가 valence보다 더 크다. Table 5는 arousal 통계를 제시한다. Arousal 상관은 모든 조건에서 valence보다 낮으며(r = .622–.797), 체계적인 thinking 이점은 관찰되지 않는다. 전체 상관은 valence와 동일하게 감정 범주 간 분산에 의해 지배되므로, 감정 내 변별력은 Table 5b에서 별도로 검증한다.

Table 5. Arousal 예측 통계 (모델당 N = 1,440). 편향 = Bland-Altman mean difference $\overset{ˉ}{d}$ (human − VLM; 양수 = VLM 과소평정, 음수 = VLM 과대평정). $S D_{d}$ = 차이값의 표준편차 (Table 5a의 감정별 $S D_{d}$ 와 단위 일치). 95% Bland-Altman LoA는 $\overset{ˉ}{d} \pm 1.96 \cdot S D_{d}$ 로 환산 가능하나, $d$ 의 정규성 가정을 피하기 위해 $S D_{d}$ 를 직접 보고한다. 본 전체 수준 요약 지표는 감정 범주 간 편향 차이에 의해 부풀려져 있으며, 감정 수준의 해석은 Table 5a와 Figure 3 참조. 모델별 평균 절대 오차(MAE)는 $(\overset{ˉ}{d}, S D_{d})$ 쌍에서 근사적으로 유도되는 보조 지표이므로 Supplementary S4에 분리 보고한다.

모델	Thinking	Pearson r	편향 ( $\overset{ˉ}{d}$ )	$S D_{d}$
LLaMA-3.2-11B	N	.797	0.250	1.973
Gemini 2.5 Flash (NoThink)	N	.775	−0.742	1.871
Gemini 2.5 Flash	Y	.767	−0.813	1.954
Gemma3-4B	N	.759	0.113	1.342
Qwen3-VL-4B	Y	.758	−0.073	2.188
Gemma3-27B	N	.724	−0.076	1.327
Gemma3-12B	N	.623	1.117	1.364
GPT-4o-mini	N	.622	0.104	1.814

Non-thinking 모델인 LLaMA(r = .797)와 Gemma3-4B(r = .759)가 thinking 모델인 Gemini(r = .767)와 Qwen3-VL(r = .758)에 필적하거나 이를 상회하여, Chain-of-Thought 추론이 차원적 강도 추정에 일관된 이점을 주지 않음을 보인다(Section 4A 참조). Gemma3-4B( $\overset{ˉ}{d}$ = +0.113, $S D_{d}$ = 1.342)와 Gemma3-27B( $\overset{ˉ}{d}$ = −0.076, $S D_{d}$ = 1.327)가 여덟 모델 중 가장 작은 편향과 $S D_{d}$ 를 동시에 달성하여, Gemma3 계열이 arousal 차원에서 프론티어 모델(Gemini $\overset{ˉ}{d} \approx - 0.8$ , $S D_{d} \approx 1.9$ )을 실질적으로 상회한다. 이 두 Gemma3 모델의 편향은 영(零)에 가까워, 인간 개인의 LOO 기저선(Table 5d에서 |z| = 0.794)과 가장 근접한 위치에 놓인다 — Section 4.3 후반의 부트스트랩 z-score 분석에서 두 모델만이 인간 개인과 통계적으로 구별되지 않는다는 결과와 수렴하는 발견이다.

Bland-Altman 분석은 arousal 편향의 방향이 모델에 따라 분기됨을 보인다. Gemini 계열(편향 = −0.742 ~ −0.813)과 Qwen3-VL(−0.073)은 과대평정하는 반면, Gemma3-12B(+1.117)와 LLaMA(+0.250)는 과소평정한다. $S D_{d}$ 는 Gemma3-27B(1.327)와 Gemma3-4B(1.342)가 가장 작고 Qwen3-VL(2.188)이 가장 크다. Valence에서와 동일하게 전체 $S D_{d}$ 는 감정 간 편향 차이에 의해 부풀려져 있으며(예: Table 5a 중립 +0.56 ~ +2.91 vs. 공포 −2.34 ~ −0.58), 이미지 수준 해석은 Table 5a와 Figure 3을 참조한다.

감정별 arousal 편향은 Table 5a와 Figure 3에 제시한다.

Table 5a. 감정별 Arousal Bland-Altman Bias (human − VLM). 각 셀은 bias ( $S D_{d}$ ) 형식이며, $S D_{d}$ 는 해당 감정 × 모델에서 차이값의 표준편차(240개 이미지 기준). 양수 = VLM 과소평정, 음수 = VLM 과대평정.

감정	Gemini-T	Gemini-NT	GPT-4o	Gemma3-27B	Qwen3-VL	Gemma3-12B	Gemma3-4B	LLaMA-3.2-11B
행복	−1.905 (0.54)	−1.726 (0.48)	−0.860 (0.68)	−0.005 (0.51)	−1.555 (0.56)	+1.578 (1.00)	−0.301 (0.46)	−2.385 (0.76)
슬픔	−0.009 (1.31)	+0.371 (1.20)	+1.729 (0.69)	+1.175 (0.88)	+1.375 (1.88)	+2.333 (0.68)	+1.042 (1.36)	+2.104 (0.39)
분노	−1.784 (0.58)	−1.751 (0.54)	−0.372 (1.53)	−0.847 (0.76)	−0.563 (1.75)	+0.366 (1.06)	−0.242 (1.04)	+0.495 (1.20)
공포	−2.100 (0.52)	−2.079 (0.43)	−2.338 (0.83)	−1.700 (0.46)	−2.134 (0.54)	−0.584 (0.51)	−1.300 (0.48)	−1.213 (1.80)
혐오	−1.959 (0.60)	−1.959 (0.53)	+1.904 (1.47)	−0.709 (0.65)	−0.471 (1.88)	+0.629 (1.01)	−0.413 (0.81)	+0.583 (1.55)
중립	+2.882 (0.74)	+2.694 (0.53)	+0.561 (0.64)	+1.632 (0.46)	+2.911 (0.44)	+2.377 (0.57)	+1.894 (0.46)	+1.915 (0.38)

Arousal 감정별 Bland-Altman 편향 히트맵

Figure 3. 모델 × 감정별 arousal Bland-Altman 편향(human − VLM) 히트맵. 셀 색상: 빨강 = VLM 과소평정(bias > 0), 파랑 = VLM 과대평정(bias < 0). 셀 숫자: bias(상단) / $S D_{d}$ (하단, 괄호). $S D_{d}$ 의 정의는 Methods Section 3.4.2 및 아래 본문을 참조.

Arousal 편향은 valence보다 복잡한 패턴을 보인다. 중립에서는 GPT-4o-mini(+0.56, bias/SD = 0.87)를 제외한 일곱 모델이 강한 양수 편향(+1.63 ~ +2.91, bias/SD ≈ 3.5–6.7)을 보여 VLM이 중립 이미지의 arousal을 체계적으로 낮게 평정한다. 공포에서는 모든 모델이 음수 편향(−0.584 ~ −2.338)으로 과대평정한다. 혐오에서는 모델 간 편향 방향이 분기되어(GPT-4o-mini: +1.904, Gemini: −1.959) 모델 간 내부 arousal 기준점의 이질성이 가장 극명하며, Qwen3-VL(−0.47, SD = 1.88)처럼 bias가 SD에 묻히는 비체계적 오류 셀도 나타난다. 이러한 감정별 편향의 방향 및 크기 차이는 Methods Section 3.4.2의 LMM RaterType × Emotion 상호작용의 유의성과 일관되며, 단일 보정 계수가 아닌 감정 범주별 차등 보정이 필요함을 확인한다.

전체 상관 vs. 감정 내 상관. Valence에서와 동일한 분해를 arousal에도 적용하였다(Table 5b).

Table 5b. 감정 내 Arousal Pearson r. 각 감정 범주 안의 240장 이미지에 대해 VLM 예측과 인간 평균 간 상관을 산출.

감정	Gemini-T	Gemini-NT	GPT-4o	Gemma3-27B	Qwen3-VL	Gemma3-12B	Gemma3-4B	LLaMA-3.2-11B
행복	+.211	+.243	+.201	+.208	+.048	+.140	+.137	+.011
슬픔	+.305	+.354	−.229	+.382	+.223	+.182	+.320	+.244
분노	+.340	+.293	+.166	+.343	+.255	+.289	+.380	+.127
공포	+.152	+.195	+.378	+.326	+.082	+.255	+.241	+.295
혐오	+.278	+.301	−.036	+.398	+.275	+.311	+.411	+.131
중립	+.007	+.081	+.075	+.050	+.027	−.042	−.008	−.021
평균	+.215	+.245	+.093	+.285	+.152	+.189	+.247	+.131

Arousal의 감정 내 상관은 더욱 낮아 .093–.285 범위이며, 전체 상관(.622–.797)의 약 1/3 수준이다. 특히 중립에서 모든 모델이 |r| < 0.10으로 사실상 변별력이 없으며, GPT-4o-mini는 슬픔(−.229)과 혐오(−.036)에서 음의 상관을 보여 VLM의 arousal 순위가 인간과 역방향으로 정렬된다. Gemma3-27B(평균 +.285)가 가장 높은 감정 내 상관을 보이나, r = .285는 Cohen(1988) 기준 소효과(r < .30) 범주에 해당한다.

Arousal에서 전체 상관과 감정 내 상관의 괴리는 valence보다 크다(전체 ≈ 3 × 감정 내). 이는 arousal이 valence보다 감정 범주 간 분산으로의 환원이 더 강하다는 것을 시사한다 — 즉, VLM에게 arousal은 “감정 종류마다 정해진 값”에 가깝고, 얼굴의 실제 각성 강도에 대한 측정은 거의 수행되지 않는다. 인간 평정자 간 arousal 신뢰도가 낮은 것(α = 0.116; Section 3.2)과 합쳐서 보면, arousal은 분류에 부수된 파생 지표가 아닌 독립적 차원으로 VLM이 측정하기에 구조적으로 가장 어려운 대상이다.

집단 수준의 arousal 신뢰도에서, Table 5c는 arousal Krippendorff’s α 결과를 제시한다.

Table 5c. Arousal Krippendorff’s α: VLM을 1,001번째 평정자로 추가 시 변화량.

모델	α (with VLM)	Δα
Human-only (baseline)	0.116	—
LLaMA-3.2-11B	0.126	+0.009
Qwen3-VL-4B	0.125	+0.009
Gemini 2.5 Flash (NoThink)	0.125	+0.008
Gemini 2.5 Flash	0.124	+0.008
Gemma3-4B	0.123	+0.007
Gemma3-27B	0.122	+0.006
GPT-4o-mini	0.122	+0.005
Gemma3-12B	0.120	+0.003

모든 VLM에서 Δα가 양수(+0.003 ~ +0.009)로, VLM 추가가 집단 수준의 arousal 신뢰도를 저하시키지 않는다. Valence(Δα = +0.004 ~ +0.006)보다 arousal(Δα = +0.003 ~ +0.009)에서 변화 폭이 더 넓으며, 이는 인간 평정자 간 arousal 신뢰도 자체가 낮아(α = 0.116) VLM 추가의 상대적 영향이 더 크게 나타나기 때문이다. 다만, 이는 대규모 풀에서의 희석 효과를 반영한다.

개인 수준의 arousal 편차를 정량화한 z-score 범위 소속 분석에서, valence와 다른 패턴이 나타난다. Table 5d는 arousal z-score 결과를 제시한다.

Table 5d. Arousal z-score 요약.

모델	\|z\| M	$W_{1 SD}$
Human (LOO)	0.794	0.69
Gemini 2.5 Flash	1.276	0.30
Gemini 2.5 Flash (NoThink)	1.228	0.32
GPT-4o-mini	1.053	0.51
Qwen3-VL-4B	1.319	0.31
Gemma3-4B	0.740	0.70
Gemma3-12B	0.954	0.54
LLaMA-3.2-11B	1.157	0.40
Gemma3-27B	0.759	0.69

인간 개인의 LOO 기준선은 arousal $W_{1 SD}^{LOO}$ = 0.69이다. Gemma3-4B와 Gemma3-27B를 제외한 여섯 VLM은 집계 수준에서 이보다 현저히 낮은 $W_{1 SD}$ (0.30–0.54)를 보인다. Gemma3-4B의 arousal $W_{1 SD}$ = 0.70은 인간 기준선(0.69)과 사실상 동일하며, Gemma3-27B(0.69) 역시 기저선에 근접한다. 그러나 이 집계 수준 $W_{1 SD}$ 는 감정 범주 간 분산이 섞인 결과이며, 개별 감정 내에서 VLM이 인간 개인과 얼마나 가까운지는 감정별 분해를 통해서만 확인할 수 있다.

정서별 z-score. Table 4e에서와 동일한 z-score 범위 소속 분석을 arousal에도 적용하였다. Table 5e는 그 결과를 제시한다.

Table 5e. 정서별 Arousal z-score. 각 셀은 $∣ z ∣ M$ ( $W_{1 SD}$ ) 형식. 굵은 글씨 = $W_{1 SD} \geq W_{1 SD}^{LOO}$ (해당 감정에서 VLM의 arousal 예측이 인간 개인의 범위 소속 수준 이상).

감정	Human LOO	Gemini-T	Gemini-NT	GPT-4o	Gemma3-27B	Qwen3-VL	Gemma3-12B	Gemma3-4B	LLaMA-3.2-11B
행복	0.795 (0.71)	1.242 (0.33)	1.122 (0.43)	0.603 (0.83)	0.299 (1.00)	1.011 (0.55)	1.037 (0.46)	0.312 (1.00)	1.614 (0.02)
슬픔	0.796 (0.70)	0.713 (0.73)	0.703 (0.77)	1.164 (0.42)	0.889 (0.62)	1.408 (0.31)	1.566 (0.13)	1.050 (0.43)	1.415 (0.08)
분노	0.806 (0.68)	1.218 (0.31)	1.199 (0.35)	0.972 (0.56)	0.678 (0.80)	1.117 (0.48)	0.598 (0.79)	0.565 (0.85)	0.688 (0.80)
공포	0.801 (0.70)	1.414 (0.11)	1.401 (0.08)	1.602 (0.13)	1.145 (0.33)	1.439 (0.09)	0.424 (0.97)	0.874 (0.70)	1.218 (0.47)
혐오	0.807 (0.69)	1.335 (0.25)	1.327 (0.25)	1.570 (0.19)	0.559 (0.89)	1.192 (0.44)	0.673 (0.73)	0.496 (0.90)	0.859 (0.69)
중립	0.762 (0.69)	1.733 (0.07)	1.619 (0.05)	0.409 (0.93)	0.983 (0.47)	1.747 (0.01)	1.429 (0.18)	1.145 (0.32)	1.149 (0.31)

주: 각 셀은 $∣ z ∣ M$ ( $W_{1 SD}$ ) 형식. Human LOO = 인간 50명 전원의 결정적 LOO 기저선. 굵은 글씨 = VLM $W_{1 SD} \geq$ Human LOO $W_{1 SD}$ .

Arousal에서는 valence보다 많은 부분 대체 가능 셀이 발생한다. (1) 슬픔: 두 Gemini 모델(Gemini-T: $W_{1 SD}$ = 0.73, Gemini-NT: 0.77)이 인간 기저선(0.70)을 상회한다. (2) 분노: Gemma3-27B(0.80), LLaMA-3.2-11B(0.80), Gemma3-12B(0.79), Gemma3-4B(0.85) 네 모델이 인간 기저선(0.68) 이상이다. (3) 혐오: Gemma3-4B(0.90), Gemma3-27B(0.89), Gemma3-12B(0.73) 세 모델이 인간 기저선(0.69) 이상이다. LLaMA-3.2-11B(0.69)는 기저선과 동일하나 소수점 3자리에서 미달(0.692 vs. 0.691)한다. (4) 행복: GPT-4o-mini(0.83), Gemma3-4B(1.00), Gemma3-27B(1.00) 세 모델이 인간 기저선(0.71) 이상이다. 다만 Gemma3-4B와 Gemma3-27B의 $W_{1 SD}$ = 1.00은 모든 이미지에서 |z| ≤ 1.0임을 의미하는데, |z| M이 각각 0.31, 0.30으로 인간 LOO(0.80)보다 훨씬 작다. 이는 VLM이 행복 arousal에서 인간보다 오히려 더 획일적인 값을 부여하여, “범위 안에 들지만 변이가 과도하게 적은” 상태에 해당한다(Section 4.4 참조). (5) 공포: Gemma3-12B(0.97)와 Gemma3-4B(0.70)가 인간 기저선(0.70) 이상이다. Gemma3-12B의 0.97은 본 분석 전체에서 가장 높은 $W_{1 SD}$ 중 하나이나, |z| M = 0.42로 인간 LOO(0.80)보다 훨씬 작아 역시 획일적 응답에 기인한다. (6) 중립: GPT-4o-mini(0.93)만이 인간 기저선(0.69) 이상이다. 이 결과는 집계 수준에서 인간 기저선에 근접했던 Gemma3-4B·Gemma3-27B의 arousal $W_{1 SD}$ 가 정서별로 보면 행복의 과도한 획일성에 의해 끌어올려진 것임을 드러낸다. Arousal 전체에서 대체 가능성이 존재하는 구체적 감정 × 모델 조합은 Section 4.6 Table 8에 종합한다.

Figure 5f는 위 분석의 arousal z-score 분포를 시각화한다. 감정별 VLM 편향 방향이 분기되어 valence(Figure 4f)보다 이질적인 분포를 형성한다. 분노(Angry 행)에서 다수 모델의 점이 회색 ±1 SD 영역 안에 분포하여 Table 5e의 높은 $W_{1 SD}$ (0.56–0.85)와 일치한다. 반면 중립(Neutral 행)에서는 대부분 VLM 점이 양수 방향(z > 1)으로 치우쳐, arousal 과소평정(bias > 0)이 시각적으로 확인된다. 행복(Happy 행)에서 Gemma3-4B·Gemma3-27B의 점이 z ≈ 0에 극도로 밀집되어 있어( $W_{1 SD}$ = 1.00), “범위 안이지만 변이가 과도하게 적은” 획일적 응답 패턴이 드러난다.

Arousal z-score 분포

Figure 5f. 감정별 Arousal z-score 분포. 각 감정 행의 상단 = 인간 LOO z-score 밀도 곡선, 하단 = 8개 VLM의 z-score 산포(모델별 색상). 회색 음영 = ±1 SD 범위. 점선 = z = ±1. z = (VLM 예측 − 인간 평균) / 인간 SD. N = 240 images per emotion per model.

Valence–Arousal 2차원 분포. Section 4.2–4.3의 결과를 2차원 정서 공간에 결합하여 시각화하면 VLM과 인간의 차원적 평정 구조가 질적으로 다름이 드러난다(Figure 4a, 4b). 대체 가능성 질문과의 정합성을 위해 인간 평정은 두 가지 수준 — 개별 평정(50 rater × 1,440 image = 72,000)과 이미지당 평균(1,440) — 을 함께 제시하며, 평균화가 평정자 간 자연스러운 변동성을 얼마나 압축하는지 직접 확인할 수 있도록 하였다.

인간 Valence-Arousal 2D 산점도

Figure 4a. 인간 평정의 Valence–Arousal 2차원 분포. 좌: 50 rater × 1,440 image = 72,000 개별 평정. 우: 이미지당 평균(1,440점, 각 점은 동일 이미지에 대한 최대 50명 평정의 산술 평균). x축 = valence (1–9), y축 = arousal (1–9), 색상 = 정답 감정 범주, 큰 테두리 마커 = 감정 범주별 중심(centroid). 정수 척도 상의 시각적 중첩을 완화하기 위해 좌우 모두 동일 지터(SD = 0.08)를 적용하였고, 좌 패널은 점 개수가 50배 많아 alpha = 0.04(우 패널은 0.35)로 조정하였다. 두 패널의 대비는 인간 평정을 이미지당 하나로 평균화할 때 상실되는 평정자 간 변동성을 직접 보여준다 — Krippendorff α(valence .498, arousal .116)의 시각적 대응물이다.

VLM Valence-Arousal 2D 산점도

Figure 4b. 여덟 개 VLM의 Valence–Arousal 2차원 분포(2 × 4 그리드). 각 패널은 해당 모델의 1,440개 예측이며, 축·색상·centroid 표기·지터·alpha 규약은 Figure 4a 우 패널(alpha = 0.35)과 동일하여 Figure 4a 우 패널과 직접 비교 가능하다.

Figure 4a–4b에서 네 가지 구조적 대비가 관찰된다.

첫째, 인간 분포의 연속 확산성. 인간 패널은 각 감정 범주 내에서 valence와 arousal이 격자 전역에 걸쳐 확산되어 있다. 예를 들어 행복 이미지에 대한 인간 평정은 valence 5–9, arousal 2–9에 걸쳐 분포하며, 슬픔은 valence 1–6, arousal 1–8에 걸쳐 퍼져 있다. 이는 동일 이미지에 대해서도 인간 평정자 50명이 서로 상당히 다른 좌표를 부여함을 의미하며, Krippendorff α = 0.498(valence), α = 0.116(arousal)의 중등도~낮은 신뢰도 수치가 “왜 그렇게 낮은가”를 시각적으로 확인시킨다. 감정 범주 간 경계는 넓게 중첩되며, 단일 “정답 좌표”가 존재하지 않는다.

둘째, VLM 분포의 이산 응집성. 모든 VLM 패널에서 응답값이 소수의 격자점(주로 1, 2, 5, 8, 9)에 강하게 응집되어, 감정 범주별로 거의 고정된 좌표에 “덩어리”가 형성된다. 예를 들어 GPT-4o-mini는 행복 이미지의 거의 전부를 (9, 7) 근처에, 슬픔 이미지의 대다수를 (1, 3) 근처에 배치한다. 이는 Section 4.2, 4.3에서 감정 내 Pearson r이 낮았던(valence 평균 .19–.36, arousal 평균 .09–.29) 근본 원인을 시각적으로 확인시킨다 — VLM은 감정 범주를 인식하면 해당 범주의 “전형 좌표”를 할당하며, 범주 내부의 연속 변이를 거의 감지하지 못한다.

셋째, 감정 중심(centroid)의 위치 편향. VLM은 인간보다 극단적 좌표에 중심을 배치한다. 인간의 경우 행복 중심이 약 (7.4, 5.8), 슬픔 중심이 약 (4.0, 4.3) 부근에 있어 척도 중간 영역에 머무르는 반면, 대부분의 VLM에서 행복 중심은 (8.5–9.0, 6.5–7.5), 슬픔 중심은 (2.0–2.5, 3.0–4.0) 근처로 이동한다. 이는 Section 4.2의 극성 과장 편향(polarity exaggeration bias)이 arousal 차원에서도 반복됨을 보여준다. 특히 Gemini 계열은 공포·혐오·분노의 세 “부정” 감정 중심이 (2, 8) 근처에 거의 중첩되어, 부정 감정 내 차원적 변별이 거의 없음을 드러낸다.

넷째, 변동성(spread)의 비대칭. 인간 분포가 VLM 분포를 **포함(envelop)**한다는 점이 시각적으로 명확하다. 거의 모든 VLM 응답 좌표는 인간 평정자 중 누군가가 이미 부여한 좌표에 해당하지만, 그 역은 성립하지 않는다 — 인간이 부여하는 많은 좌표(예: 슬픔에서 valence = 4, arousal = 6)를 VLM은 전혀 산출하지 않는다. 이는 본 연구의 응답 다양성 분석(Section 4.4)에서 VLM 간 SD가 인간 간 SD보다 낮은 것과 일관되며, VLM이 인간 평정자 집단의 변동 범위 일부에만 머무름을 확인한다.

Gemma3-4B와 Gemma3-27B는 VLM 중 인간 분포에 가장 근접한 형태를 보인다. 두 모델의 중심 위치가 인간 중심에 상대적으로 가깝고 격자 응집 정도가 약해, 앞선 z-score와 $(\overset{ˉ}{d}, S D_{d})$ 분석에서 두 모델이 예외적 패턴을 보였던 이유를 분포 수준에서 설명한다. Figure 4a–4b는 본 논문의 핵심 주장 — VLM의 차원적 평정은 감정 범주별 전형 좌표 할당에 가까우며, 인간 집단의 변동 범위 일부만을 재현한다 — 을 시각적으로 집약한다. 특히 Figure 4a 우 패널(이미지당 평균)과 Figure 4b를 동일 N = 1,440 수준에서 직접 대조하면, 인간 평균은 감정 간 경계가 연속적으로 이어지는 반면 VLM은 정수 격자점에 응집되는 근본적 차이가 드러난다.

4.4 응답 패턴 비교

VLM 간 valence SD는 인간 SD의 33–84%에 그쳐, 여섯 감정 범주 전체에서 VLM이 인간보다 획일적인 응답을 산출한다. VLM이 인간 평정자를 대체하려면 정확도뿐 아니라 응답 다양성도 인간 수준을 반영해야 한다. Table 6은 7개 VLM 간 분산과 인간 7명 샘플 분산(부트스트랩 보정)을 비교한다.

Table 6. 감정별 VLM 간 vs. 인간 간 응답 다양성 (SD). VLM: 7개 모델 간 SD 평균. 인간: 50명 중 7명 비복원 추출 부트스트랩 SD 평균.

감정	VLM Valence SD	Human Valence SD	VLM Arousal SD	Human Arousal SD
행복	0.431	1.290	1.427	1.563
슬픔	1.185	1.406	1.247	1.511
분노	0.699	1.517	1.286	1.471
공포	0.544	1.598	0.966	1.500
혐오	0.618	1.506	1.665	1.490
중립	0.782	1.011	0.899	1.694

VLM vs Human SD 비교

Figure 5. VLM 간 응답 표준편차와 인간 7명 부트스트랩 표준편차의 비교. 대각선은 동등 기준선. 대각선 아래 = VLM이 인간보다 획일적.

VLM 간 valence SD는 인간 SD의 33%(행복: 0.431 vs. 1.290)에서 84%(슬픔: 1.185 vs. 1.406)에 그치며, 여섯 감정 모두에서 인간보다 낮다. 이는 VLM이 동일 감정에 대해 인간 평정자 집단보다 획일적인(stereotyped) 응답을 산출함을 의미한다.

슬픔은 예외적으로 VLM 간 분산이 인간에 근접하나(valence: 84%, arousal: 83%), 이는 다양성의 반영이 아니라 불안정성의 반영이다. 일부 모델(GPT-4o-mini, Gemma3-12B, LLaMA)은 슬픔 valence에서 고유값이 1-2개에 불과하여 동일 값을 반복 출력하는 반면, 다른 모델(Gemma3-4B, Qwen3-VL)은 넓은 범위에 걸쳐 불안정한 예측을 보인다. 이 두 극단 사이의 차이가 VLM 간 분산을 인위적으로 높인다.

Arousal에서는 혐오가 VLM SD(1.665) > 인간 SD(1.490)인 유일한 감정으로, 모델 간 혐오 arousal 판단의 불일치가 인간 간 불일치를 초과한다. 이는 VLM이 혐오의 각성도에 대해 안정적 내부 기준점을 보유하지 않음을 시사한다.

감정별 SD 비교 박스플롯

Figure 6. 감정별 이미지 수준 VLM 간 SD(파란색)와 인간 7명 부트스트랩 SD(주황색) 분포. 박스플롯 중앙선은 중앙값, 상자는 IQR.

행복 valence에서의 획일성은 개별 모델 수준에서 더 극단적이다. GPT-4o-mini는 240장의 행복 이미지에 동일한 valence 값(9.00)을 산출하여 고유값이 1개이며, LLaMA도 중립 valence에서 고유값 1개(5.00)를 보인다. 이러한 정형화된 출력은 VLM이 동일 감정 범주 내 이미지 간 정서적 미세 차이를 탐지하지 못하고 범주 전체를 단일 값으로 축소하는 현상을 반영한다.

획일화와 탐욕 디코딩의 관계. 본 연구의 모든 VLM은 temperature = 0(탐욕 디코딩)으로 실행되었으므로, 관찰된 획일화가 디코딩 전략의 부산물이라는 해석이 가능하다. 그러나 각 감정 범주에는 40명의 정체성, 3개 인종, 2개 성별에 걸친 240장의 상이한 자극이 포함되어 표정 강도·얼굴 형태·피부톤·조명에서 상당한 물리적 변이가 존재한다. 그럼에도 VLM이 동일 범주의 거의 모든 이미지에 동일 값을 산출한다는 것은(예: GPT-4o-mini 행복 valence 고유값 = 1), 240개의 상이한 자극이 모델 내부에서 사실상 동일한 입력으로 처리됨을 의미하며, 디코딩 전략의 부산물이 아니라 모델의 정서 표상 해상도 한계를 반영한다.

4.5 인구통계학적 편향

인종·성별 편향의 방향과 규모는 모델별로 이질적이어서 단일 감사 결과가 다른 모델로 일반화될 수 없으며, macro-F1 기반 demographic delta는 accuracy 기반보다 체계적으로 크게 측정되어 단순 정확도 감사가 편향을 과소 보고함을 드러낸다. VLM이 인간 평정자를 대체하면 해당 모델의 인구통계 편향이 곧 연구의 편향이 된다. Tables 7과 7a는 각각 인종별·성별 감정 분류 성능을 제시한다. 본 절의 주지표는 macro-F1 이며, 독자의 참조 편의를 위해 raw accuracy도 괄호로 병기한다. 이 선택은 Table 2가 이미 Accuracy와 F1-macro를 병행 보고한다는 점, 그리고 Section 4.2에서 관찰된 감정별 과소·과잉 예측(예: GPT-4o-mini의 슬픔 recall 0.09, 대부분 모델의 중립 과잉 흡수)이 존재하는 상황에서 slice 내부 class 수가 균등하더라도 예측 분포의 불균형이 accuracy에는 반영되지 않고 macro-F1에만 반영된다는 사실에 근거한다. 감정 인식 벤치마크(FER2013, RAF-DB, AffectNet) 및 공정성 감사(FairFace 계열) 문헌 공통으로 group-wise macro-F1을 accuracy보다 선호하는 것과 같은 맥락이다. 결과적으로, 아래에서 보듯 F1-기반 demographic delta는 accuracy-기반 delta보다 체계적으로 더 크게 측정되며, 이는 단순 정확도만으로는 VLM의 인구통계 편향이 과소 보고되고 있었음을 의미한다.

Table 7. 인종별 감정 분류 성능. 각 셀은 F1-macro (Accuracy) 형식이며, “최대 delta”는 F1-macro 기준으로 산출한 인종 간 최대 격차(pp)이다. N = 480 per (model × race) cell.

모델	Black	Caucasian	Korean	최대 delta (F1)
Human	1.000 (100.0%)	0.979 (97.9%)	1.000 (100.0%)	2.1 pp
Gemini 2.5 Flash (NoThink)	0.910 (91.0%)	0.857 (86.0%)	0.850 (86.3%)	5.9 pp
Gemini 2.5 Flash	0.903 (90.4%)	0.847 (85.2%)	0.854 (86.5%)	5.6 pp
Gemma3-27B	0.835 (84.0%)	0.803 (80.8%)	0.841 (84.6%)	3.8 pp
GPT-4o-mini	0.801 (81.9%)	0.751 (77.3%)	0.806 (82.9%)	5.4 pp
Qwen3-VL-4B	0.740 (75.2%)	0.811 (80.2%)	0.841 (84.6%)	10.1 pp
Gemma3-12B	0.691 (74.0%)	0.710 (75.0%)	0.763 (78.8%)	7.2 pp
Gemma3-4B	0.735 (76.0%)	0.650 (70.0%)	0.648 (71.0%)	8.7 pp
LLaMA-3.2-11B	0.493 (58.5%)	0.539 (60.6%)	0.570 (64.8%)	7.7 pp

Table 7a. 성별 감정 분류 성능. 각 셀은 F1-macro (Accuracy) 형식이며, delta는 F1-macro 기준 |Woman − Man| (pp)이다. N = 720 per (model × gender) cell.

모델	Man	Woman	delta (F1)
Human	0.986 (98.6%)	1.000 (100.0%)	1.4 pp
Gemini 2.5 Flash (NoThink)	0.841 (85.0%)	0.905 (90.6%)	6.4 pp
Gemini 2.5 Flash	0.853 (86.0%)	0.884 (88.8%)	3.1 pp
Gemma3-27B	0.802 (81.4%)	0.846 (84.9%)	4.4 pp
GPT-4o-mini	0.723 (76.4%)	0.840 (85.0%)	11.7 pp
Qwen3-VL-4B	0.751 (76.4%)	0.838 (83.6%)	8.7 pp
Gemma3-12B	0.645 (70.8%)	0.796 (81.0%)	15.1 pp
Gemma3-4B	0.693 (73.2%)	0.668 (71.5%)	2.5 pp
LLaMA-3.2-11B	0.523 (62.1%)	0.541 (60.6%)	1.8 pp

인종 효과의 통계적 유의성을 우도비 검정(mixed-effects logistic regression: correct ~ race + (1|gt_emotion))으로 검증한 결과, 여덟 VLM 중 다섯 모델에서 인종 효과가 유의하였다: Qwen3-VL(χ²(2) = 17.10, p < .001), LLaMA(χ²(2) = 13.92, p < .001), Gemma3-4B(χ²(2) = 11.68, p = .003), GPT-4o-mini(χ²(2) = 9.88, p = .007), Gemini NoThink(χ²(2) = 9.21, p = .010). Gemma3-27B는 인종 효과가 비유의하여(χ²(2) = 3.45, p = .178), 인종 간 균등한 성능을 보인다. LR-χ² 검정은 이미지 수준 correct 결과에 대한 정확도 기반 통계이나, 아래의 F1 기반 요약 지표와 일관된 방향성을 가진다.

성별 효과는 더 광범위하다. Gemma3-12B(χ²(1) = 42.42, p < .001), GPT-4o-mini(χ²(1) = 31.52, p < .001), Qwen3-VL(χ²(1) = 15.20, p < .001), Gemini NoThink(χ²(1) = 12.94, p < .001)에서 유의한 성별 효과가 관찰되었으며, 대부분 여성 얼굴에서 더 높은 성능을 보인다(Table 7a; F1-macro 기준 delta 6.4-15.1 pp). Gemma3-4B(χ²(1) = 1.16, p = .282)와 LLaMA(χ²(1) = 1.18, p = .277)는 성별 효과가 비유의하다.

Gemma3-27B는 로컬 모델 중 가장 작은 인종 격차(F1 기준 3.8 pp)를 보이며, 프론티어 모델(Gemini: 5.6-5.9 pp, GPT-4o-mini: 5.4 pp)보다도 작다. Qwen3-VL은 가장 큰 인종 격차(F1 기준 10.1 pp)를 보이며, 한국인 얼굴(F1 = 0.841)을 흑인 얼굴(F1 = 0.740)보다 선호하는 패턴을 나타낸다.

지표 선택의 실질적 효과. macro-F1로 전환했을 때 대부분 모델의 demographic delta는 accuracy-기반 delta보다 커진다. 가장 극적인 사례는 Gemma3-12B의 성별 격차로, accuracy 기준 10.2 pp에서 F1 기준 15.1 pp로 확대된다(여성 0.796 vs 남성 0.645). GPT-4o-mini의 성별 격차 역시 8.6 pp → 11.7 pp, LLaMA의 인종 격차는 6.3 pp → 7.7 pp로 커진다. 이 확대는 우연이 아니라 이 모델들이 남성/흑인/백인 slice에서 특정 감정(주로 슬픔·혐오)을 거의 예측하지 않아 해당 클래스의 F1이 무너지는 현상을 반영한다 — accuracy는 이 “클래스 드롭아웃”을 한 장의 오답으로만 카운트하지만 macro-F1은 precision과 recall 양쪽에서 이를 페널티하여 편향의 규모를 더 충실히 드러낸다. 반대로 Gemini 계열과 Gemma3-27B처럼 예측 분포가 균형 잡힌 모델은 accuracy와 F1의 delta가 거의 동일하다(≤ 1 pp 차이).

편향 방향은 모델별로 다르다. Gemini 계열과 GPT-4o-mini는 흑인 얼굴에서 가장 높은 F1을 보이는 반면, Qwen3-VL과 LLaMA는 한국인 얼굴에서 가장 높다. 성별에서는 Gemma3-12B의 격차(15.1 pp)가 가장 크며, Gemma3-4B(2.5 pp)와 LLaMA(1.8 pp)는 성별 간 상대적으로 균등한 성능을 보인다. Gemma3-4B는 여덟 VLM 중 유일하게 남성 얼굴(F1 = 0.693)이 여성(0.668)보다 다소 높은 반전 패턴을 나타낸다.

모델 × 인종별 감정 분류 macro-F1 막대 그래프

Figure 7. 모델별 인종 slice의 emotion classification macro-F1. 회색 점선은 인간 기저선(세 인종 평균 macro-F1 ≈ 0.99). Table 7의 시각적 등가물. N = 480 per (모델 × 인종) cell. 막대 순서는 Table 7과 동일. Qwen3-VL(파란 막대가 주황·초록보다 현저히 낮음), Gemma3-4B(파란 막대가 가장 높음)와 같은 모델 간 극성(polarity) 반전을 한눈에 볼 수 있다.

모델 × 성별 감정 분류 macro-F1 막대 그래프

Figure 7a. 모델별 성별 slice의 emotion classification macro-F1. 회색 점선은 인간 기저선(≈ 0.99). Table 7a의 시각적 등가물. N = 720 per (모델 × 성별) cell. Gemma3-12B, GPT-4o-mini, Qwen3-VL에서 여성 막대가 남성보다 크게 높은 체계적 편향이 가시적이며, Gemma3-4B만 반전 방향을 보인다.

모델별 인종 × 성별 상호작용 패널

Figure 7b. Race × Gender 상호작용(2 × 4 small-multiples). 각 패널은 한 VLM이고, 패널 내 x축 = 인종, 막대 색 = 성별. 회색 점선은 여섯 (인종 × 성별) 셀에 걸친 인간 기저선 평균. N = 240 per cell. 패널 내부에서 같은 인종의 두 막대(남/녀) 차이가 커지면 해당 모델의 성별 편향이 해당 인종에서 증폭된다는 의미이고, 패널 간 동일 (인종, 성별) 좌표의 막대가 달라지면 model-level bias의 규모 차이를 보여준다. 여섯 셀 간 F1 최대 격차는 Qwen3-VL-4B(Δ = 0.229)와 Gemma3-12B(Δ = 0.225)에서 가장 크고, Gemma3-27B(0.081)와 Gemini 2.5 Flash Thinking(0.090)에서 가장 작다 — 이는 Tables 7b–7c의 감정별 race × gender factorial ANOVA 및 Supplementary §S5에 archive된 v10.6 omnibus 분석과 함께 해석된다. 특히 Gemma3-12B 패널에서 Caucasian 남성(F1 = 0.614)이 Caucasian 여성(0.786)보다 17.2 pp 낮아 단일 인종 slice 내에서도 성별 편향이 극대화되는 것을 확인할 수 있으며, 이 intersectional 패턴은 Table 7b의 해당 (모델, 감정, valence) 조합의 race × gender 교차 상호작용 검정으로 통계적 확증을 제공한다.

차원적 편향(Valence, Arousal)의 인구통계 효과. 분류 수준(Tables 7/7a, Figures 7-7b)에서 관찰된 인구통계 편향이 차원적 평정에서도 재현되는지, 그리고 race × gender 교차(intersectional) 편향이 존재하는지를 검증하기 위해, VLM-인간 편향(bias = VLM 예측 − 인간 평균)에 대해 감정별 stratified race × gender factorial ANOVA를 수행하였다. Valence와 arousal의 측정값은 감정 범주에 따라 normative 수준과 분산이 크게 달라지는 emotion-dependent 변수이므로(예: happy valence 평균 ≠ sad valence 평균), 감정을 회귀 변수가 아닌 stratification 축으로 취급하여 각 감정 내에서 race 주효과·gender 주효과·race × gender 교차 상호작용을 nested F-검정으로 분리한다(Methods §3.4.4 참조). 다중검정 부담은 (모델, 차원) 가족 내에서 Benjamini-Hochberg FDR로 보정한다 (16 families, 가족당 18 tests, $α = 0.05$ ; 원 $p_{raw}$ 와 $q_{B H}$ 병기). 본 설계는 기존 bias ~ race × emotion / bias ~ gender × emotion 병렬 omnibus ANOVA(Supplementary §S5에 archive)를 대체하며, Figure 7b에 시각화된 intersectional 패턴에 대한 첫 번째 형식 통계 검정을 제공한다.

Table 7b. 감정별 race × gender의 valence bias factorial ANOVA. 각 셀은 F (η²) 형식이며, 별표는 $q_{B H}$ 기준 (* $q_{B H} < .05$ , ** $q_{B H} < .01$ , *** $q_{B H} < .001$ ). df는 race $(2, 236)$ , gender $(1, 236)$ , race × gender $(2, 234)$ — main effects는 additive 모형의 잔차 df(240 − 1 − 2 − 1 = 236)를, interaction은 full 모형의 잔차 df(240 − 1 − 2 − 1 − 2 = 234)를 사용한다. 감정을 1차 분류축으로 배치하여 동일 감정 내 모델 간 비교를 용이하게 하였다(Figure 7d 참조). 데이터 소스: outputs/stratified_only.xlsx sheet 27_Demo_DimStratified_ANOVA.

감정	모델	race $F (2, 236)$ ( $η^{2}$ )	gender $F (1, 236)$ ( $η^{2}$ )	race × gender $F (2, 234)$ ( $η^{2}$ )
행복	Gemini-2.5-Flash	1.61 (0.013)	11.74 (0.047)**	1.20 (0.010)
	Gemini-2.5-Flash-NoThink	1.32 (0.011)	10.79 (0.043)**	1.85 (0.015)
	GPT-4o-mini	0.93 (0.007)	18.48 (0.072)***	3.14 (0.024)
	Qwen3-VL-4B	0.89 (0.007)	1.00 (0.004)	3.66 (0.030)
	Gemma3-4B	44.57 (0.264)***	13.05 (0.039)**	4.22 (0.024)*
	Gemma3-12B	82.11 (0.410)***	0.01 (0.000)	4.28 (0.021)*
	Gemma3-27B	96.19 (0.446)***	3.13 (0.007)	6.76 (0.030)**
	LLaMA-3.2-11B	3.02 (0.024)	7.17 (0.029)*	0.48 (0.004)
슬픔	Gemini-2.5-Flash	1.40 (0.011)	18.28 (0.071)***	1.90 (0.015)
	Gemini-2.5-Flash-NoThink	0.84 (0.006)	55.03 (0.188)***	0.16 (0.001)
	GPT-4o-mini	9.20 (0.051)***	107.63 (0.297)***	7.50 (0.039)**
	Qwen3-VL-4B	24.84 (0.151)***	43.67 (0.133)***	13.71 (0.075)***
	Gemma3-4B	1.57 (0.010)	70.74 (0.228)***	2.68 (0.017)
	Gemma3-12B	8.75 (0.051)***	90.93 (0.264)***	1.39 (0.008)
	Gemma3-27B	8.43 (0.051)**	79.04 (0.238)***	8.08 (0.046)**
	LLaMA-3.2-11B	1.18 (0.009)	21.92 (0.084)***	0.13 (0.001)
분노	Gemini-2.5-Flash	1.82 (0.015)	7.37 (0.030)*	4.59 (0.036)*
	Gemini-2.5-Flash-NoThink	2.80 (0.023)	7.46 (0.030)*	5.95 (0.046)*
	GPT-4o-mini	8.22 (0.064)**	3.43 (0.013)	3.72 (0.028)
	Qwen3-VL-4B	6.80 (0.054)**	2.12 (0.008)	1.08 (0.009)
	Gemma3-4B	3.72 (0.030)*	8.19 (0.033)**	6.17 (0.047)**
	Gemma3-12B	4.78 (0.036)*	18.26 (0.069)***	0.61 (0.005)
	Gemma3-27B	5.45 (0.044)*	0.84 (0.003)	0.52 (0.004)
	LLaMA-3.2-11B	10.74 (0.083)***	0.12 (0.000)	1.13 (0.009)
공포	Gemini-2.5-Flash	1.96 (0.016)	0.04 (0.000)	1.50 (0.012)
	Gemini-2.5-Flash-NoThink	4.35 (0.036)*	0.04 (0.000)	1.95 (0.016)
	GPT-4o-mini	1.11 (0.009)	4.83 (0.020)	0.13 (0.001)
	Qwen3-VL-4B	5.54 (0.045)*	0.98 (0.004)	0.18 (0.001)
	Gemma3-4B	2.11 (0.016)	23.50 (0.089)***	0.41 (0.003)
	Gemma3-12B	0.04 (0.000)	0.98 (0.004)	1.29 (0.011)
	Gemma3-27B	2.33 (0.017)	37.85 (0.136)***	1.61 (0.011)
	LLaMA-3.2-11B	20.21 (0.133)***	26.51 (0.088)***	6.99 (0.044)**
혐오	Gemini-2.5-Flash	2.36 (0.019)	8.31 (0.033)*	1.48 (0.012)
	Gemini-2.5-Flash-NoThink	1.25 (0.010)	4.79 (0.020)	2.79 (0.023)
	GPT-4o-mini	5.38 (0.043)*	2.00 (0.008)	3.14 (0.025)
	Qwen3-VL-4B	12.34 (0.094)***	1.60 (0.006)	5.77 (0.042)**
	Gemma3-4B	1.31 (0.010)	14.94 (0.059)***	6.20 (0.047)**
	Gemma3-12B	6.19 (0.041)**	56.18 (0.184)***	0.45 (0.003)
	Gemma3-27B	2.01 (0.017)	0.36 (0.002)	0.65 (0.005)
	LLaMA-3.2-11B	6.78 (0.054)**	2.41 (0.010)	0.92 (0.007)
중립	Gemini-2.5-Flash	0.27 (0.002)	0.97 (0.004)	5.42 (0.044)*
	Gemini-2.5-Flash-NoThink	1.42 (0.012)	2.08 (0.009)	7.35 (0.058)**
	GPT-4o-mini	6.07 (0.049)**	0.08 (0.000)	7.75 (0.059)**
	Qwen3-VL-4B	5.84 (0.047)**	0.11 (0.000)	0.95 (0.008)
	Gemma3-4B	20.63 (0.149)***	0.07 (0.000)	1.90 (0.014)
	Gemma3-12B	25.22 (0.135)***	86.05 (0.231)***	12.34 (0.060)***
	Gemma3-27B	70.52 (0.370)***	4.53 (0.012)	0.34 (0.002)
	LLaMA-3.2-11B	10.11 (0.079)***	1.19 (0.005)	10.53 (0.076)***

Table 7c. 감정별 race × gender의 arousal bias factorial ANOVA. 구조는 Table 7b와 동일.

감정	모델	race $F (2, 236)$ ( $η^{2}$ )	gender $F (1, 236)$ ( $η^{2}$ )	race × gender $F (2, 234)$ ( $η^{2}$ )
행복	Gemini-2.5-Flash	1.31 (0.011)	2.77 (0.011)	0.26 (0.002)
	Gemini-2.5-Flash-NoThink	0.87 (0.007)	2.11 (0.009)	5.88 (0.047)**
	GPT-4o-mini	15.68 (0.106)***	28.71 (0.097)***	3.13 (0.021)
	Qwen3-VL-4B	1.08 (0.009)	3.33 (0.014)	0.82 (0.007)
	Gemma3-4B	0.02 (0.000)	20.48 (0.080)***	4.79 (0.036)*
	Gemma3-12B	13.65 (0.099)***	11.88 (0.043)**	8.36 (0.057)***
	Gemma3-27B	26.76 (0.184)***	0.64 (0.002)	9.55 (0.061)***
	LLaMA-3.2-11B	6.69 (0.053)**	3.43 (0.014)	7.26 (0.055)**
슬픔	Gemini-2.5-Flash	6.85 (0.048)*	35.95 (0.126)***	0.91 (0.006)
	Gemini-2.5-Flash-NoThink	9.57 (0.054)***	99.07 (0.280)***	2.71 (0.015)
	GPT-4o-mini	7.22 (0.043)**	86.89 (0.258)***	2.21 (0.013)
	Qwen3-VL-4B	11.33 (0.081)***	20.08 (0.072)***	1.02 (0.007)
	Gemma3-4B	4.29 (0.031)*	29.68 (0.108)***	7.72 (0.053)**
	Gemma3-12B	8.81 (0.069)***	0.08 (0.000)	0.89 (0.007)
	Gemma3-27B	2.57 (0.018)	43.97 (0.154)***	5.01 (0.034)*
	LLaMA-3.2-11B	1.58 (0.013)	4.18 (0.017)	1.73 (0.014)
분노	Gemini-2.5-Flash	0.86 (0.007)	7.73 (0.031)*	2.36 (0.019)
	Gemini-2.5-Flash-NoThink	2.65 (0.020)	21.64 (0.082)***	5.69 (0.042)**
	GPT-4o-mini	9.97 (0.077)***	1.76 (0.007)	0.19 (0.001)
	Qwen3-VL-4B	9.15 (0.069)***	10.42 (0.039)**	3.08 (0.023)
	Gemma3-4B	10.89 (0.082)***	6.40 (0.024)*	3.30 (0.025)*
	Gemma3-12B	15.30 (0.103)***	30.53 (0.103)***	15.61 (0.094)***
	Gemma3-27B	8.34 (0.065)***	3.42 (0.013)	3.89 (0.030)*
	LLaMA-3.2-11B	33.11 (0.205)***	21.18 (0.065)***	26.67 (0.135)***
공포	Gemini-2.5-Flash	0.31 (0.003)	0.78 (0.003)	0.67 (0.006)
	Gemini-2.5-Flash-NoThink	0.15 (0.001)	4.48 (0.019)	0.52 (0.004)
	GPT-4o-mini	17.25 (0.124)***	7.15 (0.026)*	0.08 (0.001)
	Qwen3-VL-4B	0.18 (0.001)	0.02 (0.000)	1.54 (0.013)
	Gemma3-4B	2.79 (0.022)	11.75 (0.046)**	0.18 (0.001)
	Gemma3-12B	2.77 (0.023)	1.27 (0.005)	2.58 (0.021)
	Gemma3-27B	13.12 (0.093)***	19.07 (0.068)***	6.19 (0.042)**
	LLaMA-3.2-11B	87.25 (0.389)***	38.49 (0.086)***	16.50 (0.065)***
혐오	Gemini-2.5-Flash	0.63 (0.005)	4.50 (0.019)	0.12 (0.001)
	Gemini-2.5-Flash-NoThink	1.32 (0.011)	8.52 (0.034)**	0.72 (0.006)
	GPT-4o-mini	2.85 (0.023)	4.90 (0.020)*	1.85 (0.015)
	Qwen3-VL-4B	12.30 (0.086)***	24.89 (0.087)***	1.43 (0.010)
	Gemma3-4B	2.99 (0.024)	10.71 (0.042)**	6.05 (0.046)**
	Gemma3-12B	18.63 (0.135)***	3.54 (0.013)	12.41 (0.082)***
	Gemma3-27B	13.06 (0.099)***	0.99 (0.004)	3.17 (0.024)
	LLaMA-3.2-11B	52.80 (0.277)***	39.77 (0.104)***	12.69 (0.061)***
중립	Gemini-2.5-Flash	2.34 (0.019)	0.56 (0.002)	0.53 (0.004)
	Gemini-2.5-Flash-NoThink	6.72 (0.054)**	1.42 (0.006)	0.25 (0.002)
	GPT-4o-mini	3.59 (0.028)*	17.12 (0.066)***	9.50 (0.068)***
	Qwen3-VL-4B	0.69 (0.006)	0.27 (0.001)	2.92 (0.024)
	Gemma3-4B	8.20 (0.064)**	5.22 (0.020)*	7.05 (0.052)**
	Gemma3-12B	59.94 (0.281)***	71.08 (0.166)***	10.15 (0.044)***
	Gemma3-27B	13.61 (0.084)***	62.48 (0.192)***	8.93 (0.051)***
	LLaMA-3.2-11B	4.70 (0.038)*	1.28 (0.005)	0.52 (0.004)

주요 intersectional 발견 (race × gender 교차 상호작용 $q_{B H} < .05$ ). BH FDR 보정 이후 여덟 모델 모두에서 적어도 하나의 (감정, 차원) 조합에 race × gender 교차 상호작용이 유의하였으며 (총 38개 조합), 모델별 분포는 다음과 같다:

Gemma3-4B (8개 조합, 가장 많음): 행복 valence $F (2, 234) = 4.22$ , $η^{2} = 0.024$ , $q_{B H} = .029$ ; 행복 arousal $F = 4.79$ , $q_{B H} = .016$ ; 분노 valence $F = 6.17$ , $q_{B H} = .005$ ; 분노 arousal $F = 3.30$ , $q_{B H} = .049$ ; 혐오 valence $F = 6.20$ , $q_{B H} = .005$ ; 혐오 arousal $F = 6.05$ , $q_{B H} = .005$ ; 슬픔 arousal $F = 7.72$ , $q_{B H} = .002$ ; 중립 arousal $F = 7.05$ , $q_{B H} = .003$ .
Gemma3-27B (7개 조합): 행복 valence $F = 6.76$ , $q_{B H} = .004$ ; 행복 arousal $F = 9.55$ , $q_{B H} < .001$ ; 슬픔 valence $F = 8.08$ , $q_{B H} = .001$ ; 슬픔 arousal $F = 5.01$ , $q_{B H} = .011$ ; 분노 arousal $F = 3.89$ , $q_{B H} = .030$ ; 공포 arousal $F = 6.19$ , $q_{B H} = .004$ ; 중립 arousal $F = 8.93$ , $q_{B H} < .001$ .
Gemma3-12B (6개 조합, 특히 분노·혐오·중립 arousal에서 큰 효과): 행복 valence $F = 4.28$ , $q_{B H} = .025$ ; 행복 arousal $F = 8.36$ , $q_{B H} < .001$ ; 분노 arousal $F = 15.61$ , $η^{2} = 0.094$ , $q_{B H} < .001$ ; 혐오 arousal $F = 12.41$ , $η^{2} = 0.082$ , $q_{B H} < .001$ ; 중립 valence $F = 12.34$ , $q_{B H} < .001$ ; 중립 arousal $F = 10.15$ , $q_{B H} < .001$ .
LLaMA-3.2-11B (6개 조합, 전체 분석 최대 효과 크기): 분노 arousal $F = 26.67$ , $η^{2} = 0.135$ , $q_{B H} < .001$ ; 공포 arousal $F = 16.50$ , $η^{2} = 0.065$ , $q_{B H} < .001$ ; 혐오 arousal $F = 12.69$ , $η^{2} = 0.061$ , $q_{B H} < .001$ ; 행복 arousal $F = 7.26$ , $q_{B H} = .002$ ; 공포 valence $F = 6.99$ , $q_{B H} = .003$ ; 중립 valence $F = 10.53$ , $q_{B H} < .001$ .
Gemini-2.5-Flash-NoThink (4개 조합): 행복 arousal $F = 5.88$ , $q_{B H} = .010$ ; 분노 valence $F = 5.95$ , $q_{B H} = .014$ ; 분노 arousal $F = 5.69$ , $q_{B H} = .010$ ; 중립 valence $F = 7.35$ , $q_{B H} = .007$ .
GPT-4o-mini (3개 조합, 모두 중립·슬픔에 집중): 슬픔 valence $F = 7.50$ , $q_{B H} = .002$ ; 중립 valence $F = 7.75$ , $q_{B H} = .002$ ; 중립 arousal $F = 9.50$ , $q_{B H} < .001$ .
Gemini-2.5-Flash (2개 조합): 분노 valence $F = 4.59$ , $q_{B H} = .033$ ; 중립 valence $F = 5.42$ , $q_{B H} = .022$ .
Qwen3-VL-4B (2개 조합, 가장 적음): 슬픔 valence $F = 13.71$ , $η^{2} = 0.075$ , $q_{B H} < .001$ ; 혐오 valence $F = 5.77$ , $q_{B H} = .009$ .

가장 큰 단일 효과는 LLaMA-3.2-11B의 분노 arousal race × gender 교차 상호작용 ( $F (2, 234) = 26.67$ , $η^{2} = 0.135$ )이며, 이는 분노 얼굴 내에서 race와 gender가 비가산적(non-additive)으로 결합된 구분되는 arousal 편향 패턴을 가리킨다. Gemma3-12B의 분노 arousal 또한 $η^{2} = 0.094$ 의 큰 교차 효과를 보인다. 두 모델은 모두 공포·혐오 arousal에서도 큰 교차 상호작용을 공유한다. 이는 고각성(high-arousal) 부정 감정 범주(분노, 공포, 혐오)가 intersectional 편향에 가장 취약한 strata임을 시사한다.

Figure 7d: 감정별 교차 상호작용 일관성 히트맵. Figure 7d는 race × gender 교차 상호작용 효과 크기( $η^{2}$ )를 감정(행) × 모델(열) 히트맵으로 시각화한다(왼쪽: valence bias, 오른쪽: arousal bias). 감정 행을 가로로 훑으면 해당 감정의 교차 상호작용이 모델 전반에 걸쳐 일관적인지(행 전체가 진한 색) 아니면 모델 특이적인지를 즉시 확인할 수 있다. 중립 valence는 5/8 모델에서 유의한 교차 효과를 보여 가장 일관되게 intersection-prone한 감정이며, 분노 arousal(5/8 유의, 평균 $η^{2} = 0.046$ )과 행복 arousal(5/8 유의, 평균 $η^{2} = 0.036$ )이 그 뒤를 잇는다. 반면 공포 valence는 1/8 모델에서만 유의하여(LLaMA-3.2-11B 단독), 해당 감정에서는 race와 gender가 대체로 독립적으로 작용함을 보여준다. 이러한 감정 간 일관성 차이는 intersectional 편향이 모델 아키텍처의 우연이 아닌 감정 범주에 내재하는 자극 특성(예: 고각성 부정 감정의 인종·성별 표현 다양성)과 결합되어 발생할 가능성을 시사한다.

Figure 7d. 감정별 × 모델별 race × gender 교차 상호작용 효과 크기( $η^{2}$ ) 히트맵. 왼쪽 패널: valence bias, 오른쪽 패널: arousal bias. 셀 색 농도는 $η^{2}$ 크기에 비례하며(제곱근 스케일링), 별표는 BH FDR 보정 유의 수준을 나타낸다 (* $q_{B H} < .05$ , ** $q_{B H} < .01$ , *** $q_{B H} < .001$ ). 굵은 글씨는 유의한 셀, 회색 글씨는 비유의 셀. N = 240 per cell.

Figure 7d

Figure 7b와의 수렴. Figure 7b의 시각적 가장 큰 격차로 논의된 Gemma3-12B의 Caucasian 남/녀 F1 17.2 pp 격차(분류 수준)는 차원 수준에서 두 갈래로 재현된다. 첫째, Table 7b에서 Gemma3-12B의 행복 valence race × gender 상호작용이 유의하며( $F (2, 234) = 4.28$ , $q_{B H} = .025$ ), 이는 행복 얼굴의 valence 편향이 race와 gender 결합에 따라 달라짐을 의미한다. 둘째, Gemma3-12B의 행복 valence race 주효과 자체가 전체 분석에서 가장 큰 단일 race 주효과 중 하나로( $F (2, 236) = 82.11$ , $η^{2} = 0.410$ ), 인종 간 큰 편향 격차를 확증한다. Gemma3-27B도 동일한 행복 valence race 주효과를 공유하며( $F = 96.19$ , $η^{2} = 0.446$ ), Gemma3 계열의 행복 얼굴 인종 편향이 분류·차원 수준에서 공통으로 드러난다.

감정 간 heterogeneity (descriptive). 감정별 stratified 분석은 감정 간 이질성을 형식 검정하지 않으나, 각 모델의 6 stratum에서 유의한(q_{BH} < .05) 주효과 항의 수를 모델별로 요약하면 전반적 편향 강도를 서술적으로 비교할 수 있다:

모델	valence - race 유의 감정 수 / 6	valence - gender 유의 감정 수 / 6	arousal - race 유의 감정 수 / 6	arousal-gender 유의 감정 수 / 6
Gemini-2.5-Flash	0/6	4/6	1/6	2/6
Gemini-2.5-Flash-NoThink	1/6	3/6	2/6	3/6
GPT-4o-mini	4/6	2/6	5/6	5/6
Qwen3-VL-4B	5/6	1/6	3/6	3/6
Gemma3-4B	3/6	5/6	3/6	6/6
Gemma3-12B	5/6	4/6	5/6	3/6
Gemma3-27B	4/6	2/6	5/6	3/6
LLaMA-3.2-11B	4/6	3/6	5/6	3/6

Gemini 2.5 Flash(thinking)는 valence race 주효과가 0/6 감정에서 유의하여 전반적 race robustness가 가장 높고, Gemma3-4B는 arousal gender 주효과가 6/6 감정에서 유의하여 가장 광범위한 gender 편향을 보인다. 주효과 패턴은 모델별로 이질적이므로 단일 편향 감사가 다른 모델로 일반화될 수 없다. 감정 간 race·gender 효과 이질성의 aggregate formal test는 수행하지 않으며, 필요한 독자는 Supplementary §S5의 v10.6 archive (bias ~ race × emotion / bias ~ gender × emotion omnibus 분석의 interaction term $F$ 값)를 참조할 수 있다.

분류 수준과의 관계. 분류 수준에서 가장 큰 인종 격차를 보인 Qwen3-VL-4B(F1 delta 10.1 pp)는 차원 수준 valence race 주효과에서도 5/6 감정에서 유의하지만 race × gender 교차는 2/6 감정에서만 유의하여, 이 모델의 인종 편향은 주로 단변량(race만) 으로 작동하고 intersectional 요소는 상대적으로 약함을 보여준다. 반면 Gemma3-4B와 Gemma3-12B는 분류 수준 F1 delta가 중간 수준(8.7, 7.2 pp)이지만 차원 수준 race × gender 교차는 각각 8, 6 조합에서 유의하여, 분류로는 가시화되지 않는 intersectional 편향이 차원 수준에서 드러난다. 이는 차원적 편향 감사가 분류 accuracy만으로는 포착되지 않는 편향 축을 드러낼 수 있다는 추가 증거다.

본 분석이 도출한 이질성은 단일 편향 감사가 VLM 간에 일반화될 수 없으며, 각 배치 맥락이 인종·성별·교차(intersectional) 세 축 모두에 대한 개별 평가를 필요로 함을 확인한다. 나아가, 감정별 stratified 분석은 race × gender 교차 편향이 특정 감정에서 선택적으로 증폭됨을 드러내며, 분류 정확도나 omnibus 평균만으로는 이런 국소적 편향을 포착할 수 없으므로, VLM의 인구통계 공정성 평가는 분류·차원·교차 세 수준 모두에서 수행되어야 한다.

4.6 대체 가능성 판정 매트릭스

이상의 분석을 종합하여 감정 범주(6) × 측정 차원(3)별 대체 가능성을 판정한다. 완전 대체 가능 셀은 0개이며, 판정은 집계 수준이 아닌 정서별 분해 수준에서만 가능하다. Table 8은 Section 3.4.3에서 정의한 기준을 적용한 결과이며, 차원적 평정의 $W_{1 SD}$ 는 집계 수준(Tables 4d/5d)이 아닌 정서별 결과(Tables 4e/5e) 를 사용한다. 판정은 $W_{1 SD}^{VLM} \geq W_{1 SD}^{LOO}$ (인간 LOO 기저선 이상)를 기준으로 하되, 1–3개 모델에서만 기준을 충족하는 셀은 ⭐ 부분 가능 으로 별도 표기하여 “전반적 대체는 불가하나 특정 모델에서 개인 수준 대체가 성립한다”는 의미를 담는다. 개별 모델 수준 판정은 Supplementary에 제시한다.

Table 8. 감정 x 차원별 대체 가능성 판정 매트릭스. 대체 가능 (Δα ≥ 0 AND 다수 모델 정서별 $W_{1 SD} \geq W_{1 SD}^{LOO}$ ) = ✅, 부분 가능 (Δα ≥ 0 AND 1–3개 모델 기준 충족) = ⭐, 보정 필요 (Δα ≥ 0 AND 체계적 편향 존재 AND 기준 미충족) = ⚠️, 대체 불가 (Δα < 0 OR 기준 충족 모델 없음) = ❌. 정서별 $W_{1 SD}$ 값은 Tables 4e, 5e 참조.

	범주 분류	Valence	Arousal
행복	⚠️ 보정 필요	⭐ 부분 가능 (2개 모델)	⭐ 부분 가능 (3개 모델)
중립	⚠️ 보정 필요	⭐ 부분 가능 (4개 모델)	⭐ 부분 가능 (1개 모델)
공포	⚠️ 모델 의존	❌ 대체 불가	⭐ 부분 가능 (2개 모델)
분노	⚠️ 모델 의존	❌ 대체 불가	⭐ 부분 가능 (4개 모델)
혐오	❌ 대체 불가	❌ 대체 불가	⭐ 부분 가능 (3개 모델)
슬픔	❌ 대체 불가	⭐ 부분 가능 (2개 모델)	⭐ 부분 가능 (2개 모델)

주 1: “모델 의존”은 일부 모델에서 κ ≥ .80이나 다른 모델에서 .40 미만인 감정을 나타냄.

주 2: ⭐ 부분 가능 셀의 구체적 모델- $W_{1 SD}$ (인간 LOO 기저선) 조합 — 행복 × Valence (LOO 0.62): Qwen3-VL (0.75), Gemma3-27B (0.69); 슬픔 × Valence (LOO 0.73): LLaMA (0.83), GPT-4o-mini (0.74); 중립 × Valence (LOO 0.79): Gemini-NT (1.00), Gemini-T (0.99), LLaMA (0.98), GPT-4o-mini (0.98); 행복 × Arousal (LOO 0.71): Gemma3-27B (1.00), Gemma3-4B (1.00), GPT-4o-mini (0.83); 슬픔 × Arousal (LOO 0.70): Gemini-NT (0.77), Gemini-T (0.73); 분노 × Arousal (LOO 0.68): Gemma3-4B (0.85), Gemma3-27B (0.80), LLaMA (0.80), Gemma3-12B (0.79); 공포 × Arousal (LOO 0.70): Gemma3-12B (0.97), Gemma3-4B (0.70); 혐오 × Arousal (LOO 0.69): Gemma3-4B (0.90), Gemma3-27B (0.89), Gemma3-12B (0.73); 중립 × Arousal (LOO 0.69): GPT-4o-mini (0.93). 행복·공포 arousal에서 $W_{1 SD}$ = 0.97–1.00을 보이는 모델(Gemma3-4B, Gemma3-12B, Gemma3-27B)은 |z| M이 인간 LOO보다 현저히 낮아(0.30–0.42 vs. 0.70–0.80) 획일적 응답에 기인한 수치임에 유의.

집계 수준 판정(Tables 4d/5d)만으로는 여덟 개 모델 전체가 거의 모든 감정 × 차원 셀에서 “대체 불가”로 분류되지만, 정서별 분해(Tables 4e/5e)는 다수의 셀에서 특정 모델이 인간 개인 수준 기저선에 도달한다는 사실을 드러낸다. 공통 패턴: (1) 두 Gemini 모델은 슬픔 × Arousal 에서 인간 기저선을 상회하는 $W_{1 SD}$ (0.73–0.77 vs. LOO 0.70)를 달성하고, (2) Gemma3 계열 모델(27B, 12B, 4B)은 분노·혐오·공포 × Arousal 에서 광범위한 부분 대체 가능성을 보이며, (3) LLaMA와 GPT-4o-mini는 슬픔 × Valence 에서 각각 0.83, 0.74로 인간 기저선(0.73)을 충족한다. Valence에서 중립은 4개 모델이 기준을 충족하나, 이는 VLM의 획일적 응답(Section 4.4)에 기인하므로 해석에 주의가 필요하다. Arousal에서는 분노 가 4개 모델로 가장 많은 부분 대체 가능성을 보이는데, 이는 분노 arousal의 인간 간 신뢰도가 다른 감정보다 더 낮아( $α_{arousal} = 0.116$ 의 주 기여 범주) 달성 가능 천장이 낮기 때문이다. 이상에서, Valence의 경우 Δα ≥ 0이고 편향이 체계적이므로 감정별 아핀 보정(Section 3.4.3)으로 ⭐·⚠️ 셀이 ✅ 수준으로 상향될 가능성이 있다. 집계 수준에서 모든 VLM의 $W_{1 SD}$ 가 인간 기저선의 절반 수준인 상황에서 개별 모델-감정 조합에서 진정한 대체 가능성이 관찰된다는 사실은, 대체 가능성 평가가 반드시 감정 차원에서 수행되어야 함을 확인한다.

Revision History (이 섹션 관련)

Iteration	#	Issue	Severity	How Fixed	Status
v7→v8-1	#1	All kappa values incorrect	Critical	Updated Table 2 with authoritative report kappa	Done
v7→v8-1	#2	Gemma3-12B emotion accuracy wrong	Critical	Updated Table 3 from confusion matrix analysis	Done
v7→v8-2	#13	Table 2 vs Table 3 accuracy inconsistency	Critical	All values recomputed from raw JSONL with sklearn	Done
v8→v9	#25	Table 2-9 values from old data	Critical	Updated with xlsx verified values	Done
v9→v10	—	Major results restructuring for replaceability framing	Critical	Dimension-based structure (4.2 Valence, 4.3 Arousal), 8 conditions in all tables, thinking effect moved to 4A, z-score/alpha split by dimension (Tables 6d, 7d), response patterns (Table 8), replaceability matrix (Table 10) added	Done
v10→v10.1	—	Subsection structure refined	Major	α/z-score integrated into 4.2/4.3 instead of separate 4.2.3-4.2.5	Done
v10→v10.2	—	ICC removed; replaceability criteria changed to Δα + z-score	Critical	Tables 6b/7b (ICC) removed — ICC inappropriate for incomplete block design (k=2, human mean aggregation). Table 10 criteria updated to Δα + $W_{1 SD}$ based. All ICC references in text replaced	Done
v10.2→v10.3	—	Methods-Results consistency audit	Critical	(1) Table 6/7: Bland-Altman LoA added. (2) Table 3a: per-emotion Precision added. (3) Tables 6c/7c: Krippendorff’s α dedicated tables. (4) Tables 6e/7e: per-emotion Bland-Altman bias (LMM proxy). (5) Table 9a: gender demographic added with ANOVA χ². (6) Tables 6d/7d: column alignment fixed. (7) Figures 2-5 inserted from inter_llm data. All values from comprehensive_stats.xlsx.	Done
v10.3→v10.4	—	Table/Figure body-order renumbering + per-emotion z-score bootstrap	Major	(1) All tables/figures renumbered by body appearance order (old 2,3,3a,6,6e,6f,6c,6d,7,7e,7f,7c,7d,8,9,9a–9e,10 → 1,2,2a,3,3a,3b,3c,3d,4,4a,4b,4c,4d,5,6,6a–6e,7; old Fig 2,3,6a,6b,4,5 → 1,2,3a,3b,4,5). Korean particles updated per new digit readings. (2) Tables 3e and 4e (per-emotion valence/arousal bootstrap z-score, 2,000-iter MW-U) added from new script `scripts/compute_zscore_per_emotion_bootstrap.py` → `outputs/zscore_per_emotion_bootstrap.xlsx`. Aggregate bootstrap in existing comprehensive_stats.xlsx NOT regenerated — script reuses same data loaders and passes a bit-exact consistency check vs. Sheet 22 `abs_z_mean`. (3) Table 7 replaceability matrix re-evaluated using emotion-specific p_sig; added ⭐ “부분 가능” verdict for 5 cells (행복×V, 슬픔×V, 슬픔×A, 분노×A, 혐오×A) where 1–3 models show p_sig < 50%.	Done
v10.4→v10.5	—	MAE relegated to Supplementary S4	Major	(1) MAE column removed from Tables 3 (valence) and 4 (arousal) — tables now have 5 columns: 모델, Thinking, Pearson r, $\overset{ˉ}{d}$ , $S D_{d}$ . (2) L108 (valence) and L205 (arousal) narratives rewritten to discuss Gemma3 scaling via $(\overset{ˉ}{d}, S D_{d})$ rather than MAE. (3) L319 figure caption “z-score와 MAE 분석” → “z-score와 $(\overset{ˉ}{d}, S D_{d})$ 분석”. (4) Table 3/4 captions add cross-reference to Supplementary S4. Rationale: MAE $\approx \overset{ˉ}{d}^{2} + (2/ π) S D_{d}^{2}$ is derivable from the Bland-Altman pair already reported, contains no orthogonal information for the replaceability frame, and is scale-dependent. Full MAE results (Tables S5 approximation check / S6 valence / S7 arousal / S8 human MAE ceiling baseline) moved to `09_supplementary.md` §S4. No numerical values changed — MAE column values copied verbatim to S6/S7.	Done
v10.5→v10.6	—	§4.5 metric switch: Accuracy → macro-F1 + demographic bar figures	Major	(1) Tables 6 / 6a cell format changed to `F1-macro (Accuracy)`; primary metric is now macro-F1 with raw accuracy retained in parentheses for continuity. delta columns recomputed on F1. (2) Intro paragraph (§4.5 L356) rewritten to justify metric choice citing Table 1’s dual reporting, within-slice class balance vs. prediction-side imbalance, and FER/fairness literature convention. (3) New “지표 선택의 실질적 효과” paragraph added documenting how F1 enlarges demographic deltas for class-dropping models (Gemma3-12B gender Δ 10.2→15.1 pp, GPT-4o-mini gender Δ 8.6→11.7 pp, LLaMA race Δ 6.3→7.7 pp) while leaving balanced-output models (Gemini, Gemma3-27B) unchanged. (4) New script `scripts/plot_demographic_performance.py` generates three figures: Figure 6 (`figure6_race_f1_bar.png`, race × 8 VLM bar chart), Figure 6a (`figure6a_gender_f1_bar.png`, gender × 8 VLM bar chart), Figure 6b (`figure6b_race_x_gender_f1_bar.png`, 2×4 small-multiples for race × gender interaction). Figures inserted after the §4.5 narrative. (5) Tidy data CSV saved to `outputs/demographic_performance.csv`. Race and gender F1 values are bit-exact matches with Sheet `9_Demographic` of `outputs/comprehensive_stats(04091059).xlsx`; race × gender 6-cell F1 is newly computed by the plot script from the raw `predictions.jsonl` files registered in `generate_comprehensive_stats.py::MODELS` (not previously tabulated). LR-χ² significance tests in the existing narrative paragraphs (computed on 0/1 `correct` outcomes) remain unchanged and are valid under both metrics.	Done

미해결 이슈 (추가 실험 필요)

#	Issue	Required Experiment	Priority
R5	Dark knowledge / internal representations	Softmax distribution analysis (logits over 1-9)	High
R8	Demographic bias FPR	False positive rate by race for anger classification	Medium
R10	Hidden state analysis	CKA/RSA between model activations and human ratings	Low

Juhyeon's Blog

탐색기