09_supplementary

Supplementary

S1. FER 기준 비교

다섯 개의 FER 특화 모델 — PosterV2 (kappa = 0.878), MobileViT (kappa = 0.848), EfficientNet (kappa = 0.823), BEiT (kappa = 0.713), EmoNet (kappa = 0.665) — 이 동일한 1,440장 이미지에서 평가되었다. FER 모델은 대부분의 VLM보다 높은 분류 정확도를 달성하지만, 거의 0이거나 음의 arousal 상관(r = .126-.448)을 보인다. 상보적 성능 프로파일 — 분류와 valence에서의 FER 우위, arousal에서의 VLM 우위 — 은 근본적으로 다른 처리 전략을 시사하나, VLM이 context-carry 설계를 통해 arousal 평정 시 범주적 라벨에 접근하는 근본적으로 다른 정보 체제에서 작동하므로 이 비교가 엄격하게 동등하지는 않다.

Table S1. VLM 및 FER 모델 통합 순위 (13개 모델 조건).

순위	모델	유형	Thinking	정확도	kappa
1	PosterV2	FER	—	0.899	0.878
2	Gemini 2.5 Flash (NoThink)	VLM	N (budget=0)	0.878	0.853
3	MobileViT	FER	—	0.875	0.848
4	Gemini 2.5 Flash	VLM	Y	0.874	0.848
5	EfficientNet	FER	—	0.854	0.823
6	Gemma3-27B	VLM	N	0.831	0.798
7	GPT-4o-mini	VLM	N	0.807	0.768
8	Qwen3-VL-4B	VLM	Y	0.800	0.761
9	BEiT	FER	—	0.766	0.713
10	Gemma3-12B	VLM	N	0.759	0.711
11	EmoNet	FER	—	0.731	0.665
12	Gemma3-4B	VLM	N	0.724	0.668
13	LLaMA-3.2-11B	VLM	N	0.613	0.536

Table S2. Valence 예측: FER 모델.

Model	Pearson r	MAE
MobileViT	.950	0.916
EfficientNet	.940	1.063
EmoNet	.928	0.795

Table S3. Arousal 예측: FER 모델.

Model	Pearson r	MAE
EfficientNet	.448	1.696
MobileViT	.409	1.864
EmoNet	.126	1.369

S2. VLM 프롬프트 프로토콜

모든 VLM 추론에는 두 가지 프롬프트 전략이 사용되었다: (1) context-carry (3-step 순차 질의)와 (2) json-single (1-step 통합 질의). Context-carry 전략은 인간 실험 절차를 모사하여 감정 범주 → valence → arousal 순서로 질문하되, 이전 단계의 응답이 다음 단계 프롬프트에 맥락으로 포함된다. 유효 감정 범주는 모든 모델에서 동일하게 happy, sad, angry, fear, disgust, neutral이다.

S2.1 Context-carry 전략 (3-step)

Step 1 — Emotion classification:

What is the facial expression in this image?
Choose one from: happy, sad, angry, fear, disgust, neutral.
Respond with ONLY a JSON object: {“emotion”: “<your answer>”}

Step 2 — Valence rating:

You identified this face as {emotion}.
How pleasant is this facial expression?
Rate from 1 to 9 where 1 is very unpleasant and 9 is very pleasant.
Respond with ONLY a JSON object: {“valence”: <integer 1-9>}

Step 3 — Arousal rating:

You identified this face as {emotion} with pleasantness {valence} out of 9.
How intense or activated is the emotion in this face?
Rate from 1 to 9 where 1 is very calm and 9 is very excited.
Respond with ONLY a JSON object: {“arousal”: <integer 1-9>}

여기서 {emotion}과 {valence}는 이전 단계의 모델 응답으로 동적 치환된다. 이 순차적 맥락 전달 설계는 인간이 감정을 먼저 범주화한 후 차원적 평정을 수행하는 절차를 반영한다.

S2.2 JSON-single 전략 (1-step)

단일 프롬프트로 세 가지 평정을 동시에 요청하였다:

Analyze the facial expression in this image.

Respond with ONLY a JSON object (no other text):
{“emotion”: “<one of: happy, sad, angry, fear, disgust, neutral>”, “valence”: <integer 1-9, 1=very unpleasant, 9=very pleasant>, “arousal”: <integer 1-9, 1=very calm, 9=very excited>}

S2.3 HuggingFace 로컬 모델 프롬프트

Base VQA 모델은 JSON 형식 지시를 따르지 못하므로, 단순 텍스트 응답 형식을 사용하였다:

Step 1 — Emotion:

What is the facial expression in this image?
Choose one from: happy, sad, angry, fear, disgust, neutral. Answer with a single word only.

Step 2 — Valence:

You identified this face as {emotion}.
How pleasant is this facial expression?
Rate from 1 to 9 where 1 is very unpleasant and 9 is very pleasant.
Answer with a single number only.

Step 3 — Arousal:

You identified this face as {emotion} with pleasantness {valence} out of 9.
How intense or activated is the emotion in this face?
Rate from 1 to 9 where 1 is very calm and 9 is very excited.
Answer with a single number only.

S2.4 응답 파싱

모델 응답은 3단계 캐스케이드로 파싱되었다: (1) 직접 JSON 파싱, (2) Markdown 코드 펜스 제거 후 JSON 파싱, (3) 정규표현식 기반 폴백 추출. Valence와 arousal은 [1, 9] 범위로 클램핑되었으며, 감정명은 처음 3글자 기준 퍼지 매칭을 통해 정규화되었다.

Table S4. 모델별 프롬프트 전략 및 백엔드 요약.

모델	백엔드	프롬프트 전략	Thinking
PaliGemma2	HuggingFace	context-carry	아니오
LLaMA-3.2-11B	HuggingFace	context-carry	아니오
Gemma3-4B	MLX	json-single	아니오
Gemma3-12B	Ollama	json-single	아니오
Gemma3-27B	Ollama	json-single	아니오
Qwen3-VL-4B	Ollama	json-single	예
GPT-4o-mini	OpenAI API	context-carry	아니오
Gemini 2.5 Flash	Google API	context-carry	예
Gemini 2.5 Flash (NoThink)	Google API	context-carry	N (budget=0)

S3. 감정별 z-score 상세 (부트스트랩 없음)

Table S5는 감정별 × 모델별 |z| 기술 통계를 제시한다. 이 분석은 Section 4.2.5의 전체 수준 z-score 분석을 감정 범주별로 분해하여, 대체 가능성의 감정별 이질성을 추가적으로 드러낸다.

주: 이 테이블의 상세 수치는 comprehensive_stats.xlsx의 23_ZScore_Per_Emotion 시트를 참조.

S4. 평균 절대 오차 (MAE)

S4.1 Supplementary로 분리된 이유

MAE는 차이값 $d_{j} = x_{j} - \overset{y}{ˉ}_{j}$ 의 절대값 평균으로, Bland-Altman 분석의 편향 $\overset{ˉ}{d}$ 와 $S D_{d}$ 에서 근사적으로 유도된다. 폴디드 정규분포 관계로부터:

$MAE = E [∣ d ∣] \approx \overset{ˉ}{d}^{2} + (2/ π) \cdot S D_{d}^{2}$

v10 데이터에서 여덟 VLM 조건 중 여섯 개는 이 근사가 보고 MAE와 $Δ \leq 0.05$ 이내에서 일치하며(Table S5), 나머지 두 개(Gemma3-4B, Gemma3-27B)는 $Δ \approx 0.16$ – $0.22$ 로 약간 벗어난다 — 두 모델은 $∣ \overset{ˉ}{d} ∣$ 가 매우 작아( $\leq 0.52$ ) 폴디드 정규분포의 꼬리 효과가 상대적으로 커지기 때문이다. 그럼에도 MAE는 ( $\overset{ˉ}{d}$ , $S D_{d}$ ) 쌍과 구조적으로 독립적인 정보를 제공하지 않으며, 본 연구의 대체 가능성 판정 프레임(§3.4.3)에서 Bland-Altman 쌍과 중복된다. 따라서 v10.5부터 MAE는 주 본문의 Tables 3/4에서 제거되고 본 supplementary에 분리 보고된다.

MAE를 supplementary로나마 유지하는 이유는 선행 VLM 감정 평가 문헌(Khare et al., 2024; Telceken et al., 2025)이 MAE를 주 지표로 채택하여, 직접 비교 가능성을 위해 원 1–9 척도 단위로 보존된 오차 지표가 필요하기 때문이다.

S4.2 정의 및 계산

평균 절대 오차 (MAE) — 절대적 편차 크기. VLM 예측과 인간 평정 간 편차의 평균적 크기를 직접 해석 가능한 단위로 제공한다:

$MAE = \frac{1}{N} \sum_{j = 1}^{N} ∣ x_{j} - \overset{y}{ˉ}_{j} ∣$

MAE = 1.5는 VLM이 평균적으로 인간 평정과 1–9 척도에서 1.5점 차이를 보임을 의미한다. Pearson $r$ 과 달리 방향성이 없으므로, 과대평가와 과소평가가 상쇄되지 않고 누적된다.

계산 단위. 이미지 $j$ 의 $R \approx 50$ 개 독립 인간 평정 ${y_{j, 1}, \dots, y_{j, R}}$ 에 대해 이미지별 인간 기준값을 $\overset{y}{ˉ}_{j} = (1/ R) \sum_{h = 1}^{R} y_{j, h}$ 로 먼저 산출한 뒤, $MAE = (1/ N) \sum_{j = 1}^{N} ∣ x_{j} - \overset{y}{ˉ}_{j} ∣$ ( $N = 1, 440$ )로 정의한다. 본 파이프라인은 src/data/human_ratings.py의 HumanRatingStore._aggregate()가 image_id 기준 groupby().mean()으로 이미지별 평균을 1회 생성한 뒤, scripts/generate_comprehensive_stats.py의 compute_va_metrics()가 그 결과 배열 위에서 MAE를 산출하는 구조로 구현되어 있다. 이 집계는 이미지 간(between-image) 변동만 반영하며, 이미지 내(within-image) 인간 평정자 간 변산은 소거된다(§3.4.2의 Bland-Altman 설계-한계 callout과 동일한 구조적 제약).

S4.3 폴디드 정규 근사 검증

Table S5는 위 근사 식을 v10의 여덟 VLM에 적용한 결과이다. Gemma3 계열 두 모델을 제외하면 근사 MAE와 보고 MAE의 차이가 0.05 이하이며, 이 차이의 대부분은 차이값 $d_{j}$ 의 분포가 정확히 Gaussian이 아닌 데서 오는 낮은 차수 보정이다.

Table S5. Valence MAE의 ( $\overset{ˉ}{d}$ , $S D_{d}$ ) 기반 폴디드 정규 근사 검증. 근사 MAE $= \overset{ˉ}{d}^{2} + 0.637 \cdot S D_{d}^{2}$ ( $0.637 \approx 2/ π$ ). $Δ$ = |근사 − 보고|.

모델	$\overset{ˉ}{d}$	$S D_{d}$	근사 MAE	보고 MAE	$Δ$
Gemini 2.5 Flash	1.280	1.617	1.82	1.842	0.02
Gemini 2.5 Flash (NoThink)	1.269	1.614	1.81	1.832	0.02
GPT-4o-mini	1.018	1.596	1.58	1.626	0.05
Qwen3-VL-4B	0.824	1.403	1.41	1.445	0.03
LLaMA-3.2-11B	0.857	1.738	1.66	1.702	0.04
Gemma3-4B	0.291	1.530	1.24	1.456	0.22
Gemma3-12B	0.876	1.535	1.56	1.581	0.02
Gemma3-27B	0.515	1.390	1.21	1.365	0.16

S4.4 Valence MAE 전체 결과

Table S6. 여덟 VLM의 Valence MAE (모델당 $N = 1, 440$ ). 본 표는 v10.4 이전 주 본문 Table 3의 MAE 열에서 이동된 값이다.

모델	Thinking	MAE
Gemini 2.5 Flash	Y	1.842
Gemini 2.5 Flash (NoThink)	N (budget=0)	1.832
GPT-4o-mini	N	1.626
Qwen3-VL-4B	Y	1.445
LLaMA-3.2-11B	N	1.702
Gemma3-4B	N	1.456
Gemma3-12B	N	1.581
Gemma3-27B	N	1.365

S4.5 Arousal MAE 전체 결과

Table S7. 여덟 VLM의 Arousal MAE (모델당 $N = 1, 440$ ). 본 표는 v10.4 이전 주 본문 Table 4의 MAE 열에서 이동된 값이다.

모델	Thinking	MAE
Gemini 2.5 Flash	Y	1.951
Gemini 2.5 Flash (NoThink)	N (budget=0)	1.877
GPT-4o-mini	N	1.572
Qwen3-VL-4B	Y	2.013
LLaMA-3.2-11B	N	1.763
Gemma3-4B	N	1.137
Gemma3-12B	N	1.463
Gemma3-27B	N	1.156

S4.6 인간 MAE 기저선과의 비교

MAE의 스케일-의존적 해석을 보정하기 위해, 인간 평정자 집단 내에서의 두 가지 MAE 기저선을 산출하여 VLM MAE의 판독 앵커로 사용할 수 있다. 첫째, LOO(Leave-One-Out) MAE는 각 평정자의 응답값과 해당 이미지의 나머지 평정자들의 평균 사이의 평균 절대 차이이다 — VLM MAE의 정의(“예측값 ↔ 인간 평균”)와 구조적으로 동일한 비교이다. 둘째, 쌍별(pairwise) MAE는 같은 이미지의 두 평정자 사이의 평균 절대 차이이다.

Table S8. 인간 MAE 기저선 및 VLM MAE 비율. LOO는 각 평정자 vs. 나머지 평정자 평균의 평균 절대 차이(직접 비교 baseline); 쌍별은 모든 평정자 쌍의 평균. 원본 데이터: data/human_ratings/ratings.csv ( $N = 72, 000$ rater–image 쌍).

차원	인간 LOO MAE	인간 쌍별 MAE	VLM MAE 범위	VLM/LOO 비율
Valence	1.080	1.489	1.365–1.842	1.26× – 1.71×
Arousal	1.205	1.680	1.137–2.013	0.94× – 1.67×

세 가지 관찰이 도출된다. 첫째, valence에서 여덟 VLM 모두 인간 LOO MAE(1.080)보다 큰 MAE를 보이며(1.26–1.71배), Gemma3-27B(1.26배)가 기저선에 가장 근접한다. 둘째, arousal에서 Gemma3-4B(MAE = 1.137, 0.94×)와 Gemma3-27B(MAE = 1.156, 0.96×) 두 모델은 인간 LOO 기저선(1.205)보다 작은 MAE를 달성한다 — 두 모델의 arousal 예측은 “평균적인 인간 평정자”가 집단 평균으로부터 떨어진 거리보다 오히려 가깝다. 이 결과는 Section 4.3 Tables 4d/4e의 부트스트랩 z-score 분석에서 두 모델만이 집계 수준 인간 개인 기저선과 통계적으로 구별되지 않는다는 결과(Gemma3-4B $p_{sig} = 32.5%$ , Gemma3-27B $p_{sig} = 95.4%$ )와 수렴한다 — 동일한 “arousal에서 Gemma3 계열의 인간-수준 정확도” 현상을 MAE와 z-score의 두 독립 지표가 공통으로 포착한다. 셋째, 인간 쌍별 MAE(valence 1.489, arousal 1.680) 기준으로 보면 VLM MAE가 이보다 낮거나 비슷한 범위이지만, 쌍별 MAE는 “두 개인 평정자 간 불일치”이므로 VLM MAE(“단일 예측값 vs. 집단 평균”)와 구조가 달라 엄밀한 anchor는 LOO MAE이다.

S5. Dimensional Demographic Omnibus Analysis (Archived from v10.6 §4.5)

S5 Preamble. This section archives the dimensional demographic analyses previously reported in the main text §4.5 (v10.6). Following the v10.7 methodological restructuring, these analyses were superseded by emotion-stratified race × gender factorial ANOVAs (main text Tables 7b, 7c) that better respect the emotion-dependence of valence/arousal bias measurements. The v10.6 omnibus bias ~ race × emotion and bias ~ gender × emotion analyses are retained here verbatim for (a) readers interested in aggregate cross-emotion demographic effects, (b) cross-validation of per-emotion patterns against the omnibus race × emotion and gender × emotion interactions, and (c) methodological transparency regarding the v10.6 → v10.7 transition. No re-analysis was performed; every number, table, and narrative paragraph below is copied verbatim from v10.6 05_results.md (lines 408–468). Internal references to “Table 6b/6c/6d/6e” in the archived text have been updated to “Table S5.1/S5.2/S5.3/S5.4” to avoid collision with the main-text Tables 7b and 7c. Cross-references to the v10.6 classification-level tables and figures (Tables 6/6a, Figures 6-6b) have also been re-aliased to their current counterparts (Tables 7/7a, Figures 7-7b) so that the archived paragraphs remain navigable from the current body.

S5.1 Archived introduction paragraph (from v10.6 line 408)

차원적 편향(Valence, Arousal)의 인구통계 효과. 분류 수준(Tables 7/7a, Figures 7-7b)에서 관찰된 인구통계 편향이 차원적 평정에서도 재현되는지를 검증하기 위해, VLM-인간 편향(bias = VLM 예측 − 인간 평균)에 대한 요인 ANOVA를 실시하였다. 각 모델별로 중첩 모형 비교를 통해 인구통계 주효과와 인구통계 × 감정 상호작용을 검정하였다. Tables S5.1–S5.4는 인종 및 성별 각각에 대한 valence와 arousal 편향 분석 결과를 제시한다.

Table S5.1 [= v10.6 Table 6b]. 인종이 valence 편향에 미치는 효과. 주효과: val_bias ~ race + emotion vs val_bias ~ emotion; 상호작용: val_bias ~ race × emotion vs val_bias ~ race + emotion.

모델	인종 주효과 F(2,1432)	η²	p	인종×감정 F(10,1422)	η²	p
Gemma3-27B	48.20	.016	< .001***	11.16	.017	< .001***
Gemma3-12B	44.61	.016	< .001***	4.83	.008	< .001***
Qwen3-VL-4B	38.29	.020	< .001***	7.29	.018	< .001***
LLaMA-3.2-11B	17.25	.004	< .001***	4.77	.006	< .001***
GPT-4o-mini	16.10	.003	< .001***	3.56	.003	< .001***
Gemma3-4B	3.00	.001	.050	4.10	.009	< .001***
Gemini 2.5 Flash	0.61	.000	.543	1.65	.001	.088
Gemini 2.5 Flash (NoThink)	0.58	.000	.562	1.70	.001	.076

Table S5.2 [= v10.6 Table 6c]. 인종이 arousal 편향에 미치는 효과. 주효과: aro_bias ~ race + emotion vs aro_bias ~ emotion; 상호작용: aro_bias ~ race × emotion vs aro_bias ~ race + emotion.

모델	인종 주효과 F(2,1432)	η²	p	인종×감정 F(10,1422)	η²	p
LLaMA-3.2-11B	126.12	.051	< .001***	26.53	.045	< .001***
Gemma3-12B	54.89	.027	< .001***	7.00	.016	< .001***
GPT-4o-mini	37.50	.016	< .001***	1.72	.004	.071
Gemma3-27B	34.40	.011	< .001***	4.18	.006	< .001***
Qwen3-VL-4B	23.75	.012	< .001***	6.42	.016	< .001***
Gemma3-4B	13.54	.007	< .001***	3.54	.009	< .001***
Gemini 2.5 Flash (NoThink)	3.19	.001	.041*	5.01	.004	< .001***
Gemini 2.5 Flash	2.60	.001	.075	3.67	.004	< .001***

Table S5.3 [= v10.6 Table 6d]. 성별이 valence 편향에 미치는 효과. 주효과: val_bias ~ gender + emotion vs val_bias ~ emotion; 상호작용: val_bias ~ gender × emotion vs val_bias ~ gender + emotion.

모델	성별 주효과 F(1,1433)	η²	p	성별×감정 F(5,1428)	η²	p
Gemma3-12B	174.62	.030	< .001***	29.21	.023	< .001***
Gemma3-4B	47.77	.011	< .001***	34.53	.035	< .001***
GPT-4o-mini	36.96	.003	< .001***	50.44	.019	< .001***
Gemma3-27B	23.64	.004	< .001***	41.21	.031	< .001***
Qwen3-VL-4B	22.90	.006	< .001***	13.93	.018	< .001***
Gemini 2.5 Flash (NoThink)	13.85	.001	< .001***	33.93	.012	< .001***
LLaMA-3.2-11B	5.29	.001	.022*	10.46	.006	< .001***
Gemini 2.5 Flash	2.37	.000	.124	13.35	.005	< .001***

Table S5.4 [= v10.6 Table 6e]. 성별이 arousal 편향에 미치는 효과. 주효과: aro_bias ~ gender + emotion vs aro_bias ~ emotion; 상호작용: aro_bias ~ gender × emotion vs aro_bias ~ gender + emotion.

모델	성별 주효과 F(1,1433)	η²	p	성별×감정 F(5,1428)	η²	p
GPT-4o-mini	55.01	.012	< .001***	1.62	.002	.152
LLaMA-3.2-11B	54.63	.012	< .001***	13.30	.014	< .001***
Gemma3-12B	49.81	.013	< .001***	6.24	.008	< .001***
Qwen3-VL-4B	39.77	.010	< .001***	10.93	.014	< .001***
Gemma3-4B	13.08	.004	< .001***	17.92	.023	< .001***
Gemini 2.5 Flash (NoThink)	11.38	.001	< .001***	53.29	.020	< .001***
Gemini 2.5 Flash	3.17	.000	.075	20.07	.010	< .001***
Gemma3-27B	0.22	.000	.637	23.18	.017	< .001***

S5.5 Archived narrative paragraphs (from v10.6 lines 462–468)

S5.5.1 Race main effects (archived from v10.6 line 462). 인종 주효과는 valence에서 5개 모델, arousal에서 7개 모델에서 유의하였다(Tables S5.1–S5.2). 주목할 점은 Gemini 2.5 Flash가 valence와 arousal 모두에서 인종 주효과가 비유의한 유일한 모델이라는 것이다 — 이는 분류 수준에서 인종 효과가 유의했던 것(χ²(2) = 8.24, p = .016)과 대비되며, 분류에서의 인종 편향이 차원적 평정의 체계적 편향으로 전이되지 않음을 시사한다. 다만, Gemini 2.5 Flash의 arousal에서 인종 × 감정 상호작용은 유의하여(F(10,1422) = 3.67, p < .001, η² = .004; Table S5.2), 전반적 인종 편향은 없으나 특정 감정에서 인종 간 편향 차이가 존재함을 보여준다.

S5.5.2 Gender main effects (archived from v10.6 line 464). 성별 주효과는 valence에서 7개 모델, arousal에서 6개 모델에서 유의하였다(Tables S5.3–S5.4). Gemma3-12B의 valence 성별 효과(F(1,1433) = 174.62, η² = .030; Table S5.3)가 전체 주효과 중 가장 큰 효과 크기를 보이며, 여성 얼굴에 대한 valence 편향(1.140)이 남성(0.612)보다 0.528점 더 크다. 반면 Gemma3-27B는 arousal에서 성별 주효과가 비유의하나(F(1,1433) = 0.22, p = .637), 성별 × 감정 상호작용은 유의하여(F(5,1428) = 23.18, η² = .017, p < .001; Table S5.4), 전체 평균으로는 편향이 상쇄되지만 감정별로는 성별 간 편향 방향이 다름을 의미한다.

S5.5.3 Demographic × emotion interactions (archived from v10.6 line 466). 인구통계 × 감정 상호작용은 인종(valence 6/8, arousal 7/8)과 성별(valence 8/8, arousal 7/8) 모두에서 광범위하게 유의하였다. 이는 인구통계 편향이 모든 감정에 균일하게 작용하는 것이 아니라, 특정 감정-인구통계 조합에서 선택적으로 증폭됨을 의미한다. 특히 성별 × 감정 상호작용은 valence에서 8개 모델 전체에서 유의하여, Gemini 2.5 Flash처럼 성별 주효과가 비유의한 모델에서도 감정별로는 성별 편향이 존재한다.

S5.5.4 LLaMA arousal race effect (largest effect size in archived analysis) (archived from v10.6 line 468). LLaMA-3.2-11B의 arousal 인종 효과는 주효과(F(2,1432) = 126.12, η² = .051)와 상호작용(F(10,1422) = 26.53, η² = .045) 모두에서 전체 분석 최대의 효과 크기를 보인다. 이 모델은 흑인 얼굴의 arousal을 과소평가하고(−0.349) 한국인 얼굴은 과대평가하는(+0.712) 반전 패턴을 보이며, 인종 간 편향 격차가 1.061점에 달한다. 이는 분류에서의 인종 격차(6.3 pp)보다 차원적 수준에서 훨씬 더 심각한 편향이 존재함을 보여준다.

S5.6 Cross-reference to main text

For the emotion-stratified race × gender analysis that supersedes these archived omnibus results, see main text §4.5 Tables 7b and 7c. The v10.7 analysis shares the same raw val_bias / aro_bias quantities as the v10.6 omnibus but partitions them by emotion stratum, enabling formal tests of intersectional (race × gender) bias while sacrificing the direct test of race × emotion and gender × emotion heterogeneity — which readers can instead recover from Tables S5.1–S5.4 above.

S6. 평가 대상 VLM 상세 사양

본 연구는 세 개의 직교 설계 축 — (1) 파라미터 규모(4B / 11–12B / 27B / 프론티어), (2) 배포 방식(로컬 MLX / API), (3) 추론 모드(Non-thinking / Thinking) — 을 교차하는 8개 VLM 조건을 평가하였다. 본 섹션은 각 모델의 개발사, 출시 시기, 파라미터 규모, 추론 모드 지원 여부, 주요 특징, 그리고 본 연구 채택 근거를 기술한다. 추론 설정(temperature, budget 등)의 전체 사양은 Methods Table 1을 참조하라.

Table S6. 본 연구에서 평가된 8개 VLM 조건의 개발사·출시 시기·규모·추론 모드 요약.

모델	개발사	출시 (공개)	파라미터	Reasoning	가중치
Gemini 2.5 Flash (Thinking)	Google DeepMind	2025-04 (preview), 2025-06 (GA)	비공개 (frontier)	Yes (dynamic budget)	Closed (API)
Gemini 2.5 Flash (NoThink)	Google DeepMind	2025-04 (preview), 2025-06 (GA)	비공개 (frontier)	비활성화 (budget = 0; ~199 잔존 토큰)	Closed (API)
GPT-4o-mini	OpenAI	2024-07-18	비공개 (frontier, 경량)	No	Closed (API)
Qwen3-VL-4B-Thinking	Alibaba (Qwen team)	2025 (Qwen3-VL 계열)	4B	Yes (budget = 1,024)	Open (Apache 2.0)
LLaMA-3.2-11B-Vision	Meta AI	2024-09-25	11B (LLM) + ViT	No	Open (Llama Community License)
Gemma3-4B-IT	Google DeepMind	2025-03-12	4B	No	Open (Gemma Terms of Use)
Gemma3-12B-IT	Google DeepMind	2025-03-12	12B	No	Open (Gemma Terms of Use)
Gemma3-27B-IT	Google DeepMind	2025-03-12	27B	No	Open (Gemma Terms of Use)

S6.1 Gemini 2.5 Flash (Thinking / NoThink)

개발사: Google DeepMind.
출시: 2025년 4월 17일 Google I/O에서 preview 공개, 2025년 6월 일반 공개(GA).
파라미터: 비공개(frontier 상용 모델). Gemini 2.5 Pro의 경량·저지연 변형으로 설계.
특징: Gemini 2.5 세대에서 도입된 controllable thinking budget API 파라미터를 통해 생성 이전 내부 chain-of-thought 토큰 수를 0에서 수천 개까지 동적으로 조절할 수 있는 최초의 상용 멀티모달 모델 중 하나이다. includeThoughts 플래그로 사고 과정 노출 여부도 제어 가능하다. 네이티브 멀티모달(이미지·오디오·비디오·텍스트) 입력과 1M 토큰 컨텍스트를 지원한다.
Reasoning: Thinking 조건은 includeThoughts=true + 동적 budget으로 모델이 내부적으로 필요한 만큼 사고하도록 허용하였다. NoThink 조건은 thinkingBudget=0으로 설정하였으나, API 로그 기준 약 199개의 내부 토큰이 잔존한다(Methods Table 1 주석). 따라서 본 연구의 NoThink 조건은 “완전 비활성화”가 아니라 “최소 사고 모드”로 해석해야 한다.
본 연구 채택 근거: 동일한 가중치·데이터·아키텍처 내에서 추론 모드만을 분리할 수 있는 유일한 모델이기 때문이다. 이는 “프론티어 모델이 인간과 유사한 감정 평정을 산출하는 이유가 reasoning에 의한 것인가, 단순히 학습된 사전분포에 의한 것인가”라는 핵심 질문에 대한 within-model ablation을 가능하게 한다.

S6.2 GPT-4o-mini

개발사: OpenAI.
출시: 2024년 7월 18일. GPT-4o의 저비용·저지연 변형으로 공개.
파라미터: 비공개. GPT-4o의 축약 버전으로, 2024년 중반 프론티어 모델 중 MMLU ~82% 수준을 유지하면서 API 단가를 ~15× 낮춘 경량 변형이다.
특징: 네이티브 멀티모달(텍스트·이미지·오디오) 입력, 128K 컨텍스트, JSON 모드·함수 호출·structured output을 완비한다. o1/o3 계열과 달리 명시적 reasoning token 메커니즘을 갖지 않으며, 단일 패스로 즉각 응답한다.
Reasoning: No. 내부 chain-of-thought을 노출하는 인터페이스가 없다.
본 연구 채택 근거: (1) 가장 널리 사용되는 상용 프론티어 API의 대표 주자이며, (2) temperature=0 + seed=42 + image_detail=high 조합으로 재현 가능한 결정론적 출력이 가능하고, (3) reasoning 모드가 없는 프론티어 API로서 Gemini 2.5 Flash(Thinking)와의 직접 비교 대상이 된다. 특히 “reasoning 없는 프론티어 API”가 “reasoning 있는 open-weight 소형 모델(Qwen3-VL-4B-Thinking)“보다 나은지를 검증하기 위한 비교 기준이다.

S6.3 Qwen3-VL-4B-Thinking

개발사: Alibaba Cloud, Qwen team.
출시: Qwen3-VL 계열은 2025년 공개. -Thinking 파생형은 동일 계열 내 사고형 변형이다.
파라미터: 4B (Qwen3 LLM 백본 + ViT vision encoder).
특징: Qwen3 세대에서는 Instruct와 Thinking 두 가지 파생 variant가 별도 학습되며, Thinking 변형은 DeepSeek-R1 스타일의 명시적 <think>...</think> 블록을 출력한다. 동적 해상도 지원, M-RoPE, 일반 VQA 벤치마크에서 동일 규모 개방 가중치 모델 중 최상위권 성능을 기록한다.
Reasoning: Yes. 본 연구에서는 thinking_budget=1024 토큰으로 제한하고 repetition_penalty=1.5를 적용하여 사고 루프 탈출을 보장하였다.
본 연구 채택 근거: 로컬·소형 규모에서 reasoning을 지원하는 거의 유일한 open-weight VLM이다. 이는 두 가지 관심 질문을 가능케 한다: (1) 4B 규모에서도 추론 능력이 감정 평정 편향을 완화하는가, (2) 프론티어 API의 thinking 모드 효과가 파라미터 규모에 의존하는가. MLX 백엔드에서 Apple M1 Max 32GB 상에 직접 로드 가능하다는 점도 결정적 선택 기준이었다.

S6.4 LLaMA-3.2-11B-Vision

개발사: Meta AI.
출시: 2024년 9월 25일 Meta Connect에서 공개. LLaMA 계열 최초의 멀티모달 모델.
파라미터: 11B LLM 백본 + 별도 ViT 기반 vision adapter(cross-attention 방식). 텍스트 가중치는 LLaMA-3.1-8B와 호환되며, 추가된 vision cross-attention 파라미터가 약 3B 가량 더해진 구조다.
특징: Cross-attention 기반 vision fusion을 채택하여 self-attention 내에서 이미지 토큰과 텍스트 토큰이 완전히 섞이는 Gemma3/Qwen3-VL/GPT-4o 계열과 구조적으로 다르다. 128K 컨텍스트, 영어·다국어 텍스트 지원.
Reasoning: No. LLaMA 3.x 세대는 명시적 reasoning 모드를 제공하지 않는다(LLaMA-4 세대부터 별도 Reasoning 변형이 등장).
본 연구 채택 근거: (1) Meta 계열 개방 가중치 멀티모달 모델 중 가장 널리 보급된 대표 주자이며, (2) 11B 규모에서 Gemma3-12B와 유사한 파라미터 수를 가져 동일 규모대에서 Google(Gemma)·Meta(LLaMA) 계열 간 직접 비교가 가능하고, (3) cross-attention 기반 vision fusion이라는 아키텍처적 차이가 감정 판단에 미치는 영향을 탐색할 수 있게 한다. 결과적으로 LLaMA가 가장 낮은 kappa(0.536)와 arousal 인종 편향(η² = .051)을 보인 것은 이 구조적 차이의 귀결 가능성을 시사한다(본문 §4.5, S5.5.4 참조).

S6.5 Gemma 3 계열 (4B / 12B / 27B)

개발사: Google DeepMind. Gemini 연구에서 파생된 개방 가중치 계열이다.
출시: 2025년 3월 12일. Gemma 1(2024-02)·Gemma 2(2024-06) 이후 세 번째 세대이며, 1B를 제외한 모든 크기(4B·12B·27B)가 vision 입력을 지원하는 최초의 Gemma 세대이다.
파라미터: 4B / 12B / 27B (세 가지 모두 instruction-tuned “IT” 변형 사용). 동일한 SigLIP 기반 vision encoder(896×896 네이티브)를 공유한다.
특징: (1) 128K 컨텍스트(4B는 32K), (2) 140개 이상 언어 지원, (3) 공식 QAT (Quantization-Aware Training) 4-bit 체크포인트 제공 — 본 연구는 이 QAT 변형을 사용하여 M1 Max 32GB 내 단일 GPU 추론을 보장하였다. Gemini 2.x 아키텍처의 축약형으로, local / global attention 5:1 교차 패턴과 RoPE 기반 long-context 확장을 공유한다.
Reasoning: No. Gemma 3는 명시적 thinking 모드를 지원하지 않는다(후속 Gemma 3n 및 Gemini Nano Thinking과 구분).
본 연구 채택 근거: 동일 아키텍처·동일 학습 데이터·동일 vision encoder 상에서 파라미터 규모만을 세 단계로 변화시킨 유일한 계열이기 때문이다. 이는 “VLM의 감정 평정 성능이 파라미터 수에 얼마나 민감한가”라는 질문에 대해 scaling family 내 순수한 규모 효과를 측정할 수 있게 한다. 실제로 본 연구는 Gemma3 계열에서 4B → 12B → 27B로 갈수록 kappa가 0.668 → 0.711 → 0.798로 단조 증가함을 확인하였으며(본문 §4.1), 이는 나머지 7개 모델에서 나타난 비단조적 규모-성능 관계(LLaMA-11B < Gemma3-4B 등)와 대조적으로 동일 아키텍처 내에서는 규모가 여전히 의미 있는 예측 변수임을 보여준다.

S6.6 선정 설계 요약

본 연구의 8개 모델 조건은 다음 세 쌍의 직접 비교를 구조적으로 가능하게 한다:

Reasoning 순수 효과 (동일 가중치 내): Gemini 2.5 Flash (Thinking) vs. Gemini 2.5 Flash (NoThink). 가중치·데이터·아키텍처가 동일하므로 추론 모드의 독립적 효과를 분리한다.
동일 아키텍처 내 규모 효과: Gemma3-4B vs. Gemma3-12B vs. Gemma3-27B. 세 모델 모두 동일한 SigLIP vision encoder와 QAT 4-bit 양자화를 공유한다.
동 규모 아키텍처 효과: LLaMA-3.2-11B (Meta, cross-attention fusion) vs. Gemma3-12B (Google, unified self-attention). 11–12B 규모에서 vision-text 융합 구조가 감정 평정에 미치는 영향을 측정할 수 있다.
Open vs. Closed 차이: 로컬 MLX 4개(Gemma3 × 3, LLaMA, Qwen3-VL) vs. 프론티어 API 3개(GPT-4o-mini, Gemini Thinking/NoThink). 배포 경계를 넘는 일반화 가능성을 평가한다.
Small reasoning vs. Large non-reasoning: Qwen3-VL-4B-Thinking vs. Gemma3-27B. “reasoning 있는 4B”가 “reasoning 없는 27B”보다 우수한지를 검증한다(본 연구 결과: 27B가 여전히 우세 — kappa 0.798 vs. 0.761).

이 5개 비교 축이 교차함으로써 본 연구는 단일 벤치마크 점수가 아닌 **설계 공간 내 위치(position in design space)**로서 각 모델의 감정 평정 특성을 진단할 수 있다.

Revision History (이 섹션 관련)

Iteration	#	Issue	Severity	How Fixed	Status
v9→v10	—	Table S1 updated with Gemma3-27B and Gemini-NoThink	Major	11 → 13 model conditions	Done
v9→v10	—	S2 z-score per emotion section added	Minor	Reference to sheet 23_ZScore_Per_Emotion	Done
v9→v10	—	S2 VLM 프롬프트 프로토콜 추가	Major	3-step context-carry, 1-step json-single, HF 로컬 프롬프트, 파싱 캐스케이드 전문 수록. 기존 S2→S3 번호 조정	Done
v10.4→v10.5	—	§S4. MAE section created	Major	New section S4 added hosting MAE content relocated from main text (§3.4.2 정의 and §3.4.4 계산 파이프라인 설명은 `04_methods.md`에서 이관). Includes: S4.1 rationale (MAE $\approx \overset{ˉ}{d}^{2} + (2/ π) S D_{d}^{2}$ 파생 관계; 선행 문헌과의 비교 가능성 이유), S4.2 정의 및 계산 (methods에서 verbatim 이관), S4.3 Table S5 folded-normal 근사 검증 (8 모델 × valence, max $Δ$ = 0.22 for Gemma3 계열), S4.4 Table S6 (valence MAE, 주 본문 Table 3 MAE 열에서 이관), S4.5 Table S7 (arousal MAE, Table 4에서 이관), S4.6 인간 MAE 기저선 (Table S8: LOO 1.080/1.205, 쌍별 1.489/1.680; Gemma3-4B/27B arousal MAE가 인간 LOO 기저선 아래라는 새 발견은 Section 4.3 부트스트랩 z-score 결과와 수렴). 모든 수치는 기존 comprehensive_stats.xlsx와 raw `data/human_ratings/ratings.csv`에서 도출되며, 어떤 script도 재실행되지 않았다.	Done
v10.6→v10.7	—	§S5. Dimensional demographic omnibus archived	Major	New section S5 added archiving the v10.6 §4.5 dimensional demographic analysis (`bias ~ race × emotion` / `bias ~ gender × emotion` parallel 2-way ANOVAs) that was superseded in the main text by emotion-stratified race × gender factorial ANOVAs. Content transferred verbatim from v10.6 `05_results.md` lines 408–468: S5.1 introduction paragraph, Tables S5.1–S5.4 (renamed from Tables 6b/6c/6d/6e to avoid collision with main-text Tables 7b and 7c), and S5.5.1–S5.5.4 narrative paragraphs (race main effects, gender main effects, demographic × emotion interactions, LLaMA arousal race effect). S5.6 cross-reference to the superseding main-text analysis. Motivation: preserve aggregate demographic view and enable cross-validation of per-emotion stratified results against the omnibus race × emotion and gender × emotion interaction tests (which the new stratified analysis does not directly test). No re-analysis; all numbers copied verbatim from v10.6.	Done
v10.7→v10.8	—	§S6. Evaluated VLM detailed specifications	Minor	New section S6 added summarising the 8 VLM conditions with developer, release date, parameter scale, reasoning-mode support, architectural highlights, and per-model rationale for inclusion. Contents: Table S6 (one-row-per-condition specification summary), §S6.1 Gemini 2.5 Flash (Think/NoThink) with note on the ~199 residual thinking tokens documented in Methods Table 1, §S6.2 GPT-4o-mini, §S6.3 Qwen3-VL-4B-Thinking, §S6.4 LLaMA-3.2-11B-Vision (cross-attention fusion structural distinction), §S6.5 Gemma3 4B/12B/27B scaling family (shared SigLIP + QAT 4-bit), §S6.6 five design-axis comparisons enabled by the selection (reasoning-only within Gemini, scale-only within Gemma3, 11–12B Meta vs Google architecture, open vs closed, small-reasoning vs large-non-reasoning). No new analysis; all figures cross-reference Methods Table 1 and main-text §4.1.	Done

Juhyeon's Blog

탐색기