Gemma3-4B-IT의 얼굴 감정 평정 수행: 범주 분류의 강점과 차원 평정의 구조적 한계

1. 서론

인간의 얼굴 감정 평정(facial emotion rating)은 정서 과학(affective science)의 핵심 방법론이지만, 1,000명의 평정자로부터 1,440장의 자극에 대한 72,000개의 응답을 수집하는 과정은 비용과 시간의 병목을 초래한다. Vision Language Model(VLM)은 시각 입력과 자연어 지시를 결합하여 이미지를 이해하는 다중모달 모델로, 이러한 인간 평정의 자동화 가능성을 제공한다. 본 보고서는 Google의 Gemma3-4B-IT — instruction-tuned 소형 VLM — 이 AI 생성 얼굴 자극 1,440장에 대해 감정 범주, valence(정서가: 유쾌-불쾌 축), arousal(각성도: 이완-흥분 축)을 얼마나 정확하게 평정하는지 검증한다.

본 분석의 핵심 질문은 세 가지이다. 첫째, Gemma3-4B-IT의 감정 분류 정확도는 어느 수준인가. 둘째, valence-arousal 차원 평정에서 인간과 어떤 체계적 편향이 존재하는가. 셋째, 모델의 감정 인식에 자극의 인구통계(인종, 성별)에 따른 편향이 존재하는가. 이를 통해 소형 VLM이 인간 감정 평정의 대체 또는 보조 도구로 기능할 수 있는 조건과 한계를 규명한다.

2. 방법

2.1 모델 및 추론 환경

Gemma3-4B-IT는 Google이 공개한 40억 파라미터 규모의 instruction-tuned VLM이다. 본 실험에서는 Apple Silicon(M1 Max, 32GB)에서의 효율적 추론을 위해 QAT(Quantization-Aware Training) 4-bit 양자화 버전(mlx-community/gemma-3-4b-it-qat-4bit)을 사용하였다. QAT는 훈련 과정에서 양자화 효과를 사전 반영하는 기법으로, 사후 양자화(post-training quantization) 대비 성능 저하가 적다. 추론은 MLX 프레임워크를 통해 GPU에서 직접 수행되었으며, HTTP 오버헤드 없이 in-process로 실행되었다.

2.2 3단계 순차 추론 (Context Carry)

추론은 3단계 순차 전략(three-stage sequential inference)을 따랐다. 1단계에서 모델이 얼굴의 감정 범주를 6개 선택지(happy, sad, angry, fear, disgust, neutral) 중 하나로 분류하면, 2단계에서 해당 감정을 맥락으로 전달(context carry)하여 valence를 1–9 척도로 평정하고, 3단계에서 감정과 valence를 모두 전달하여 arousal을 1–9 척도로 평정한다. 이 전략은 이전 단계의 응답이 다음 판단의 맥락이 되므로, 1단계의 분류 오류가 후속 VA 평정에 전파될 수 있는 구조적 의존성을 갖는다.

각 단계에서 모델은 JSON 형식({"emotion": "..."}, {"valence": N}, {"arousal": N})으로 응답하도록 지시되었다. 1,440장 전체에서 JSON 파싱은 100% 성공하였으며, 유효하지 않은 감정 범주 출력은 1건(0.07%)이었다. 이 1건은 “doubt”라는 6개 감정 범주에 해당하지 않는 응답을 출력한 것으로, 분류 분석에서는 제외하였다. 이미지당 평균 추론 시간은 14.9초, 총 추론 시간은 6.0시간이었다.

2.3 자극 및 인간 평정 데이터

자극은 6개 감정(happy, sad, angry, fear, disgust, neutral) × 6개 인구통계 집단(Black Man/Woman, Caucasian Man/Woman, Korean Man/Woman) × 40명의 인물로 구성된 1,440장의 AI 생성 얼굴 이미지이다. 인간 평정은 1,000명의 참가자가 각 이미지에 대해 감정 범주, valence(1–9), arousal(1–9)을 평정한 72,000개의 응답으로 구성된다. 인간 평정 데이터와 모델 예측 간의 이미지 ID 매칭은 자극 메타데이터(stimuli_metadata.xlsx)를 기준으로 세 가지 표기 차이를 정규화하여 수행하였다: (1) neutral 코드 통일(NES → Neu, Black 자극 80장), (2) 번호 zero-padding 통일(CM2 → CM02 등 145장), (3) 오타 교정(CM71_Dig → Dis, KM43_HAp → Hap). 이를 통해 1,440장 전체가 매칭되었으며, 모든 VA 분석은 전수(N = 1,440) 기준으로 수행되었다.

3. 전체 분류 성능

Gemma3-4B-IT는 전체 정확도(accuracy) 72.4%, macro F1 0.682, Cohen’s kappa(κ) 0.668을 달성하였다. Cohen’s kappa는 우연 일치를 보정한 분류 일치도 지표로, 0.61–0.80 구간은 “substantial agreement”로 해석된다. 따라서 κ = 0.668은 이 구간의 중하단에 해당한다.

전체 정확도(0.724)와 macro F1(0.682) 사이의 4.2%p 차이는 감정 범주 간 성능 불균형을 시사한다. Macro F1은 각 감정의 F1 점수를 동일 가중으로 평균한 지표로, 특정 감정에서 극단적으로 낮은 성능이 있을 경우 전체 accuracy보다 낮아진다. 이 차이의 원인은 다음 절에서 상세히 분석한다.

한편, 1,440건 전체에서 JSON 형식 준수율이 100%이고, 유효 범주 이탈이 1건(0.07%)에 불과하다는 점은 Gemma3-4B-IT의 instruction-following 능력을 보여준다.

4. 감정별 분류 성능과 혼동 패턴

4.1 감정 간 성능 양극화

감정별 F1 점수는 뚜렷한 양극화를 보였다. Happy는 단 하나의 오류 없이 F1 = 1.000을 달성하였고, neutral은 recall 1.000(240장 전체 정답)이지만 다른 감정의 자극이 neutral로 과도하게 분류되어 precision이 0.519, F1이 0.684에 그쳤다. Fear는 F1 = 0.946이었다. 반면 sad는 F1 = 0.222, angry는 F1 = 0.532로 낮았으며, disgust는 F1 = 0.707이었다.

감정PrecisionRecallF1정답/전체
Happy1.0001.0001.000240/240
Neutral0.5191.0000.684240/240
Fear0.9140.9790.946235/240
Disgust0.6110.8380.707201/240
Angry0.7930.4000.53296/240
Sad1.0000.1250.22230/240

Happy의 완벽한 분류와 neutral의 높은 recall은 이 두 감정이 시각적으로 가장 명확한 원형적 표현(prototypical expression)을 가지며, 인간 합의도가 높기 때문으로 해석된다. 반면, sad와 angry의 실패는 두 가지 질적으로 다른 혼동 경로에 기인한다.

4.2 혼동 경로 1: Angry → Disgust (인접 감정 혼동)

Angry 자극 240장 중 110장(45.8%)이 disgust로 오분류되었다. 이는 angry와 disgust가 공유하는 시각적 특징에 기인한다. 얼굴 동작 코딩 시스템(Facial Action Coding System, FACS)에서 두 감정은 AU4(미간 수축)와 AU9(코 주름)를 공유하며, 인간 지각 연구에서도 angry-disgust 혼동은 가장 빈번하게 보고되는 오류 중 하나이다. 따라서 이 혼동은 모델 특유의 오류라기보다, 두 감정 간 시각적 유사성을 반영하는 구조적 특성이다.

4.3 혼동 경로 2: Sad → Neutral (감정 무감지)

Sad 자극 240장 중 170장(70.8%)이 neutral로 오분류되었으며, 추가로 22장이 fear, 17장이 disgust로 분류되었다. 정답은 30장(12.5%)에 불과하였다. 이 패턴은 angry→disgust와 질적으로 다르다. Angry→disgust는 인접한 부정 감정 사이의 혼동인 반면, sad→neutral은 모델이 슬픔이라는 감정의 존재 자체를 인식하지 못하고, 감정 부재(neutral)로 판단한 것이다. 이는 sad 표정의 시각적 단서(입꼬리 하강, 눈썹 내측 상승)가 다른 부정 감정에 비해 미세하고 저강도(low-intensity)이기 때문으로 해석된다.

주목할 점은 neutral의 recall이 1.000이지만 precision이 0.519에 불과하다는 것이다. 이는 실제 neutral 240장은 모두 정확히 분류한 반면, sad(170장), angry(34장), disgust(18장) 등 다른 감정의 자극을 neutral로 잘못 흡수(absorb)한 결과이다. 모델은 neutral을 “감정이 명확하지 않을 때의 기본값(default)“으로 사용하는 경향을 보인다.

4.4 혼동 패턴 종합

Gemma3-4B-IT Confusion Matrix

Figure 1. Gemma3-4B-IT의 감정 분류 혼동 행렬 (N = 1,440). 셀 내 수치는 빈도(행 정규화 백분율). 두 주요 혼동 경로(angry→disgust 110건, sad→neutral 170건)가 전체 오류의 70.4%를 차지한다.

두 혼동 경로(angry→disgust 110건, sad→neutral 170건)가 전체 오류 398건 중 280건(70.4%)을 차지한다. 이 두 경로는 공통된 근본 한계를 시사한다. Gemma3-4B-IT는 시각적으로 명확하고 고강도인 감정(happy, fear)은 정확히 인식하지만, 시각적 단서가 미세하거나 다른 감정과 중첩되는 감정(sad, angry)에서는 체계적으로 실패한다.

5. Valence-Arousal 차원 평정

5.1 전체 상관과 오차

Valence와 arousal은 Russell(1980)의 circumplex model에 기반한 정서의 2차원 표상이다. Valence는 유쾌(pleasant)–불쾌(unpleasant) 축을, arousal은 이완(calm)–흥분(excited) 축을 나타내며, 본 실험에서 인간과 모델 모두 1–9 척도로 평정하였다.

차원Pearson’s rSpearman’s ρMAEGemma3 M(SD)Human M(SD)
Valence.891.8261.4564.31 (2.65)4.60 (1.42)
Arousal.759.7931.1375.49 (1.74)5.61 (0.60)

Note. N = 1,440 (전수 매칭). Spearman’s ρ는 순위 기반 상관으로, 차원적 붕괴로 인한 동점(tied ranks)이 많을 경우 Pearson’s r보다 낮게 산출될 수 있다.

Valence의 Pearson’s r = .891는 모델이 감정 간 valence의 상대적 순서를 정확히 포착하고 있음을 보여준다. 그러나 MAE = 1.456은 평균적으로 약 1.5점(9점 척도 기준 16.2%)의 절대 오차가 존재함을 의미한다. 이는 높은 상관(순위 보존)과 높은 오차(절대값 이탈)가 공존하는 상황으로, 모델이 “순서는 맞추되 척도 사용이 다른” 패턴을 보임을 나타낸다. 또한 Gemma3의 valence SD(2.65)가 인간(1.42)의 1.87배인 점은 모델이 인간보다 더 극단적인 값을 사용하는 “극성 과장(polarity exaggeration)” 경향을 시사한다.

Arousal에서는 전체 평균이 인간과 유사하지만(5.49 vs 5.61), 모델의 SD(1.74)가 인간(0.60)의 2.90배로, valence보다 더 큰 극단화 경향이 관찰된다.

5.2 Mixed-Effects Model을 통한 체계적 편향 분석

감정별 편향의 통계적 유의성을 이미지 간 변산을 통제하여 검증하기 위해, R의 lme4 패키지(Bates et al., 2015)를 사용한 선형 혼합 효과 모델(linear mixed-effects model, LMM)을 적합하였다. LMM은 고정 효과(fixed effects)와 무선 효과(random effects)를 동시에 추정하여, 반복 측정 자료에서 개체 간 변산을 적절히 통제한다. p-value는 lmerTest 패키지의 Satterthwaite 자유도 근사법으로 산출하였으며, 이는 인지심리학 분야에서 표준적으로 사용되는 방법이다.

Valence 편향 모델. Gemma3와 인간(이미지별 평균)의 valence 평정을 결합한 장형(long-format) 자료에 대해 다음 모델을 적합하였다.

R formula: valence ~ rater_type * emotion + (1|image_id)

고정 효과βSEdftp
(Intercept: angry, human)3.4790.045282376.55< .001
rater_type[vlm]−1.0530.0581489−18.06< .001
rater_type[vlm] × disgust−0.3360.0831503−4.07< .001
rater_type[vlm] × fear−0.9330.0821491−11.31< .001
rater_type[vlm] × happy+2.3140.0831494+28.04< .001
rater_type[vlm] × neutral+2.0960.0841801+24.97< .001
rater_type[vlm] × sad+1.4450.0821491+17.51< .001

Note. N = 2,880 (1,440 human aggregated + 1,440 Gemma3). Random effects: σ²(image_id) = 0.098, σ²(residual) = 0.400. AIC = 6185.60. 기준 범주(intercept)는 angry × human.

rater_type[vlm]의 주효과(β = −1.053, p < .001)는 Gemma3가 angry에서 인간보다 약 1.05점 낮은 valence를 평정함을 의미한다. 각 interaction 계수는 해당 감정에서의 추가적 편향을 나타내므로, 감정별 Gemma3-인간 편향은 주효과에 interaction을 더하여 산출한다. 예컨대 happy에서의 편향은 −1.053 + 2.314 = +1.261로, Gemma3가 인간보다 약 1.26점 높은 valence를 평정한다. Fear에서는 −1.053 + (−0.933) = −1.986으로, 약 1.99점 낮은 valence를 평정한다. 모든 interaction이 유의하여(p < .001), 편향의 방향과 크기가 감정에 따라 체계적으로 달라짐이 확인되었다.

Arousal 편향 모델.

R formula: arousal ~ rater_type * emotion + (1|image_id)

고정 효과βSEdftp
(Intercept: angry, human)5.5890.0422834133.90< .001
rater_type[vlm]+0.2420.0541484+4.46< .001
rater_type[vlm] × disgust+0.1710.0771499+2.23.026
rater_type[vlm] × fear+1.0570.0771486+13.76< .001
rater_type[vlm] × happy+0.0590.0771489+0.77.442
rater_type[vlm] × neutral−2.1420.0781795−27.46< .001
rater_type[vlm] × sad−1.2830.0771486−16.70< .001

Note. N = 2,880. Random effects: σ²(image_id) = 0.072, σ²(residual) = 0.348. AIC = 5706.34.

Arousal 모델에서 주목할 결과는 happy의 interaction이 유의하지 않다는 점이다(β = +0.059, p = .442). 이는 아래 5.3절의 Wilcoxon 검정에서 happy arousal 편향이 p < .001로 유의했던 것과 대조된다. 이 불일치는 LMM이 이미지 수준의 무선 변산(σ² = 0.072)을 명시적으로 통제함으로써, 감정 범주 간 이미지 구성의 차이에 의한 유사 상관(spurious correlation)을 제거하기 때문이다. 즉, 이미지 간 변산을 고려하면 Gemma3의 happy arousal 평정은 인간과 유의하게 다르지 않다. 반면 neutral(β = −2.142)과 sad(β = −1.283)에서의 과소추정, fear(β = +1.057)에서의 과추정은 LMM에서도 강력하게 유의하며, 이들이 Gemma3의 arousal 편향의 핵심임을 확인한다.

5.3 감정별 Valence 편향 (Wilcoxon 검정)

보완적 분석으로, 이미지 수준에서 쌍체 비모수 검정을 수행하였다. Wilcoxon signed-rank 검정은 각 이미지에 대한 모델-인간 차이의 중앙값이 0과 다른지 검증하는 분포 무가정(distribution-free) 검정이다.

감정Bias (Gemma3 − Human)Pearson’s rp
Fear+1.99.195< .001
Disgust+1.39.361< .001
Happy−1.26.209< .001
Angry+1.05.337< .001
Neutral−1.05.555< .001
Sad−0.38.519< .001

부정 감정(angry, disgust, fear)에서는 양의 편향(모델이 인간보다 더 극단적으로 불쾌하게 평가), 긍정/중립 감정(happy, neutral)에서는 음의 편향(모델이 인간보다 더 극단적으로 유쾌하게 평가)이 일관되게 나타난다. Fear의 편향(+1.99)이 가장 크며, 이는 모델이 fear 자극에 대해 거의 동일한 valence 값(mode = 2, SD = 0.16)을 반복 출력하면서 인간 평균과의 차이가 증폭된 결과이다. 이 패턴은 모델이 valence의 방향은 정확하게 인식하되, 인간보다 극단적으로 평정하는 “극성 과장 편향(polarity exaggeration bias)“을 보여준다. 이 편향 패턴은 5.2절의 LMM에서도 동일하게 확인되었다.

한편 감정별 Pearson’s r은 전체 상관(r = .891)과 대조적으로 낮다. 이는 전체 상관이 감정 간(between-emotion) 변산에 의해 증폭된 것이며, 동일 감정 내(within-emotion)에서는 모델이 개별 이미지의 미세한 valence 차이를 포착하지 못함을 보여준다. Neutral(r = .555)과 sad(r = .519)가 상대적으로 높고, fear(r = .195)와 happy(r = .209)가 낮은 것은 차원적 붕괴(6절 참조)의 영향이다.

5.4 감정별 Arousal 편향 (Wilcoxon 검정)

감정Bias (Gemma3 − Human)Pearson’s rp (Wilcoxon)p (LMM)
Neutral+1.89−.008< .001< .001
Fear−1.30.241< .001< .001
Sad+1.04.320< .001< .001
Disgust−0.41.411< .001.026
Happy−0.30.137< .001.442
Angry−0.24.380< .001< .001

Note. LMM p는 5.2절의 arousal ~ rater_type * emotion + (1|image_id) 모델에서 산출.

Arousal 편향에서 가장 주목할 패턴은 neutral(bias = +1.89)과 fear(bias = −1.30)의 대조이다. 모델은 neutral의 각성도를 인간보다 1.89점 높게, fear의 각성도를 1.30점 낮게 평정하였다. 이는 모델이 범주적 프로토타입에 의존하여 arousal을 평정함을 시사한다. 또한 감정별 within-emotion 상관이 낮으며(r = −.008 ~ .411), 특히 neutral에서 r = −.008로 거의 무상관이다. 이는 모델이 동일 감정 내 개별 이미지의 각성도 차이를 전혀 포착하지 못함을 보여준다.

Wilcoxon과 LMM 결과의 불일치. Happy arousal의 Wilcoxon p < .001과 LMM p = .442의 불일치는 통계적 방법론의 차이에 기인한다. Wilcoxon 검정은 240개 이미지 각각의 차이값을 독립적으로 검정하므로, 큰 표본 크기(N = 240)에서 작은 효과도 유의하게 나타난다. 반면 LMM은 이미지를 무선 효과로 모형화하여, 이미지 간 변산이 편향 추정치의 불확실성에 적절히 반영된다. Happy의 arousal bias(−0.30)는 이미지 수준 변산(σ² = 0.072)에 비해 작으므로, LMM에서는 유의하지 않다. 이는 happy arousal에서의 편향이 이미지 구성에 의존하는 불안정한 효과임을 시사하며, LMM의 결론이 더 보수적이고 신뢰할 수 있다.

6. 응답 분포의 붕괴: 차원적 경직성

6.1 현상

모델의 valence-arousal 출력 분포를 감정별로 검토하면, 특정 감정에서 2–3개의 고정된 값만 출력하는 “차원적 붕괴(dimensional collapse)” 현상이 관찰된다. 이 용어는 본 보고서에서 조작적으로 정의한 것으로, 모델이 연속 척도의 다양한 값을 활용하지 못하고 소수의 이산값으로 수렴하는 현상을 지칭한다.

감정V unique valuesV SDA unique valuesA SD
Fear30.1620.46
Happy20.4820.41
Neutral20.4740.38
Disgust50.8540.89
Angry51.1641.11
Sad41.7051.42

Fear의 valence SD = 0.16은 240장의 서로 다른 얼굴에 대해 거의 동일한 값(mode = 2)을 출력했음을 의미한다. Happy도 valence는 {8, 9}, arousal은 {6, 7}의 2개 값만 사용하였다. 이는 모델이 개별 이미지의 미세한 강도 차이를 인식하지 못하고, 감정 범주에 대한 프로토타입 값을 반복 출력하는 것으로, 진정한 연속값 추정(continuous estimation)이 아닌 범주 프로토타입 조회(categorical prototype lookup)에 해당한다.

6.2 Sad의 높은 변산성: 불확실성의 표지

차원적 붕괴와 대조적으로, sad 자극에서는 valence SD = 1.70, arousal SD = 1.42로 가장 높은 응답 변산성이 관찰되었다. 이는 모델이 sad 범주에서 일관된 프로토타입을 형성하지 못하고 체계적 불확실성을 경험하고 있음을 시사한다. 분류에서 sad의 71%가 neutral로 오분류된 결과와 결합하면, sad는 모델이 범주 수준에서도 차원 수준에서도 안정적으로 처리하지 못하는 감정임을 알 수 있다.

6.3 함의

차원적 붕괴는 VLM 기반 VA 평정의 실용적 한계를 직접적으로 규정한다. 모델이 약간 행복한 얼굴과 매우 행복한 얼굴을 구분하지 못한다면, 이미지 간 강도 차이가 중요한 연구(예: 감정 강도의 지각적 역치 탐구)에서 모델 평정은 인간 평정을 대체할 수 없다. 다만, 감정 범주 간 VA 차이를 포착하는 과제(예: happy와 angry의 valence 차이 확인)에서는 r = .891의 상관이 시사하듯 충분한 정보를 제공한다.

7. 인구통계별 분류 편향

7.1 인종별 전체 정확도

인종AccuracyCohen’s κN
Black0.7620.714480
Korean0.7100.653480
Caucasian0.7040.645480

전체 정확도의 인종 간 차이는 5.8%p(Black 0.762 − Caucasian 0.704)로, 절대적 크기는 제한적이다. 그러나 이 전체 수치는 감정별 편향의 방향성을 상쇄하여 숨기고 있다.

7.2 Angry 인식의 인종 편향

인종Angry 정확도Disgust 정확도Sad 정확도
Black0.6130.7500.228
Caucasian0.3750.8250.050
Korean0.2250.9500.100

Angry 인식에서 Black 자극(61.3%)과 Korean 자극(22.5%) 사이에 2.7배의 정확도 차이가 관찰되었다. 이 패턴은 인간 지각 연구에서 보고된 “angry Black man” 스테레오타입 — Black 남성의 얼굴이 분노로 더 쉽게 지각되는 현상 — 과 방향적으로 일치한다. 모델의 훈련 데이터에 이러한 사회적 편향이 반영되어 있을 가능성을 시사하며, 배포 전 편향 감사(bias audit)의 필요성을 강조한다.

반면, disgust 인식은 반대 패턴을 보였다. Korean 자극(95.0%)이 Black 자극(75.0%)보다 높아, 인종 편향이 모든 감정에 균일하게 작용하는 것이 아니라 감정별로 선택적으로 발현됨을 보여준다.

7.3 성별 차이

성별AccuracyCohen’s κ
Man0.7350.682
Woman0.7160.659

성별 간 차이는 1.9%p로 미미하며, 인종 편향과 달리 감정별 층화 분석에서도 체계적 패턴이 관찰되지 않았다.

7.4 차원 평정의 인구통계별 편향: Mixed-Effects Model 분석

분류에서의 인종 편향이 차원 평정(valence, arousal)에서도 발현되는지 검증하기 위해, rater_type과 인구통계 변수의 상호작용을 포함한 LMM을 적합하였다.

인종별 Valence 편향.

R formula: valence ~ rater_type * actor_race + (1|image_id)

고정 효과βSEtp
(Intercept: Black, human)4.8010.09351.79< .001
rater_type[vlm]−0.4330.074−5.82< .001
rater_type[vlm] × Caucasian+0.1630.104+1.57.117
rater_type[vlm] × Korean+0.0850.106+0.80.423

Note. N = 2,880. σ²(image_id) = 3.306, σ²(residual) = 1.164. AIC = 11554.41.

Valence에서 rater_type × actor_race interaction은 유의하지 않았다(Caucasian p = .117, Korean p = .423). 이는 기존 Kruskal-Wallis 검정(H = 5.04, p = .080)의 결론과 일치하며, 이미지 수준 변산을 무선 효과로 통제한 LMM에서도 동일한 결론이 도출되었다. Gemma3의 valence 편향은 인종에 따라 체계적으로 달라지지 않는다.

인종별 Arousal 편향.

R formula: arousal ~ rater_type * actor_race + (1|image_id)

고정 효과βSEtp
(Intercept: Black, human)5.4410.05992.48< .001
rater_type[vlm]+0.2130.062+3.45< .001
rater_type[vlm] × Caucasian−0.4180.087−4.81< .001
rater_type[vlm] × Korean−0.3990.088−4.54< .001

Note. N = 2,880. σ²(image_id) = 0.884, σ²(residual) = 0.841. AIC = 9407.12.

Arousal에서는 valence와 대조적으로, 인종에 따른 유의한 상호작용이 관찰되었다. rater_type[vlm]의 주효과(β = +0.213, p < .001)는 Black 자극에서 Gemma3가 인간보다 arousal을 약 0.21점 높게 평정함을 의미한다. 그러나 Caucasian(β = −0.418, p < .001)과 Korean(β = −0.399, p < .001)에서의 부적 interaction은, 이 두 인종에서 Gemma3-인간 arousal 편향이 Black 대비 약 0.4점 감소함을 보여준다. 구체적으로 산출하면, Black 자극에서의 편향은 +0.213, Caucasian에서는 +0.213 − 0.418 = −0.205, Korean에서는 +0.213 − 0.399 = −0.186이다. 이는 Gemma3가 Black 자극에서만 arousal을 과추정하고, Caucasian과 Korean 자극에서는 오히려 소폭 과소추정하는 인종별 비대칭 패턴을 보임을 의미한다.

성별 Valence 편향.

R formula: valence ~ rater_type * actor_gender + (1|image_id)

고정 효과βSEtp
(Intercept: Man, human)4.7340.07662.64< .001
rater_type[vlm]−0.1830.060−3.03.002
rater_type[vlm] × Woman−0.3320.085−3.90< .001

Note. N = 2,880. σ²(image_id) = 3.290, σ²(residual) = 1.154. AIC = 11528.29.

분류에서 성별 차이는 미미(1.9%p)했으나, valence 차원에서는 유의한 상호작용이 발견되었다. rater_type[vlm] × Woman(β = −0.332, p < .001)은 Gemma3가 여성 자극에 대해 남성 자극 대비 추가적으로 약 0.33점 낮은 valence를 평정함을 의미한다. 남성 자극에서의 편향(−0.183)에 비해 여성 자극에서의 편향(−0.183 − 0.332 = −0.515)이 약 2.8배 크다. 이는 Gemma3가 여성 얼굴의 부정 감정을 남성보다 더 불쾌하게, 긍정 감정은 덜 유쾌하게 평정하는 성별 편향을 가지고 있음을 시사한다.

인구통계 편향 종합. 분류에서는 인종 편향이 지배적이었던(accuracy gap 5.8%p) 반면, 차원 평정에서는 인종(arousal만 유의)과 성별(valence에서 유의) 편향이 과제와 차원에 따라 선택적으로 발현된다. 이는 VLM의 인구통계 편향이 단일한 메커니즘이 아니라, 감정 인식의 처리 수준(범주 vs 차원)과 차원 유형(valence vs arousal)에 따라 분화되는 다층적 현상임을 시사한다.

8. 모델 간 인간-모델 일치도 비교

본 절은 Gemma3-4B-IT의 성능을 동일 자극(1,440장)에 대해 평가된 5개 비교 모델과 대조하여, 모델 크기 및 아키텍처에 따른 인간-모델 일치도의 위치를 파악한다. Table 5는 범주 분류(accuracy, F1-macro, Cohen’s κ)와 차원 평정(valence/arousal Pearson’s r) 지표를 모델별로 정리한 것이다.

Table 5. 6개 VLM의 인간-모델 일치도 비교 (N = 1,440).

ModelAccF1-macroκVal rAro r
Gemini 2.5 Flash0.848
GPT-4o-mini0.768
Qwen3-VL-4B0.761
Gemma3-12B0.711
Gemma3-4B0.7240.6820.668.891.759
LLaMA-11B0.536

Gemma3-4B-IT는 Cohen’s κ = 0.668로 6개 모델 중 5위에 위치하며, 동일 아키텍처의 3배 규모인 Gemma3-12B(κ = 0.711)보다 낮은 일치도를 보인다. 이 차이는 모델 크기의 확대가 감정 분류 성능 향상에 기여함을 시사하되, 그 효과는 Gemini 2.5 Flash(κ = 0.848)와의 격차에 비해 제한적이다. 최하위인 LLaMA-11B(κ = 0.536)와의 차이(0.132)는 파라미터 수만으로 성능을 예측할 수 없음을 보여준다. LLaMA-11B는 Gemma3-4B보다 2.75배 큰 모델임에도 불구하고 더 낮은 κ를 기록하였다.

전체적으로, 범주 분류에서는 frontier API 모델(Gemini 2.5 Flash κ = 0.848, GPT-4o-mini κ = 0.768)이 로컬 소형 모델을 압도한다. 그러나 Qwen3-VL-4B(κ = 0.761)가 GPT-4o-mini에 근접하는 성능을 보여, 동일 규모의 소형 모델 간에도 아키텍처와 훈련 데이터에 따른 성능 차이가 상당함을 시사한다.

9. 종합 논의

9.1 핵심 발견 요약

본 분석의 결과는 Gemma3-4B-IT를 “유능하지만 좁게 신뢰할 수 있는(competent but narrowly reliable)” 감정 평정자로 특성화한다. 모델은 인간 합의도가 높고 시각적 모호성이 낮은 감정(happy, neutral, fear)에서 우수한 성능을 보이지만, 정확히 자동화가 가장 필요한 조건 — 미세하고 모호한 감정 표현 — 에서 체계적으로 실패한다.

범주 분류(κ = 0.668)와 valence 상관(r = .891)은 전체 수치만으로는 양호하지만, 세부 분석에서 드러난 세 가지 구조적 한계가 실용적 적용을 제약한다. 첫째, sad(F1 = 0.222)와 angry(F1 = 0.532)의 체계적 오분류는 부정 감정 인식에서의 근본적 한계를 보여준다. 둘째, 차원적 붕괴(happy/fear에서 2개 값만 출력)는 모델이 연속적 강도를 추정하는 것이 아니라 범주 프로토타입을 조회하고 있음을 시사한다. 셋째, angry 인식의 인종별 2.7배 차이는 모델 배포 시 윤리적 고려가 필요함을 강조한다.

9.2 3단계 순차 추론의 장단점

Context carry 전략은 이전 단계의 판단이 다음 단계에 정보를 제공한다는 점에서 인간의 순차적 판단 과정을 모방한다. 그러나 이 전략은 1단계 분류의 오류가 VA 평정에 전파되는 error propagation 문제를 내재한다. Sad 자극 중 neutral로 오분류된 170장의 경우, 2-3단계에서 “이 얼굴을 neutral로 판단했습니다”라는 잘못된 맥락이 전달되어 VA 평정도 neutral에 가까운 값으로 편향되었을 가능성이 높다. 이 가설의 검증을 위해서는 context carry 없이 VA를 독립적으로 평정하는 조건과의 비교가 필요하다.

9.3 실용적 함의

현 결과를 기반으로, Gemma3-4B-IT는 고확신 감정(happy, neutral, fear)의 사전 선별(pre-screening), 대규모 자극 세트에서 감정 범주 간 valence 순서의 검증, 인간 평정 전 자극의 감정 명확성(clarity) 사전 평가 등에서 인간 평정의 보조 도구로 활용 가능하다. 반면, sad 또는 angry를 포함하는 분류 과제, 동일 감정 내 강도 차이가 중요한 연구, 인종별 공정성이 요구되는 응용에서는 인간 평정을 대체할 수 없다.

9.4 한계 및 향후 과제

본 분석에는 두 가지 한계가 있다. QAT 4-bit 양자화의 성능 저하 효과를 정량적으로 분리하지 못하였으며, full-precision 모델과의 비교가 필요하다. 또한 단일 모델 크기(4B)만 검증하였으므로 모델 스케일에 따른 성능 변화를 확인할 수 없다. 향후 과제로는 context carry vs 독립 평정의 비교, 더 큰 Gemma3 변형(12B, 27B)과의 성능 비교, 다른 instruction-tuned VLM(Qwen2.5-VL, InternVL3)과의 교차 비교가 필요하다.