Gemma3-12B-IT의 얼굴 감정 평정 수행: 규모 확장(4B→12B)의 이중적 효과와 Angry-Disgust 결정 경계의 역전

1. 서론

Gemma3-12B-IT는 Google이 공개한 120억 파라미터 규모의 instruction-tuned VLM으로, Gemma3-4B-IT(40억 파라미터)의 3배 규모이다. 본 보고서는 동일한 자극 세트(1,440장), 동일한 양자화 방식(QAT 4-bit), 동일한 추론 전략(context carry)에서 모델 규모만을 변수로 하여, 규모 확장이 감정 분류와 차원 평정에 미치는 효과를 검증한다.

본 분석의 핵심 질문은 세 가지이다. 첫째, 모델 규모 증가(4B → 12B)가 감정 분류 정확도를 향상시키는가. 둘째, 4B에서 관찰된 혼동 패턴(angry→disgust, sad→neutral)이 12B에서 어떻게 변화하는가. 셋째, valence-arousal 차원 평정에서 규모 확장의 이점이 존재하는가.

2. 방법

2.1 모델 및 추론 환경

Gemma3-12B-IT는 Gemma3-4B-IT와 동일한 QAT(Quantization-Aware Training) 4-bit 양자화 버전(mlx-community/gemma-3-12b-it-qat-4bit)을 사용하였다. QAT는 훈련 과정에서 양자화 효과를 사전 반영하는 기법으로, 동일 방식의 양자화를 적용함으로써 양자화에 의한 성능 차이를 통제하였다. 추론은 Apple Silicon(M1 Max, 32GB)에서 MLX 프레임워크를 통해 GPU에서 직ㄴ접 수행되었으며, HTTP 오버헤드 없이 in-process로 실행되었다.

2.2 3단계 순차 추론 (Context Carry)

Gemma3-4B와 동일한 3단계 순차 전략을 사용하였다. 1단계에서 감정 범주를 6개 선택지(happy, sad, angry, fear, disgust, neutral) 중 하나로 분류하고, 2단계에서 해당 감정을 맥락으로 전달하여 valence를 1–9 척도로 평정하며, 3단계에서 감정과 valence를 모두 전달하여 arousal을 1–9 척도로 평정한다. Temperature = 0.0, thinking 모드 비활성화 등 모든 설정이 4B 실험과 동일하다.

1,440장 전체에서 JSON 파싱은 100% 성공하였다. 이미지당 평균 추론 시간은 11.6초(4B의 5.4초 대비 2.1배), 총 추론 시간은 4.7시간이었다.

2.3 자극 및 인간 평정 데이터

자극은 6개 감정 × 6개 인구통계 집단 × 40명의 인물로 구성된 1,440장의 AI 생성 얼굴 이미지이며, 인간 평정은 1,000명의 참가자로부터 수집된 72,000개의 응답이다. 인간 데이터 매칭 수정 후, 1,440장 전체에서 매칭이 성립하였다(감정당 240장).

3. 전체 분류 성능

본 절은 Gemma3-12B-IT의 전체 분류 성능을 정확도, F1-macro, Cohen’s kappa의 세 지표로 평가하고, Gemma3-4B와의 비교를 통해 규모 확장 효과를 정량화한다.

Gemma3-12B-IT는 전체 정확도 75.9%, F1-macro 0.728, Cohen’s kappa(κ) 0.711을 달성하였다. κ = 0.711은 “substantial agreement”(0.61–0.80) 구간에 해당하며, Gemma3-4B(κ = 0.668)보다 0.043 높다. F1-macro(0.728)는 클래스 불균형을 보정한 지표로, 4B(0.682)보다 0.046 높아 κ와 일관된 향상을 보인다. 다만 3배 규모 확장 대비 제한적인 향상이며, 이 제한적 향상의 원인은 Section 4에서 감정별로 분석한다.

지표Gemma3-12BGemma3-4B차이
Accuracy0.7590.709+0.050
F1-macro0.7280.682+0.046
Cohen’s κ0.7110.668+0.043

4. 감정별 분류 성능과 혼동 패턴

4.1 감정 간 성능 변화: 규모 확장의 이중적 효과

감정별 분류 정확도는 규모 확장에 의해 일부 감정에서 극적으로 향상되고, 다른 감정에서 현저히 저하되는 이중적 양상을 보인다.

감정Gemma3-12BGemma3-4B변화비고
Happy1.000 (240/240)1.000두 규모 모두 완벽
Neutral1.000 (240/240)1.000두 규모 모두 완벽
Fear0.979 (235/240)0.977거의 동일
Angry0.925 (222/240)0.400+0.525규모 확장 최대 수혜
Disgust0.383 (92/240)0.838−0.455규모 확장에 의한 퇴행
Sad0.267 (64/240)0.135+0.132개선되나 여전히 저조

가장 두드러진 변화는 angry와 disgust이다. Angry는 40.0%에서 92.5%로 52.5%p 상승하여 규모 확장의 최대 수혜를 받았다. 반면 disgust는 83.8%에서 38.3%로 45.5%p 하락하며 극적인 퇴행을 보였다. 이 두 변화는 독립적 현상이 아니라, angry-disgust 결정 경계의 이동에 의한 연동된 결과이다.

Table 1은 감정별 precision, recall, F1-score를 제시한다. Recall만으로는 포착할 수 없는 분류 경향, 특히 모델이 특정 감정을 과잉 예측하는 패턴이 precision을 통해 드러난다.

Table 1. Gemma3-12B-IT의 감정별 Precision, Recall, F1-score

감정PrecisionRecallF1N
Happy1.0001.0001.000240
Sad1.0000.2670.421240
Angry0.6030.9250.730240
Fear0.8870.9790.931240
Disgust0.8440.3830.527240
Neutral0.6091.0000.757240

Angry의 precision(0.603)이 recall(0.925)보다 현저히 낮은 것은, 모델이 angry를 과잉 예측하여 실제 disgust 이미지 139장을 angry로 오분류한 결과이다. 반대로 sad의 precision(1.000)과 recall(0.267)의 괴리는, 모델이 sad로 분류한 경우 정확하지만, 실제 sad 이미지의 대부분을 neutral(135장)이나 fear(30장)로 오분류함을 의미한다. Neutral의 precision(0.609)은 4B 대비 개선되었으나, sad→neutral 혼동(135장)이 여전히 neutral 예측을 오염시키는 주요 원인이다.

이 패턴은 Gemma3-12B가 두 가지 체계적 편향을 가짐을 시사한다. (1) angry 과잉 예측(disgust 흡수), (2) neutral 과잉 예측(sad 흡수). 두 편향 모두 4B에서 관찰된 방향과 질적으로 다르며, 규모 확장이 결정 경계를 재편성한 결과이다.

4.2 핵심 혼동 경로: Disgust → Angry (결정 경계의 역전)

Gemma3-4B에서는 angry→disgust 혼동이 지배적이었다(angry 240장 중 109장, 45.4%가 disgust로 오분류). Gemma3-12B에서는 이 방향이 완전히 역전되어, disgust→angry 혼동이 지배적이 되었다(disgust 240장 중 139장, 57.9%가 angry로 오분류).

혼동 방향Gemma3-4BGemma3-12B변화
Angry → Disgust109/240 (45.4%)8/240 (3.3%)해소
Disgust → Angry20/240 (8.3%)139/240 (57.9%)급증

이는 12B 모델이 angry-disgust 결정 경계를 angry 방향으로 크게 이동시켰음을 의미한다. 두 감정이 FACS(Facial Action Coding System)에서 공유하는 action unit(AU4: 미간 수축, AU9: 코 주름)가 4B에서는 disgust 방향으로, 12B에서는 angry 방향으로 해석된다. 이 패턴은 LLaMA-3.2-11B(disgust→angry 99.2%)와 질적으로 동일하며, 대규모 모델이 공유 시각적 특징을 angry 방향으로 해석하는 경향이 더 강함을 시사한다.

4.3 Sad → Neutral 혼동의 부분적 개선

Sad 분류 정확도는 13.5%에서 26.7%로 향상되었으나, 여전히 저조하다. Sad→neutral 혼동은 71.1%(4B)에서 56.3%(12B, 135/240)로 감소하였다. 그러나 새로운 혼동 경로가 등장하였다. Sad→fear 혼동이 30장(12.5%)으로, 4B에서의 9.2%(22/239)보다 증가하였다. 이는 12B 모델이 sad의 일부 시각적 특징(눈 크기 변화, 긴장된 표정)을 fear로 재해석하는 경향을 보여준다.

4.4 혼동 행렬

인간 \ VLMhappysadangryfeardisgustneutral
happy24000000
sad0642309135
angry002220810
fear00523500
disgust001390929
neutral00000240

전체 오류 347건 중 disgust→angry(139건)와 sad→neutral(135건)이 274건(79.0%)을 차지한다. Gemma3-4B에서 angry→disgust(109건)와 sad→neutral(170건)이 전체 오류의 70.6%를 차지한 것과 비교하면, 지배적 오류 경로의 구성은 달라졌으나 두 경로에 오류가 집중되는 구조는 동일하다.

5. Valence-Arousal 차원 평정

5.1 전체 상관과 오차

본 절은 valence-arousal 차원 평정의 전체 일치도를 상관계수(Pearson’s r, Spearman’s ρ), 평균절대오차(MAE), Bland-Altman 분석(체계적 편향 및 일치 한계)으로 평가한다.

Table 2는 전체 차원 평정 성능을 요약한다. Spearman’s ρ는 순위 상관으로, valence/arousal 척도의 비선형적 관계를 반영하며, Bland-Altman 일치 한계(LoA)는 개별 이미지 수준에서의 일치 범위를 제시한다.

Table 2. Gemma3-12B-IT의 Valence-Arousal 차원 평정 전체 성능

차원Pearson’s rSpearman’s ρMAEBA biasLoAVLM M(SD)Human M(SD)
Valence.922.8331.5810.876[−2.133, 3.886]3.73 (2.74)4.60 (1.42)
Arousal.623.6751.4631.117[−1.557, 3.790]4.49 (1.66)5.61 (0.60)

Note. N = 1,440 (전수 매칭). BA bias = 인간 − VLM (양수는 VLM 과소추정). LoA = 95% 일치 한계.

Valence Pearson’s r(.922)은 Gemma3-4B(.891)보다 0.031 높아, 규모 확장이 감정 간 valence 순서의 포착 정확도를 향상시켰다. Spearman’s ρ(.833)는 Pearson’s r보다 낮으며, 이는 모델의 극성 과장이 Pearson’s r을 인위적으로 높일 수 있음을 시사한다. MAE(1.581)는 4B(1.456)보다 커 극성 과장의 심화를 확인한다. Bland-Altman 편향(+0.876)은 VLM이 인간보다 평균 약 0.9점 낮은 valence를 평정함을 의미하며, 일치 한계[−2.133, 3.886]의 비대칭성은 부정 감정에서의 과소추정이 지배적임을 보여준다.

Arousal Pearson’s r(.623)은 Gemma3-4B(.739)보다 0.116 낮으며, 규모 확장이 arousal 차원에서는 퇴행을 초래하였다. Spearman’s ρ(.675)가 Pearson’s r(.623)보다 소폭 높아, 순위 보존은 상대적으로 양호하다. Bland-Altman 편향(+1.117)은 VLM이 인간보다 평균 1.12점 낮은 각성도를 평정함을 의미하며, 4B(−0.001)의 거의 무편향 상태에서 체계적 과소추정으로 전환되었다. 일치 한계[−1.557, 3.790] 역시 비대칭적이어서, 과소추정 방향의 편차가 지배적이다.

지표Gemma3-12BGemma3-4B변화해석
Valence r.922.891+.031향상
Valence MAE1.5811.456+0.125악화
Arousal r.623.739−.116퇴행
Arousal MAE1.4631.137+0.326악화

5.2 감정별 Valence 비교

본 절은 감정별 valence 편향과 감정 내 상관(within-emotion correlation)을 분석하여, 전체 상관에 가려진 감정별 차이를 드러낸다.

감정Biasr변화
Happy−1.02.035개선
Neutral−0.62.402개선
Sad+0.71.510악화
Angry+1.75.331악화
Fear+2.38.320악화
Disgust+2.06.406악화

Happy와 neutral의 편향은 12B에서 감소하였으나, 부정 감정(angry +1.75, fear +2.38, disgust +2.06)의 편향은 4B 대비 일관되게 증가하였다. 이는 규모 확장이 부정 감정의 극성 과장을 심화시키는 경향을 보여준다.

주목할 점은 sad의 감정 내 상관(r = .510)이 모든 감정 중 가장 높다는 것이다. Disgust(r = .406)와 neutral(r = .402)도 비교적 높은 감정 내 상관을 보여, 12B의 차원 평정이 범주 프로토타입에 덜 의존하는 경향이 있다.

5.3 감정별 Arousal 비교

본 절은 감정별 arousal 편향을 분석하며, 특히 4B에서 12B로의 편향 방향 역전 현상을 검토한다.

감정Biasr변화
Happy+1.58.140방향 역전
Sad+2.33.182악화
Angry+0.37.289방향 역전
Fear−0.58.255개선
Disgust+0.63.311방향 역전
Neutral+2.38−.042악화

Arousal에서 가장 주목할 변화는 happy, angry, disgust에서 편향 방향이 역전된 것이다. Gemma3-4B에서는 이 세 감정의 arousal을 인간보다 높게 평정(과추정)하였으나, 12B에서는 반대로 낮게 평정(과소추정)한다. 이는 12B 모델이 전반적으로 arousal을 낮게 평정하는 체계적 경향을 가지며, 이 경향이 sad(+2.33)와 neutral(+2.38)에서 극대화됨을 보여준다.

5.4 VLM 응답 변산성

VLM 예측 감정Valence M (SD)Unique ValArousal M (SD)Unique Aro
Happy (n=240)8.45 (0.50)24.93 (1.01)3
Sad (n=64)2.00 (0.00)12.93 (0.31)3
Angry (n=368)1.62 (0.49)35.45 (0.94)3
Fear (n=265)1.63 (0.48)26.29 (0.98)4
Disgust (n=109)1.00 (0.00)14.32 (0.82)3
Neutral (n=394)5.03 (1.23)52.42 (0.49)2

Sad(unique val = 1, 전부 2.00)와 disgust(unique val = 1, 전부 1.00)의 valence가 완전 고정되어 있다. 이는 Gemma3-4B에서도 관찰된 “고정값 출력 패턴(fixed-value output pattern)“이 12B에서도 지속됨을 보여준다. 다만 neutral의 unique value가 5개로, 12B가 neutral 이미지 간 차이를 더 세밀하게 변별하는 점은 개선이다.

6. 규모 확장 효과 종합: 4B → 12B

6.1 향상된 영역

영역4B12B변화폭
전체 κ0.6680.711+0.043
F1-macro0.6820.728+0.046
Angry 분류40.0%92.5%+52.5%p
Sad 분류13.5%26.7%+13.2%p
Valence r.891.922+.031
Sad 감정 내 상관.510향상

Angry 분류의 극적 향상(+52.5%p)은 규모 확장의 가장 명확한 이점이다. 12B 모델은 angry의 시각적 특징(눈썹 하강, 입 긴장, 시선 강도)을 4B보다 정밀하게 포착한다.

6.2 퇴행한 영역

영역4B12B변화폭
Disgust 분류83.8%38.3%−45.5%p
Arousal r.739.623−.116
Arousal bias−0.001+1.117체계적 과소추정 발생
부정 감정 valence biasmoderate심화fear +2.38 (4B: +1.99)

Disgust 분류의 급락(−45.5%p)과 arousal 상관의 하락(−.116)은 규모 확장의 부작용이다.

6.3 해석: “결정 경계 이동” 가설

규모 확장의 이중적 효과는 angry-disgust 결정 경계의 이동으로 통합적으로 설명된다. 4B에서 disgust 방향에 있던 결정 경계가 12B에서 angry 방향으로 이동하면서, (1) angry→disgust 혼동이 해소되고(angry 향상), (2) 동시에 disgust→angry 혼동이 급증한다(disgust 퇴행). 이 패턴은 LLaMA-3.2-11B(disgust→angry 99.2%)에서도 동일하게 관찰되며, 10B+ 규모의 VLM이 공유하는 구조적 경향일 가능성이 있다.

전체 κ가 0.043만 향상된 이유도 이 결정 경계 이동으로 설명된다. Angry에서 얻은 정확도 이득(+52.5%p)이 disgust에서의 손실(−45.5%p)에 의해 거의 상쇄되어, 순효과가 미미한 것이다.

7. 인간-모델 일치도 종합 비교

본 절은 Gemma3-12B의 인간-모델 일치도를 Gemma3-4B와 직접 비교하여, 규모 확장이 인간 평정과의 정렬(alignment)에 미치는 효과를 종합적으로 평가한다.

7.1 분류 일치도 비교

Table 3은 두 모델의 분류 성능을 다차원적으로 비교한다.

Table 3. Gemma3 4B vs. 12B 분류 일치도 비교

지표Gemma3-4BGemma3-12B차이해석
Accuracy0.7090.759+0.050향상
F1-macro0.6820.728+0.046향상
Cohen’s κ0.6680.711+0.043substantial 구간 유지
최고 F1 감정happy (1.000)happy (1.000)동일
최저 F1 감정sad (0.200)sad (0.421)+0.221개선
주요 혼동 경로angry→disgustdisgust→angry방향 역전결정 경계 이동

전체 지표(accuracy, F1-macro, κ)는 일관되게 향상되었으나, 그 폭은 0.04–0.05 수준으로 제한적이다. 이는 angry에서의 대폭 개선(F1: 0.730)이 disgust에서의 퇴행(F1: 0.527)에 의해 부분적으로 상쇄되었기 때문이다.

7.2 차원 평정 일치도 비교

Table 4는 valence-arousal 차원의 인간-모델 일치도를 비교한다.

Table 4. Gemma3 4B vs. 12B 차원 평정 일치도 비교

지표Gemma3-4BGemma3-12B차이해석
Valence r.892.922+.030향상
Valence ρ.833
Valence MAE1.4561.581+0.125악화
Valence BA bias0.876체계적 과소추정
Arousal r.739.623−.116퇴행
Arousal ρ.675
Arousal MAE1.1371.463+0.326악화
Arousal BA bias−0.001+1.117+1.118무편향→과소추정

Valence에서는 상관이 향상되었으나 MAE가 악화되어, 규모 확장이 감정 간 상대적 순서 포착은 개선하되 절대적 수치 정확도는 저하시킨 것으로 해석된다. Arousal에서는 상관과 MAE 모두 악화되어, 규모 확장의 명확한 퇴행을 보인다. 특히 arousal BA bias가 거의 0에서 +1.117로 전환된 것은, 12B 모델이 전반적 각성도를 체계적으로 과소추정하는 새로운 편향을 획득하였음을 의미한다.

7.3 시사점

규모 확장(4B → 12B)은 분류 과제에서 미미한 순이득을 가져왔으나, 차원 평정에서는 valence의 부분적 개선과 arousal의 명확한 퇴행이라는 상반된 결과를 초래하였다. 이는 모델 규모 증가가 인간-모델 정렬을 일방적으로 향상시키지 않으며, 과제 유형(분류 vs. 차원 평정)과 감정 차원(valence vs. arousal)에 따라 이질적 효과를 보임을 시사한다. 후속 27B 실험을 통해 이 경향이 규모에 따라 선형적으로 변화하는지, 혹은 임계점이 존재하는지를 검증할 필요가 있다.

8. 논의

8.1 “규모가 크다고 더 좋은가?”에 대한 답

Gemma3 4B → 12B 비교는 동일 계열, 동일 양자화, 동일 전략에서 규모만을 변수로 한 통제된 실험이다. 결과는 명확하다. 규모 확장은 감정 인식에서 “더 좋다”가 아니라 “다르다”를 의미한다. Angry 인식은 극적으로 향상되지만 disgust는 급락하며, valence 순서 포착은 개선되지만 arousal 추정은 퇴행한다. 이는 규모 확장이 특정 감정 쌍의 결정 경계를 이동시키는 방식으로 작동하며, 한 방향의 개선이 역방향의 퇴행을 수반할 수 있음을 시사한다.

8.2 후속 실험: 27B 모델

Gemma3-27B 실험이 현재 진행 중이다. 4B → 12B에서 관찰된 결정 경계 이동이 12B → 27B에서 지속되는지, 혹은 27B에서 새로운 패턴이 나타나는지가 핵심 질문이다. 3점 scaling curve(4B, 12B, 27B)가 완성되면, VLM 규모와 감정 인식 성능 간의 관계를 보다 정밀하게 분석할 수 있다.

8.3 보고서의 한계

인간 데이터 매칭이 수정되어 1,440장 전수에서 분석이 수행되었다(감정당 N = 240). 인구통계별 분석과 LMM 분석은 후속 보고서에서 수행할 예정이다.