LLaMA-3.2-11B-Vision의 얼굴 감정 평정 수행: 분류의 양극화와 차원 평정의 극단적 과장
1. 서론
LLaMA-3.2-11B-Vision은 Meta가 공개한 110억 파라미터의 instruction-tuned Vision Language Model(VLM)로, Gemma3-4B-IT(40억 파라미터)의 약 2.75배 규모이다. 모델 규모의 증가가 감정 인식 성능에 어떤 영향을 미치는지 검증하기 위해, 동일한 자극 세트(1,440장)와 동일한 추론 전략에 대해 LLaMA의 감정 분류, valence(정서가: 유쾌-불쾌 축), arousal(각성도: 이완-흥분 축) 평정 성능을 분석한다.
본 분석의 핵심 질문은 세 가지이다. 첫째, 모델 규모 증가(4B → 11B)가 감정 분류와 차원 평정의 정확도를 향상시키는가. 둘째, LLaMA의 편향 패턴은 Gemma3와 질적으로 동일한가, 아니면 모델 고유의 편향을 보이는가. 셋째, 인구통계별 편향의 크기와 방향이 모델에 따라 어떻게 달라지는가.
2. 방법
2.1 모델 및 추론 환경
LLaMA-3.2-11B-Vision은 Apple Silicon(M1 Max, 32GB)에서 MLX 프레임워크를 통해 GPU에서 직접 추론되었다. HTTP 오버헤드 없이 in-process로 실행되었으며, Gemma3와 동일한 3단계 순차 추론 전략(context carry)을 사용하였다. 1단계에서 감정 범주를 6개 선택지(happy, sad, angry, fear, disgust, neutral) 중 하나로 분류하고, 2단계에서 해당 감정을 맥락으로 전달하여 valence를 1-9 척도로 평정하며, 3단계에서 감정과 valence를 모두 전달하여 arousal을 1-9 척도로 평정한다.
2.2 자극 및 인간 평정 데이터
자극은 6개 감정 x 6개 인구통계 집단 x 40명의 인물로 구성된 1,440장의 AI 생성 얼굴 이미지이며, 인간 평정은 1,000명의 참가자로부터 수집된 72,000개의 응답이다. 자극 구성과 인간 평정 데이터는 Gemma3 보고서와 동일하다.
3. 전체 분류 성능
LLaMA-3.2-11B-Vision은 전체 정확도 61.3%, macro F1 0.536, Cohen’s kappa(κ) 0.536을 달성하였다(N = 1,440, 인간 평정과 매칭된 이미지 기준). κ = 0.536은 “moderate agreement” 수준으로, Gemma3(κ = 0.668, substantial)보다 0.132 낮다. 이는 모델 규모의 증가(4B → 11B)가 감정 분류 성능의 향상으로 이어지지 않았음을 보여준다. 감정 범주 간 성능 불균형은 아래의 per-emotion precision/recall/F1 분석에서 구체적으로 드러난다.
Note. 본 보고서의 LMM 분석(Section 5, 7)은 N = 1,440(전수 예측, human aggregated + LLaMA paired)을 기준으로 수행되었다. 분류 성능 지표(accuracy, F1, κ)도 N = 1,440(전수 매칭)을 기준으로 산출되었다. LMM의 N = 2,880은 paired 구조(1,440 human + 1,440 VLM)에서 발생한다.
Per-Emotion Precision / Recall / F1
| Emotion | Precision | Recall | F1 | N |
|---|---|---|---|---|
| happy | 1.000 | 1.000 | 1.000 | 240 |
| fear | 1.000 | 0.654 | 0.791 | 240 |
| angry | 0.421 | 0.925 | 0.579 | 240 |
| neutral | 0.500 | 1.000 | 0.667 | 240 |
| sad | 0.759 | 0.092 | 0.164 | 240 |
| disgust | 1.000 | 0.008 | 0.017 | 240 |
Happy는 완벽한 분류(F1 = 1.000)를 달성한 반면, disgust(F1 = 0.017)와 sad(F1 = 0.164)는 사실상 분류에 실패하였다. Disgust의 precision은 1.000이나 recall은 0.008로, 모델이 disgust로 분류한 극소수의 사례는 정확하지만 대다수의 disgust 자극을 다른 범주(주로 angry)로 오분류하였음을 의미한다. Angry는 recall(0.925)이 높으나 precision(0.421)이 낮아, disgust 자극의 대량 유입으로 false positive가 누적된 결과이다. Neutral은 recall 1.000이지만 precision 0.500으로, sad 자극의 상당수가 neutral로 흡수된 패턴을 반영한다.
4. 감정별 분류 성능과 혼동 패턴
4.1 감정 간 성능 양극화
감정별 분류 정확도는 3개의 고성능 감정과 3개의 저성능 감정으로 이분화된다.
| 감정 | LLaMA 정확도 | Gemma3 정확도 | FER 최고 | 비고 |
|---|---|---|---|---|
| Happy | 1.000 | 1.000 | 1.000 | 모든 모델 완벽 |
| Neutral | 1.000 | 1.000 (R=1.0, P=0.519) | 0.912 | LLaMA precision도 높음 |
| Angry | 0.925 | 0.404 | 0.917 | LLaMA가 Gemma3의 2.3배 |
| Fear | 0.654 | 0.979 | 0.933 | Gemma3가 LLaMA의 1.5배 |
| Sad | 0.092 | 0.126 | 0.992 | 두 VLM 모두 실패 |
| Disgust | 0.008 | 0.842 | 0.642 | LLaMA 완전 실패 |
LLaMA는 angry(92.5%)에서 Gemma3(40.4%)를 2.3배 상회하여 FER 모델 수준에 도달하지만, disgust(0.8%)에서는 240장 중 2장만 정답으로, Gemma3(84.2%)와 극단적 대조를 보인다. 이러한 교차 패턴은 두 VLM이 감정 인식에서 질적으로 다른 시각적 특징에 의존함을 시사한다.
4.2 혼동 행렬 (Confusion Matrix)
N = 1,440 전수 매칭 데이터 기준의 혼동 행렬은 다음과 같다. 행은 실제 감정(ground truth), 열은 모델 예측이다.
| happy | sad | angry | fear | disgust | neutral | |
|---|---|---|---|---|---|---|
| happy | 240 | 0 | 0 | 0 | 0 | 0 |
| sad | 0 | 22 | 9 | 0 | 0 | 209 |
| angry | 0 | 1 | 222 | 0 | 0 | 17 |
| fear | 0 | 0 | 78 | 157 | 0 | 0 |
| disgust | 0 | 6 | 218 | 0 | 2 | 14 |
| neutral | 0 | 0 | 0 | 0 | 0 | 240 |
세 가지 지배적 혼동 경로가 확인된다. 첫째, disgust → angry(218건)는 disgust 240장 중 90.8%에 해당하며 가장 심각한 오분류이다. 둘째, sad → neutral(209건)은 sad 240장 중 87.1%가 neutral로 흡수된 것이다. 셋째, fear → angry(78건)는 fear 240장 중 32.5%에 해당하며, fear의 부정적 각성 특성이 angry의 공격적 각성으로 혼동된 결과이다.
4.4 핵심 혼동 경로: Disgust → Angry (범주 병합)
LLaMA의 지배적 오류는 disgust 자극의 대다수가 angry로 오분류된 것이다. Gemma3에서 disgust→angry 혼동이 8.3%에 불과했던 것과 비교하면, LLaMA는 disgust와 angry를 사실상 단일 범주로 처리한다. 두 감정이 공유하는 FACS(Facial Action Coding System) 상의 action unit(AU4: 미간 수축, AU9: 코 주름)가 LLaMA에서는 angry 방향으로 일관되게 편향된 해석을 받는다. Gemma3에서 관찰되었던 neutral 흡수 편향(sad 71.1% → neutral)은 LLaMA에서도 존재하나(sad 87.1% → neutral), 혼동 행렬에서 확인되듯이 오히려 규모가 더 크다.
4.5 Angry 인식의 우수성과 Fear의 저하
Gemma3에서 angry의 45.4%가 disgust로 오분류된 반면, LLaMA는 angry 222/240장(92.5%)을 정확히 분류하였다. 이는 LLaMA가 angry의 시각적 특징(눈썹 하강, 입 긴장)을 disgust와 명확히 구분할 수 있음을 시사한다. 그러나 이 능력은 역설적으로 disgust를 angry로 흡수하는 일방향 편향과 결합되어 있다. Fear에서는 Gemma3(97.9%)가 LLaMA(65.4%)를 크게 상회하며, LLaMA의 fear 오분류 78건 전체가 angry로 집중된다.
5. Valence-Arousal 차원 평정
5.1 전체 상관과 오차
| 차원 | Pearson’s r | Spearman’s ρ | MAE | Bias | 95% LoA | LLaMA M(SD) | Human M(SD) |
|---|---|---|---|---|---|---|---|
| Valence | .899 | .797 | 1.702 | +0.857 | [−2.550, +4.264] | 3.75 (2.90) | 4.60 (1.42) |
| Arousal | .797 | .823 | 1.763 | +0.250 | [−3.618, +4.118] | 5.36 (2.42) | 5.61 (0.60) |
Note. N = 1,440 (전수 매칭). Bias = LLaMA − Human. LoA = Limits of Agreement (Bland-Altman).
Valence 상관(r = .899)은 Gemma3(r = .891)와 유사하여, 모델 규모와 무관하게 VLM이 감정 간 valence 순서를 정확히 포착함을 확인한다. 그러나 LLaMA의 valence SD(2.90)가 인간(1.42)의 2.04배로, Gemma3(1.87배)보다 더 큰 극성 과장을 보인다. Arousal에서도 LLaMA SD(2.42)가 인간(0.60)의 4.03배로, Gemma3(2.90배)를 상회한다.
5.2 Mixed-Effects Model을 통한 체계적 편향 분석
R의 lme4 패키지(Bates et al., 2015)를 사용한 선형 혼합 효과 모델(LMM)을 적합하였다. p-value는 lmerTest 패키지의 Satterthwaite 자유도 근사법으로 산출하였다.
Valence 편향 모델.
R formula:
valence ~ rater_type * emotion + (1|image_id)
| 고정 효과 | β | SE | df | t | p |
|---|---|---|---|---|---|
| (Intercept: angry, human) | 3.485 | 0.037 | 2839 | 95.03 | < .001 |
| rater_type[vlm] | −2.050 | 0.048 | 1516 | −42.73 | < .001 |
| rater_type[vlm] x disgust | −0.198 | 0.068 | 1532 | −2.92 | .004 |
| rater_type[vlm] x fear | −0.631 | 0.068 | 1518 | −9.31 | < .001 |
| rater_type[vlm] x happy | +3.633 | 0.068 | 1522 | +53.54 | < .001 |
| rater_type[vlm] x neutral | +1.767 | 0.069 | 1824 | +25.67 | < .001 |
| rater_type[vlm] x sad | +2.572 | 0.068 | 1518 | +37.91 | < .001 |
Note. N = 2,880 (1,440 human aggregated + 1,440 LLaMA). Random effects: sigma^2(image_id) = 0.046, sigma^2(residual) = 0.250. AIC = 4966.4.
rater_type[vlm]의 주효과(β = −2.050)는 LLaMA가 angry에서 인간보다 약 2.05점 낮은 valence를 평정함을 의미하며, 이는 Gemma3(β = −1.053)의 약 2배이다. 감정별 편향을 산출하면, angry = −2.05, disgust = −2.25, fear = −2.68, happy = +1.58, neutral = −0.28, sad = +0.52이다. LLaMA의 부정 감정 과소추정(−2.05 ~ −2.68)은 Gemma3(−1.05 ~ −1.99)보다 일관되게 크며, 모델 규모 증가가 극성 과장을 오히려 심화시킨다.
Arousal 편향 모델.
R formula:
arousal ~ rater_type * emotion + (1|image_id)
| 고정 효과 | β | SE | df | t | p |
|---|---|---|---|---|---|
| (Intercept: angry, human) | 5.593 | 0.054 | 2863 | 102.87 | < .001 |
| rater_type[vlm] | −0.502 | 0.075 | 1552 | −6.72 | < .001 |
| rater_type[vlm] x disgust | −0.068 | 0.106 | 1570 | −0.65 | .517 |
| rater_type[vlm] x fear | +1.721 | 0.106 | 1553 | +16.30 | < .001 |
| rater_type[vlm] x happy | +2.889 | 0.106 | 1556 | +27.35 | < .001 |
| rater_type[vlm] x neutral | −1.415 | 0.106 | 1846 | −13.32 | < .001 |
| rater_type[vlm] x sad | −1.601 | 0.106 | 1553 | −15.16 | < .001 |
Note. N = 2,880. Random effects: sigma^2(image_id) = 0.190, sigma^2(residual) = 0.833. AIC = 7244.6.
Arousal에서 가장 주목할 결과는 happy의 interaction(β = +2.889, p < .001)이다. Gemma3에서 happy arousal bias가 LMM에서 유의하지 않았던 것(p = .442)과 극명하게 대조된다. LLaMA는 happy 자극의 arousal을 8.87(인간 6.48)로 평정하여 약 2.39점을 과추정하며, 이는 “행복 = 극도의 흥분”이라는 범주적 프로토타입에 강하게 의존함을 시사한다. 또한 disgust의 arousal interaction은 유의하지 않으며(p = .517), 이는 disgust를 angry로 오분류한 결과 arousal 평정도 angry 수준으로 편향된 것과 일관된다.
5.3 감정별 Valence 편향 (기술통계)
| 감정 | Bias (H−V) | Per-emo r | Gemma3 Bias |
|---|---|---|---|
| Fear | +2.68 | .182 | −1.99 |
| Disgust | +2.23 | .236 | −1.39 |
| Angry | +2.06 | .248 | −1.06 |
| Happy | −1.58 | .106 | +1.26 |
| Sad | −0.53 | .368 | +0.38 |
| Neutral | +0.28 | nan (SD=0) | +1.05 |
Note. Bias = Human − VLM. 양수는 VLM이 인간보다 낮은 valence를 평정함을 의미한다. Per-emo r은 각 감정 내에서의 Pearson 상관으로, 이미지 간 변별력을 나타낸다. Neutral의 r = nan은 LLaMA가 240장 전체에서 동일한 valence를 출력(SD = 0)한 결과이다.
LLaMA의 부정 감정 valence 편향(+2.06 ~ +2.68, Human − VLM)은 VLM이 부정 감정의 valence를 인간보다 크게 과소추정함을 의미하며, Gemma3와 방향이 동일하다(부정 감정 과소추정, 긍정 과추정). 감정 내 상관(per-emotion r)은 .106 ~ .368로 전반적으로 낮아, LLaMA가 감정 간 순서는 포착하되 동일 감정 내 이미지 간 변별에는 실패함을 보여준다. Neutral에서 LLaMA bias(+0.28)는 Gemma3(+1.05)보다 작으나, LLaMA의 neutral valence가 5.00(SD = 0.00)으로 240장 전체에서 동일한 값을 출력하는 고정 응답이므로, 이 “정확도”는 이미지 간 차이를 반영한 결과가 아닌 범주 프로토타입 조회의 산물이다.
5.4 감정별 Arousal 편향
| 감정 | Bias (H−V) | Per-emo r | Gemma3 Bias | Gemma3 LMM p |
|---|---|---|---|---|
| Happy | −2.38 | .011 | +0.30 | .442 |
| Sad | +2.10 | .244 | −1.04 | < .001 |
| Neutral | +1.91 | −.021 | −1.90 | < .001 |
| Fear | −1.21 | .295 | +1.30 | < .001 |
| Disgust | +0.58 | .131 | +0.42 | .026 |
| Angry | +0.50 | .127 | +0.24 | < .001 |
Note. Bias = Human − VLM. 양수는 VLM이 인간보다 낮은 arousal을 평정함을 의미한다.
LLaMA와 Gemma3의 arousal 편향에서 가장 현저한 차이는 happy(LLaMA −2.38 vs Gemma3 +0.30)와 sad(LLaMA +2.10 vs Gemma3 −1.04)에서 나타난다. Happy에서 LLaMA는 arousal을 인간보다 2.38점 과추정하고, sad에서는 2.10점 과소추정한다. LLaMA는 범주적 프로토타입에 대한 의존이 Gemma3보다 강하며, 고각성 감정(happy, fear)은 극단적으로 과추정하고, 저각성 감정(sad, neutral)은 극단적으로 과소추정한다.
6. 응답 분포의 붕괴: 차원적 경직성
LLaMA의 차원적 붕괴는 Gemma3보다 심각하다.
| 감정 | V unique values | V SD | A unique values | A SD |
|---|---|---|---|---|
| Happy | 2 | 0.13 | 4 | 0.72 |
| Neutral | 1 | 0.00 | 3 | 0.28 |
| Fear | 4 | 0.50 | 4 | 1.86 |
| Angry | 4 | 1.05 | 5 | 1.21 |
| Sad | 6 | 1.13 | 3 | 0.35 |
| Disgust | 5 | 0.82 | 5 | 1.55 |
Neutral valence에서 SD = 0.00은 240장 전체에서 동일한 값(5)을 출력했음을 의미한다. Happy valence도 SD = 0.13으로 거의 고정되어 있다(mode = 9). Gemma3의 happy valence SD = 0.48, fear valence SD = 0.16과 비교하면, LLaMA의 차원적 붕괴는 neutral에서 더 극단적이고, fear에서는 상대적으로 분산이 크다. 이 패턴은 두 모델이 서로 다른 감정에서 프로토타입 고정(prototype fixation)을 보임을 의미한다.
7. 인구통계별 편향: Mixed-Effects Model 분석
7.1 인종별 편향
R formula:
rating ~ rater_type * actor_race + (1|image_id)
Valence:
| 고정 효과 | β | t | p |
|---|---|---|---|
| (Intercept: Black, human) | 4.704 | 47.22 | < .001 |
| rater_type[vlm] | −1.025 | −11.95 | < .001 |
| rater_type[vlm] x Caucasian | +0.066 | +0.55 | .581 |
| rater_type[vlm] x Korean | +0.319 | +2.62 | .009 |
Note. N = 2,880. sigma^2(image_id) = 3.787, sigma^2(residual) = 1.400. AIC = 12099.9.
Valence에서 Gemma3는 인종 interaction이 유의하지 않았으나(Caucasian p = .117, Korean p = .423), LLaMA는 Korean에서 유의한 interaction(β = +0.319, p = .009)을 보인다. 이는 LLaMA가 Korean 자극에서 Black 대비 약 0.32점 덜 부정적인 valence 편향을 보임을 의미한다.
Arousal:
| 고정 효과 | β | t | p |
|---|---|---|---|
| (Intercept: Black, human) | 5.472 | 69.77 | < .001 |
| rater_type[vlm] | +0.496 | +5.46 | < .001 |
| rater_type[vlm] x Caucasian | −0.882 | −6.89 | < .001 |
| rater_type[vlm] x Korean | −1.204 | −9.34 | < .001 |
Note. N = 2,880. sigma^2(image_id) = 1.214, sigma^2(residual) = 1.594. AIC = 11187.4.
Arousal에서 LLaMA의 인종 편향은 Gemma3보다 약 3배 크다(Korean: LLaMA β = −1.204 vs Gemma3 β = −0.399). rater_type[vlm]의 주효과(+0.496)는 Black 자극에서 LLaMA가 arousal을 0.50점 과추정함을 의미하나, Caucasian(+0.496 − 0.882 = −0.39)과 Korean(+0.496 − 1.204 = −0.71)에서는 과소추정으로 전환된다. 이러한 인종별 비대칭은 Gemma3에서도 동일한 방향이나, LLaMA에서 크기가 3배 이상 증폭되어 있다.
7.2 성별 편향
R formula:
rating ~ rater_type * actor_gender + (1|image_id)
| 차원 | β (x Woman) | t | p | Gemma3 β | Gemma3 p |
|---|---|---|---|---|---|
| Valence | −0.087 | −0.88 | .378 | −0.332 | < .001 |
| Arousal | −0.465 | −4.31 | < .001 | +0.169 | .020 |
성별 편향에서 Gemma3와 LLaMA는 완전한 반전 패턴을 보인다. Valence에서 Gemma3는 유의한 성별 편향(β = −0.332, p < .001)을 보이나 LLaMA는 유의하지 않다(p = .378). Arousal에서는 반대로, LLaMA가 여성 자극의 arousal을 남성 대비 −0.47점 과소추정하는 유의한 편향을 보이나(p < .001), Gemma3는 반대 방향의 약한 효과(+0.17, p = .020)만 보인다. 이는 VLM의 성별 편향이 모델 고유의 특성이며, 한 VLM의 결과를 다른 VLM으로 일반화할 수 없음을 시사한다.
8. 종합 논의
8.1 핵심 발견 요약
LLaMA-3.2-11B-Vision의 결과는 모델 규모 증가가 감정 인식 성능의 양적 향상을 보장하지 않으며, 오히려 편향의 질적 구조를 변화시킨다는 것을 보여준다. 분류 성능(κ = 0.536, macro F1 = 0.536)은 6개 비교 모델 중 최하위이며, VA 편향의 크기는 Gemma3보다 1.3-3.0배 더 크다. 특히 happy arousal(+2.39)과 인종별 arousal bias(Korean β = −1.204)에서 현저하다.
8.2 Human-Model Agreement 모델 간 비교
본 절은 LLaMA-3.2-11B-Vision의 성능을 동일한 자극 세트와 인간 평정 데이터에 대해 평가된 5개 비교 모델과 대조하여, LLaMA의 상대적 위치를 확인한다.
| Model | Accuracy | F1-macro | κ | Valence r | Arousal r |
|---|---|---|---|---|---|
| Gemini 2.5 Flash | 0.869 | 0.865 | 0.848 | .964 | .742 |
| GPT-4o-mini | 0.794 | 0.770 | 0.768 | .938 | .624 |
| Qwen3-VL-4B | 0.782 | 0.781 | 0.761 | .919 | .733 |
| Gemma3-12B | 0.742 | 0.710 | 0.711 | .929 | .595 |
| Gemma3-4B | 0.709 | 0.671 | 0.668 | .892 | .739 |
| LLaMA-11B | 0.613 | 0.536 | 0.536 | .899 | .797 |
LLaMA는 분류 지표(accuracy, F1-macro, κ) 전반에서 6개 모델 중 최하위이다. 그러나 arousal 상관에서는 r = .797으로 6개 모델 중 최고 수준을 달성하였다(Spearman ρ = .823). 이 “arousal paradox”는 주목할 만하다. 범주 분류(κ = 0.536)에서 최하위인 모델이 연속 차원 평정 중 하나(arousal)에서 최상위를 기록한다는 것은, 감정의 범주적 판단과 각성도의 차원적 추정이 질적으로 다른 시각 처리 경로에 의존할 가능성을 시사한다. 범주 분류는 감정 간 변별적 시각 특징(예: disgust와 angry를 구분하는 AU 패턴)에 의존하지만, arousal 추정은 전반적인 안면 근육 긴장도나 표정 강도 같은 연속적 시각 정보에 기반할 수 있다. LLaMA가 후자를 정확히 포착하면서도 전자에서 실패하는 패턴은, VLM의 감정 인식 능력이 단일 차원으로 환원되지 않음을 보여준다.
Valence 상관(r = .899)은 6개 모델 중 Gemma3-4B(r = .892)를 상회하여 4위에 해당하며, 모델 규모와 무관하게 VLM이 감정 간 valence 순서를 안정적으로 포착함을 재확인한다.
8.3 Gemma3와의 비교에서 도출되는 시사점
두 VLM의 비교에서 네 가지 시사점이 도출된다. 첫째, 감정 분류에서 두 모델은 상보적 강점을 보인다. LLaMA는 angry(0.925)에서, Gemma3는 disgust(0.710)와 fear(0.946)에서 우수하여, 앙상블 접근이 단일 모델보다 높은 성능을 달성할 가능성이 있다. 둘째, VA 편향의 방향은 두 모델에서 대체로 일치하나(부정 과소, 긍정 과추정), 크기는 모델 고유하다. 셋째, 인구통계 편향의 발현 차원이 모델마다 다르다. Gemma3는 성별-valence에서, LLaMA는 성별-arousal에서 유의한 편향을 보인다. 넷째, 이러한 모델 간 이질성은 VLM 기반 감정 평정의 표준화와 편향 감사가 개별 모델 수준에서 수행되어야 함을 강조한다.
8.4 한계 및 향후 과제
본 분석에는 세 가지 한계가 있다. MLX 프레임워크를 통한 추론에서 양자화의 성능 영향을 분리하지 못하였다. Context carry 전략의 error propagation 효과를 독립 평정과 비교하여 검증하지 못하였다. 또한 disgust→angry 병합의 원인이 사전학습 데이터의 편향인지 아키텍처의 특성인지 규명하기 위해서는 LLaMA의 중간 표상(intermediate representation) 분석이 필요하다.