GPT-4o-mini 얼굴 감정 평정 최종 보고서: Frontier API 모델의 분류 강점과 sad 인식의 구조적 실패

생성일: 2026-03-29
모델: GPT-4o-mini (OpenAI API)
분석 대상: 전체 1,440장 추론 완료, 인간 매칭: 1,440장 (감정당 240장)
보고서 유형: 최종 보고서 (final report)

1. 요약

GPT-4o-mini는 정확도 0.807, Cohen’s κ = 0.768(substantial agreement), F1-macro = 0.786을 달성하여, 로컬 오픈소스 모델인 Gemma3-4B(κ = 0.668), Gemma3-12B(κ = 0.711), LLaMA-3.2-11B(κ = 0.536)를 모두 상회하였다. 6개 감정 중 happy(100.0%), neutral(100.0%), angry(92.5%), fear(92.9%)에서 90% 이상의 분류 정확도를 보여, 4개 감정에서 인간 수준에 근접한 성능을 나타냈다. Valence 상관(r = .938)은 현재까지 테스트된 모델 중 Gemini 2.5 Flash(r = .964) 다음으로 높았다.

그러나 sad 인식에서 25.4%의 정확도를 기록하며 구조적 실패를 보였다. sad 240장 중 166장(69.2%)이 neutral로 오분류되어, Gemma3-4B(71.1%)와 LLaMA-3.2-11B(66.7%)에서도 관찰된 sad→neutral 혼동이 GPT-4o-mini에서도 재현되었다. 이는 VLM이 공유하는 범모델적 한계로, sad 표정의 미세한 시각적 단서(입꼬리 하강, 눈썹 내측 상승)를 감정 부재로 판단하는 경향이 모델 규모와 아키텍처에 무관하게 존재함을 시사한다.

2. 방법

2.1 모델 및 추론 환경

본 절은 GPT-4o-mini의 추론 환경과 설정을 기술한다. GPT-4o-mini는 OpenAI가 제공하는 frontier Vision Language Model(VLM)로, API를 통해 접근된다. 로컬 오픈소스 모델(Gemma3, LLaMA)과 달리 모델 파라미터 수와 아키텍처가 공개되지 않아, 규모 기반 비교는 불가하다. 추론은 OpenAI API(temperature = 0.0, seed = 42)를 통해 수행되었으며, 이미지는 high 해상도로 전송되었다. 총 추론 시간은 약 29,849초(8.3시간)이며, 입력 토큰 약 6,653만, 출력 토큰 2,901으로 기록되었다.

2.2 추론 전략

본 절은 VLM 추론에 사용된 3단계 순차 전략을 설명한다. Gemma3, LLaMA 보고서와 동일한 3단계 순차 추론 전략(context carry)을 사용하였다. 1단계에서 감정 범주를 6개 선택지(happy, sad, angry, fear, disgust, neutral) 중 하나로 분류하고, 2단계에서 해당 감정을 맥락으로 전달하여 valence(정서가: 유쾌-불쾌 축)를 1-9 척도로 평정하며, 3단계에서 감정과 valence를 모두 전달하여 arousal(각성도: 이완-흥분 축)를 1-9 척도로 평정한다. Structured output 기능은 비활성화하였으며, 모델이 JSON 형식으로 자유 응답하도록 지시하였다.

2.3 데이터 현황

본 절은 분석에 사용된 데이터의 구성과 규모를 기술한다. 전체 1,440장에 대해 추론이 완료되었으며, 인간 평정 데이터와 전수 매칭되어 1,440장 전체를 분석 대상으로 하였다(감정당 240장). 6개 감정 x 6개 인구통계 집단(Black/Caucasian/Korean x Man/Woman) 구성이며, 인간 평정은 1,000명의 참가자로부터 수집된 72,000개의 응답이다.

3. 분류 성능

3.1 전체 성능

본 절은 GPT-4o-mini의 전체 분류 성능을 비교 모델과 함께 제시한다. GPT-4o-mini는 전체 정확도 0.807, Cohen’s κ = 0.768, F1-macro = 0.786을 달성하였다. κ = 0.768은 “substantial agreement”(0.61-0.80) 구간에 해당하며, 동일 구간 내에서도 상위에 위치한다.

지표GPT-4o-miniQwen3-VL-4BGemma3-12BGemma3-4BLLaMA-11BGemini 2.5 Flash
Cohen’s κ0.7680.7610.7110.6680.5360.848
Accuracy0.807-----
F1-macro0.786-----

GPT-4o-mini(κ = 0.768)는 Qwen3-VL-4B(κ = 0.761)와 유사한 수준이며, Gemma3-12B(κ = 0.711)보다 0.057 높다. Gemini 2.5 Flash(κ = 0.848)는 GPT-4o-mini를 0.080 상회하여, thinking 모드의 추가적 이점을 시사한다.

3.2 감정별 분류 성능

본 절은 감정별 Precision, Recall, F1-score를 제시하여 GPT-4o-mini의 감정 인식 패턴을 분석한다. 감정별 성능은 4개의 고성능 감정과 2개의 저성능 감정으로 이분화된다.

감정PrecisionRecallF1N비고
Happy0.9961.0000.998240사실상 완벽
Fear0.9450.9290.937240높은 균형 성능
Angry0.7420.9250.824240Recall 우수, Precision 저하
Disgust0.9210.7330.817240Recall 저하 (angry 혼동)
Neutral0.5831.0000.736240Precision 저하
Sad1.0000.2540.405240Recall 극심 저하

Happy(F1 = 0.998)와 fear(F1 = 0.937)는 Precision과 Recall 모두 0.92 이상으로 균형 잡힌 성능을 보인다. Angry(F1 = 0.824)는 Recall(0.925)이 높으나 Precision(0.742)이 상대적으로 낮아, disgust가 angry로 유입되는 혼동이 존재함을 보여준다. Disgust(F1 = 0.817)는 반대로 Precision(0.921)이 높으나 Recall(0.733)이 낮아, disgust를 보수적으로 판단하되 판단 시에는 정확한 패턴을 보인다.

Neutral과 sad의 성능 비대칭은 특히 주목할 만하다. Neutral의 Recall은 1.000으로 모든 neutral 이미지를 정확히 포착하나, Precision은 0.583에 불과하다. 이는 sad 이미지 다수가 neutral로 오분류되어 neutral 예측 풀이 과대 팽창된 결과이다. Sad는 반대로 Precision 1.000(sad로 예측한 이미지는 모두 실제 sad)이나 Recall 0.254(전체 sad의 25.4%만 정확 탐지)으로, 극도로 보수적인 sad 판단 기준을 보여준다.

이 결과는 GPT-4o-mini의 감정 분류가 감정 범주의 시각적 명확성에 강하게 의존함을 시사한다.

3.3 핵심 혼동 경로

본 절은 GPT-4o-mini의 주요 오분류 패턴을 분석한다.

경로 1: Sad Neutral (69.2%, 166/240장). Sad 240장 중 166장이 neutral로 오분류되었다. 이 패턴은 Gemma3-4B(71.1%)와 LLaMA(66.7%)에서도 동일하게 관찰되어, VLM이 공유하는 범모델적 한계임을 확인한다. 여전히 sad 이미지의 약 69%가 neutral로 오분류되는 구조적 문제가 지속된다.

경로 2: Disgust Angry (25.4%, 61/240장). Disgust 240장 중 61장이 angry로 오분류되었다. 이 비율은 LLaMA(99.2%)보다 현저히 낮고, Gemma3에서 관찰된 angrydisgust 역방향 혼동(45.4%)과 대비된다. GPT-4o-mini는 두 감정 간 구분 능력이 중간 수준임을 보여준다.

경로 3: Fear Angry (6.7%, 16/240장). Fear의 소수(16장)가 angry로 오분류되었다. 이는 고강도 부정 감정 간 혼동으로, 분류 성능에 미치는 영향은 제한적이다.

이상의 혼동 경로는 VLM의 감정 인식이 고강도(high-intensity) 감정에서는 정확하나, 저강도(low-intensity) 또는 유사 각성 수준의 부정 감정 간에서는 취약함을 시사한다.

3.4 혼동 행렬

인간 \ VLMhappysadangryfeardisgustneutral
happy24000000
sad0610130166
angry002220153
fear101622300
disgust006101763
neutral00000240

4. 정서가 (Valence) 분석

4.1 전체 일치도

본 절은 GPT-4o-mini와 인간 간 valence 평정의 전체적 일치도를 제시한다.

지표
Pearson r.938
Spearman ρ.780
MAE1.626
Bland-Altman 편향 (인간 - VLM)+1.018
Bland-Altman 일치 한계[-2.111, +4.147]
VLM M (SD)3.59 (2.85)
인간 M (SD)4.60 (1.42)
분석 이미지 수1,440

Valence 상관(r = .938)은 Gemma3-4B(r = .892), Gemma3-12B(r = .929), LLaMA(r = .901), Qwen3-VL-4B(r = .919)를 상회하며, Gemini 2.5 Flash(r = .964) 다음으로 높다. Bland-Altman 편향(+1.018)은 인간이 VLM보다 평균 1.02점 높은 valence를 평정함을 의미하며, 이는 VLM이 부정 감정에서 더 극단적인 불쾌 평정을 내리는 경향을 반영한다. Spearman ρ(.780)가 Pearson r(.938)보다 낮은 점은 순위 일치도가 선형 상관보다 낮음을 보여주며, 감정 범주 내 순위 변별력이 제한적임을 시사한다.

4.2 감정별 Valence 비교

감정인간 M (SD)VLM M (SD)Bias (인간-VLM)r
Happy---1.60N/A (SD=0)
Neutral--+0.26.322
Sad--+0.54.479
Angry--+1.75.380
Disgust--+2.23.344
Fear--+2.93.161

GPT-4o-mini의 가장 두드러진 특성은 happy valence의 완전 고정이다. 240장 전체에서 동일한 최대값을 출력하며(r = N/A), 이는 이미지 간 차이를 전혀 반영하지 않는 범주 프로토타입 조회(categorical prototype lookup)의 산물이다. Gemma3-4B(SD = 0.00)에서도 동일한 현상이 관찰되었다.

부정 감정에서는 fear의 편향(+2.93)이 가장 크며, disgust(+2.23), angry(+1.75) 순으로 VLM이 인간보다 극단적인 불쾌 평정을 내린다. 이 패턴은 Gemma3, LLaMA에서도 방향이 동일하나, GPT-4o-mini의 편향 크기가 전반적으로 더 크다. Neutral(+0.26)과 sad(+0.54)에서는 편향이 작아, 이 두 범주에서는 인간과 비교적 유사한 valence 평정을 보인다.

감정 내 상관(within-emotion r)에서 sad(.479)가 가장 높은 값을 보여, sad 범주 내에서는 이미지 간 변별이 상대적으로 이루어지고 있음을 확인한다. 반면 fear(.161)와 neutral(.322)은 낮은 감정 내 상관을 보여 개별 이미지 수준의 변별력이 제한적이다.

4.3 VLM 응답 변산성

VLM 예측 감정Valence M (SD)Arousal M (SD)Unique ValUnique Aro
Happy (n=182)8.99 (0.15)7.46 (0.65)25
Neutral (n=246)4.52 (0.65)3.91 (0.61)53
Angry (n=237)1.75 (0.44)6.43 (1.41)27
Fear (n=169)1.03 (0.17)8.28 (1.22)25
Disgust (n=141)1.06 (0.23)2.96 (0.28)23
Sad (n=40)2.08 (0.27)2.95 (0.22)22

Valence의 unique value가 대부분 2개에 불과하다는 점은 주목할 만하다. GPT-4o-mini는 감정 범주를 결정하면 해당 범주의 프로토타입 valence를 출력하며, 이미지 내 개별 차이를 거의 반영하지 않는다. 이는 Gemma3에서도 관찰된 “차원 붕괴(dimensional collapse)” 현상과 일치한다. Arousal에서는 angry(7종)와 fear(5종)에서 상대적으로 넓은 분포를 보여, valence보다 이미지 간 변산성이 약간 높다.

이 결과는 높은 전체 상관(r = .938)이 실질적으로는 6개 감정 범주의 프로토타입 값 간 상관에 의해 주도되며, 동일 감정 내 이미지 간 변별력은 제한적임을 시사한다.

5. 각성도 (Arousal) 분석

5.1 전체 일치도

본 절은 GPT-4o-mini와 인간 간 arousal 평정의 전체적 일치도를 제시한다.

지표
Pearson r.622
Spearman ρ.581
MAE1.572
Bland-Altman 편향 (인간 - VLM)+0.104
Bland-Altman 일치 한계[-3.452, +3.660]
VLM M (SD)5.50 (2.13)
인간 M (SD)5.61 (0.60)
분석 이미지 수1,440

Arousal 상관(r = .622)은 valence(r = .938)보다 현저히 낮으며, Gemma3-4B(r = .739), Qwen3-VL-4B(r = .733), LLaMA(r = .783), Gemini 2.5 Flash(r = .742)보다도 낮다. GPT-4o-mini는 테스트된 6개 모델 중 arousal 일치도가 가장 낮아, 감정의 강도(intensity) 차원에서 인간과의 괴리가 가장 큰 모델이다. 전체 편향은 거의 0에 가까우나(+0.104), 일치 한계가 [-3.452, +3.660]으로 7.11점 범위에 걸쳐 있어 개별 이미지 수준에서는 큰 불일치가 존재한다.

VLM의 arousal SD(2.13)가 인간(0.60)보다 3.55배 높다는 점도 주목할 만하다. VLM은 감정 범주에 따라 arousal을 극단적으로 분화하나, 인간은 감정 간 arousal 차이가 상대적으로 작다. 이는 VLM이 범주적 프로토타입에 의존하여 arousal을 과분화(over-differentiation)하는 경향을 반영한다.

5.2 감정별 Arousal 비교

감정인간 M (SD)VLM M (SD)Bias (인간-VLM)r
Happy---0.86.201
Neutral--+0.56.075
Sad--+1.73-.229
Angry---0.37.166
Disgust--+1.90-.036
Fear---2.34.378

GPT-4o-mini의 arousal 편향은 감정에 따라 방향이 갈린다. Fear(-2.34)와 happy(-0.86)에서는 VLM이 인간보다 높은 각성도를 평정하여 과추정하며, disgust(+1.90)와 sad(+1.73)에서는 과소추정한다. Fear의 과추정(-2.34)은 특히 두드러지며, VLM이 “공포 = 극도의 흥분”이라는 범주적 프로토타입에 강하게 의존함을 시사한다.

감정 내 상관(within-emotion r)이 모든 감정에서 0.378 이하로 낮다. Sad(r = -.229)와 disgust(r = -.036)에서는 음의 상관 또는 영 상관이 관찰되어, 이 두 감정에서 VLM의 arousal 평정이 인간의 이미지 간 변동과 역방향이거나 무관함을 보여준다. Fear(r = .378)가 유일하게 약한 양의 상관을 보여, 공포 강도의 이미지 간 차이를 부분적으로 포착하고 있다.

이 결과는 GPT-4o-mini의 arousal 평정이 valence 이상으로 범주적 프로토타입에 의존하며, 동일 감정 내 이미지 간 변별이 거의 불가함을 시사한다.

6. 인간-모델 일치도 종합 비교

본 절은 GPT-4o-mini를 포함한 6개 VLM의 인간-모델 일치도를 세 평정 차원(분류, valence, arousal)에 걸쳐 종합적으로 비교한다.

모델κValence rArousal r비고
Gemini 2.5 Flash0.8480.9640.742전 차원 최고 또는 최상위권
GPT-4o-mini0.7680.9380.622분류/valence 2위, arousal 최하
Qwen3-VL-4B0.7610.9190.733GPT-4o-mini와 유사 κ
Gemma3-12B0.7110.9290.595Valence 3위
Gemma3-4B0.6680.8920.739Arousal 상위
LLaMA-3.2-11B0.5360.9010.783Arousal 최고

GPT-4o-mini는 분류(κ = 0.768)와 valence(r = .938)에서 Gemini 2.5 Flash에 이어 2위를 기록하였다. 반면 arousal(r = .622)에서는 6개 모델 중 최하위에 위치하여, 차원 간 성능 불균형이 가장 큰 모델이다. Gemma3-12B(arousal r = .595)를 제외하면 다른 모든 모델이 arousal r > .7을 달성한 점과 대비된다.

흥미로운 점은 모델 규모와 arousal 일치도 간 관계가 비선형적이라는 것이다. 가장 큰 모델(Gemini 2.5 Flash)과 가장 작은 모델군(Gemma3-4B, LLaMA-11B)이 arousal에서 상위를 차지하고, 중간 규모의 GPT-4o-mini와 Gemma3-12B가 하위를 차지한다. 이는 arousal 변별이 모델 규모보다 학습 데이터의 감정 강도 다양성에 더 의존할 수 있음을 시사한다.

전체적으로, GPT-4o-mini는 “무슨 감정인가”(분류)와 “얼마나 유쾌/불쾌한가”(valence)에서는 우수하나, “얼마나 강렬한가”(arousal)에서는 인간과의 괴리가 크다. 이는 frontier API 모델이 감정의 범주적 속성에는 강하나 연속적 강도 변별에는 한계가 있음을 보여준다.

7. 논의

7.1 핵심 발견

본 절은 분석 결과의 핵심 발견을 요약한다. GPT-4o-mini는 현재까지 테스트된 로컬 오픈소스 모델을 분류 성능에서 일관되게 상회하였다(κ = 0.768 vs. Qwen3-VL-4B 0.761, Gemma3-12B 0.711, Gemma3-4B 0.668, LLaMA 0.536). 4개 감정(happy, neutral, angry, fear)에서 90% 이상의 정확도를 달성한 것은 frontier API 모델의 감정 분류 능력이 소형 로컬 모델보다 우수함을 보여준다. 그러나 Gemini 2.5 Flash(κ = 0.848)는 GPT-4o-mini를 0.080 상회하여, thinking 모드의 추가적 이점을 시사한다.

F1-macro(0.786)와 accuracy(0.807)의 차이(0.021)는 감정 범주 간 성능 불균형을 반영한다. Sad(F1 = 0.405)와 neutral(F1 = 0.736)의 저성능이 macro 평균을 하향 조정하며, 이 두 범주를 제외한 4개 감정의 F1 평균은 0.894에 달한다.

7.2 Sad 인식의 범모델적 실패

본 절은 모든 VLM에서 공통적으로 관찰되는 sad 인식 실패의 원인을 분석한다. Sad 분류 실패(25.4%)와 sadneutral 혼동(69.2%)은 모든 테스트된 VLM에서 공통적으로 나타나는 패턴이다. GPT-4o-mini(69.2%), Gemma3-4B(71.1%), LLaMA(66.7%) 모두 sad를 neutral로 오분류하는 비율이 65% 이상이다. 이는 모델 규모, 아키텍처, 학습 데이터에 무관한 VLM의 구조적 한계로 해석된다.

가능한 원인으로는 (1) sad 표정의 시각적 단서가 미세하고 저강도(low-intensity)인 점, (2) 학습 데이터에서 sad와 neutral의 경계가 모호한 이미지가 많은 점, (3) 인간 평정자 간 sad 합의율이 다른 감정 대비 낮은 점이 있다.

N=1,440 전수 매칭 후에도 69.2%의 혼동 비율이 유지되는 것은, 이 문제가 표본 크기 증가로 해결되지 않는 구조적 문제임을 확인한다.

7.3 차원 평정의 프로토타입 의존

본 절은 GPT-4o-mini의 차원 평정이 범주적 프로토타입에 의존하는 현상을 분석한다. GPT-4o-mini의 valence unique value가 감정당 2개에 불과한 점은 이 모델이 이미지 내 개별 차이보다 감정 범주의 프로토타입 값에 강하게 의존함을 보여준다. 이는 valence 상관(r = .938)이 높아 보이나, 실제로는 6개 감정 범주의 프로토타입 값 간 상관이 높은 것일 뿐, 동일 감정 내 이미지 간 변별력은 제한적임을 의미한다. Arousal에서도 감정 내 상관이 0.378 이하로, 동일한 한계가 확인된다.

이러한 “차원 붕괴” 현상은 GPT-4o-mini의 valence-arousal 평정이 실질적으로 감정 범주의 함수로 환원됨을 의미하며, 연속 차원 평정의 부가 가치가 제한적임을 시사한다.

7.4 Arousal 일치도의 모델 간 역전

본 절은 arousal에서 관찰된 예상 밖의 모델 간 성능 역전을 논의한다. GPT-4o-mini(arousal r = .622)가 LLaMA-11B(r = .783)와 Gemma3-4B(r = .739)보다 낮은 arousal 일치도를 보인 것은, frontier API 모델이 항상 오픈소스 모델을 상회하지는 않음을 보여준다. 이 역전은 GPT-4o-mini의 arousal 과분화 경향에 기인한다. VLM의 arousal SD(2.13)가 인간(0.60)의 3.55배에 달해, 감정 범주 간 arousal 차이를 인간보다 극단적으로 벌리는 반면, 감정 내 이미지 간 변별에는 실패한다.

이 발견은 모델 성능 평가에서 단일 차원(분류 정확도)에 의존하는 것이 불충분하며, 다차원적 평가(분류, valence, arousal)가 필수적임을 시사한다.

부록: 추론 비용

항목
총 입력 토큰66,533,068
총 출력 토큰2,901
총 추론 시간29,849초 (8.3시간)
이미지당 평균 시간~20.9초
이미지당 평균 입력 토큰~46,645