Gemini 2.5 Flash의 얼굴 감정 평정 최종 보고서: Thinking 모드 frontier 모델의 최고 분류 성능과 각성도 과추정

생성일: 2026-03-29 (최종 업데이트)
모델: Gemini 2.5 Flash (Google API, thinking mode)
추론 완료율: 1,440/1,440 (100%), 인간 매칭: 1,440장
보고서 유형: 최종 보고서

1. 요약

Gemini 2.5 Flash는 Cohen’s κ = 0.848(almost perfect agreement)를 달성하여, 현재까지 테스트된 모든 모델 중 최고 분류 성능을 기록하였다. GPT-4o-mini(κ = 0.768)보다 0.080, Gemma3-4B(κ = 0.668)보다 0.180 높다. Valence 상관(r = .963) 역시 최고치이다. 6개 감정 중 happy(100.0%), neutral(99.2%), fear(97.1%)에서 97% 이상을 달성하였으며, 가장 난이도가 높은 sad에서도 58.3%로 다른 VLM(GPT-4o-mini 22.0%, Gemma3 13.5%, LLaMA 9.8%)을 크게 상회하였다.

이 성능 향상의 주요 원인으로 thinking 모드가 주목된다. Gemini 2.5 Flash는 각 판단 단계에서 평균 1,513자(약 378토큰)의 사고 과정(thinking trace)을 생성하며, 얼굴 특징을 체계적으로 분석한 후 응답한다. 그러나 arousal 차원에서는 r = .767로, valence(r = .963)와의 괴리가 크며, 부정 감정의 각성도를 체계적으로 과추정하는 편향(fear −2.10, disgust −1.96, happy −1.91)이 관찰된다.

2. 방법

2.1 모델 및 추론 환경

Gemini 2.5 Flash는 Google이 제공하는 frontier VLM으로, thinking 모드를 지원한다. Thinking 모드란 최종 응답 전에 모델 내부에서 단계적 추론 과정(chain-of-thought)을 생성하는 기능으로, thinking budget은 dynamic(-1)으로 설정하여 모델이 필요에 따라 사고 길이를 자율 조절하도록 하였다. 추론은 Google API(temperature = 0.0)를 통해 수행되었으며, 이미지는 MEDIA_RESOLUTION_MEDIUM으로 전송되었다.

2.2 추론 전략

다른 모델과 동일한 3단계 순차 추론 전략(context carry)을 사용하였다. 1단계에서 감정 범주를 분류하고, 2단계에서 valence를, 3단계에서 arousal을 평정한다. 각 단계에서 thinking trace가 별도로 기록되어, 모델의 판단 근거를 사후 분석(post-hoc analysis)할 수 있다.

2.3 데이터 현황

전체 1,440장에 대해 추론이 완료되었으며(100%), parse 성공률 100%, 실패 0건이다. 인간 평정 데이터와의 매칭 문제(NES→Neu 코드 불일치, zero-padding, 알려진 typo)를 수정한 결과, 1,440장 전량이 매칭되었다. 감정별 분포는 각 240장씩 균등하다.

3. 분류 성능

3.1 전체 성능

지표	Gemini 2.5 Flash	GPT-4o-mini	Gemma3-4B	LLaMA-11B
Accuracy	0.874	0.807	0.724	0.613
F1-macro	0.869	0.786	0.682	0.536
Cohen’s κ	0.848	0.768	0.668	0.536

κ = 0.848은 “almost perfect agreement”(0.81-1.00) 구간에 해당하며, 테스트된 VLM 중 유일하게 이 수준에 도달하였다. F1-macro(0.869)는 accuracy(0.874)와 거의 동일하여, 감정별 240장 균등 분포에서 성능이 안정적임을 보여준다.

3.2 감정별 분류 정확도

감정	Gemini 2.5 Flash	GPT-4o-mini	Gemma3-4B	LLaMA-11B
Happy	1.000 (240/240)	1.000	1.000	1.000
Neutral	0.992 (238/240)	1.000	1.000	1.000
Fear	0.971 (233/240)	0.907	0.977	0.623
Angry	0.908 (218/240)	0.925	0.432	0.923
Disgust	0.787 (189/240)	0.718	0.827	0.009
Sad	0.583 (140/240)	0.220	0.135	0.098

Gemini 2.5 Flash의 가장 주목할 만한 성과는 sad 인식(58.3%)이다. 다른 모든 VLM이 sad에서 22% 이하의 정확도를 보인 반면, Gemini는 58.3%를 달성하였다. 중간 보고서(N=524)에서 69.7%였던 수치가 전체 데이터에서 58.3%로 하락하였는데, 이는 후반부 이미지에서 sad 난이도가 높았거나 인구통계 분포의 영향일 수 있다. 그럼에도 non-thinking 모델 대비 2.7-6.0배 높은 수준이다.

Angry(90.8%)는 중간 보고서(85.7%)에서 크게 상승하여 GPT-4o-mini(92.5%)에 근접하였다. Disgust→angry 혼동이 50장(20.8%)으로 주요 오류 경로이다.

3.3 감정별 Precision, Recall, F1

각 감정 범주에 대한 precision(P), recall(R), F1-score를 Table 1에 제시한다. Recall은 Section 3.2의 정확도와 동일하며, precision은 VLM이 해당 감정으로 예측한 사례 중 실제 해당 감정인 비율을 나타낸다.

Table 1. 감정별 Precision, Recall, F1-score (N = 1,440)

Emotion	P	R	F1	N
Happy	0.992	1.000	0.996	240
Sad	0.993	0.583	0.735	240
Angry	0.732	0.908	0.810	240
Fear	0.896	0.971	0.932	240
Disgust	0.867	0.787	0.825	240
Neutral	0.847	0.992	0.914	240

Happy는 P = 0.992, R = 1.000으로 거의 완벽한 분류를 보인다. Sad는 R = 0.583으로 가장 낮으나 P = 0.993으로 매우 높아, Gemini가 sad로 예측한 경우 거의 정확하지만 많은 sad 자극을 다른 감정으로 오분류함을 의미한다. 반면 angry(P = 0.732)는 precision이 상대적으로 낮은데, 이는 혼동 행렬에서 확인되는 disgust→angry(50장) 혼동이 precision을 하락시킨 결과이다. Neutral의 precision(0.847)은 이전 분석(0.775)에서 크게 상승하였는데, 이는 매칭 수정으로 neutral 240장이 균등하게 포함된 결과이다.

3.4 혼동 행렬

인간 \ VLM	happy	sad	angry	fear	disgust	neutral
happy	240	0	0	0	0	0
sad	0	140	24	27	6	43
angry	0	0	218	0	22	0
fear	0	0	6	233	1	0
disgust	0	1	50	0	189	0
neutral	2	0	0	0	0	238

Sad→neutral 혼동은 43장(17.9%)으로, GPT-4o-mini(75.8%)와 비교하여 현저히 감소하였다. Thinking 모드가 sad의 미세한 시각적 단서를 포착하는 데 효과적임을 보여준다. 그러나 sad의 오류가 neutral(43장)뿐 아니라 fear(27장, 11.3%), angry(24장, 10.0%)로도 분산되어, non-thinking 모델의 neutral 일방향 흡수와 질적으로 다른 다방향 혼동 패턴을 보인다. 이는 thinking 모드가 “감정 없음(neutral)“이라는 성급한 판단은 억제하지만, 미세한 부정 감정 간 구분에서는 여전히 혼란을 보임을 시사한다.

4. 정서가 (Valence) 분석

4.1 전체 일치도

지표	값
Pearson r	.963
Spearman ρ	.848
MAE	1.842
Bland-Altman 편향 (인간 − VLM)	+1.280
Bland-Altman 일치 한계	[−1.890, +4.450]
VLM M (SD)	3.32 (2.94)
인간 M (SD)	4.60 (1.42)
분석 이미지 수	1,440

Valence 상관(r = .963)은 모든 테스트 모델 중 최고치이다. Spearman ρ(.848)는 Pearson r(.963)보다 낮은데, 이는 부정 감정에서 VLM의 극단적 valence 출력이 선형 상관(r)을 높이는 반면, 순위 상관(ρ)은 이러한 범위 확장 효과를 반영하지 않기 때문이다. MAE(1.842)와 편향(+1.280)은 GPT-4o-mini(MAE 1.707, 편향 1.040)보다 크다. 이는 Gemini가 감정 간 valence 순서를 더 정확히 포착하면서도(높은 r), 부정 감정에서 더 극단적인 값을 출력하는(높은 MAE) 이중적 특성을 보여준다.

4.2 감정별 Valence 비교

감정	인간 M (SD)	VLM M (SD)	Bias	r
Happy	7.40 (0.21)	8.99 (0.11)	−1.59	−.039
Neutral	5.28 (0.33)	5.11 (0.36)	+0.17	.482
Sad	3.98 (0.31)	2.33 (1.03)	+1.65	.370
Angry	3.48 (0.34)	1.12 (0.33)	+2.36	.109
Disgust	3.51 (0.34)	1.07 (0.28)	+2.44	.215
Fear	3.97 (0.29)	1.32 (0.52)	+2.65	.279

Happy valence가 8.99(SD = 0.11)로 거의 고정되어 있으나 GPT-4o-mini(SD = 0.00)와 달리 완전 고정은 아니다. 부정 감정 편향은 fear(+2.65), disgust(+2.44), angry(+2.36) 순으로, GPT-4o-mini(fear +2.92, disgust +2.19, angry +1.74)와 비교하여 angry와 disgust에서 더 크고, fear에서는 약간 작다. Neutral의 감정 내 상관(r = .482)이 가장 높아, thinking 모드가 neutral 이미지 간 valence 차이를 가장 잘 변별함을 시사한다. Sad(r = .370)도 다른 부정 감정(angry .109, disgust .215)보다 높다.

5. 각성도 (Arousal) 분석

5.1 전체 일치도

지표	값
Pearson r	.767
Spearman ρ	.823
MAE	1.951
Bland-Altman 편향 (인간 − VLM)	−0.813
Bland-Altman 일치 한계	[−4.642, +3.017]
VLM M (SD)	6.42 (2.38)
인간 M (SD)	5.61 (0.60)
분석 이미지 수	1,440

Arousal 상관(r = .767)은 중간 보고서(r = .695)에서 상승하여 Gemma3-4B(r = .759)를 상회하였다. Spearman ρ(.823)가 Pearson r(.767)보다 높은 점은 valence와 반대 패턴으로, arousal에서는 순위 보존이 선형 관계보다 우수함을 나타낸다. 이는 neutral의 극단적 과소추정(VLM 1.95 vs. 인간 4.83)이 Pearson r을 하락시키되 순위 구조는 유지되기 때문이다. 편향(−0.813)은 VLM이 인간보다 평균 약 0.8점 높은 각성도를 평정함을 의미한다.

5.2 감정별 Arousal 비교

감정	인간 M (SD)	VLM M (SD)	Bias	r
Happy	6.48 (0.26)	8.39 (0.53)	−1.91	.211
Fear	5.99 (0.30)	8.09 (0.48)	−2.10	.152
Disgust	5.57 (0.30)	7.53 (0.61)	−1.96	.278
Angry	5.60 (0.31)	7.38 (0.61)	−1.78	.340
Sad	5.17 (0.28)	5.18 (1.36)	−0.01	.305
Neutral	4.83 (0.25)	1.95 (0.69)	+2.88	.007

Gemini의 arousal 편향 패턴은 두 가지로 나뉜다. 고각성 감정(fear −2.10, disgust −1.96, happy −1.91, angry −1.78)에서는 VLM이 인간보다 1.8-2.1점 높게 평정하며, 저각성 감정인 neutral(+2.88)에서는 반대로 과소추정한다. 이는 Gemini가 감정의 존재 자체를 “고각성”으로, 감정의 부재를 “극저각성”으로 이분법적으로 처리하는 경향을 시사한다. **Sad의 편향이 거의 0(−0.01)**이라는 점이 주목할 만하다. 인간 평균(5.17)과 VLM 평균(5.18)이 거의 일치하며, 감정 내 상관(r = .305)도 angry(.340) 다음으로 높아, thinking 모드가 sad의 각성도를 가장 정확히 평정함을 보여준다.

6. 사고 과정 (Thinking) 분석

6.1 감정별 Thinking Trace 길이

Gemini 2.5 Flash의 thinking trace 길이는 감정 범주에 따라 체계적으로 다르다.

감정	N	t_emotion M (SD)	t_valence M (SD)	t_arousal M (SD)	Total M (SD)
Sad	240	2,130 (—)	1,313 (—)	1,970 (—)	5,413 (1,120)
Fear	240	1,788	1,392	1,435	4,615 (788)
Disgust	240	1,886	1,072	1,434	4,392 (857)
Neutral	240	1,533	1,088	1,758	4,379 (960)
Angry	240	1,589	1,050	1,585	4,224 (908)
Happy	240	1,547	959	1,653	4,159 (601)

Note. 단위: characters. N = 1,440 (전수). Kruskal-Wallis H = 113.42, p < .001.

Sad는 모든 감정 중 thinking 길이가 가장 길며(M = 5,413자), happy(M = 4,159자) 대비 1,254자(30%) 더 길다. 이 차이는 모든 pairwise 비교에서 통계적으로 유의하였다. 특히 emotion step에서 sad의 thinking(M = 2,130)이 happy(M = 1,547)보다 38% 길어, Gemini가 감정 분류 단계에서 sad 자극에 대해 가장 많은 추론 자원을 투입함을 보여준다.

6.2 Thinking 길이와 정답률의 관계

Sad 자극에서 Gemini가 오분류한 경우(n = 100)의 thinking 길이(M = 5,793자)는 정분류한 경우(n = 140, M = 5,142자)보다 651자 더 길었으며 이 차이는 유의하였다(Mann-Whitney p < .001). N = 1,440 전량 매칭 후에도 thinking 데이터는 동일하므로 이 분석 결과는 변동 없다. 이는 Gemini가 sad 자극의 난이도를 “인식”하고 더 많은 추론을 시도하지만, 추가적 추론이 항상 정답으로 이어지지는 않음을 시사한다. 오히려 모델이 불확실할수록 더 길게 사고하며, 긴 thinking이 오답의 신호(signal of uncertainty)가 될 수 있다.

Disgust에서도 유사한 패턴이 관찰되었다(정답 M = 4,300 vs. 오답 M = 4,804, p = .017). 반면 angry(p = .177)와 fear(p = .325)에서는 정답과 오답 간 thinking 길이에 유의한 차이가 없었다.

6.3 Thinking의 질적 특성

Thinking trace를 검토한 결과, Gemini 2.5 Flash는 각 단계에서 체계적 추론 패턴을 보인다. Emotion 단계에서는 눈썹, 눈, 코, 입 등 개별 얼굴 영역을 순차적으로 분석한 후 6개 감정 선택지를 소거법으로 검토한다. Valence 단계에서는 1단계에서 결정된 감정의 쾌-불쾌 속성을 기반으로 척도 위치를 결정하며, Arousal 단계에서는 표정의 근육 긴장도와 눈 크기 등을 기반으로 강도를 판단한다.

Sad 인식에서 thinking의 역할이 특히 두드러진다. 다른 VLM이 sad를 neutral로 오분류하는 지점에서, Gemini는 “입꼬리가 미세하게 하강”, “눈썹 내측이 약간 상승”과 같은 미세 단서를 thinking에서 명시적으로 기술하며, 이를 근거로 sad 판단에 도달한다.

7. Sad는 왜 어려운가: 인간 반응시간과 VLM 추론량의 수렴적 증거

7.1 인간도 Sad에서 가장 오래 고민한다

인간 참가자 1,000명의 반응시간(RT) 데이터를 감정별로 분석한 결과, sad 자극은 arousal 평정과 valence intensity 평정에서 6개 감정 중 가장 긴 RT를 보였다.

감정	Arousal RT Median (s)	Rank	Valence Intensity RT Median (s)	Rank
Sad	1.745	1 (최장)	2.333	1 (최장)
Fear	1.744	2	2.290	3
Disgust	1.713	3	2.289	4
Angry	1.707	4	2.300	2
Happy	1.676	5	2.111	6
Neutral	1.676	6	2.225	5

Note. Mean RT는 극단값(SD >> Mean)에 의해 왜곡되어 median을 보고함. Valence RT에서는 fear(2.518)가 1위, sad(2.390)가 3위.

Arousal 평정에서 sad와 다른 감정 간 RT 차이는 happy(+0.069s, p < .001), angry(+0.038s, p = .002), disgust(+0.032s, p = .020)에서 유의하였고, fear(+0.001s, p = .269)와는 차이가 없었다. 이는 sad 자극의 감정 강도를 판단하는 데 인간에게도 추가적 인지 처리가 필요함을 보여준다.

7.2 감정 난이도의 수렴적 증거: 인간 RT ↔ VLM Thinking ↔ VLM 정답률

Sad 자극의 난이도는 세 가지 독립적 지표에서 수렴적으로 확인된다.

감정	VLM 정답률	Gemini Thinking (chars)	인간 Arousal RT (s)
Happy	1.000	4,159 (최단)	1.676 (최단)
Neutral	0.992	4,379	1.676 (최단)
Fear	0.971	4,615	1.744
Angry	0.908	4,224	1.707
Disgust	0.787	4,392	1.713
Sad	0.583 (최저)	5,413 (최장)	1.745 (최장)

감정 수준에서 VLM 정답률과 인간 arousal RT 간 Spearman 상관은 ρ = −0.812(p = .050)로, 인간이 오래 고민하는 감정일수록 VLM의 분류 정확도가 낮았다. **Gemini thinking 길이와 인간 arousal RT 간 상관은 ρ = +0.899(p = .015)**로 유의하며, 인간이 오래 처리하는 감정에서 모델도 더 긴 추론을 생성함이 전체 데이터에서 확인되었다. 이는 중간 보고서(ρ = +0.754, p = .084)에서 경향성만 보이던 것이 전체 데이터에서 통계적 유의성에 도달한 결과이다.

이 패턴은 Kahneman(2011)의 이중 처리 이론(dual-process theory)으로 해석할 수 있다. Happy와 neutral은 시각적 단서가 명확하여 “빠른 System 1” 처리로 충분한 반면, sad는 미세한 시각적 단서(입꼬리 하강, 눈썹 내측 상승)를 종합적으로 분석하는 “느린 System 2” 처리를 요구한다. Non-thinking VLM은 System 1에 해당하는 즉각적 패턴 매칭만을 수행하여 sad를 neutral로 오분류하고, thinking VLM(Gemini)은 System 2에 유사한 단계적 추론을 통해 이 한계를 부분적으로 극복한다.

7.3 그러나 Thinking이 완전한 해결책은 아니다

Gemini의 sad 정답률(58.3%)은 non-thinking 모델(22% 이하)보다 크게 향상되었으나, happy(100%)나 fear(97.1%)에는 미치지 못한다. 또한 Section 6.2에서 확인한 바와 같이, Gemini가 sad를 오답으로 분류할 때 thinking이 오히려 더 길었다(정답 5,142자 vs. 오답 5,793자). 이는 thinking의 양(quantity)이 아닌 질(quality)이 정답률을 결정하며, sad의 시각적 모호성은 추가 추론으로도 완전히 해소되지 않는 근본적 한계임을 시사한다.

8. 자극 품질 검증: Sad 인식 실패는 이미지 부자연스러움 때문인가?

Sad 인식의 범모델적 실패에 대해 “AI 생성 sad 이미지가 부자연스러워서”라는 대안 설명이 제기될 수 있다. 인간 참가자 1,000명의 자연스러움(naturalness) 평정(1-9 척도)을 분석하여 이 가설을 검증하였다.

8.1 감정별 자연스러움 평정

감정	Naturalness M (SD)	Rank	비고
Happy	6.940 (1.427)	1 (가장 자연스러움)
Neutral	6.008 (1.406)	2
Sad	5.658 (1.493)	3	중간 수준
Angry	5.486 (1.618)	4
Disgust	5.428 (1.655)	5
Fear	5.260 (1.842)	6 (가장 부자연스러움)

Note. Kruskal-Wallis H = 8,253.34, p < .001. N = 12,000 per emotion.

8.2 자연스러움과 VLM 정답률의 불일치

Sad 이미지의 자연스러움(M = 5.658)은 angry(5.486), disgust(5.428), fear(5.260)보다 모두 유의하게 높았다(모든 p < 1e-13, Cohen’s d = 0.11-0.24). 가장 부자연스러운 15개 이미지는 대부분 fear(11장)와 disgust(3장)였으며, sad 이미지는 단 하나도 포함되지 않았다.

그러나 VLM 분류 정확도는 이 자연스러움 순위와 일치하지 않는다.

감정	Naturalness (rank)	VLM Accuracy	불일치
Fear	6위 (가장 부자연스러움)	97.1%	부자연스러우나 정확
Disgust	5위	78.7%
Angry	4위	90.8%
Sad	3위 (중간)	58.3% (최저)	자연스러우나 부정확

Fear 이미지가 가장 부자연스럽지만(5.260) VLM 정답률은 97.1%로 최고 수준인 반면, sad 이미지는 fear보다 자연스럽지만(5.658 vs. 5.260) 정답률은 58.3%로 최저이다. 이 교차 패턴은 sad 인식 실패가 이미지 품질의 문제가 아니라, sad 표정의 고유한 시각적 모호성(inherent visual ambiguity)에 기인함을 강하게 시사한다.

8.3 이미지 수준의 자연스러움 분포

이미지 수준에서 sad 이미지의 자연스러움 범위는 [4.90, 6.50]으로, fear [4.14, 6.00]과 disgust [4.50, 6.10]보다 하한이 높다. 즉, sad 이미지 중 극단적으로 부자연스러운 이미지는 없다. Sad의 이미지 간 자연스러움 SD(0.272)도 fear(0.324), disgust(0.302)보다 작아, 품질이 더 균일하다. 따라서 sad 인식 실패를 소수의 저품질 이미지로 귀인하는 것은 데이터에 의해 기각된다.

9. 인간-모델 일치도 교차 비교 (Cross-Model Agreement Comparison)

본 절은 현재까지 테스트된 6개 VLM의 인간-모델 일치도를 종합적으로 비교한다. 분류 성능(accuracy, F1-macro, Cohen’s κ)과 연속 차원 일치도(valence/arousal의 Pearson r 및 Spearman ρ)를 단일 테이블에 정리하여, 모델 간 강점과 약점의 구조적 차이를 확인한다.

Table 2. 6개 VLM의 인간-모델 일치도 종합 비교

Model	N	Acc	F1-macro	κ	Val r	Aro r
Gemini 2.5 Flash	1,440	0.874	0.869	0.848	.963	.767
GPT-4o-mini	1,440	0.807	0.786	0.768	.938	.622
Qwen3-VL-4B	1,440	0.800	0.799	0.761	.913	.758
Gemma3-12B	1,440	0.759	0.728	0.711	.922	.623
Gemma3-4B	1,440	0.724	0.682	0.668	.891	.759
LLaMA-11B	1,440	0.613	0.536	0.536	.899	.797

Note. 굵은 값은 각 지표에서 최고 성능. Val = valence, Aro = arousal. 모든 모델이 N = 1,440 전량 매칭 기준으로 재산출됨. 모든 상관은 p < .001.

Table 2에서 두 가지 구조적 패턴이 관찰된다.

첫째, Gemini 2.5 Flash는 분류(accuracy, F1-macro, κ)와 valence 일치도(r) 모두에서 최고 성능을 달성하여, thinking 모드를 갖춘 frontier 모델의 전반적 우위를 확인한다.

둘째, arousal 상관에서는 분류 성능과의 해리(dissociation)가 관찰된다. 분류 정확도가 가장 낮은 LLaMA-11B(accuracy = 0.613)가 arousal Pearson r(.797)에서 최고치를 기록하였다. 이는 감정 범주 분류와 각성도 추정이 서로 다른 시각적-인지적 능력에 의존할 가능성을 시사한다. 범주 분류는 미세한 표정 단서의 이산적 판별(discrete discrimination)을 요구하는 반면, 각성도 추정은 표정의 전반적 강도(global intensity)를 연속적으로 파악하는 능력에 의존하며, LLaMA의 시각적 표상이 후자에 더 적합할 수 있다.

10. 논의

10.1 Thinking 모드의 분류 성능 향상 효과

Gemini 2.5 Flash의 κ = 0.848은 non-thinking 모델(GPT-4o-mini κ = 0.768, Gemma3 κ = 0.668)을 일관되게 상회한다. 가장 두드러진 차이는 sad 인식(58.3% vs. 22.0% 이하)으로, thinking 모드의 체계적 추론이 미세한 시각적 단서 포착에 기여한 것으로 해석된다. 이 해석은 인간 RT 데이터(sad에서 가장 긴 반응시간)와 Gemini thinking 데이터(sad에서 가장 긴 추론)가 수렴적으로 지지한다. 다만 Gemini가 frontier 모델이라는 점(모델 규모, 학습 데이터의 차이)을 고려하면, thinking 모드의 순수 기여분을 분리하기 위해서는 동일 모델의 thinking on/off 비교가 필요하다.

10.2 Arousal 과추정의 원인

Gemini의 arousal 편향(전체 −0.813)은 다른 모델(GPT-4o-mini −0.025, Gemma3 −0.001, LLaMA +0.100)과 질적으로 다르다. 이 과추정은 thinking 과정에서 관찰되는 “근육 긴장”, “눈 크기”, “표정 강도”에 대한 체계적 분석이 각성도를 상향 편향시키는 것으로 해석된다. 즉, thinking이 감정 분류 정확도를 높이는 동시에, 표정의 강도를 과대평가하는 부작용을 초래할 가능성이 있다.

10.3 Sad 인식의 본질: 시각적 모호성과 처리 깊이의 문제

본 분석의 가장 핵심적인 발견은 sad 감정의 처리 난이도가 인간과 VLM 모두에서 확인된다는 것이다. 인간은 sad 자극에서 가장 긴 반응시간을 보이고, Gemini는 가장 긴 thinking을 생성하며, 모든 VLM에서 sad 분류 정확도가 가장 낮다. 이 수렴은 sad의 난이도가 특정 모델이나 자극 세트의 문제가 아니라, sad 표정의 고유한 시각적 특성 — 미세한 근육 변화, 다른 감정과의 중첩, 저강도 표현 — 에 기인하는 근본적 현상임을 시사한다. Naturalness 분석은 이 해석을 추가로 지지하며, sad 이미지의 부자연스러움이 원인이라는 대안 가설을 기각한다.

10.4 한계

본 분석은 1,440장 전량의 인간-VLM 매칭 데이터에 기반한다. 인구통계별 분석과 LMM(Linear Mixed-Effects Model) 분석은 후속 보고서에서 수행할 예정이다. 또한 Gemini가 frontier 모델이라는 점에서, thinking 모드의 순수 기여분과 모델 규모/학습 데이터의 기여분을 분리하기 위해서는 동일 모델의 thinking on/off 비교(ablation)가 필요하다.

부록 A: Manuscript 반영 메모

기존 manuscript v5의 Section 5.3 “Sadness-Neutral Confusion”은 (1) circumplex model에서 sad-neutral 근접성, (2) neutral absorption 패턴, (3) 정신건강 응용 위험성만을 논의하였다. 본 interim report의 분석은 다음 세 가지 새로운 증거를 제공하며, manuscript 개정 시 Section 5.3 확장 또는 별도 섹션으로 반영할 수 있다.

인간 RT 증거 (Section 7.1): Sad 자극에서 인간 arousal RT가 최장 → sad의 처리 난이도가 VLM 고유 문제가 아닌 감정 자체의 특성임을 인간 데이터로 뒷받침. Manuscript에 “The difficulty of sadness recognition is not VLM-specific: human raters also show the longest arousal response times for sad stimuli (Mdn = 1.745s vs. 1.676-1.744s for other emotions, p < .001)” 추가 가능.
Thinking 모드 증거 (Section 6-7): Non-thinking VLM의 sad→neutral 혼동(66-76%)이 thinking VLM(Gemini)에서 17.9%로 감소 → “deliberative processing이 sad 인식의 핵심”이라는 해석. Manuscript에 “Thinking-enabled VLMs reduced sadness-neutral confusion from 66-76% to 17.9%, paralleling the longer human deliberation times and suggesting that sadness recognition requires System 2 processing” 추가 가능. 전체 데이터에서 Gemini thinking × 인간 arousal RT 상관이 ρ = +0.899 (p = .015)로 유의해짐 — 중간 보고서(p = .084)에서 경향성이었던 것이 확정.
Naturalness 방어 (Section 8): Sad 이미지가 fear/disgust보다 자연스러움 → 자극 품질 문제 기각. Manuscript Limitations에서 “AI-generated stimuli quality”에 대한 방어 근거로 활용.

부록 B: 추론 비용

항목	값
이미지당 평균 시간	~23.8초
이미지당 평균 출력 토큰	5 (thinking 제외)
이미지당 평균 입력 토큰	901
3-step 합산 thinking	4,514자 (1,129토큰)

gemini2.5_flash_thinking_report