Qwen3-VL-4B-Thinking 얼굴 감정 평정 최종 보고서: 4B 로컬 Thinking 모델의 로컬 최고 분류 성능과 역전된 Thinking 패턴

생성일: 2026-03-29 (최종 업데이트)
모델: Qwen3-VL-4B-Thinking (Alibaba, MLX backend, 4-bit quantized)
추론 완료율: 1,440/1,440 (100%), 인간 매칭: 1,440장
보고서 유형: 최종 보고서

1. 요약

Qwen3-VL-4B-Thinking은 Cohen’s κ = 0.761(substantial agreement)을 달성하여, 로컬 실행 모델 중 최고 분류 성능을 기록하였다. 동일 파라미터 규모의 Gemma3-4B(κ = 0.668)보다 0.093, 3배 큰 Gemma3-12B(κ = 0.711)보다 0.050, 11B 규모의 LLaMA-3.2-11B(κ = 0.536)보다 0.225 높다. 4-bit 양자화 환경에서도 API 기반 GPT-4o-mini(κ = 0.768)에 근접하는 수준이다.

Sad 인식(54.6%)은 frontier 모델인 Gemini 2.5 Flash(60.0%)에 이어 두 번째로 높으며, non-thinking 모델(22% 이하)을 크게 상회한다. 이는 4B 규모의 소형 모델에서도 thinking 모드가 sad 인식을 향상시킬 수 있음을 보여주는 증거이다. 그러나 valence에서 부정 감정의 체계적 과소추정(bias = +0.824), arousal에서 감정별 편향 방향의 비일관성(fear −2.13, neutral +2.91)이 관찰되며, 연속 척도 평정에서는 한계가 뚜렷하다.

Thinking 패턴에서 Gemini 2.5 Flash와 질적으로 다른 두 가지 현상이 관찰된다. 첫째, step별 thinking 길이가 단계가 진행될수록 증가하는 패턴(Step 1: 1,042자 → Step 2: 1,865자 → Step 3: 3,073자)을 보이며, Gemini의 감소 패턴과 반대이다. 둘째, sad에서 정답 예측(n=131)의 thinking이 오답(n=109)보다 더 길며(M = 8,056 vs. 7,155, p < .001), “긴 thinking = 불확실성 신호”라는 Gemini의 패턴과 역전된다.

2. 방법

2.1 모델 및 추론 환경

본 절은 Qwen3-VL-4B-Thinking의 모델 구성과 실행 환경을 기술한다. Qwen3-VL-4B-Thinking은 Alibaba가 공개한 40억 파라미터의 thinking mode VLM이다. MLX 프레임워크에서 4-bit 양자화(mlx-community/Qwen3-VL-4B-Thinking-4bit)로 실행하였으며, Apple M1 Max 32GB에서 로컬 추론을 수행하였다. Thinking 모드란 최종 응답 전에 모델 내부에서 chain-of-thought를 생성하는 기능으로, thinking budget은 1,024 토큰으로 설정하였다. Temperature = 0.0, top_p = 0.95, repetition penalty = 1.5를 적용하였다.

Gemini 2.5 Flash(thinking budget = dynamic)와 달리 고정 budget을 사용한 점, 그리고 4-bit 양자화를 적용한 점이 주요 차이이다. 이 설정은 로컬 실행 환경의 메모리 제약(32GB)에 최적화된 것이다.

2.2 추론 전략

다른 모델과 동일한 3단계 순차 추론 전략(context carry)을 사용하였다. 1단계에서 감정 범주를 분류하고, 2단계에서 valence를, 3단계에서 arousal을 평정한다. 각 단계에서 thinking trace가 별도로 기록되어, 모델의 판단 근거를 사후 분석할 수 있다.

2.3 데이터 현황

전체 1,440장에 대해 추론이 완료되었으며(100%), 인간 평정 데이터와 매칭된 1,440장 전체를 분석 대상으로 하였다. 감정별 분포는 6개 감정 각 240장으로 균등하다.

3. 분류 성능

3.1 전체 성능

본 절은 Qwen3-VL-4B-Thinking의 감정 분류 정확도를 기존 모델과 비교한다.

지표Qwen3-VL-4BGemini 2.5 FlashGPT-4o-miniGemma3-12BGemma3-4BLLaMA-11B
Accuracy0.8000.8690.7790.7460.7090.585
Cohen’s κ0.7610.8480.7680.7110.6680.536
F1-macro0.799

κ = 0.761은 “substantial agreement”(0.61–0.80) 구간의 상위에 해당한다. 로컬 실행 모델 중 유일하게 κ > 0.70을 달성하였으며, API 기반 GPT-4o-mini(κ = 0.768)와의 차이는 0.007에 불과하다. 파라미터 효율성 관점에서, 4B 모델이 12B(Gemma3-12B)와 11B(LLaMA-3.2-11B)를 상회하는 결과는 thinking 모드의 기여를 시사한다.

3.2 감정별 분류 성능

감정PrecisionRecallF1N
happy0.9801.0000.990240
fear0.8430.8960.869240
neutral0.7500.9630.843240
angry0.6260.8580.724240
sad1.0000.5460.706240
disgust0.8600.5370.662240

Happy(F1 = 0.990)는 사실상 완벽한 분류를 보인다. Fear(F1 = 0.869)는 두 번째로 높은 성능이다. Sad의 recall(0.546)은 non-thinking 모델(Gemma3-4B 13.5%, LLaMA-11B 9.8%, GPT-4o-mini 22.0%)보다 현저히 높으나, precision(1.000)이 시사하듯 모델이 sad로 분류할 때는 정확하지만 보수적으로 판단한다. Disgust의 recall(0.537)이 낮은 것은 angry로의 대규모 혼동(101장) 때문이다.

Neutral의 precision(0.750)이 recall(0.963)보다 낮은 패턴은 주목할 만하다. 이는 다른 감정(특히 sad)이 neutral로 잘못 흡수되는 현상을 반영하며, non-thinking 모델에서 관찰되는 neutral absorption 패턴이 thinking 모델에서도 부분적으로 잔존함을 보여준다.

3.3 혼동 행렬

인간 \ VLMhappysadangryfeardisgustneutral
happy24000000
sad0131040257
angry0020601913
fear002221500
disgust1010101297
neutral40000231

혼동 행렬에서 세 가지 주요 오류 경로가 확인된다.

**Disgust → angry 혼동(101장, 42.1%)**이 가장 지배적인 오류이다. Gemini 2.5 Flash(44장, 20.6%)의 약 2배에 달하며, disgust 인식의 최대 병목이다. 이 혼동은 disgust와 angry가 공유하는 얼굴 근육 패턴(상순 거상, 비근주름)에 기인하는 것으로, 4B 규모의 모델이 이 미세한 차이를 구분하기에 표현 역량이 부족할 가능성을 시사한다.

**Sad → neutral 혼동(57장, 23.8%)**은 non-thinking 모델(GPT-4o-mini 75.8%)보다 크게 감소하였으나, Gemini 2.5 Flash(39장, 18.1%)보다는 높다. Thinking 모드가 neutral absorption을 억제하되 완전히 제거하지는 못함을 보여준다.

**Sad → fear 혼동(40장, 16.7%)**은 Gemini(22장, 10.2%)보다 높으며, 4B 모델이 sad의 미세한 시각적 단서를 fear로 과해석하는 경향을 반영한다.

이러한 오류 패턴은 Qwen3-VL-4B-Thinking이 sad를 neutral로 성급히 판단하는 것은 억제하지만, sad와 fear/angry 간 미세 구분에서는 frontier 모델 대비 한계를 보임을 시사한다.

4. 정서가 (Valence) 분석

4.1 전체 일치도

본 절은 Qwen3-VL-4B-Thinking의 valence 평정이 인간 평정과 얼마나 일치하는지를 분석한다.

지표Qwen3-VL-4BGemini 2.5 FlashGPT-4o-miniGemma3-12BGemma3-4BLLaMA-11B
Pearson r.913.964.938.929.892.901
Spearman ρ.798
MAE1.4451.9481.707
BA 편향 (인간 − VLM)+0.824+1.359+1.040
BA 일치 한계[−1.927, +3.574][−1.850, +4.569]
통계량인간VLM
M (SD)4.60 (1.42)3.78 (2.57)

Valence 상관(r = .913)은 로컬 모델 중 Gemma3-12B(r = .929)에 이어 두 번째이다. 양의 편향(+0.824)은 VLM이 인간보다 전반적으로 낮은 valence를 출력함을 의미한다. VLM의 SD(2.57)가 인간(1.42)의 1.81배로, 감정 간 valence 차이를 과대하게 표현하는 경향이 있다. LoA 범위([−1.927, +3.574])는 Gemini([−1.850, +4.569])보다 좁아, 개별 이미지 수준의 일치도는 상대적으로 양호하다.

4.2 감정별 Valence 비교

감정Bias (인간 − VLM)r
Happy−0.87.027
Neutral−0.47.112
Sad+1.16.396
Disgust+1.56.228
Angry+1.47.281
Fear+2.09.084

부정 감정의 편향은 fear(+2.09), disgust(+1.56), angry(+1.47), sad(+1.16) 순이다. Gemini 2.5 Flash(fear +2.66, angry +2.37, disgust +2.43)와 비교하면 편향의 절대값은 전반적으로 작으나, 방향은 동일하게 부정 감정의 valence를 과소추정한다. Happy에서는 반대로 VLM이 인간보다 높은 valence를 출력한다(−0.87).

감정 내 상관에서 sad(r = .396)가 가장 높아, Qwen3-VL이 sad 이미지 간 valence 차이를 가장 잘 변별한다. 이는 Gemini(neutral r = .412, sad r = .375)와 유사한 패턴으로, thinking 모델이 공통적으로 sad의 미세한 정서가 차이를 포착하는 데 상대적 강점을 보임을 시사한다. 반면 fear(r = .084)와 happy(r = .027)의 감정 내 상관이 극히 낮아, 이 감정들에서는 이미지 간 개인차를 거의 반영하지 못한다.

5. 각성도 (Arousal) 분석

5.1 전체 일치도

본 절은 Qwen3-VL-4B-Thinking의 arousal 평정 특성을 분석한다.

지표Qwen3-VL-4BGemini 2.5 FlashGPT-4o-miniGemma3-4BLLaMA-11B
Pearson r.758.742.624.739.783
Spearman ρ.794
MAE2.0131.890
BA 편향 (인간 − VLM)−0.073−1.047
BA 일치 한계[−4.362, +4.216][−4.505, +2.411]
통계량인간VLM
M (SD)5.61 (0.60)5.68 (2.61)

Arousal 상관(r = .758)은 Gemma3-4B(r = .739) 및 Gemini 2.5 Flash(r = .742)를 소폭 상회한다. 전체 편향(−0.073)은 극히 작아, 평균적으로는 인간과 거의 동일한 각성도를 출력한다. 그러나 VLM의 SD(2.61)가 인간(0.60)의 4.35배에 달하며, LoA 범위([−4.362, +4.216])가 8.58점에 이르러 개별 이미지 수준의 일치도는 낮다.

5.2 감정별 Arousal 비교

감정Bias (인간 − VLM)r
Neutral+2.91.027
Sad+1.37.223
Happy−1.56.048
Fear−2.13.082
Angry−0.56.255
Disgust−0.47.275

Arousal 편향 패턴은 Gemini 2.5 Flash와 유사한 이분법적 구조를 보인다. 고각성 감정(fear −2.13, happy −1.56)에서는 VLM이 인간보다 높게, 저각성 감정(neutral +2.91, sad +1.37)에서는 낮게 평정한다. Neutral에서의 편향(+2.91)이 가장 크며, Gemini(+2.94)와 거의 동일하다. 이는 두 thinking 모델이 공통적으로 neutral을 “극저각성”으로 처리하는 경향을 시사한다.

Angry(−0.56)와 disgust(−0.47)의 편향은 비교적 작아, 중간 각성 수준의 감정에서는 인간과 근접한 판단을 보인다. 감정 내 상관에서 disgust(r = .275)와 angry(r = .255)가 가장 높고, neutral(r = .027)과 happy(r = .048)는 사실상 무상관이다. 이는 모델이 neutral과 happy의 각성도를 거의 고정값으로 출력함을 의미한다.

6. 사고 과정 (Thinking) 분석

6.1 감정별 Thinking Trace 길이

본 절은 Qwen3-VL-4B-Thinking의 thinking trace를 정량적으로 분석하여 Gemini 2.5 Flash와의 구조적 차이를 규명한다.

감정Nt_emotion Mt_valence Mt_arousal MTotal M (SD)
Sad2401,4032,8433,4027,647 (1,833)
Angry2401,2201,1003,7846,103 (1,350)
Disgust2401,5331,0793,8816,493 (1,475)
Fear2401,5641,5172,6835,764 (2,252)
Neutral2403763,8461,4335,656 (1,153)
Happy2401588043,2554,217 (1,361)

Note. 단위: characters. N = 감정별 이미지 수.

Gemini 2.5 Flash와 동일하게 sad가 가장 긴 thinking(M = 7,647자)을 생성하고, happy가 가장 짧다(M = 4,217자). 그러나 절대 길이에서 Qwen3-VL(sad 7,647자)이 Gemini(sad 5,413자)보다 41% 더 길다. 이는 4-bit 양자화 모델이 동일한 판단에 더 많은 추론 자원을 소모함을 시사하며, thinking budget(1,024 토큰)이 일부 이미지에서 초과되는 현상과 관련될 수 있다.

감정별로 step 간 thinking 배분이 Gemini와 질적으로 다르다. Happy에서 emotion step의 thinking이 158자로 극단적으로 짧은 반면(Gemini 1,547자), arousal step에서 3,255자로 급증한다. Neutral에서는 valence step(3,846자)이 가장 긴데, 이는 neutral의 정서가를 판단하는 데 모델이 어려움을 겪는 것으로 해석된다.

6.2 Step별 Thinking 증가 패턴

Step평균 thinking 길이 (chars)
Step 1 (Emotion)1,042
Step 2 (Valence)1,865
Step 3 (Arousal)3,073

Qwen3-VL의 thinking 길이는 step이 진행될수록 일관되게 증가한다(1,042 → 1,865 → 3,073). 이는 Gemini 2.5 Flash에서 Step 2(valence)의 thinking이 감소하는 패턴과 대비된다. 이 증가 패턴에 대해 두 가지 해석이 가능하다.

첫째, context carry 전략에서 이전 단계의 응답이 문맥으로 누적되므로, 입력 길이가 증가함에 따라 thinking도 길어질 수 있다. 이 경우 thinking 증가는 판단 난이도가 아닌 문맥 길이의 함수이다.

둘째, arousal 평정이 감정 범주와 valence 정보를 종합해야 하는 더 복잡한 판단이므로, 실제로 더 많은 추론이 필요할 수 있다. 인간 RT 데이터에서도 arousal 평정 시간이 다른 차원보다 긴 경향이 있어, 이 해석을 일부 지지한다.

두 해석을 분리하기 위해서는 step 순서를 변경한 ablation 실험이 필요하며, 현재 데이터만으로는 결정적 판단이 어렵다.

6.3 Thinking 길이와 정답률의 관계: Gemini와의 역전

Sad 자극(N = 240)에서 Qwen3-VL이 정답으로 분류한 경우(n = 131)의 thinking 길이(M = 8,056자)는 오답인 경우(n = 109, M = 7,155자)보다 901자 더 길었으며, 이 차이는 유의하였다(Mann-Whitney p < .001).

모델Sad 정답 thinkingSad 오답 thinking방향
Qwen3-VL-4B8,056자 (n=131)7,155자 (n=109)정답 > 오답
Gemini 2.5 Flash5,142자 (n=140)5,793자 (n=100)오답 > 정답

이 역전 패턴은 두 모델 간 thinking의 기능적 차이를 시사한다. Gemini에서는 긴 thinking이 불확실성의 신호(signal of uncertainty)이다. 모델이 판단에 어려움을 겪을수록 더 길게 사고하며, 추가 추론이 항상 정답으로 이어지지는 않는다. 반면 Qwen3-VL에서는 긴 thinking이 충분한 추론의 신호(signal of sufficient reasoning)이다. 모델이 충분히 길게 사고해야 정답에 도달하며, thinking이 짧을 때 오답이 발생한다.

이 차이는 모델 규모와 관련될 가능성이 있다. Frontier 모델(Gemini)은 기본적인 표현 역량이 충분하므로, 긴 thinking은 자극의 모호성을 반영한다. 소형 모델(Qwen3-VL 4B)은 기본 역량이 제한적이므로, thinking이 부족할 때 단순한 패턴 매칭에 의존하여 오답이 발생하고, 충분한 thinking이 보상적으로 작용하여 정답률을 높인다.

7. 인간-모델 Agreement: 인간 반응시간과 VLM Thinking의 수렴적 증거

7.1 인간 Arousal RT와 VLM Thinking 길이

인간 참가자의 arousal 평정 반응시간(RT)과 Qwen3-VL의 thinking 길이를 감정별로 비교하였다.

감정VLM 정답률Qwen3-VL Thinking (chars)인간 Arousal RT Median (s)
Happy1.0004,217 (최단)1.676 (최단)
Neutral0.9635,6561.676 (최단)
Fear0.8965,7641.744
Angry0.8586,1031.707
Disgust0.5376,4931.713
Sad0.546 (최저)7,647 (최장)1.745 (최장)

Gemini 2.5 Flash 보고서에서 확인된 세 지표(VLM 정답률, VLM thinking 길이, 인간 arousal RT) 간의 수렴 패턴이 Qwen3-VL에서도 관찰된다. VLM 정답률이 가장 낮은 감정(sad)에서 thinking이 가장 길고, 인간 RT도 가장 길다. 반대로 happy에서는 세 지표 모두 최소/최단이다.

이 패턴은 sad의 처리 난이도가 특정 모델이나 모델 규모에 국한되지 않는 범용적 현상임을 추가로 확인한다. 4B 소형 모델에서도 인간과 유사한 감정별 난이도 위계가 thinking 길이에 반영되며, 이는 감정 인식의 난이도가 자극의 시각적 특성에 의해 결정되는 과제 고유 속성(task-intrinsic property)임을 시사한다.

7.2 Thinking 모드의 Sad 인식 향상 효과: 소형 모델에서의 재현

Thinking 모드의 sad 인식 향상 효과가 frontier 모델뿐 아니라 4B 소형 모델에서도 재현됨은 이론적으로 중요하다.

모델파라미터ThinkingSad Recall
LLaMA-3.2-11B11B없음9.8%
Gemma3-4B4B없음13.5%
GPT-4o-mini없음22.0%
Qwen3-VL-4B4B있음54.6%
Gemini 2.5 Flash있음60.0%

Non-thinking 모델의 sad recall 범위(9.8–22.0%)와 thinking 모델의 범위(54.6–60.0%) 사이에 명확한 gap이 존재한다. 특히 Qwen3-VL-4B(4B, thinking)이 GPT-4o-mini(non-thinking)보다 32.6%p 높은 sad recall을 달성한 점은, 모델 규모가 아닌 thinking 메커니즘이 sad 인식의 핵심 요인임을 시사한다. 이는 Kahneman(2011)의 이중 처리 이론에서 System 2 처리가 과제 난이도와 무관하게 일정 수준의 인지적 이점을 제공한다는 관점과 일치한다.

8. 논의

8.1 Thinking 모드의 파라미터 효율성

Qwen3-VL-4B-Thinking의 κ = 0.761은 3배 큰 Gemma3-12B(κ = 0.711)를 상회한다. 이 결과는 thinking 모드가 모델 규모의 한계를 부분적으로 보상할 수 있음을 보여준다. 감정 분류에서 가장 큰 차이가 발생하는 sad(54.6% vs. Gemma3-12B 추정 20% 이하)를 고려하면, thinking이 특히 높은 처리 깊이를 요구하는 감정에서 효과적이다.

그러나 이 해석에는 주의가 필요하다. Qwen3-VL과 Gemma3는 아키텍처, 학습 데이터, 학습 방법이 모두 다르므로, 성능 차이를 thinking 모드에만 귀인할 수 없다. 동일 모델의 thinking on/off 비교(ablation)가 이루어져야 thinking의 순수 기여분을 분리할 수 있다.

8.2 두 Thinking 모델의 질적 차이

Qwen3-VL-4B-Thinking과 Gemini 2.5 Flash는 모두 thinking 모드를 사용하지만, 양적 및 질적으로 다른 thinking 패턴을 보인다.

특성Qwen3-VL-4BGemini 2.5 Flash
Step별 thinking 추이증가 (1,042→3,073)Step 2에서 감소
Sad 정답 vs. 오답정답이 더 김오답이 더 김
Thinking 총량Sad 7,647자Sad 5,413자
Sad recall54.6%60.0%

이 차이는 thinking의 효율성 관점에서 해석할 수 있다. Gemini는 더 짧은 thinking으로 더 높은 정답률을 달성하며, 불필요한 추론 시 thinking이 길어진다(오답에서 더 긴 thinking). Qwen3-VL은 더 긴 thinking이 필요하며, thinking이 충분하지 않을 때 성능이 저하된다(오답에서 더 짧은 thinking). 이는 frontier 모델의 thinking이 “효율적 검증(efficient verification)“에 가깝고, 소형 모델의 thinking이 “보상적 추론(compensatory reasoning)“에 가까움을 시사한다.

8.3 연속 척도 평정의 한계

분류 성능(κ = 0.761)과 달리, valence(r = .913)와 arousal(r = .758)에서는 개별 이미지 수준의 일치도가 낮다. 특히 arousal에서 VLM의 SD(2.61)가 인간(0.60)의 4.35배에 달하는 것은 모델이 감정 범주에 기반한 고정적 각성도를 출력하되, 이미지 간 미세한 강도 차이를 포착하지 못함을 의미한다. 이 문제는 Gemini에서도 유사하게 관찰되며(VLM SD가 인간 대비 2–3배), 현세대 VLM의 구조적 한계일 가능성이 있다.

Fear의 arousal 편향(−2.13)과 neutral의 편향(+2.91)은 모델이 감정의 존재를 “고각성”으로, 부재를 “극저각성”으로 이분법적 처리하는 경향을 반영한다. 이 패턴이 Gemini(fear −2.08, neutral +2.94)와 거의 동일하다는 점은, 이분법적 arousal 처리가 thinking 모델에 공통적인 편향일 가능성을 시사한다.

8.4 한계

본 분석의 한계는 다음과 같다. 첫째, 4-bit 양자화가 thinking 품질에 미치는 영향을 통제하지 못하였다. FP16이나 8-bit 양자화와의 비교가 필요하다. 둘째, thinking budget을 1,024 토큰으로 고정하였으나, Gemini의 dynamic budget과의 직접 비교를 위해서는 budget ablation이 필요하다. 셋째, 인구통계별 분석(race, gender)과 LMM 분석은 후속 보고서에서 수행한다. 넷째, thinking trace의 질적 내용 분석(어떤 얼굴 영역을 언급하는지, 추론 논리의 일관성 등)은 본 보고서에서 다루지 않았으며, 후속 연구로 남긴다.

부록 A: Manuscript 반영 메모

본 보고서의 분석 결과는 manuscript 개정 시 다음과 같이 반영할 수 있다.

  1. Thinking 모드의 일반화 가능성: Gemini 2.5 Flash(frontier)에서 관찰된 thinking의 sad 인식 향상이 Qwen3-VL-4B(4B 로컬)에서도 재현됨. “The benefit of thinking mode for sadness recognition generalizes to small-scale (4B) local models, with Qwen3-VL-4B-Thinking achieving 54.6% sad recall compared to <22% for non-thinking models of comparable or larger size.”

  2. Thinking 패턴의 모델 규모 의존성: 정답/오답 thinking 길이의 역전 패턴은 모델 규모에 따라 thinking의 기능이 달라짐을 시사. “In frontier models, longer thinking signals uncertainty (wrong > correct), whereas in small models, longer thinking signals sufficient reasoning (correct > wrong), suggesting a qualitative shift in the role of deliberative processing across model scales.”

  3. 파라미터 효율성: 4B thinking 모델이 12B non-thinking 모델을 상회하는 결과는 thinking 메커니즘의 가치를 강조. “Thinking-enabled 4B model surpassed non-thinking 12B model in classification (κ = 0.761 vs. 0.711), demonstrating that deliberative reasoning can partially compensate for limited model capacity.”

부록 B: 추론 환경

항목
실행 환경Apple M1 Max 32GB, MLX backend
양자화4-bit (mlx-community/Qwen3-VL-4B-Thinking-4bit)
Temperature0.0
Top-p0.95
Repetition penalty1.5
Thinking budget1,024 tokens/step
추론 전략context_carry (3-step)
전체 이미지1,440장
인간 매칭1,440장