최종 분석 보고서 (2026-03-29)

1. 전 모델 실험 완료 현황

모델유형체급ThinkingAccuracyκV rA r
Gemini 2.5 FlashAPI (Google)frontier88.1%0.8550.9630.767
GPT-4o-miniAPI (OpenAI)frontier81.2%0.7660.9380.622
Qwen3-VL-4BMLX4B80.6%0.7640.9130.758
Gemma3-4BMLX4B72.5%0.646
LLaMA-3.2-11BMLX11B61.3%0.458

모든 5개 모델 1,440장 완료 (n = 7,200 predictions).


2. 핵심 발견

2.1 Thinking의 효과 — Frontier와 로컬 모두에서 확인

비교No ThinkingThinkingΔ
Frontier (API)GPT-4o-mini (81.2%)Gemini Flash (88.1%)+6.9%p
로컬 4BGemma3-4B (72.5%)Qwen3-VL-4B (80.6%)+8.1%p

Thinking은 frontier와 로컬 모두에서 일관적으로 ~7-8%p 정확도 향상을 보임.

2.2 Sad에서 Thinking 효과가 극대

모델ThinkingSad 정확도
LLaMA-3.2-11B9.2%
Gemma3-4B12.1%
GPT-4o-mini25.4%
Qwen3-VL-4B54.6%
Gemini 2.5 Flash58.3%

No-thinking 모델은 sad를 9-25%로 인식하는 반면, thinking 모델은 55-58%로 2-6배 향상. Thinking이 sad-neutral 구분에 결정적.

2.3 Arousal 예측에서 Thinking 효과

모델ThinkingArousal r
GPT-4o-mini0.622
Qwen3-VL-4B0.758
Gemini 2.5 Flash0.767

Thinking 모델의 arousal 상관이 일관적으로 높음 (r ≈ 0.76 vs 0.62). Thinking이 각성도 판단의 정교성을 높임.

2.4 크기 ≠ 성능, Thinking > 크기

모델체급Thinkingκ
LLaMA-3.2-11B11B0.458
Gemma3-4B4B0.646
Qwen3-VL-4B4B0.764
GPT-4o-minifrontier0.766
Gemini Flashfrontier0.855

4B thinking 모델(Qwen3-VL, κ=0.764)이 frontier no-thinking 모델(GPT, κ=0.766)과 거의 동등. 11B LLaMA(κ=0.458)보다 4B Gemma3(κ=0.646)가 높음. 모델 크기보다 아키텍처와 thinking이 더 중요.


3. 감정별 비교

감정GeminiQwen3-VLGPTGemma3LLaMA
Happy100%100%100%100%100%
Neutral99%96%100%100%100%
Fear97%90%93%98%65%
Angry93%88%94%40%92%
Disgust81%55%75%84%1%
Sad58%55%25%12%9%
  • Happy/Neutral: 전 모델 완벽 — “풀린 문제”
  • Sad: 최대 58% (Gemini) — 전 모델 공통 약점이나 thinking으로 개선
  • 모델별 약점 상이: LLaMA→disgust(1%), Gemma3→angry(40%), Qwen3-VL→disgust(55%)

4. VA 성능

모델ThinkingV MAEV BiasV rA MAEA BiasA r
Gemini1.842−1.2800.9631.951+0.8130.767
GPT1.626−1.0180.9381.572−0.1040.622
Qwen3-VL1.445−0.8240.9132.013+0.0730.758
  • Qwen3-VL이 V MAE 최저(1.445) — valence 정확도 최고
  • “극성 과장 편향”은 전 모델 공통 (V Bias 부정 방향)
  • Thinking 모델의 A r이 일관적으로 높음 (0.758-0.767 vs 0.622)

5. Thinking Token 분석 (cognitive load proxy)

감정Gemini 평균 tokensQwen3-VL 평균 tokens인간 RT (valence)
Happy9491,6084.53s (최단)
Neutral9895.97s
Fear1,0112,2216.18s
Angry9257.49s (최장)
Sad1,2903,9154.91s
Disgust9663,4606.37s
  • Sad에서 thinking 토큰이 가장 많음 → 모델도 sad를 가장 어려워함
  • 오답 시 thinking이 26-69% 더 길어짐 → uncertainty ↑ but accuracy ↓

6. 인종별 정확도

모델BlackCaucasianKorean최대 Δ
Gemini90.4%87.3%86.5%3.9%p
GPT81.9%79.0%82.9%3.9%p
Qwen3-VL75.2%81.9%84.6%9.4%p
Gemma382.7%65.6%69.2%17.1%p
LLaMA56.9%59.0%68.1%11.2%p
  • Frontier 모델(Gemini, GPT)의 인종 편향이 가장 작음 (3.9%p)
  • Qwen3-VL은 Korean에서 최고, Black에서 최저 (9.4%p 차이)
  • Gemma3의 인종 편향이 가장 큼 (17.1%p)

7. 양자화 영향

Frontier API(full-precision)와 로컬 4-bit 양자화 비교:

  • Sad 실패: frontier(GPT 25%)에서도 발생 → 양자화가 아닌 모델 구조적 한계
  • 극성 과장: frontier에서도 동일 → 양자화 무관
  • Fixed-value output: 로컬에서 더 두드러짐 → 양자화가 일부 기여 가능 (MBQ, CVPR 2025)
  • 결론: 4-bit 양자화는 감정 분류에 미미한 영향, VA 차원에서 부분적 영향

8. Manuscript v6 준비 상태

항목상태
5개 모델 1,440장 완료
Thinking 효과 확인✅ (frontier +6.9%p, 로컬 +8.1%p)
Sad-neutral confusion 분석
Thinking token 분석
양자화 문헌 조사
인종별 편향 분석
→ Manuscript v6 작성 대기