최종 분석 보고서 (2026-03-29)

1. 전 모델 실험 완료 현황

모델	유형	체급	Thinking	Accuracy	κ	V r	A r
Gemini 2.5 Flash	API (Google)	frontier	✅	88.1%	0.855	0.963	0.767
GPT-4o-mini	API (OpenAI)	frontier	❌	81.2%	0.766	0.938	0.622
Qwen3-VL-4B	MLX	4B	✅	80.6%	0.764	0.913	0.758
Gemma3-4B	MLX	4B	❌	72.5%	0.646	—	—
LLaMA-3.2-11B	MLX	11B	❌	61.3%	0.458	—	—

모든 5개 모델 1,440장 완료 (n = 7,200 predictions).

2. 핵심 발견

2.1 Thinking의 효과 — Frontier와 로컬 모두에서 확인

비교	No Thinking	Thinking	Δ
Frontier (API)	GPT-4o-mini (81.2%)	Gemini Flash (88.1%)	+6.9%p
로컬 4B	Gemma3-4B (72.5%)	Qwen3-VL-4B (80.6%)	+8.1%p

Thinking은 frontier와 로컬 모두에서 일관적으로 ~7-8%p 정확도 향상을 보임.

2.2 Sad에서 Thinking 효과가 극대

모델	Thinking	Sad 정확도
LLaMA-3.2-11B	❌	9.2%
Gemma3-4B	❌	12.1%
GPT-4o-mini	❌	25.4%
Qwen3-VL-4B	✅	54.6%
Gemini 2.5 Flash	✅	58.3%

No-thinking 모델은 sad를 9-25%로 인식하는 반면, thinking 모델은 55-58%로 2-6배 향상. Thinking이 sad-neutral 구분에 결정적.

2.3 Arousal 예측에서 Thinking 효과

모델	Thinking	Arousal r
GPT-4o-mini	❌	0.622
Qwen3-VL-4B	✅	0.758
Gemini 2.5 Flash	✅	0.767

Thinking 모델의 arousal 상관이 일관적으로 높음 (r ≈ 0.76 vs 0.62). Thinking이 각성도 판단의 정교성을 높임.

2.4 크기 ≠ 성능, Thinking > 크기

모델	체급	Thinking	κ
LLaMA-3.2-11B	11B	❌	0.458
Gemma3-4B	4B	❌	0.646
Qwen3-VL-4B	4B	✅	0.764
GPT-4o-mini	frontier	❌	0.766
Gemini Flash	frontier	✅	0.855

4B thinking 모델(Qwen3-VL, κ=0.764)이 frontier no-thinking 모델(GPT, κ=0.766)과 거의 동등. 11B LLaMA(κ=0.458)보다 4B Gemma3(κ=0.646)가 높음. 모델 크기보다 아키텍처와 thinking이 더 중요.

3. 감정별 비교

감정	Gemini	Qwen3-VL	GPT	Gemma3	LLaMA
Happy	100%	100%	100%	100%	100%
Neutral	99%	96%	100%	100%	100%
Fear	97%	90%	93%	98%	65%
Angry	93%	88%	94%	40%	92%
Disgust	81%	55%	75%	84%	1%
Sad	58%	55%	25%	12%	9%

Happy/Neutral: 전 모델 완벽 — “풀린 문제”
Sad: 최대 58% (Gemini) — 전 모델 공통 약점이나 thinking으로 개선
모델별 약점 상이: LLaMA→disgust(1%), Gemma3→angry(40%), Qwen3-VL→disgust(55%)

4. VA 성능

모델	Thinking	V MAE	V Bias	V r	A MAE	A Bias	A r
Gemini	✅	1.842	−1.280	0.963	1.951	+0.813	0.767
GPT	❌	1.626	−1.018	0.938	1.572	−0.104	0.622
Qwen3-VL	✅	1.445	−0.824	0.913	2.013	+0.073	0.758

Qwen3-VL이 V MAE 최저(1.445) — valence 정확도 최고
“극성 과장 편향”은 전 모델 공통 (V Bias 부정 방향)
Thinking 모델의 A r이 일관적으로 높음 (0.758-0.767 vs 0.622)

5. Thinking Token 분석 (cognitive load proxy)

감정	Gemini 평균 tokens	Qwen3-VL 평균 tokens	인간 RT (valence)
Happy	949	1,608	4.53s (최단)
Neutral	989	—	5.97s
Fear	1,011	2,221	6.18s
Angry	925	—	7.49s (최장)
Sad	1,290	3,915	4.91s
Disgust	966	3,460	6.37s

Sad에서 thinking 토큰이 가장 많음 → 모델도 sad를 가장 어려워함
오답 시 thinking이 26-69% 더 길어짐 → uncertainty ↑ but accuracy ↓

6. 인종별 정확도

모델	Black	Caucasian	Korean	최대 Δ
Gemini	90.4%	87.3%	86.5%	3.9%p
GPT	81.9%	79.0%	82.9%	3.9%p
Qwen3-VL	75.2%	81.9%	84.6%	9.4%p
Gemma3	82.7%	65.6%	69.2%	17.1%p
LLaMA	56.9%	59.0%	68.1%	11.2%p

Frontier 모델(Gemini, GPT)의 인종 편향이 가장 작음 (3.9%p)
Qwen3-VL은 Korean에서 최고, Black에서 최저 (9.4%p 차이)
Gemma3의 인종 편향이 가장 큼 (17.1%p)

7. 양자화 영향

Frontier API(full-precision)와 로컬 4-bit 양자화 비교:

Sad 실패: frontier(GPT 25%)에서도 발생 → 양자화가 아닌 모델 구조적 한계
극성 과장: frontier에서도 동일 → 양자화 무관
Fixed-value output: 로컬에서 더 두드러짐 → 양자화가 일부 기여 가능 (MBQ, CVPR 2025)
결론: 4-bit 양자화는 감정 분류에 미미한 영향, VA 차원에서 부분적 영향

8. Manuscript v6 준비 상태

항목	상태
5개 모델 1,440장 완료	✅
Thinking 효과 확인	✅ (frontier +6.9%p, 로컬 +8.1%p)
Sad-neutral confusion 분석	✅
Thinking token 분석	✅
양자화 문헌 조사	✅
인종별 편향 분석	✅
→ Manuscript v6 작성 대기	⏳

Juhyeon's Blog

탐색기

interim_analysis_report