최종 분석 보고서 (2026-03-29)
1. 전 모델 실험 완료 현황
| 모델 | 유형 | 체급 | Thinking | Accuracy | κ | V r | A r |
|---|
| Gemini 2.5 Flash | API (Google) | frontier | ✅ | 88.1% | 0.855 | 0.963 | 0.767 |
| GPT-4o-mini | API (OpenAI) | frontier | ❌ | 81.2% | 0.766 | 0.938 | 0.622 |
| Qwen3-VL-4B | MLX | 4B | ✅ | 80.6% | 0.764 | 0.913 | 0.758 |
| Gemma3-4B | MLX | 4B | ❌ | 72.5% | 0.646 | — | — |
| LLaMA-3.2-11B | MLX | 11B | ❌ | 61.3% | 0.458 | — | — |
모든 5개 모델 1,440장 완료 (n = 7,200 predictions).
2. 핵심 발견
2.1 Thinking의 효과 — Frontier와 로컬 모두에서 확인
| 비교 | No Thinking | Thinking | Δ |
|---|
| Frontier (API) | GPT-4o-mini (81.2%) | Gemini Flash (88.1%) | +6.9%p |
| 로컬 4B | Gemma3-4B (72.5%) | Qwen3-VL-4B (80.6%) | +8.1%p |
Thinking은 frontier와 로컬 모두에서 일관적으로 ~7-8%p 정확도 향상을 보임.
2.2 Sad에서 Thinking 효과가 극대
| 모델 | Thinking | Sad 정확도 |
|---|
| LLaMA-3.2-11B | ❌ | 9.2% |
| Gemma3-4B | ❌ | 12.1% |
| GPT-4o-mini | ❌ | 25.4% |
| Qwen3-VL-4B | ✅ | 54.6% |
| Gemini 2.5 Flash | ✅ | 58.3% |
No-thinking 모델은 sad를 9-25%로 인식하는 반면, thinking 모델은 55-58%로 2-6배 향상. Thinking이 sad-neutral 구분에 결정적.
2.3 Arousal 예측에서 Thinking 효과
| 모델 | Thinking | Arousal r |
|---|
| GPT-4o-mini | ❌ | 0.622 |
| Qwen3-VL-4B | ✅ | 0.758 |
| Gemini 2.5 Flash | ✅ | 0.767 |
Thinking 모델의 arousal 상관이 일관적으로 높음 (r ≈ 0.76 vs 0.62). Thinking이 각성도 판단의 정교성을 높임.
2.4 크기 ≠ 성능, Thinking > 크기
| 모델 | 체급 | Thinking | κ |
|---|
| LLaMA-3.2-11B | 11B | ❌ | 0.458 |
| Gemma3-4B | 4B | ❌ | 0.646 |
| Qwen3-VL-4B | 4B | ✅ | 0.764 |
| GPT-4o-mini | frontier | ❌ | 0.766 |
| Gemini Flash | frontier | ✅ | 0.855 |
4B thinking 모델(Qwen3-VL, κ=0.764)이 frontier no-thinking 모델(GPT, κ=0.766)과 거의 동등. 11B LLaMA(κ=0.458)보다 4B Gemma3(κ=0.646)가 높음. 모델 크기보다 아키텍처와 thinking이 더 중요.
3. 감정별 비교
| 감정 | Gemini | Qwen3-VL | GPT | Gemma3 | LLaMA |
|---|
| Happy | 100% | 100% | 100% | 100% | 100% |
| Neutral | 99% | 96% | 100% | 100% | 100% |
| Fear | 97% | 90% | 93% | 98% | 65% |
| Angry | 93% | 88% | 94% | 40% | 92% |
| Disgust | 81% | 55% | 75% | 84% | 1% |
| Sad | 58% | 55% | 25% | 12% | 9% |
- Happy/Neutral: 전 모델 완벽 — “풀린 문제”
- Sad: 최대 58% (Gemini) — 전 모델 공통 약점이나 thinking으로 개선
- 모델별 약점 상이: LLaMA→disgust(1%), Gemma3→angry(40%), Qwen3-VL→disgust(55%)
4. VA 성능
| 모델 | Thinking | V MAE | V Bias | V r | A MAE | A Bias | A r |
|---|
| Gemini | ✅ | 1.842 | −1.280 | 0.963 | 1.951 | +0.813 | 0.767 |
| GPT | ❌ | 1.626 | −1.018 | 0.938 | 1.572 | −0.104 | 0.622 |
| Qwen3-VL | ✅ | 1.445 | −0.824 | 0.913 | 2.013 | +0.073 | 0.758 |
- Qwen3-VL이 V MAE 최저(1.445) — valence 정확도 최고
- “극성 과장 편향”은 전 모델 공통 (V Bias 부정 방향)
- Thinking 모델의 A r이 일관적으로 높음 (0.758-0.767 vs 0.622)
5. Thinking Token 분석 (cognitive load proxy)
| 감정 | Gemini 평균 tokens | Qwen3-VL 평균 tokens | 인간 RT (valence) |
|---|
| Happy | 949 | 1,608 | 4.53s (최단) |
| Neutral | 989 | — | 5.97s |
| Fear | 1,011 | 2,221 | 6.18s |
| Angry | 925 | — | 7.49s (최장) |
| Sad | 1,290 | 3,915 | 4.91s |
| Disgust | 966 | 3,460 | 6.37s |
- Sad에서 thinking 토큰이 가장 많음 → 모델도 sad를 가장 어려워함
- 오답 시 thinking이 26-69% 더 길어짐 → uncertainty ↑ but accuracy ↓
6. 인종별 정확도
| 모델 | Black | Caucasian | Korean | 최대 Δ |
|---|
| Gemini | 90.4% | 87.3% | 86.5% | 3.9%p |
| GPT | 81.9% | 79.0% | 82.9% | 3.9%p |
| Qwen3-VL | 75.2% | 81.9% | 84.6% | 9.4%p |
| Gemma3 | 82.7% | 65.6% | 69.2% | 17.1%p |
| LLaMA | 56.9% | 59.0% | 68.1% | 11.2%p |
- Frontier 모델(Gemini, GPT)의 인종 편향이 가장 작음 (3.9%p)
- Qwen3-VL은 Korean에서 최고, Black에서 최저 (9.4%p 차이)
- Gemma3의 인종 편향이 가장 큼 (17.1%p)
7. 양자화 영향
Frontier API(full-precision)와 로컬 4-bit 양자화 비교:
- Sad 실패: frontier(GPT 25%)에서도 발생 → 양자화가 아닌 모델 구조적 한계
- 극성 과장: frontier에서도 동일 → 양자화 무관
- Fixed-value output: 로컬에서 더 두드러짐 → 양자화가 일부 기여 가능 (MBQ, CVPR 2025)
- 결론: 4-bit 양자화는 감정 분류에 미미한 영향, VA 차원에서 부분적 영향
8. Manuscript v6 준비 상태
| 항목 | 상태 |
|---|
| 5개 모델 1,440장 완료 | ✅ |
| Thinking 효과 확인 | ✅ (frontier +6.9%p, 로컬 +8.1%p) |
| Sad-neutral confusion 분석 | ✅ |
| Thinking token 분석 | ✅ |
| 양자화 문헌 조사 | ✅ |
| 인종별 편향 분석 | ✅ |
| → Manuscript v6 작성 대기 | ⏳ |