시각-언어 모델은 인간처럼 감정을 인식하는가? AI 생성 얼굴 자극에서의 VLM 감정 인식에 대한 이중 처리 설명

저자: Jini Tae, Ju-Hyeon Park, Wonil Choi

소속: Gwangju Institute of Science and Technology (GIST), South Korea

초록

시각-언어 모델(Vision Language Models, VLMs)은 인간 감정 주석의 확장 가능한 대안으로 점점 더 많이 활용되고 있으나, 범주적 정확도를 넘어선 인간 감정 인식과의 정합성은 아직 충분히 이해되지 않았다. 본 연구는 VLM을 인간 감정 평정 패러다임의 추가 평정자로 취급하는 심리측정적 프레임워크를 도입하여, 6개의 VLM — 3개의 로컬 오픈소스 모델(Gemma3-4B-IT, Gemma3-12B-IT, LLaMA-3.2-11B-Vision)과 2개의 프론티어 API 모델(GPT-4o-mini, Gemini 2.5 Flash), 그리고 1개의 로컬 thinking 모델(Qwen3-VL-4B-Thinking) — 을 1,000명의 인간 참가자와 비교한다. 비교는 3개 인종(Black, Caucasian, Korean), 2개 성별, 6개 기본 감정에 걸쳐 균형 잡힌 1,440장의 AI 생성 얼굴 이미지에서 수행되었다. Cohen’s κ, Pearson 상관, MAE, 혼합효과 모델을 사용하여 범주적 일치도, 차원적 정합성(정서가와 각성도), 인구통계학적 편향을 인간 평정자 간 신뢰도를 기준으로 평가하였다.

6개 VLM은 보통에서 거의 완벽한 수준의 범주적 일치도(κ = 0.535–0.857)를 보였다. 교차 모델 비교에서 thinking 기능을 가진 모델은 7–8 pp의 정확도 이점을 보였으나, Gemini 2.5 Flash에 대한 output suppression test — 내부 추론 토큰을 줄이되 완전히 제거하지는 못한 — 에서는 정확도 차이가 나타나지 않아(943장 서브셋에서 89.5% vs. 89.1%), thinking 모드의 인과적 역할은 미해결 상태이다. 가장 큰 정확도 향상은 슬픔 인식에서 나타났으며, thinking 기능을 가진 모델이 55–58%의 정확도를 달성한 반면 non-thinking 모델은 9–27%에 그쳤다. 본 연구는 슬픔 인식의 어려움이 숙고적 처리를 필요로 하는 범행위자적(cross-agent) 현상임을 보여주는 세 가지 수렴적 증거를 제시한다: (1) 인간 평정자는 슬픔 자극에서 가장 긴 반응시간을 보이고(각성도 평정 Mdn = 1.745초), (2) VLM thinking 모델은 슬픔 자극에서 행복 자극 대비 31–143% 더 긴 추론 흔적을 생성하며, (3) 슬픔 자극은 공포, 혐오, 분노 자극보다 높은 인간 자연스러움 평정을 받아 자극 품질을 대안적 설명에서 배제한다. 이러한 발견은 이중 처리 이론(Kahneman, 2011)에 부합한다: non-thinking VLM은 System 1 처리와 유사한 방식으로 작동하여 저강도 감정에서 실패하며, thinking VLM은 이 한계를 부분적으로 보상하는 숙고를 수행한다 — 다만 thinking 모드 자체의 인과적 역할은 output suppression 결과에 의해 제한된다. 4B 로컬 thinking 모델(Qwen3-VL, κ = 0.767)이 프론티어 non-thinking 모델(GPT-4o-mini, κ = 0.775)과 거의 동등한 성능을 달성하여, chain-of-thought 기능을 포함한 구조적 차이가 모델 규모를 부분적으로 보상할 수 있음을 시사한다.

정서가 상관은 높으나(r = .892–.964) 절대 오차가 크며(MAE = 1.48–1.95), 이는 프론티어 전정밀도 모델에서도 지속되는 극성 과장 편향(polarity exaggeration bias)에 기인하여, 양자화가 아닌 구조적 한계임을 확인한다. 각성도 상관은 모든 모델에서 보통 수준이며(r = .623–.783), 체계적인 thinking 이점은 보이지 않는다: non-thinking 모델인 LLaMA (r = .783)와 Gemma3-4B (r = .739)가 thinking 모델인 Gemini (r = .742)와 Qwen3-VL (r = .733)과 동등하거나 이를 상회한다. 인구통계학적 편향 패턴은 모델별로 상이하며, 프론티어 모델이 로컬 모델(4.8–9.4%p)보다 작은 인종별 정확도 격차(3.9%p)를 보인다.

핵심어: 시각-언어 모델, 얼굴 감정 인식, 심리측정적 일치도, 이중 처리 이론, Chain-of-Thought 추론, 정서가-각성도, 인구통계학적 편향, AI 생성 얼굴, 정서 컴퓨팅

1. 서론

1.1 정서 컴퓨팅과 VLM의 가능성

정신건강 챗봇부터 반응형 가상 비서까지 정서 컴퓨팅 시스템의 배포는 얼굴 표정으로부터의 정확한 자동 감정 인식에 점점 더 의존하고 있다. 이러한 시스템의 효과는 정서적 정합성(affective alignment), 즉 기계의 감정 단서 해석이 인간 심리학적 기준과 일치하는 정도에 달려 있다(Pantic et al., 2005). 공감적 에이전트가 사용자의 고통 강도를 오해석하면 사용자 신뢰를 훼손하고 의미 있는 상호작용을 유지하는 데 실패할 위험이 있다.

시각-언어 모델(VLM)은 과제 특화 얼굴 표정 인식(FER) 모델에서 범용 멀티모달 시스템으로의 패러다임 전환을 대표한다. VLM은 시각 인코더와 대규모 언어 모델을 통합하여 자연어 프롬프팅을 통한 이미지 조건부 텍스트 생성을 가능하게 하는 모델이다. FER 특화 모델이 감정 레이블 데이터셋에서 종단 간 학습되어 고정된 감정 범주를 출력하는 반면, VLM은 지시문 프롬프팅을 통해 범주적 및 차원적 감정 평정을 유연하게 생성할 수 있다.

VLM이 정말로 인간처럼 감정을 인식하는지 평가하려면 차원적 측정 프레임워크가 필요하다. 정서 원환 모델(Circumplex Model of Affect; Russell, 1980)은 모든 정서적 경험을 정서가(valence)와 각성도(arousal)로 정의되는 연속적 2차원 공간에 배치하는 이론적 프레임워크이다. 정서가는 정서 경험의 쾌-불쾌 속성이며, 각성도는 생리적 활성화 정도이다.

1.2 평가의 공백

현재의 VLM 평가는 네 가지 핵심적 공백을 가진다. 첫째, 인간 일치도 기준의 부재. 둘째, 범주적 정확도에만 집중하고 차원 평정을 소홀히 함. 셋째, VLM에 대한 인구통계학적 편향 감사의 부재. 넷째, 추론 모드가 감정 인식에 미치는 영향 조사의 부재 — 이 구분은 Kahneman(2011)의 이중 처리 이론과 느슨하게 병행한다(loosely parallels).

1.3 기여와 연구 질문

본 논문의 다섯 가지 기여: (1) VLM-as-rater 심리측정적 프레임워크, (2) 슬픔 인식 어려움의 수렴적 증거, (3) Gemini 2.5 Flash output suppression test를 통한 방법론적 교훈 — thinking을 진정으로 비활성화하기 어려움을 보임, (4) 체계적 인구통계학적 편향 분석, (5) thinking 토큰의 인지 부하 대리지표 분석.

RQ1: VLM 감정 평정은 인간 평정자 간 신뢰도와 비교하여 어떠한가?
RQ2: VLM은 체계적 인구통계학적 편향을 보이는가?
RQ3: 서로 다른 규모의 VLM은 어떻게 비교되는가?
RQ4: 숙고적 추론은 저강도 감정의 인식을 향상시키는가?

2. 관련 연구

2.1 감정 인식을 위한 VLM

전통적 딥러닝 모델이 범주적 정확도에서 VLM을 일관되게 능가한다(Mulukutla et al., 2025). 프론티어 API 모델은 더 유망한 결과를 보인다(Harb et al., 2025; Refoua et al., 2026). 본 연구는 세 가지 매개변수 규모와 두 가지 추론 모드에 걸친 6개 VLM을 평가함으로써 이 문헌을 확장한다.

2.2 슬픔-중립 혼동

슬픔-중립 혼동은 FER 문헌에서 잘 문서화되어 있다(Mejia-Escobar et al., 2023; Savchenko et al., 2024). 그러나 VLM에서의 체계적 특성화, chain-of-thought의 완화 효과, 인간-VLM 처리 난이도 비교는 미탐구 상태이다.

2.3 이중 처리 이론과 감정 인식

Kahneman(2011)의 이중 처리 이론에서 슬픔 인식은 System 1만으로 불충분하며 System 2 처리를 필요로 한다(Calvo & Nummenmaa, 2013). 감정표현불능증 환자는 슬픔을 중립으로 평정하는 경향을 보인다(Grynberg et al., 2012). 인지적 공감은 슬픔 인식 정확도와 상관한다(Qiao et al., 2025).

2.4 인간-AI 비교

GPT-4는 평균 인간 정서 인지를 모방한다(Tak & Gratch, 2024). 정서가 r = 0.87, 각성도 r = 0.72가 제로샷에서 달성되었다(Alrasheed et al., 2025).

2.5 인구통계학적 편향

불균형 학습 데이터가 인구통계학적 성능 격차로 전파된다(Jankowiak et al., 2024; Dominguez-Catena et al., 2024).

2.6 AI 생성 자극

GIST-AIFaceDB는 통제된 생성을 통해 전통적 데이터베이스의 한계를 해결한다. 자연스러움 평정 5.26–6.94/9.

3. 방법

3.1 자극

GIST-AIFaceDB의 1,440장. 3 (인종) × 2 (성별) × 6 (감정) × 40 (정체성) 완전 교차 설계.

3.2 인간 평정 절차

1,000명 한국인 성인. 이미지당 50건 평정, 총 72,000건. 신뢰도: 정서가 α = 0.471, 각성도 α = 0.125.

3.3 VLM 추론

Table 1. VLM 사양.

모델	제공사	매개변수	양자화	Thinking	백엔드
Gemma3-4B-IT	Google	4B	QAT 4-bit	아니오	MLX
Gemma3-12B-IT	Google	12B	QAT 4-bit	아니오	MLX
LLaMA-3.2-11B-Vision	Meta	11B	4-bit	아니오	MLX
Qwen3-VL-4B-Thinking	Alibaba	4B	4-bit	예 (budget=1024)	MLX
GPT-4o-mini	OpenAI	Frontier	Full-precision	아니오	API
Gemini 2.5 Flash	Google	Frontier	Full-precision	예 (dynamic)	API

3단계 context-carry 프롬프팅: 감정 분류 → 정서가 평정 → 각성도 평정. 모든 모델 temperature = 0. 총 8,640건 예측.

3.4 통계 분석

비가중 Cohen’s κ (6개 범주에 서열 구조 없음). Pearson 상관, MAE, Bland-Altman 분석. LMM (R lme4, Satterthwaite df). Thinking 토큰은 Gemini 문자 수, Qwen3-VL tiktoken 추정.

4. 결과

4.1 감정 분류

Table 2. 전체 감정 분류 성능.

순위	모델	Thinking	매개변수	정확도	Cohen’s κ
1	Gemini 2.5 Flash	예	Frontier	0.881	0.857
2	GPT-4o-mini	아니오	Frontier	0.812	0.775
3	Qwen3-VL-4B	예	4B	0.806	0.767
4	Gemma3-12B	아니오	12B	0.761	0.713
5	Gemma3-4B	아니오	4B	0.725	0.670
6	LLaMA-3.2-11B	아니오	11B	0.613	0.535

Table 3. 감정별 분류 정확도.

감정	Gemini	Qwen3-VL	GPT	Gemma3-12B	Gemma3-4B	LLaMA
행복	1.000	1.000	1.000	1.000	1.000	1.000
중립	0.992	0.963	1.000	1.000	1.000	1.000
공포	0.971	0.896	0.929	0.979	0.979	0.654
분노	0.929	0.875	0.942	0.929	0.404	0.921
혐오	0.808	0.554	0.750	0.392	0.842	0.008
슬픔	0.583	0.546	0.254	0.267	0.125	0.092

4.2 Thinking 효과 (RQ4)

Table 4. Thinking 효과: 교차 모델 비교 및 output suppression test.

비교	유형	모델 A	정확도	모델 B	정확도	Δ
프론티어	교차 모델	GPT-4o-mini	81.2%	Gemini 2.5 Flash	88.1%	+6.9 pp
로컬 (4B)	교차 모델	Gemma3-4B	72.5%	Qwen3-VL-4B	80.6%	+8.1 pp
Gemini	Output suppression	Gemini (budget=0)	89.5%	Gemini (budget=−1)	89.1%	−0.4 pp

Gemini output suppression test에서 thinking_budget=0은 내부 추론을 비활성화하지 않는다 — API는 여전히 약 199개의 내부 thinking 토큰을 보고한다. 슬픔에서 억제 조건(67.5%)이 thinking 조건(63.0%)보다 높아, 교차 모델 패턴과 반대 방향이다. 이 test는 추론을 진정으로 비활성화하지 못했기 때문에 thinking의 인과적 역할에 대해 비정보적(uninformative)이다.

Table 5. 슬픔 정확도.

모델	Thinking	슬픔 정확도
LLaMA-3.2-11B	아니오	9.2%
Gemma3-4B	아니오	12.5%
GPT-4o-mini	아니오	25.4%
Gemma3-12B	아니오	26.7%
Qwen3-VL-4B	예	54.6%
Gemini 2.5 Flash	예	58.3%

4.3 정서가 비교

Table 6. 정서가 예측 통계.

모델	Thinking	Pearson r	MAE	편향 (M)
Gemini 2.5 Flash	예	.964	1.948	−1.359
GPT-4o-mini	아니오	.938	1.713	−1.072
Gemma3-12B	아니오	.929	1.617	−0.995
Qwen3-VL-4B	예	.919	1.489	−0.915
LLaMA-3.2-11B	아니오	.901	1.808	−0.920
Gemma3-4B	아니오	.892	1.480	−0.374

극성 과장 편향이 모든 모델에서 지속된다.

4.4 각성도 비교

Table 7. 각성도 예측 통계.

모델	Thinking	Pearson r	MAE
LLaMA-3.2-11B	아니오	.783	1.777
Gemma3-4B	아니오	.739	1.084
Gemini 2.5 Flash	예	.742	1.890
Qwen3-VL-4B	예	.733	1.956
GPT-4o-mini	아니오	.624	1.633
Gemma3-12B	아니오	.623	1.463

체계적인 thinking 이점 없음. Non-thinking 모델이 thinking 모델과 동등하거나 상회.

4.5 Thinking 토큰

Table 8. 감정별 thinking 토큰/문자 수.

감정	Gemini (문자)	Qwen3-VL (토큰)	인간 RT (Mdn, 초)
행복	949	1,608	1.676
중립	989	—	1.723
공포	1,011	2,221	1.695
분노	925	—	1.707
혐오	966	3,460	1.723
슬픔	1,290	3,915	1.745

ρ = +0.899 (p = .015). 6개 감정에서의 이 상관은 시사적이며 확정적이지 않다. 대안적 설명: 자극 모호성으로 인한 장황함, 학습 데이터 아티팩트.

4.6 인구통계학적 편향

Table 9. 인종별 정확도.

모델	Black	Caucasian	Korean	최대 Δ
Gemini 2.5 Flash	90.4%	87.3%	86.5%	3.9 pp
GPT-4o-mini	81.9%	79.0%	82.9%	3.9 pp
Qwen3-VL-4B	75.2%	81.9%	84.6%	9.4 pp
Gemma3-12B	74.0%	75.6%	78.8%	4.8 pp
Gemma3-4B	76.0%	70.4%	71.0%	5.6 pp
LLaMA-3.2-11B	58.5%	60.4%	64.8%	6.3 pp

5. 논의

5.1 이중 처리 설명

VLM 감정 인식이 이중 처리 프레임워크와 일치하는 패턴을 보이나, 인과적 메커니즘은 더 복잡하다. 세 가지 증거: (1) 인간 RT — 슬픔에서 가장 긴 반응시간, (2) VLM thinking 흔적 — 슬픔에서 36–143% 더 김, (3) 자연스러움 — 슬픔이 더 자연스럽지만 정확도 최저 (자극 품질 혼재 변인 배제). 단, 자연스러움 증거는 이중 처리의 적극적 수렴 증거가 아니라 대안 설명의 배제에 해당한다.

Gemini output suppression test는 이 설명을 복잡하게 한다. 억제 조건(67.5%)이 thinking 조건(63.0%)을 근소하게 상회하여, 교차 모델 패턴과 반대 방향이다. 이 test는 199개 토큰의 지속으로 비정보적이었다. 이중 처리 프레임워크는 실증적 패턴의 조직적 비유로서 유용하나, thinking 모드와 감정 인식 개선 간의 인과적 연결은 확립할 수 없다.

5.2 슬픔-중립 혼동

6개 VLM 모두에서 슬픔이 최저 분류율. 프론티어 모델에서도 지속(GPT 25.4%). Thinking 기능 모델이 55–58% 달성. 정신건강 지원 배포에 심각한 위험.

5.3 극성 과장 편향

모든 VLM에서 정서가 극단성 증폭. 양자화 및 전정밀도 모델 모두에서 지속. 감정 범주별 사후 선형 보정이 완화 경로.

5.4 각성도와 생태적 타당성

각성도에서 체계적 thinking 이점 없음. 각성도 추정은 범주적 정확도와 별개의 역량에 의존.

5.5 인구통계학적 편향

프론티어 모델 3.9%p, 로컬 모델 4.8–9.4%p 격차. 모델별로 상이하여 개별 감사 필요.

5.6 한계

(1) 한국인 참가자 한정, (2) 교차 모델 비교의 혼재 요인, (3) Gemini thinking 구조의 외부 통제 불가(199 토큰 지속), (4) Qwen3-VL thinking budget 제약, (5) 정적 자극, (6) context-carry 오류 전파, (7) AI 생성 자극의 OOD 문제, (8) VLM thinking ≠ 인간 숙고, (9) Gemini family circularity — 자극 생성(Gemini Flash Image)과 평가(Gemini Flash) 동일 모델 가족, (10) 프롬프트 민감도 — 대안적 프롬프팅 전략에 대한 일반화 미검증.

6. 결론

첫째, 교차 모델 비교에서 7–8 pp 차이가 나타나나, output suppression test는 이를 thinking 모드에 인과적으로 귀인할 수 없음을 보인다. 4B Qwen3-VL (κ = 0.767) ≈ 프론티어 GPT-4o-mini (κ = 0.775).

둘째, 슬픔 인식의 어려움은 수렴적 증거에 의해 지지되는 범행위자적 현상이다. 인과적 메커니즘은 미해결.

셋째, 극성 과장 편향과 슬픔-중립 혼동은 구조적 속성이다.

넷째, thinking 흔적 길이와 처리 난이도 상관(ρ = +0.899, N = 6) — 예비적, 반복 필요.

다섯째, 인구통계학적 편향은 모델별 상이(3.9–9.4 pp).

VLM 감정 평정은 보정과 편향 감사 없이 인간 판단을 대체할 수 없다. 향후 연구는 thinking을 진정으로 비활성화할 수 있는 모델에서 ablation을 개발해야 한다.

참고문헌

AlDahoul, N., et al. (2026). FaceScanPaliGemma. Scientific Reports, 16.

Alrasheed, H., et al. (2025). Evaluating LLMs to interpret emotions in images. PLOS ONE, 20(6).

Barrett, L. F. (2017). The theory of constructed emotion. SCAN, 12(1), 1–23.

Bates, D., et al. (2015). lme4. JSS, 67(1), 1–48.

Baudouin, J.-Y., et al. (2025). Arousal, valence, and discrete categories. Scientific Reports, 15(1).

Bhattacharyya, A., & Wang, S. (2025). VLMs for emotion recognition. NAACL 2025.

Calvo, M. G., & Nummenmaa, L. (2013). Journal of Vision, 13(4), 14.

Dominguez-Catena, I., et al. (2024). Progress in AI, 13, 255–273.

Grynberg, D., et al. (2012). PLOS ONE, 7(8).

Harb, E., et al. (2025). npj Digital Medicine, 8.

Hess, U., et al. (2004). Emotion, 4(4), 378–388.

Jankowiak, P., et al. (2024). IEEE TPAMI, 46(8).

Kahneman, D. (2011). Thinking, Fast and Slow.

Khare, S. K., et al. (2024). Information Fusion, 102.

Lang, J., et al. (2024). arXiv:2411.02530.

Li, Y., et al. (2025). MBQ. CVPR.

Mejia-Escobar, C., et al. (2023). CIN, 2023.

Mollahosseini, A., et al. (2017). AffectNet. IEEE TAC, 10(1).

Mulukutla, V. K., et al. (2025). arXiv:2508.13524.

Pantic, M., et al. (2005). ACM Multimedia, 669–676.

Plant, E. A., et al. (2000). PWQ, 24(1).

Qiao, Y., et al. (2025). Psychological Methods.

Refoua, S., et al. (2026). Scientific Reports, 16.

Russell, J. A. (1980). JPSP, 39(6), 1161–1178.

Savchenko, A. V., et al. (2024). arXiv:2410.22506.

Scherer, K. R. (2009). Cognition and Emotion, 23(7).

Tak, A. N., & Gratch, J. (2024). ACII 2024.

Telceken, M., et al. (2025). Current Psychology, 44(9).

Zhang, Y., et al. (2024). arXiv:2408.04638.

부록

S1. FER 기준 비교

Table S1. 통합 순위 (11개 모델).

순위	모델	유형	Thinking	정확도	κ
1	PosterV2	FER	—	0.899	0.878
2	Gemini 2.5 Flash	VLM	예	0.881	0.857
3	MobileViT	FER	—	0.875	0.848
4	EfficientNet	FER	—	0.854	0.823
5	GPT-4o-mini	VLM	아니오	0.812	0.775
6	Qwen3-VL-4B	VLM	예	0.806	0.767
7	BEiT	FER	—	0.766	0.713
8	Gemma3-12B	VLM	아니오	0.761	0.713
9	EmoNet	FER	—	0.731	0.665
10	Gemma3-4B	VLM	아니오	0.725	0.670
11	LLaMA-3.2-11B	VLM	아니오	0.613	0.535

Table S2. FER 정서가. MobileViT r=.950, EfficientNet r=.940, EmoNet r=.928.

Table S3. FER 각성도. EfficientNet r=.448, MobileViT r=.409, EmoNet r=.126.

Appendix: Revision History

(영문 v8과 동일 — 생략)

manuscript_VLM_emotion_2026_v8_KR