시각-언어 모델은 인간처럼 감정을 인식하는가? AI 생성 얼굴 자극에서의 VLM 감정 인식에 대한 이중 처리 설명

저자: 태지니, 박주현, 최원일

소속: 광주과학기술원 (GIST), 대한민국


초록

시각-언어 모델(Vision Language Models, VLMs)은 인간 감정 주석(annotation)의 확장 가능한 대안으로 점점 더 많이 활용되고 있으나, 범주적 정확도를 넘어선 인간 감정 인식과의 정합성은 아직 충분히 이해되지 않았다. 본 연구는 VLM을 인간 감정 평정 패러다임의 추가 평정자로 취급하는 심리측정적 프레임워크를 도입하여, 6개의 VLM — 3개의 로컬 오픈소스 모델(Gemma3-4B-IT, Gemma3-12B-IT, LLaMA-3.2-11B-Vision)과 2개의 프론티어 API 모델(GPT-4o-mini, Gemini 2.5 Flash), 그리고 1개의 로컬 사고(thinking) 모델(Qwen3-VL-4B-Thinking) — 을 1,000명의 인간 참가자와 비교한다. 비교는 3개 인종(Black, Caucasian, Korean), 2개 성별, 6개 기본 감정에 걸쳐 균형 잡힌 1,440장의 AI 생성 얼굴 이미지에서 수행되었다. Cohen’s κ, Pearson 상관, MAE, 혼합효과 모델을 사용하여 범주적 일치도, 차원적 정합성(정서가(valence)와 각성도(arousal)), 인구통계학적 편향을 인간 평정자 간 신뢰도를 기준으로 평가하였다.

6개 VLM은 보통에서 거의 완벽한 수준의 범주적 일치도(κ = 0.458–0.855)를 보였으며, chain-of-thought thinking 모델이 non-thinking 모델에 비해 정확도에서 일관되게 7–8%p 높은 성능을 나타냈다. Thinking의 가장 큰 이점은 슬픔 인식에서 나타났는데, thinking 모델은 55–58%의 정확도를 달성한 반면 non-thinking 모델은 9–25%에 그쳤다. 본 연구는 슬픔 인식의 어려움이 숙고적 처리를 필요로 하는 범(範)행위자적(cross-agent) 현상임을 보여주는 세 가지 수렴적 증거를 제시한다: (1) 인간 평정자는 슬픔 자극에서 가장 긴 반응시간을 보이고(각성도 평정 Mdn = 1.745초), (2) VLM thinking 모델은 슬픔 자극에서 행복 자극 대비 31–143% 더 긴 추론 흔적을 생성하며, (3) 슬픔 자극은 공포, 혐오, 분노 자극보다 높은 인간 자연스러움 평정을 받아 자극 품질을 대안적 설명에서 배제한다. 이러한 발견은 이중 처리 이론(Kahneman, 2011)에 수렴한다: non-thinking VLM은 저강도 감정에서 실패하는 System 1 처리기로 작동하며, thinking VLM은 이 한계를 부분적으로 보상하는 System 2 숙고를 수행한다. 4B 로컬 thinking 모델(Qwen3-VL, κ = 0.764)이 프론티어 non-thinking 모델(GPT-4o-mini, κ = 0.766)과 동등한 성능을 달성하여, 명시적 추론이 모델 규모를 부분적으로 보상함을 보여준다.

정서가 상관은 높으나(r = .891–.963) 절대 오차가 크며(MAE = 1.45–1.84), 이는 프론티어 전정밀도(full-precision) 모델에서도 지속되는 극성 과장 편향(polarity exaggeration bias)에 기인하여, 이것이 양자화 유발이 아닌 구조적 한계임을 확인한다. Thinking 모델은 non-thinking 모델(r = .622)보다 높은 각성도 상관(r = .758–.767)을 보여, chain-of-thought 추론이 차원적 감정 추정을 향상시킴을 시사한다. 인구통계학적 편향 패턴은 모델별로 상이하며, 프론티어 모델이 로컬 모델(9.4–17.1%p)보다 작은 인종별 정확도 격차(3.9%p)를 보인다.

핵심어: 시각-언어 모델, 얼굴 감정 인식, 심리측정적 일치도, 이중 처리 이론, Chain-of-Thought 추론, 정서가-각성도, 인구통계학적 편향, AI 생성 얼굴, 정서 컴퓨팅


1. 서론

1.1 정서 컴퓨팅과 VLM의 가능성

정신건강 챗봇부터 반응형 가상 비서까지 정서 컴퓨팅 시스템의 배포는 얼굴 표정으로부터의 정확한 자동 감정 인식에 점점 더 의존하고 있다. 이러한 시스템의 효과는 정서적 정합성(affective alignment), 즉 기계의 감정 단서 해석이 인간 심리학적 기준과 일치하는 정도에 달려 있다(Pantic et al., 2005). 공감적 에이전트가 사용자의 고통 강도를 오해석하면 사용자 신뢰를 훼손하고 의미 있는 상호작용을 유지하는 데 실패할 위험이 있다. 이러한 위험성이 기계와 인간 감정 인식 간의 엄밀한 실증적 비교를 정당화한다.

시각-언어 모델(VLM)은 과제 특화 얼굴 표정 인식(FER) 모델에서 범용 멀티모달 시스템으로의 패러다임 전환을 대표한다. VLM은 시각 인코더와 대규모 언어 모델을 통합하여 자연어 프롬프팅을 통한 이미지 조건부 텍스트 생성을 가능하게 하는 모델이다. FER 특화 모델이 감정 레이블 데이터셋에서 종단 간(end-to-end) 학습되어 고정된 감정 범주나 연속적 정서가-각성도 값을 출력하는 반면, VLM은 지시문 프롬프팅을 통해 범주적 및 차원적 감정 평정을 유연하게 생성할 수 있다 — 이는 인간이 자연스럽게 사용하는 통합적 판단 과정을 반영하는 능력이다. 이러한 유연성은 VLM이 비용이 많이 드는 인간 감정 주석의 확장 가능한 대안이 될 가능성을 제기한다. 1,000명의 평정자로부터 72,000건의 응답을 수집하는 것은 상당한 시간적·재정적 투자를 요구하기 때문이다.

VLM이 정말로 인간처럼 감정을 인식하는지 평가하려면 차원적 측정 프레임워크가 필요하다. 정서 원환 모델(Circumplex Model of Affect; Russell, 1980)은 모든 정서적 경험을 정서가(valence)와 각성도(arousal)로 정의되는 연속적 2차원 공간에 배치하는 이론적 프레임워크이다. 정서가는 정서 경험의 쾌-불쾌 속성으로 불쾌에서 쾌까지 범위한다. 각성도는 생리적 활성화 정도로 이완에서 흥분까지 범위한다. 원환 모델은 원래 자기보고식 정서 경험을 위해 공식화되었으나, 관찰자 평정 기반 얼굴 표정 인식 특성화에도 널리 채택되어 왔다(Baudouin et al., 2025). 본 연구는 이 관례를 따르되, 타인의 인지된 감정과 자신의 느끼는 감정이 서로 다른 과정을 포함할 수 있음을 주지한다. 이 차원적 프레임워크는 범주적 분류만으로는 가려지는 미세한 인식적 불일치를 탐지할 수 있는, 범주적 분류보다 풍부한 표상 어휘를 제공한다. 차원적 평정의 이론적 중요성에도 불구하고, 감정 인식의 전산적 평가는 이산적 범주 정확도에 압도적으로 집중되어 왔다(Khare et al., 2024; Telceken et al., 2025).

1.2 평가의 공백

이러한 프레임워크가 존재함에도 현재의 VLM 평가는 이를 활용하지 못하여, 본 연구가 다루는 네 가지 핵심적 공백을 만들고 있다.

첫 번째 공백은 인간 일치도 기준(benchmark)의 부재이다. 기존 벤치마크는 인간 평정자 간의 상당한 불일치를 무시한 채 정답 레이블에 대한 정확도와 F1 점수에 의존한다. 인간 감정 인식은 본질적으로 가변적이며, 특히 각성도의 경우 평정자 간 신뢰도가 Krippendorff’s α = 0.125(본 연구)까지 낮아질 수 있다. Krippendorff’s α는 우연 일치를 보정하는 복수 평정자 신뢰도 계수로, 1.0은 완벽한 합의, 0.0은 우연 수준의 일치를 나타낸다. 인간 평정자 간 신뢰도를 기준으로 확립하지 않으면, 모델의 오류가 진정한 실패를 반영하는지 아니면 감정 인식의 본질적 주관성을 반영하는지 판단할 수 없다.

두 번째 공백은 범주적 정확도에만 배타적으로 집중하고, 정서 과학의 핵심인 연속적 차원 평정을 소홀히 하는 것이다. 모델이 완벽한 범주적 정확도를 달성하면서도 체계적으로 왜곡된 차원 평정을 생성할 수 있으며, 이러한 해리를 본 연구에서 실증적으로 보인다.

세 번째 공백은 VLM에 대한 인구통계학적 편향 감사의 부재이다. 인구통계학적 격차가 상용 FER API에서 문서화된 바 있으나(Rhue, 2018; Jankowiak et al., 2024), 인종-성별-감정 교차점에서의 VLM 체계적 편향 분석은 부재하다. VLM이 공정성 보장이 중요한 연구 및 응용 환경에서 빠르게 채택되고 있는 점을 고려하면 이 공백은 우려스럽다.

네 번째 공백은 추론 모드가 감정 인식에 미치는 영향에 대한 조사의 부재이다. 최근 VLM은 두 가지 모드로 작동할 수 있다: 응답을 직접 생성하는 표준 추론과, 응답 전에 명시적 추론 흔적을 생성하는 chain-of-thought (CoT) thinking 모드이다. 이 구분은 Kahneman(2011)의 이중 처리 이론에 대응되는데, System 1은 빠르고 자동적인 패턴 인식을 통해, System 2는 느리고 숙고적인 추론을 통해 작동한다. VLM에서의 이러한 구조적 구분이 감정 인식에서 측정 가능한 차이를 만드는지 — 특히 인식적으로 모호한 감정에 대해 — 체계적으로 조사된 바 없다.

1.3 기여와 연구 질문

본 논문은 정서 컴퓨팅, 인지심리학, 멀티모달 AI 평가의 교차점에서 다섯 가지 기여를 한다.

첫째, VLM을 인간 평정 패러다임의 추가 참가자로 취급하는 VLM-as-rater 심리측정적 프레임워크를 도입한다. 정확도와 F1을 사용해 정답 레이블에 대해 VLM을 평가하는 대신, Cohen’s κ, Pearson 상관, MAE, 혼합효과 모델을 사용하여 인간 평정자 간 신뢰도를 실증적 일치도 기준으로 삼아 합치도를 정량화한다. Cohen’s κ는 범주 분류에 대한 우연 보정 일치도 측정치로, 0은 우연 수준, 1은 완벽한 일치를 나타낸다. 이 프레임워크는 정확도 기반 평가가 완전히 놓치는 VLM 행동의 차원들 — 극성 과장, 차원 붕괴, 슬픔-중립 혼동 — 을 드러낸다.

둘째, 슬픔 인식의 어려움이 범행위자적 현상임을 보여주는 최초의 수렴적 증거를 제공한다. 세 가지 독립적 증거 — 인간 반응시간(N = 1,000, 72,000건 응답), VLM thinking 흔적(2개 thinking 모델 × 1,440장), 자극 자연스러움 평정 — 이 모두 슬픔을 가장 깊은 처리를 필요로 하는 감정으로 식별한다. 이 수렴적 증거는 non-thinking VLM이 저강도 감정에서 실패하는 System 1 처리기로 기능하고, thinking VLM이 이 어려움을 부분적으로 보상하는 System 2 숙고를 수행한다는 이중 처리 설명을 지지한다.

셋째, chain-of-thought thinking이 로컬(4B) 및 프론티어 모델 쌍 모두에서 감정 분류를 일관적으로 7–8%p 향상시키며, 4B 로컬 thinking 모델(Qwen3-VL, κ = 0.764)이 프론티어 non-thinking 모델(GPT-4o-mini, κ = 0.766)과 동등한 성능을 달성함을 보인다. 이는 명시적 추론이 모델 규모와 양자화 제약을 부분적으로 보상함을 시사한다.

넷째, 완벽한 실험적 통제를 보장하는 1,440장의 AI 생성 얼굴 이미지를 사용한 완전 교차 3 (인종: Black, Caucasian, Korean) × 2 (성별: 남성, 여성) × 6 (감정) 요인 자극 설계에서 VLM의 최초 체계적 인구통계학적 편향 분석을 제시한다.

다섯째, thinking 토큰 분석을 인지 부하 대리지표(cognitive load proxy)로 도입하여, VLM 추론 흔적이 인간 처리 난이도와 평행함을 보인다: 모델은 오답 시행에서 26–69% 더 많은 추론 토큰을 생성하며, 가장 긴 추론 흔적을 보이는 감정(슬픔)이 가장 긴 인간 반응시간을 보이는 감정이기도 하다(ρ = +0.899, p = .015).

본 연구는 탐색적(exploratory) 성격을 지닌다. 사전 등록된 가설을 검증하기보다는, VLM 감정 평정 행동을 다차원적으로 체계적으로 특성화하여 향후 확인적 연구를 위한 검증 가능한 가설을 생성한다. 연구 질문은 VLM-인간 비교의 네 축을 다룬다:

RQ1: VLM 감정 평정은 범주적 및 차원적 측정치에서 인간 평정자 간 신뢰도와 비교하여 어떠한가?

RQ2: VLM은 감정 귀인에서 체계적 인구통계학적 편향을 보이며, 이 편향은 모델별로 상이한가?

RQ3: 서로 다른 규모(4B 로컬, 11–12B 로컬, 프론티어 API)의 VLM은 분류 정확도, 차원 예측, 편향 프로필에서 어떻게 비교되는가?

RQ4: 숙고적 추론(thinking 모드)은 인간의 숙고적 처리와 평행하게 저강도 감정의 인식을 향상시키는가?


2. 관련 연구

2.1 감정 인식을 위한 VLM

얼굴 감정 인식에 대한 VLM의 적용은 혼재된 결과를 보여왔으며, 전통적 딥러닝 모델이 범주적 정확도에서 VLM을 일관되게 능가한다. Mulukutla et al. (2025)은 FER-2013에서 오픈소스 VLM과 전통 모델의 최초 실증적 비교를 수행하였다. FER-2013은 7개 감정 클래스에 걸친 35,887장의 저해상도 흑백 이미지를 포함하는 데이터셋이다. 전통 모델 — EfficientNet-B0 (86.44% 정확도)과 ResNet-50 (85.72%) — 이 VLM을 20–35%p 차이로 능가하였으며, CLIP이 64.07%, Phi-3.5 Vision이 51.66%를 달성하였다. 이 성능 격차는 VLM의 일반적 시각 이해가 FER 숙련도로 자동 전환되지 않음을 시사한다.

프론티어 API 모델은 더 유망한 결과를 보인다. NimStim 데이터셋에서의 평가는 GPT-4o와 Gemini가 차분함, 중립, 놀람 표정에서 인간 수행을 매칭하거나 초과함을 보여주나, 더 모호한 감정에서는 성능이 저하된다(Harb et al., 2025). Refoua et al. (2026)은 White, Black, Korean 얼굴 자극을 사용한 마음 읽기 테스트(RMET)에서 ChatGPT-4, ChatGPT-4o, Claude 3 Opus를 평가하여, ChatGPT-4o가 세 민족 버전 모두에서 인간 85번째 백분위 이상의 정확도로 인종 횡단적으로 일관된 수행을 달성함을 발견하였다. AlDahoul et al. (2026)은 감정(59.4% 정확도), 인종, 성별, 연령을 동시에 인식하는 멀티에이전트 VLM 시스템인 FaceScanPaliGemma를 개발하였다. Bhattacharyya and Wang (2025)은 NAACL에서 유발 감정 인식에 대한 VLM의 포괄적 평가를 제시하여, 제로샷 VLM이 지도 학습 시스템에 미치지 못함을 확인하였다. 본 연구는 세 가지 매개변수 규모(4B, 11–12B, 프론티어)와 두 가지 추론 모드(표준 및 thinking)에 걸친 6개 VLM을 완전 통제된 요인 자극 설계에서 평가함으로써 이 문헌을 확장한다.

2.2 감정 인식에서의 슬픔-중립 혼동

슬픔-중립 혼동은 FER 문헌에서 잘 문서화되어 있다. Mejia-Escobar et al. (2023)은 FER-2013의 7,206장 슬픔 이미지 중 1,328장이 중립으로 오분류되었음을 보고하였다. AffectNet 분석(Savchenko et al., 2024)에서는 분노와 슬픔이 가장 높은 오분류율을 보였으며, 슬픔 인스턴스의 29%가 중립으로 분류되었다. InsideOut 벤치마크(2025) 역시 “공포, 슬픔, 중립과 같은 미묘한 클래스 간” 지속적 혼동을 보고하였다. 이 연구들은 슬픔-중립 혼동이 CNN 기반 FER 모델에서 잘 알려진 현상임을 확립한다.

그러나 세 가지 핵심적 공백이 남아 있다. 첫째, 슬픔-중립 혼동은 VLM에서 체계적으로 특성화되지 않았다. Harb et al. (2025)은 연출된 NimStim 자극에서 GPT-4o와 Gemini를 평가하여, 공포-놀람 혼동이 지배적 오류임을 발견하였다 — 이는 연출 데이터셋의 과장된 표정이 슬픔의 모호성을 줄이기 때문이다. VLM이 더 자연스러운 자극에서 FER 모델과 동일한 슬픔-중립 혼동을 보이는지는 조사되지 않았다. 둘째, VLM의 chain-of-thought 추론이 슬픔-중립 혼동을 완화하는지 조사한 선행 연구가 없다. 셋째, 감정별 인간 처리 난이도와 VLM 추론 난이도 간의 관계가 정량화된 적이 없다.

2.3 이중 처리 이론과 감정 인식

Kahneman(2011)의 이중 처리 이론은 System 1(빠르고 자동적이며 직관적인 처리)과 System 2(느리고 숙고적이며 노력이 필요한 추론)를 구분한다. 인간 감정 인식 증거가 이 프레임워크의 적합성을 지지한다: Calvo and Nummenmaa (2013)는 행복 인식이 10–20 ms의 노출만 필요한 반면 슬픔은 70–200 ms — 3.5배에서 10배 증가 — 를 필요로 함을 보여, 슬픔 인식이 System 1 처리만으로는 달성될 수 없음을 시사하였다. 임상 집단에서의 추가 지지가 있다: 감정 인식에 어려움을 겪는 특성인 감정표현불능증(alexithymia) 환자는 부정 감정, 특히 슬픔을 중립으로 평정하는 특정적 경향을 보인다(Grynberg et al., 2012). 메타분석 증거는 System 2 처리에 해당하는 숙고적 관점 취하기 능력인 인지적 공감이 슬픔 인식 정확도와 양적으로 상관함을 나타낸다(Qiao et al., 2025).

이중 처리 프레임워크는 VLM 감정 인식에 적용된 적이 없다. 본 연구는 non-thinking VLM이 System 1 처리기로 기능한다고 제안한다: 이들은 고각성의 시각적으로 뚜렷한 감정(행복, 분노, 공포)에 충분한 빠른 패턴 매칭을 달성하지만, 숙고적 추론이 필요한 저강도 감정(슬픔)에서는 실패한다. Thinking이 활성화된 VLM은 응답 전 명시적 추론 흔적을 생성함으로써 유사한 System 2 과정을 수행한다. 이 프레임워크는 thinking 모드가 슬픔 인식을 불균형적으로 개선해야 한다는 구체적 예측을 생성하며, 본 연구에서 이를 직접 검증한다.

2.4 감정 인식에서의 인간-AI 비교

인간과 기계 평정자의 심리측정적 비교는 임상심리학에서 오랜 전통을 가지며, 최근 대규모 언어 모델로 확장되었다. Tak and Gratch (2024)는 GPT-4가 제3자 관점에서 평균 인간 정서 인지를 모방함을 발견하였다. Alrasheed et al. (2025)은 GAPED 데이터베이스의 비얼굴 정서 이미지에서 GPT-4의 감정 해석 능력을 평가하여, 제로샷 조건에서 정서가 r = 0.87, 각성도 r = 0.72의 상관을 달성하였다. Zhang et al. (2024)은 LLM이 감성 분류와 같은 정서 이해 과제에서 뛰어나지만 차원적 감정 추정에 대한 성능은 미탐구 상태임을 지적하는 포괄적 서베이를 제공한다. 본 연구는 두 가지 추론 모드에 걸친 6개 VLM을 평가하여, 대규모 인간 데이터(N = 1,000)에 기반한 심리측정적 프레임워크를 통해 통합적 범주-차원 평정을 생성함으로써 이 공백을 메운다.

2.5 자동 감정 인식에서의 인구통계학적 편향

자동 감정 인식에서 문서화된 인종 및 성별 격차는 VLM으로 확장되는 공정성 우려를 제기하였다. Jankowiak et al. (2024)은 불균형 학습 데이터가 인구통계학적 그룹 간 체계적 성능 격차로 전파됨을 보였다. FER에서의 성별 편향은 표상적 편향(불균등한 인구통계학적 표상)과 고정관념적 편향(감정과 인구통계의 체계적 연결; Dominguez-Catena et al., 2024) 두 형태로 나타난다. 인간 감정 인식 자체가 인구통계학적으로 중립적이지 않다: 성별-감정 고정관념은 관찰자가 남성 얼굴을 분노와, 여성 얼굴을 행복 및 슬픔과 연결하게 한다(Plant et al., 2000). 다만 얼굴 단서가 통제되면 이러한 고정관념적 연결이 역전될 수 있다(Hess et al., 2004). 이러한 인간 편향은 학습 데이터셋으로 전파되며 — AffectNet (Mollahosseini et al., 2017)은 약 450,000장에 걸쳐 12명의 주석자에 의존하며 대부분 단일 주석 — VLM의 웹 규모 사전학습에 의해 증폭될 수 있다. 본 연구는 인종, 성별, 감정 효과의 직교적 추정을 가능하게 하는 요인 설계를 사용하여 6개 VLM으로 편향 분석을 확장한다.

2.6 감정 연구에서의 AI 생성 자극

전통적 얼굴 데이터베이스 — KDEF, ADFES, FER-2013, AffectNet — 는 표정 품질, 조명, 인구통계학적 균형에서 통제되지 않은 변산을 겪는다. AI 생성 얼굴 자극은 통제된 생성을 통해 이러한 한계를 해결한다. 본 연구에 사용된 GIST-AIFaceDB는 표준화된 특징 — 동일한 회색 배경, 네이비 티셔츠, 정면 포즈 — 으로 중립 기본 얼굴을 생성한 후 각각을 정체성을 보존하면서 5개 감정 표정으로 변환한다. 이 파이프라인은 주어진 정체성의 표정 간 차이가 오로지 감정 조작에만 귀인 가능함을 보장한다. 생태적 타당성은 인간 자연스러움 평정에 의해 지지된다: 평균 자연스러움은 9점 척도에서 5.26 (공포)에서 6.94 (행복)까지 범위하여, 참가자들이 자극을 보통에서 매우 현실적으로 인식하였음을 나타낸다. Baudouin et al. (2025)은 차원 평정이 자극의 출처와 무관하게 얼굴 자극에서 신뢰롭게 수집될 수 있다는 증거를 제공한다.


3. 방법

Figure 1은 전체 연구 파이프라인을 제시하며, 1,440장의 AI 생성 자극이 인간 평정과 VLM 추론을 거쳐 심리측정적 비교로 수렴하는 과정을 보여준다.

flowchart TB
    subgraph Stimuli["자극 생성"]
        A["OpenArt<br>STOIQO NewReality Flux"] -->|"240개 중립 얼굴"| B["Nano-Banana<br>Gemini 2.5 Flash Image"]
        B -->|"정체성당 5개 감정"| C["GIST-AIFaceDB<br>1,440장<br>3 인종 × 2 성별 × 6 감정 × 40 ID"]
    end

    subgraph Human["인간 평정 (N = 1,000)"]
        C --> D["참가자당 72장<br>총 72,000건 응답"]
        D --> E["정서가 1–9<br>각성도 1–9<br>자연스러움 1–9<br>반응시간"]
    end

    subgraph VLM["VLM 추론 (6개 모델)"]
        C --> F1["로컬 Non-Thinking<br>Gemma3-4B, Gemma3-12B,<br>LLaMA-3.2-11B"]
        C --> F2["로컬 Thinking<br>Qwen3-VL-4B"]
        C --> F3["프론티어 API<br>GPT-4o-mini, Gemini 2.5 Flash"]
        F1 --> H["Context-Carry<br>3단계 프롬프팅"]
        F2 --> H
        F3 --> H
        H --> I["감정 + 정서가 + 각성도<br>+ Thinking 흔적"]
    end

    subgraph Analysis["심리측정적 비교"]
        E --> L["Cohen's κ, Pearson r, MAE<br>혼합효과 모델<br>인구통계학적 편향<br>Thinking 토큰 분석"]
        I --> L
        L --> M["핵심 발견:<br>이중 처리 설명<br>극성 과장<br>슬픔-중립 혼동<br>Thinking 이점"]
    end

    style Stimuli fill:#e1f5fe,stroke:#0288d1
    style Human fill:#fff3e0,stroke:#f57c00
    style VLM fill:#e8f5e9,stroke:#388e3c
    style Analysis fill:#f3e5f5,stroke:#7b1fa2

Figure 1. 전체 연구 파이프라인. AI 생성 자극(파란색)이 1,000명의 인간 평정자(주황색)와 세 가지 규모 및 두 가지 추론 모드에 걸친 6개 VLM(녹색)에 의해 평가되며, 모든 출력이 심리측정적 비교(보라색)로 수렴한다.

3.1 자극

자극 세트는 GIST AI 생성 얼굴 데이터베이스(GIST-AIFaceDB, 심사 중)의 1,440장 AI 생성 얼굴 이미지로 구성된다. 생성 파이프라인은 2단계 과정을 사용하였다. 1단계에서 OpenArt 플랫폼에 배포된 STOIQO NewReality Flux 모델을 사용하여 240개의 중립 기본 얼굴을 생성하였으며, 3개 인종 그룹(Black, Caucasian, Korean)과 2개 성별(남성, 여성)에 걸쳐 표준화된 네이비 티셔츠와 회색 배경의 다양한 가상 정체성을 묘사하였다. 2단계에서 각 중립 얼굴을 정체성, 조명, 배경을 보존하면서 5개 추가 감정 표정 — 분노, 혐오, 공포, 행복, 슬픔 — 으로 변환하였으며, Google AI Studio(Gemini 2.5 Flash Image)에 구현된 고급 이미지 편집 모델인 Nano-Banana를 사용하였다.

결과적인 완전 교차 요인 설계 — 3 (인종) × 2 (성별) × 6 (감정) × 40 (정체성) — 은 균형 잡힌 셀 크기의 1,440장 이미지를 산출한다: 감정당 240장, 인종당 480장, 성별당 720장, 인종-성별-감정 조합당 80장. 이 균형 설계는 교란 없이 모든 인구통계학적 효과의 직교적 추정을 가능하게 한다.

3.2 인간 평정 절차

연구 프로토콜은 기관생명윤리위원회(IRB)의 심의를 거쳐 면제 승인을 받았다. 한국인 성인 1,000명(여성 500명, 남성 500명; 연령 M = 44.6, SD = 13.7, 범위 20–69세)이 온라인 플랫폼을 통해 모집되었으며, 연령 코호트와 성별에 걸쳐 엄격하게 균형 잡힌 모집이 이루어졌다. 각 참가자는 총 1,440장에서 무작위로 선택된 72장의 이미지를 평가하였으며, 모든 이미지는 무작위 순서로 제시되었다. 이 균형 교차 설계를 통해 각 이미지는 50건의 독립적 평정을 받아, 세 차원에 걸친 총 72,000건의 응답을 산출하였다: 정서가(1–9 Likert 척도), 각성도(1–9), 자연스러움(1–9). 각 평정에 대한 반응시간이 기록되었다.

Krippendorff’s α(서열)로 산출된 평정자 간 신뢰도가 인간 일치도 기준을 확립하였다: 정서가 α = 0.471 (낮음-보통), 각성도 α = 0.125 (낮음), 자연스러움 α = 0.126 (낮음). 이 값들이 낮게 보이지만 감정 평정 연구의 전형적 범위에 해당하며, 정서 인식의 본질적 주관성을 반영한다. 선형 혼합효과 모델(LMM)은 평정자 개인차(정서가 σ² = 0.450, 각성도 σ² = 0.696)가 이미지 수준 변산을 정서가에서 11배, 각성도에서 32배 지배함을 확인하여, 낮은 신뢰도가 자극 모호성이 아닌 평정자 이질성에 의해 구동됨을 확인하였다.

3.3 VLM 추론

세 가지 매개변수 규모와 두 가지 추론 모드에 걸친 6개 VLM을 평가하였다. Table 1은 모델 사양을 요약한다.

Table 1. VLM 사양 및 추론 구성.

모델제공사매개변수양자화Thinking백엔드주요 설정
Gemma3-4B-ITGoogle4BQAT 4-bit아니오MLX (로컬)temp=0
Gemma3-12B-ITGoogle12BQAT 4-bit아니오MLX (로컬)temp=0
LLaMA-3.2-11B-VisionMeta11B4-bit아니오MLX (로컬)temp=0
Qwen3-VL-4B-ThinkingAlibaba4B4-bit예 (budget=1024)MLX (로컬)temp=0, rep_penalty=1.5
GPT-4o-miniOpenAIFrontierFull-precision아니오APItemp=0, seed=42, image_detail=high
Gemini 2.5 FlashGoogleFrontierFull-precision예 (dynamic)APItemp=0, includeThoughts=true

3개 로컬 모델(Gemma3-4B, Gemma3-12B, LLaMA-3.2-11B)은 메모리 효율적 추론을 위해 4-bit 양자화와 함께 MLX 프레임워크를 통해 Apple Silicon (M1 Max, 32 GB)에 배포되었다. Qwen3-VL-4B-Thinking은 동일 하드웨어에서 chain-of-thought 추론이 활성화된 채 배포되었다: 모델은 JSON 응답을 생성하기 전에 <think>...</think> 태그 내에서 명시적 추론을 생성하며, 양자화 모델에서의 과도한 생성을 방지하기 위해 추론 단계당 1,024 토큰의 thinking budget이 설정되었다. GPT-4o-mini는 결정적 설정(temperature = 0, seed = 42, image_detail = “high”)으로 OpenAI API를 통해 접근하였다. Gemini 2.5 Flash는 thinking 모드 활성화(동적 thinking budget)와 includeThoughts: true로 추론 흔적을 수집하여 Google Generative AI API를 통해 접근하였다.

모든 모델은 결정적 출력을 위해 temperature = 0(탐욕적 디코딩)으로 실행되었다. 전정밀도(full-precision)로 운영되는 2개 프론티어 API 모델의 포함은 이중의 목적을 수행한다: 양자화 아티팩트에 제약받지 않는 성능 상한을 확립하는 것과, 양자화 효과를 구조적 한계로부터 부분적으로 분리하는 것이다. 최근 연구는 보정 기반 4-bit 양자화가 표준 벤치마크에서 FP16 품질의 92–95%를 유지함을 보이며(Lang et al., 2024), 시각 토큰이 높은 중복성으로 인해 언어 토큰보다 양자화에 덜 민감함을 보인다(Li et al., 2025).

추론은 3단계 context-carry 프롬프팅 전략을 따랐으며, 이전 출력이 후속 예측의 맥락으로 전달되어 인간 순차적 판단에서의 고정 효과(anchoring effects)를 반영한다. 1단계에서 모델은 6개 강제 선택 범주(행복, 슬픔, 분노, 공포, 혐오, 중립)에서 JSON 출력을 통해 얼굴 감정을 분류하였다. 2단계에서 분류된 감정이 맥락으로 전달되어 모델이 1–9 척도로 정서가를 평정하였다. 3단계에서 분류된 감정과 정서가 평정 모두 전달되어 모델이 1–9 척도로 각성도를 평정하였다. 이 전략은 구조적 오류 전파를 도입한다: 1단계의 분류 오류가 체계적으로 후속 정서가 및 각성도 평정에 영향을 미친다. 응답 파싱은 계단식 전략을 사용하였다: 직접 JSON 파싱, 마크다운 펜스 제거, 정규표현식 폴백. 6개 모델 모두 1,440장의 이미지를 성공적으로 처리하여, 총 8,640건의 VLM 예측을 산출하였다.

3.4 통계 분석

범주적 일치도는 의도된 감정 레이블에 대한 Cohen’s κ로 정량화하였으며, McNemar 검정으로 쌍별 모델 비교를 수행하였다. 차원적 정합성은 Pearson 상관, 평균 절대 오차(MAE), Bland-Altman 분석(체계적 편향 및 95% 일치 한계)으로 평가하였다. 감정별 편향 유의성은 Bonferroni 보정된 Wilcoxon 부호 순위 검정으로 검정하였다.

편향 분해는 R의 lme4 패키지(Bates et al., 2015)와 Satterthwaite 자유도(lmerTest)를 사용하여 적합한 선형 혼합효과 모델(LMM)을 사용하였다. 감정-편향 모델은 rating ~ rater_type * emotion + (1|image_id) 공식을 사용하였으며, rater_type은 인간 종합 평정과 VLM 평정을 구분한다. 인구통계학적 편향 모델은 actor_raceactor_gender를 고정효과로 사용한 유사한 공식을 사용하였다.

Thinking 토큰 분석은 수집된 추론 흔적의 문자 수(Gemini)와 tiktoken을 통해 추정된 토큰 수(Qwen3-VL)를 사용하였다. 감정별 thinking 길이는 Kruskal-Wallis 검정으로, 정답/오답 시행 비교는 Mann-Whitney U 검정으로 비교하였다.


4. 결과

4.1 감정 분류

Table 2는 전체 감정 분류에 대한 6개 모델 순위를 제시한다. 2개의 thinking 모델(Gemini 2.5 Flash와 Qwen3-VL-4B)이 1위와 3위를 차지하며, 프론티어 non-thinking 모델 GPT-4o-mini가 2위이다.

Table 2. 전체 감정 분류 성능 (모델당 N = 1,440장).

순위모델Thinking매개변수정확도Cohen’s κ
1Gemini 2.5 FlashFrontier0.8810.855
2GPT-4o-mini아니오Frontier0.8120.766
3Qwen3-VL-4B4B0.8060.764
4Gemma3-12B아니오12B0.7610.698
5Gemma3-4B아니오4B0.7260.646
6LLaMA-3.2-11B아니오11B0.6130.458

두 가지 패턴이 주목할 만하다. 첫째, 모델 규모가 성능을 예측하지 못한다: 11B LLaMA (κ = 0.458)가 4B Gemma3 (κ = 0.646)보다 낮은 성능을 보이며, 12B Gemma3 (κ = 0.698)가 4B Qwen3-VL (κ = 0.764)보다 낮은 성능을 보인다. 구조와 추론 모드가 매개변수 수보다 중요하다. 둘째, thinking을 가진 4B Qwen3-VL (κ = 0.764)이 thinking 없는 프론티어 GPT-4o-mini (κ = 0.766)와 거의 동일한 일치도를 달성하여, 명시적 추론이 모델 규모를 부분적으로 보상함을 시사한다.

Table 3은 6개 모델의 감정별 정확도를 제시하며, 극단적 성능 양극화를 드러낸다.

Table 3. 감정별 분류 정확도 (정답 비율).

감정GeminiQwen3-VLGPTGemma3-12BGemma3-4BLLaMA
행복1.0001.0001.0001.0001.0001.000
중립0.9920.9621.0001.0001.0001.000
공포0.9710.8960.9290.9710.9790.654
분노0.9290.8750.9420.8580.4040.921
혐오0.8080.5540.7500.6000.8420.008
슬픔0.5830.5460.2540.2670.1260.092

행복과 중립은 모든 모델에 의해 완벽하거나 거의 완벽하게 분류된다 — 사실상 해결된 범주이다. 공포, 분노, 혐오는 모델별 변산을 보인다. 슬픔은 보편적 실패 지점이다: 정확도가 9.2% (LLaMA)에서 58.3% (Gemini)까지 범위하며, 60%를 넘는 모델은 없다. 슬픔의 지배적 오류는 중립 흡수(neutral absorption)이다: non-thinking 모델에서 슬픔 이미지의 66–76%가 중립으로 분류된다. 최고 성능 모델(thinking을 가진 Gemini)조차 슬픔 이미지의 19.2%를 중립으로 오분류한다.

4.2 감정 분류에 대한 Thinking 효과 (RQ4)

Table 4는 thinking과 non-thinking 모델 간의 매칭 비교로서 thinking 효과를 제시한다.

Table 4. 감정 분류 정확도에 대한 thinking 효과.

비교Non-Thinking 모델정확도Thinking 모델정확도Δ
프론티어 (API)GPT-4o-mini81.2%Gemini 2.5 Flash88.1%+6.9 pp
로컬 (4B)Gemma3-4B72.6%Qwen3-VL-4B80.6%+8.0 pp

Thinking 이점은 프론티어와 로컬 모델 쌍 모두에서 일관적이며, 6.9–8.0%p 범위이다. 중요하게도, thinking 이점은 감정에 따라 균일하지 않다. Figure 2는 thinking이 가장 낮은 분류율을 보이는 슬픔에서 가장 큰 향상을 만듦을 보여준다.

Table 5. Thinking 모드별 슬픔 정확도.

모델Thinking슬픔 정확도슬픔→중립 혼동률
LLaMA-3.2-11B아니오9.2%66.7%
Gemma3-4B아니오12.6%71.1%
GPT-4o-mini아니오25.4%
Gemma3-12B아니오26.7%
Qwen3-VL-4B54.6%
Gemini 2.5 Flash58.3%19.2%

Non-thinking 모델은 9–27%의 슬픔 정확도를 달성하는 반면, thinking 모델은 55–58%를 달성한다 — 2배에서 6배의 향상이다. Thinking은 Gemini의 슬픔-중립 혼동률을 non-thinking 모델의 전형적 범위인 66–76%에서 19.2%로 감소시킨다. 모든 감정에 균일한 향상이 아닌 슬픔에서의 불균형적 개선은 이중 처리 해석을 지지한다: 슬픔 인식은 thinking 모드가 제공하는 숙고적 추론을 구체적으로 필요로 하는 반면, 고각성 감정(행복, 분노, 공포)은 직접적 패턴 매칭으로 적절히 처리된다.

4.3 정서가 비교

6개 VLM 모두 인간 평정과 높은 정서가 상관(r = .891–.963)을 달성하여, 쾌-불쾌 차원을 따른 감정의 올바른 순서 배열을 나타낸다. 그러나 절대 오차가 크며(MAE = 1.45–1.84), 올바른 순서 배열이지만 왜곡된 척도 사용의 체계적 패턴을 반영한다.

Table 6. 정서가 예측 요약 통계 (6개 VLM).

모델ThinkingPearson rMAE편향 (M)
Gemini 2.5 Flash.9631.842−1.280
GPT-4o-mini아니오.9381.626−1.018
Qwen3-VL-4B.9131.445−0.824
LLaMA-3.2-11B아니오.9011.808
Gemma3-4B아니오.8911.456
Gemma3-12B아니오

이 왜곡의 원인은 극성 과장 편향(polarity exaggeration bias)이다: VLM은 체계적으로 인간보다 더 극단적인 정서가 평정을 생성한다 — 부정 감정에 대해서는 더 부정적으로, 긍정 감정에 대해서는 더 긍정적으로. 이 패턴은 프론티어 전정밀도 모델을 포함한 모든 모델에서 지속되어, 양자화 아티팩트가 아닌 VLM의 구조적 속성임을 확인한다. 혼합효과 모델은 모든 감정별 편향이 통계적으로 유의함을 확인하였다(p < .001).

Qwen3-VL-4B는 VA 보고 3개 모델 중 가장 낮은 MAE (1.445)와 가장 작은 부정 편향(−0.824)을 달성하여, thinking 모드가 범주적 정확도뿐만 아니라 정서가 보정도 개선할 수 있음을 시사한다.

4.4 각성도 비교

각성도 추정은 명확한 thinking 이점을 드러낸다. Table 7은 각성도 데이터가 있는 5개 모델의 각성도 통계를 제시한다.

Table 7. 각성도 예측 요약 통계.

모델ThinkingPearson rMAE
Gemini 2.5 Flash.7671.951
Qwen3-VL-4B.7582.013
LLaMA-3.2-11B아니오.7831.777
Gemma3-4B아니오.7591.137
GPT-4o-mini아니오.6221.572

Thinking 모델이 가장 높은 각성도 상관(r = .758–.767)을 달성하며, 프론티어 non-thinking 모델인 GPT-4o-mini가 가장 낮은 상관(r = .622)을 보인다. 이 패턴은 chain-of-thought 추론이 감정 강도에 대한 중간 추론을 제공하여 각성도 추정을 향상시킴을 시사한다. 그러나 모델들이 thinking 능력 외에도 구조와 학습 데이터에서 차이가 있어 비교가 완벽하지 않다. LLaMA와 Gemma3-4B도 thinking 모드 없이 보통에서 높은 각성도 상관(.759–.783)을 보여, 각성도 추정이 다수의 기여 요인을 반영함을 나타낸다.

Thinking과 non-thinking VLM 모두 동일한 체계적 각성도 편향 패턴을 보인다: 공포 각성도의 과대추정과 중립 및 슬픔 각성도의 과소추정, “낮은 시각적 현출성 = 낮은 각성도” 휴리스틱과 일치한다.

4.5 인지 부하 대리지표로서의 Thinking 토큰

Chain-of-thought 추론 흔적은 감정별 모델 처리 난이도의 창을 제공한다. Table 8은 2개 thinking 모델의 감정별 평균 thinking 길이를 제시한다.

Table 8. 감정별 평균 thinking 토큰/문자 수.

감정Gemini (문자)Qwen3-VL (토큰)인간 각성도 RT (Mdn, 초)
행복9491,6081.676
중립9891.723
공포1,0112,2211.695
분노9251.707
혐오9663,4601.723
슬픔1,2903,9151.745

슬픔이 두 모델 모두에서 가장 긴 thinking 흔적을 유발한다: Gemini는 행복 대비 슬픔 자극에서 36% 더 많은 문자를 생성하고, Qwen3-VL은 143% 더 많은 토큰을 생성한다. 이는 슬픔 자극이 가장 긴 각성도 평정 시간(Mdn = 1.745초)을 산출하는 인간 반응시간과 평행한다. 감정 수준 VLM thinking 길이와 인간 반응시간 간의 Spearman 상관은 ρ = +0.899 (p = .015)로, 인간과 VLM 처리 난이도 간의 강한 일치를 나타낸다.

Thinking 길이는 정확도에 따라서도 차이를 보인다. Gemini는 오답 시행(M = 1,248 문자)에서 정답 시행(M = 993 문자)보다 26% 더 긴 흔적을 생성한다. Qwen3-VL은 더 큰 증가를 보인다: 오답 시행에서 69% 더 길다(M = 3,959 토큰 vs. 2,339). 더 어렵거나 틀린 항목에 대해 더 많이 사고하는 이 패턴은 인간의 불확실성-숙고 관계를 반영하지만 더 높은 정확도로 전환되지 않아, 숙고적 처리의 필요-불충분 역할을 시사한다.

단계 수준 분석은 모든 감정에 걸쳐 각성도가 가장 긴 thinking을 유발함을 드러내며, 이는 각성도에 대한 낮은 인간 평정자 간 신뢰도(α = 0.125)와 일치하고, 각성도 강도 추정이 인간과 VLM 모두에게 가장 인지적으로 요구되는 차원임을 시사한다.

4.6 인구통계학적 편향 분석

혼합효과 모델은 6개 VLM에 걸쳐 모델별 인구통계학적 편향을 드러냈다. Table 9는 모델별 인종별 정확도를 제시한다.

Table 9. 인종별 감정 분류 정확도.

모델BlackCaucasianKorean최대 Δ
Gemini 2.5 Flash90.4%87.3%86.5%3.9 pp
GPT-4o-mini81.9%79.0%82.9%3.9 pp
Qwen3-VL-4B75.2%81.9%84.6%9.4 pp
Gemma3-12B
Gemma3-4B82.7%65.6%69.2%17.1 pp
LLaMA-3.2-11B56.9%59.0%68.1%11.2 pp

프론티어 모델(Gemini, GPT-4o-mini)이 가장 작은 인종별 정확도 격차(3.9%p)를 보여, 더 다양한 데이터에 대한 대규모 사전학습이 인구통계학적 편향을 줄임을 시사한다. 로컬 모델은 더 큰 격차를 보인다: Qwen3-VL은 Korean 얼굴(84.6%)을 Black 얼굴(75.2%)보다 선호하며, 이는 Alibaba 학습 출처와 일치한다. Gemma3-4B는 가장 큰 인종 격차(17.1%p)를 보이며, Black 얼굴이 가장 정확하게(82.7%), Caucasian 얼굴이 가장 부정확하게(65.6%) 분류된다. LLaMA에서는 패턴이 역전되어, Korean 얼굴이 가장 잘(68.1%), Black 얼굴이 가장 못(56.9%) 분류된다. 이러한 모델별 편향 패턴은 단일 편향 감사가 VLM 간에 일반화될 수 없으며 각 배포 맥락이 개별 평가를 필요로 함을 확인한다.

인종과 감정의 교차점에서 모델별 패턴이 나타난다. Gemma3-4B는 Black 얼굴(61.3%)과 Korean 얼굴(22.5%) 간 분노 분류 정확도에서 2.7배 격차를 보인다. 이 정확도 차이는 인종 그룹 간 분노 표정에 대한 차별적 민감도를 반영하며, 반드시 Black 얼굴에 대한 분노의 과귀인을 의미하지는 않는다 — 과귀인을 확립하려면 거짓양성률 분석이 필요하다(Hugenberg & Bodenhausen, 2003). 혐오에서는 패턴이 역전되어(Korean 95.0%가 Black 75.0% 초과), 균일한 인종 효과가 아닌 감정별 효과를 확인한다.


5. 논의

5.1 VLM 감정 인식의 이중 처리 설명

본 연구의 핵심 발견은 VLM 감정 인식이 Kahneman(2011)의 이중 처리 프레임워크를 통해 이해될 수 있다는 것이며, 세 가지 수렴적 증거가 이를 지지한다.

첫 번째 증거는 인간 처리 난이도에서 온다. 72,000건의 응답을 생성한 1,000명의 인간 평정자 중 슬픔 자극은 가장 긴 각성도 반응시간을 유발하였다(Mdn = 1.745초). 이는 행복(1.676초, p < .001)과 분노(1.707초, p = .002)보다 유의하게 길었다. 슬픔에 대한 이 연장된 처리 시간은 슬픔 인식이 행복의 10–20 ms에 비해 70–200 ms의 노출을 필요로 함을 보여주는 선행 연구(Calvo & Nummenmaa, 2013)와 일치하며, 슬픔이 본질적으로 System 1만으로는 제공할 수 없는 더 깊은 처리를 필요로 함을 나타낸다.

두 번째 증거는 VLM thinking 흔적에서 온다. 두 thinking 모델 모두 슬픔 자극에서 실질적으로 더 긴 추론을 생성한다: Gemini는 36% 더 많은 문자를, Qwen3-VL은 143% 더 많은 토큰을 슬픔 대 행복 이미지에서 생성한다. 감정 수준 VLM thinking 길이와 인간 반응시간 간의 상관은 ρ = +0.899 (p = .015)로, 인간에게 어려운 동일한 감정이 VLM에게도 어려움을 보여준다. 나아가 오답 분류는 26–69% 더 긴 thinking을 포함하여, 인간의 불확실성-숙고 관계와 평행한다.

세 번째 증거는 대안적 설명을 다룬다. AI 생성 슬픔 이미지가 비현실적이기 때문에 VLM이 슬픔에서 실패한다고 주장할 수 있다. 인간 자연스러움 평정은 이를 반박한다: 슬픔 이미지(M = 5.658)가 공포(5.260), 혐오(5.428), 분노(5.486) 이미지보다 유의하게 더 자연스럽다고 평정되었으나, 공포는 최고 모델(Gemma3-4B)에서 97.1%의 정확도를 달성한 반면 슬픔의 최대치는 58.3% (Gemini)에 그쳤다. 높은 자연스러움이지만 낮은 정확도라는 이 교차 패턴은 자극 품질을 설명에서 배제한다.

이 세 가지 증거는 이중 처리 설명으로 수렴한다. Non-thinking VLM은 System 1 처리기로 기능한다: 직접적 패턴 매칭은 고각성의 시각적으로 뚜렷한 감정(행복: 100%, 분노: 92%, 공포: 97%)에 충분하지만, 미묘하고 저강도의 얼굴 단서가 감정적 중립과 구분하기 위해 숙고적 처리를 필요로 하는 슬픔(9–27%)에서는 실패한다. Thinking VLM은 유사한 System 2 과정을 수행한다: 응답 전 명시적 추론을 생성함으로써 55–58%의 슬픔 정확도를 달성한다 — 2배에서 6배의 향상이다. 이미 잘 분류되는 감정에 대한 완만한 이점 대비 슬픔에서의 불균형적 thinking 이점은 이 설명의 특이성을 지지한다: thinking 모드는 균일하게 성능을 향상시키지 않고 저강도 감정에 대한 System 1 한계를 구체적으로 보상한다.

두 가지 주의점을 인정한다. 첫째, thinking/non-thinking 비교는 추론 모드를 모델 구조 및 학습 데이터와 혼재시킨다: Gemini 대 GPT, Qwen3-VL 대 Gemma3는 thinking 능력 외에도 차이가 있다. 깨끗한 절제(동일 모델 구조에서 thinking 토글)가 더 강한 인과적 증거를 제공할 것이다. 둘째, VLM 추론 흔적과 인간 System 2 처리 간의 유비는 기능적이지 기계론적이지 않다 — VLM “thinking”은 인간 숙고의 기저 신경 과정이 아닌 자기회귀적 토큰 생성을 통해 작동한다. 이중 처리 프레임워크의 가치는 실증적 패턴의 조직 원리로서이지 공유된 인지 메커니즘에 대한 주장이 아니다.

5.2 슬픔-중립 혼동: 범행위자적 현상

슬픔은 6개 VLM 모두에서 가장 낮은 분류율을 보이는 감정으로, 정확도가 9.2% (LLaMA)에서 58.3% (Gemini)까지 범위한다. 지배적 오류 경로는 중립 흡수이다: non-thinking VLM은 슬픔 이미지의 66–76%를 중립으로 분류하여, 슬픔을 별개의 감정 상태가 아닌 감정의 부재로 취급한다. 이 혼동은 원환 모델에서 예측 가능하며, 슬픔은 중립에 근접한 저각성, 중등도 부정 영역을 차지한다.

본 연구는 잘 문서화된 FER 문헌의 슬픔-중립 혼동(Mejia-Escobar et al., 2023; Savchenko et al., 2024)을 세 가지 새로운 기여로 VLM에 확장한다. 첫째, 혼동이 프론티어 전정밀도 모델(GPT-4o-mini: 25.4% 슬픔 정확도)에서도 지속됨을 보여 양자화 아티팩트가 아닌 인식적 한계임을 확인한다. 둘째, thinking 모드가 이 혼동을 불균형적으로 감소시킴(Gemini에서 66–76% 혼동률에서 19.2%로)을 보여, chain-of-thought 추론이 저강도 감정 인식을 특정적으로 표적함을 보이는 최초의 증거를 제공한다. 셋째, 감정별 인간과 VLM 처리 난이도의 최초 직접 비교를 제공하여, 슬픔이 가장 자연스러운 자극 범주로 평정됨에도 두 행위자 모두에게 가장 어려운 감정(인간 RT와 VLM thinking 길이)임을 밝힌다.

이는 정신건강 지원 및 공감적 에이전트 설계에서의 VLM 배포에 심각한 위험을 제기한다. 슬픔을 감정적 중립과 구분할 수 없는 시스템은 고통 탐지에 근본적으로 실패할 것이다 — 이는 정서 컴퓨팅이 가장 큰 사회적 이익을 약속하는 바로 그 응용 영역이다(Pantic et al., 2005). Thinking 모드가 이 실패를 부분적으로 완화한다는 발견은 실용적 배포 권고를 시사한다: VLM 기반 감정 인식 시스템은 특히 저강도 부정 감정을 탐지할 때 chain-of-thought 추론을 사용해야 한다.

5.3 극성 과장 편향: 구조적 속성

프론티어 전정밀도 모델을 포함한 6개 VLM 모두 체계적으로 정서가 극단성을 증폭시킨다: 부정 감정은 인간 평정보다 더 부정적으로, 긍정 감정은 더 긍정적으로 평정된다. 이 극성 과장 편향은 감정적 언어가 과장되는 경향이 있는 VLM의 사전학습 코퍼스에서 기원할 가능성이 높다. 양자화 및 전정밀도 모델 모두에서 이 패턴이 지속되는 것은 양자화 아티팩트가 아닌 VLM 감정 처리의 구조적 속성임을 확인한다.

극성 과장의 일관성은 실용적 완화 경로를 시사한다: 감정 범주별 사후 선형 보정이 높은 순위-순서 상관을 보존하면서 절대 오차를 실질적으로 줄일 수 있다. VLM 출력 분포를 감정 범주별로 인간 출력 분포에 매핑하는 간단한 아핀 변환이 재학습 없이 평균 이동과 분산 팽창 모두를 교정할 것이다.

5.4 VLM 각성도 평정과 생태적 타당성

VLM은 인간 평정과 보통에서 높은 각성도 상관(r = .622–.783)을 보이며, thinking 모델이 가장 높은 값(r = .758–.767)을 달성한다. 각성도 평정 전에 VLM에 범주적 감정 레이블을 제공하는 context-carry 프롬프팅 설계가 불공정한 이점을 만든다고 주장할 수 있다. 그러나 인간 감정 인식은 본질적으로 순차적이다: 범주적 감정 인식이 약 170 ms 이내에 자동적이고 빠르게 일어나며 후속 차원적 판단을 고정시킨다(Barrett, 2017; Scherer, 2009). 본 연구의 인간 참가자도 차원을 순차적으로 평정하였으며, 각 판단이 잠재적으로 다음을 고정시켰다. 따라서 context-carry 설계는 VLM에 “추가” 정보를 제공하는 것이 아니라 인간의 순차적 판단과 유사한 정보 흐름을 제공한다.

5.5 모델별 인구통계학적 편향

배포 결정에 가장 중요한 발견은 VLM 인구통계학적 편향이 방향, 크기, 영향 차원에서 모델별로 상이하다는 것이다. 프론티어 모델이 가장 작은 인종 정확도 격차(3.9%p)를 보이는 반면, 로컬 모델은 최대 17.1%p의 격차를 보인다. 편향 방향은 모델별로 상이하다: Gemma3-4B는 성별-정서가 편향(여성 얼굴이 더 부정적으로 평정)을, LLaMA는 인종-각성도 편향(Korean 얼굴이 더 낮은 각성도로 평정)을 보인다. 이 이질성은 각 배포 맥락이 관련된 특정 인구와 감정에 대한 개별 편향 감사를 필요로 함을 의미한다.

5.6 한계

이 발견들의 일반화 가능성을 제약하는 여러 한계가 있다.

첫째, 인간 참가자가 한국인 성인에 한정되어 기준선에 문화적 편향을 도입할 가능성이 있다. 다양한 평정자 집단을 통한 교차문화적 반복이 필요하다. 둘째, thinking 효과 비교가 추론 모드를 모델 구조 및 학습 데이터와 혼재시킨다. 동일 모델에서 thinking을 토글하는 깨끗한 절제가 더 강한 인과적 증거를 제공할 것이다. 셋째, thinking budget 제약(Qwen3-VL에서 단계당 1,024 토큰)이 숙고적 추론의 이점을 제한할 수 있으며, 더 긴 thinking budget이 더 나은 결과를 만드는지는 미탐구 상태이다. 넷째, 자극이 정적 단일 감정 이미지인 반면, 실세계 감정 인식은 동적, 다중 모달, 혼합 감정 자극을 포함한다. 다섯째, context-carry 프롬프팅 전략이 대안적 접근(단일 샷 통합 프롬프팅)에서는 회피되는 구조적 오류 전파를 도입한다. 여섯째, 모든 자극이 AI 생성 얼굴이며, 이는 다른 모델에 대해 다른 분포 이동을 나타낼 수 있다. 웹 규모 데이터에서 학습된 VLM은 사전학습 중 AI 생성 이미지를 접했을 수 있어, 실제 얼굴 자극을 통한 반복이 필요한 비대칭적 비교를 만든다. 일곱째, thinking 흔적을 이중 처리 프레임워크를 통해 해석하지만 VLM “thinking”은 인간 숙고가 아닌 자기회귀적 토큰 생성이다 — 기능적 유비를 기계론적 동등성으로 오인해서는 안 된다.


6. 결론

본 연구는 1,440장의 AI 생성 얼굴 자극에서 6개 VLM과 1,000명의 인간 평정자의 심리측정적 비교를 제공하여, VLM 감정 인식의 이중 처리 설명을 확립한다. 다섯 가지 핵심 발견이 도출된다.

첫째, chain-of-thought thinking은 감정 분류를 일관적으로 7–8%p 향상시키며, 가장 큰 향상은 슬픔 인식에서 나타난다(55–58% vs. 9–25%). 4B 로컬 thinking 모델(Qwen3-VL, κ = 0.764)이 프론티어 non-thinking 모델(GPT-4o-mini, κ = 0.766)과 동등한 성능을 달성하여, 명시적 추론이 모델 규모를 부분적으로 보상함을 보인다.

둘째, 슬픔 인식의 어려움은 수렴적 증거에 의해 지지되는 범행위자적 현상이다: 인간 반응시간, VLM thinking 흔적, 분류 정확도 모두 슬픔을 가장 깊은 처리를 필요로 하는 감정으로 식별하며, 자극 자연스러움 평정은 이미지 품질을 대안적 설명에서 배제한다. 이 수렴적 증거는 non-thinking VLM이 저강도 감정에서 실패하는 System 1 처리기로 기능한다는 이중 처리 설명을 지지한다.

셋째, 극성 과장 편향과 슬픔-중립 혼동은 프론티어 전정밀도 모델에서도 지속되어, 양자화 아티팩트가 아닌 VLM 감정 처리의 구조적 속성임을 확인한다.

넷째, thinking 토큰은 인지 부하 대리지표로 기능한다: 모델은 오답 시행에서 26–69% 더 많은 추론 토큰을 생성하며, 감정 수준 thinking 길이는 인간 반응시간과 상관한다(ρ = +0.899, p = .015).

다섯째, 인구통계학적 편향은 방향, 크기, 영향 차원에서 모델별로 상이하며, 프론티어 모델이 로컬 모델(9.4–17.1 pp)보다 작은 인종 정확도 격차(3.9 pp)를 보여, 일반화된 편향 특성화가 아닌 모델별 감사를 필요로 한다.

이 발견들은 VLM 감정 평정이 보정과 편향 감사 없이 인간 판단을 대체할 수 없음을 보여준다. 정서적으로 민감한 맥락 — 정신건강 챗봇, 정서적 튜터링 시스템, 공감적 에이전트 — 에서의 배포를 위해, chain-of-thought 추론 활성화(특히 저강도 감정), 사후 정서가 보정 적용, 모델별 인구통계학적 편향 감사 수행을 권고한다. 향후 연구는 깨끗한 절제 실험을 통해 thinking 모드 비교의 혼재 요인을 다루고, 이중 처리 프레임워크를 동적 자극으로 확장하며, 인간 RT-VLM thinking 상관이 공유된 계산적 요구를 반영하는지 아니면 더 표면적 유사성을 반영하는지 조사해야 한다.


참고문헌

AlDahoul, N., et al. (2026). FaceScanPaliGemma: Multi-agent vision language models for facial attribute recognition. Scientific Reports, 16.

Alrasheed, H., Alghihab, A., Pentland, A., & Alghowinem, S. (2025). Evaluating the capacity of large language models to interpret emotions in images. PLOS ONE, 20(6), e0324127.

Barrett, L. F. (2017). The theory of constructed emotion: An active inference account of interoception and categorization. Social Cognitive and Affective Neuroscience, 12(1), 1–23.

Bates, D., Machler, M., Bolker, B., & Walker, S. (2015). Fitting linear mixed-effects models using lme4. Journal of Statistical Software, 67(1), 1–48.

Baudouin, J.-Y., Gallian, F., Pinoit, J.-M., & Damon, F. (2025). Arousal, valence, and discrete categories in facial emotion. Scientific Reports, 15(1), 40268.

Bhattacharyya, A., & Wang, S. (2025). Evaluating vision-language models for emotion recognition. In Findings of the Association for Computational Linguistics: NAACL 2025.

Calvo, M. G., & Nummenmaa, L. (2013). Wait, are you sad or angry? Large exposure time differences required for the categorization of facial expressions of emotion. Journal of Vision, 13(4), 14.

Dominguez-Catena, I., Paternain, D., & Galar, M. (2024). Less can be more: Representational vs. stereotypical gender bias in facial expression recognition. Progress in Artificial Intelligence, 13, 255–273.

Grynberg, D., Chang, B., Corneille, O., Maurage, P., Vermeulen, N., Berthoz, S., & Luminet, O. (2012). Alexithymia and the processing of emotional facial expressions: A systematic review, quantitative and qualitative meta-analysis. PLOS ONE, 7(8), e40259.

Harb, E., et al. (2025). Evaluating the performance of general purpose large language models in identifying human facial emotions. npj Digital Medicine, 8.

Hess, U., Adams, R. B., Jr., & Kleck, R. E. (2004). Facial appearance, gender, and emotion expression. Emotion, 4(4), 378–388.

Hugenberg, K., & Bodenhausen, G. V. (2003). Facing prejudice: Implicit prejudice and the perception of facial threat. Psychological Science, 14(6), 640–643.

Jankowiak, P., et al. (2024). Metrics for dataset demographic bias: A case study on facial expression recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 46(8), 5520–5536.

Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.

Khare, S. K., Blanes-Vidal, V., Nadimi, E. S., & Acharya, U. R. (2024). Emotion recognition and artificial intelligence: A systematic review (2014–2023). Information Fusion, 102, 102019.

Lang, J., et al. (2024). A comprehensive study on quantization techniques for large language models. arXiv preprint arXiv:2411.02530.

Li, Y., et al. (2025). MBQ: Modality-balanced quantization for large vision-language models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).

Mejia-Escobar, C., Gallego-Molina, N. J., & Arias-Vergara, T. (2023). Towards a better performance in facial expression recognition: A data-centric approach. Computational Intelligence and Neuroscience, 2023.

Mollahosseini, A., Hasani, B., & Mahoor, M. H. (2017). AffectNet: A database for facial expression, valence, and arousal computing in the wild. IEEE Transactions on Affective Computing, 10(1), 18–31.

Mulukutla, V. K., Pavarala, S. S., Rudraraju, S. R., & Bonthu, S. (2025). Evaluating open-source vision language models for facial emotion recognition against traditional deep learning models. arXiv preprint arXiv:2508.13524.

Pantic, M., Sebe, N., Cohn, J. F., & Huang, T. (2005). Affective multimodal human-computer interaction. In Proceedings of the 13th ACM International Conference on Multimedia (pp. 669–676).

Plant, E. A., Hyde, J. S., Keltner, D., & Devine, P. G. (2000). The gender stereotyping of emotions. Psychology of Women Quarterly, 24(1), 81–92.

Qiao, Y., et al. (2025). Empathy and emotion recognition: A three-level meta-analysis. Psychological Methods.

Refoua, S., Elyoseph, Z., Piterman, H., et al. (2026). Evaluation of cross-ethnic emotion recognition capabilities in multimodal large language models using the reading the mind in the eyes test. Scientific Reports, 16.

Russell, J. A. (1980). A circumplex model of affect. Journal of Personality and Social Psychology, 39(6), 1161–1178.

Savchenko, A. V., et al. (2024). AffectNet+: Soft-label facial expression recognition with improved dataset and enhanced training pipeline. arXiv preprint arXiv:2410.22506.

Scherer, K. R. (2009). The dynamic architecture of emotion: Evidence for the component process model. Cognition and Emotion, 23(7), 1307–1351.

Tak, A. N., & Gratch, J. (2024). GPT-4 emulates average-human emotional cognition from a third-person perspective. In Proceedings of the 12th International Conference on Affective Computing and Intelligent Interaction (ACII).

Telceken, M., Akgun, D., Kacar, S., Yesin, K., & Yildiz, M. (2025). Can artificial intelligence understand our emotions? Deep learning applications with face recognition. Current Psychology, 44(9), 7946–7956.

Zhang, Y., Yang, X., Xu, X., et al. (2024). Affective computing in the era of large language models: A survey from the NLP perspective. arXiv preprint arXiv:2408.04638.


부록: FER 기준 모델 비교

S1. FER 기준 비교

5개 FER 특화 모델 — PosterV2 (κ = 0.878), MobileViT (κ = 0.848), EfficientNet (κ = 0.823), BEiT (κ = 0.713), EmoNet (κ = 0.665) — 이 동일한 1,440장에서 평가되었다. FER 모델은 대부분의 VLM보다 높은 분류 정확도를 달성하지만 거의 0이거나 부적 각성도 상관(r = .126–.448)을 보인다. 상보적 성능 프로필 — 분류와 정서가에서 FER 우위, 각성도에서 VLM 우위 — 은 근본적으로 다른 처리 전략을 시사하나, context-carry 설계를 통한 VLM의 각성도 평정 시 범주적 레이블 접근으로 인해 비교가 엄밀히 동등하지는 않다.

Table S1. VLM과 FER 모델 통합 순위 (11개 모델).

순위모델유형Thinking정확도κ
1PosterV2FER0.8990.878
2Gemini 2.5 FlashVLM0.8810.855
3MobileViTFER0.8750.848
4EfficientNetFER0.8540.823
5GPT-4o-miniVLM아니오0.8120.766
6Qwen3-VL-4BVLM0.8060.764
7BEiTFER0.7660.713
8Gemma3-12BVLM아니오0.7610.698
9EmoNetFER0.7310.665
10Gemma3-4BVLM아니오0.7260.646
11LLaMA-3.2-11BVLM아니오0.6130.458

S2. FER 정서가 및 각성도 통계

Table S2. 정서가 예측: FER 모델.

모델Pearson rMAE
MobileViT.9500.916
EfficientNet.9401.063
EmoNet.9280.795

Table S3. 각성도 예측: FER 모델.

모델Pearson rMAE
EfficientNet.4481.696
MobileViT.4091.864
EmoNet.1261.369

FER 각성도 예측은 FER 모델이 중간 범주적 표상 없이 픽셀로부터 직접 각성도를 예측하여, 범주적 감정을 차원적 강도 전에 처리하는 VLM 및 인간과 근본적으로 다른 정보 체제에서 작동하기 때문에 별도로 제시된다.