Vision Language Model은 인간처럼 감정을 인식하는가? AI 생성 얼굴 자극에 대한 인간-VLM 정서 평정 비교 및 인구통계적 편향 분석

저자: 태지니, 박주현, 최원일

소속: 광주과학기술원 (GIST), 대한민국

초록

Vision Language Model(VLM)은 감정 컴퓨팅(affective computing) 분야에서 점차 활용이 확대되고 있으나, 범주적 정확도 지표를 넘어선 인간 감정 지각과의 정렬에 대한 이해는 아직 부족하다. 본 연구는 1,000명의 인간 참가자와 두 개의 instruction-tuned VLM — Gemma3-4B-IT(Google)와 LLaMA-3.2-11B-Vision(Meta) — 의 정서 평정을 3개 인종(흑인, 백인, 한국인), 2개 성별, 6개 기본 정서로 균형 잡힌 1,440장의 AI 생성 얼굴 이미지를 대상으로 비교한다. VLM을 추가 평정자로 취급하는 심리측정학적 프레임워크를 사용하여, 범주 일치도(Cohen’s κ), 차원 정렬(valence 및 arousal에 대한 Pearson 상관, MAE, 혼합효과 모형), 인구통계적 편향을 인간 평정자 간 신뢰도를 상한선으로 설정하여 평가한다. 두 VLM 모두 중간~상당 수준의 범주 일치도(κ = 0.535–0.671)를 달성하였으나, 정형화된 응답(stereotyped responding) — 감정 범주당 1–6개의 고유한 값만을 근사 영(零)의 분산으로 산출 — 을 나타내어, 이미지별 변별이 아닌 원형 조회에 해당함을 보여주었다. Valence 상관은 높지만(r = .891–.901) 절대 오차는 크며(MAE = 1.46–1.81), 이는 VLM이 부정 감정을 인간보다 더 부정적으로, 긍정 감정을 더 긍정적으로 평정하는 극성 과장 편향(polarity exaggeration bias)에 기인한다. Arousal 예측은 5개 FER 전용 기저 모델 전체를 능가하여(r = .759–.783 vs. .126–.448), 언어 매개 추론이 강도 추정에 구조적 이점을 제공함을 시사한다. 인구통계적 편향 패턴은 모델 특이적이다: Gemma3는 성별-valence 편향(β = −0.332)을, LLaMA는 인종-arousal 편향을 3배 더 크게 보인다. 이러한 결과는 VLM 정서 평정이 인간 판단을 대체할 수 없으며, 편향 감사가 모델별로 수행되어야 함을 보여준다. 본 연구는 두 VLM을 5개 FER 모델과 동일 자극에서 추가 비교하여, 범주-차원 분리선을 사이에 둔 상보적 강점을 발견하였다.

키워드: Vision Language Models, 얼굴 표정 인식, 심리측정 일치도, Valence-Arousal, 인구통계적 편향, AI 생성 얼굴, 감정 컴퓨팅

1. 서론

1.1 감정 컴퓨팅과 VLM의 가능성

정신건강 챗봇에서 반응형 가상 비서에 이르기까지 감정 컴퓨팅 시스템의 배치는 얼굴 표정으로부터의 정확한 자동 감정 인식에 점점 더 의존하고 있다. 이러한 시스템의 효능은 정서적 정렬(affective alignment) — 기계의 감정 단서 해석이 인간의 심리적 기준과 일치하는 정도로 정의되는 — 에 달려 있다(Pantic et al., 2005). 공감적 에이전트가 사용자의 고통 강도를 잘못 해석하면, 사용자의 신뢰를 해치고 의미 있는 상호작용을 유지하는 데 실패할 위험이 있다. 이러한 위험 고려가 기계와 인간의 감정 지각 간 엄밀한 실증적 비교를 동기화한다.

Vision Language Model(VLM)은 과제 특화 얼굴 표정 인식(FER) 모델에서 범용 다중모달 시스템으로의 패러다임 전환을 대표한다. VLM은 비전 인코더와 대형 언어 모델을 통합하여, 자연어 프롬프팅을 통한 이미지 조건부 텍스트 생성을 가능하게 하는 모델이다. FER 전용 모델이 감정 레이블 데이터셋에서 end-to-end로 훈련되어 고정된 감정 범주나 연속적 valence-arousal 값을 출력하는 반면, VLM은 지시 프롬프팅을 통해 범주적 평정과 차원적 평정을 유연하게 산출할 수 있으며, 이는 인간이 자연스럽게 수행하는 통합적 판단 과정에 대응한다. 이러한 유연성은 VLM이 비용이 큰 인간 감정 주석화 — 1,000명의 평정자로부터 72,000개의 응답을 수집하는 것과 같은 상당한 시간적, 재정적 투자 — 의 확장 가능한 대안이 될 수 있는 가능성을 제기한다.

VLM이 진정으로 인간처럼 감정을 지각하는지 평가하려면, 차원적 측정 프레임워크가 필요하다. Russell(1980)의 정서 순환 모형(Circumplex Model of Affect)은 모든 정서 경험을 valence와 arousal로 정의된 연속적 2차원 공간에 매핑하는 이론적 프레임워크이다. Valence는 정서 경험의 쾌락적 특성으로, 불쾌에서 유쾌까지의 범위를 갖는다. Arousal은 생리적 활성화의 정도로, 차분에서 흥분까지의 범위를 갖는다. 이 차원적 프레임워크는 범주적 분류만으로는 포착할 수 없는 미세한 지각적 불일치를 감지할 수 있는 풍부한 표상 어휘를 제공한다. 두 시스템이 모두 표정을 “분노”로 정확하게 분류하더라도, 그 분노를 얼마나 강렬하게(arousal) 또는 얼마나 부정적으로(valence) 지각하는지에서는 차이가 날 수 있다. 차원적 평정의 이론적 중요성에도 불구하고, 감정 인식의 계산적 평가는 압도적으로 이산적 범주 정확도에 초점을 맞추어 왔다(Khare et al., 2024; Telceken et al., 2025).

1.2 평가의 공백

이러한 프레임워크가 존재함에도 불구하고, 현행 VLM 평가는 이를 사용하지 못하고 있으며, 본 연구가 해결하고자 하는 네 가지 핵심 공백을 생성한다.

첫 번째 공백은 인간 수행 상한선의 부재에 관한 것이다. 기존 벤치마크는 정답 레이블에 대한 정확도와 F1 점수에 의존하면서 인간 평정자 간의 상당한 불일치를 무시한다. 인간의 감정 지각은 본질적으로 가변적이며 — 특히 arousal의 경우 평정자 간 신뢰도가 Krippendorff’s α = 0.125만큼 낮을 수 있다(본 연구). Krippendorff’s α는 다수 평정자를 위한 신뢰도 계수로, 우연 일치를 보정하며 1.0은 완벽한 합의를, 0.0은 우연 수준의 일치를 나타낸다. 인간 평정자 간 신뢰도를 수행의 상한선으로 설정하지 않으면, 모델의 오류가 진정한 실패를 반영하는 것인지 감정 지각의 본질적 주관성을 단순히 반영하는 것인지 판별할 수 없다.

두 번째 공백은 범주적 정확도에 대한 배타적 초점으로, 정서 과학의 핵심인 연속적 차원 평정을 무시한다. 모델이 완벽한 범주적 정확도를 달성하면서도 체계적으로 왜곡된 차원 평정을 산출할 수 있으며, 이 해리를 본 연구에서 실증적으로 보여준다.

세 번째 공백은 오픈소스 VLM에 대한 인구통계적 편향 감사의 부재에 관한 것이다. 상용 FER API에서 인구통계적 격차가 보고되었으나(Rhue, 2018; Jankowiak et al., 2024), 인종-성별-감정 교차점에 걸친 오픈소스 VLM의 체계적 편향 분석은 부재하다. 이 공백은 공정성 보장이 중요한 연구 및 응용 현장에서 오픈소스 VLM의 급속한 채택을 고려하면 우려스럽다.

네 번째 공백은 “AI”의 대리 변인으로서 대표성이 부족한 모델의 사용이다. 인간과 AI의 감정 지각을 비교한 선행 연구는 주로 FER 전용 모델 — 수백만 파라미터 수준의 경량 아키텍처(예: MobileViT 약 6M, EfficientNet 약 5M)로 AffectNet(Mollahosseini et al., 2017)과 같은 감정 레이블 데이터셋에서만 훈련된 — 을 사용하였다. 이러한 모델은 높은 분류 정확도를 달성하지만, 인터넷 규모의 다중모달 데이터에서 훈련된 수십억 파라미터의 현대적 파운데이션 모델의 능력을 대표하지 못하며, 인간이 자연스럽게 산출하는 통합적 범주+차원 평정도 지원하지 않는다. FER 전용 모델만으로 인간 평정자와 비교한 선행 연구는 현대적 파운데이션 모델의 능력을 적절히 대표하지 못할 수 있으며, 이것이 본 연구에서 VLM으로의 전환을 동기화하였다.

1.3 기여 및 연구 질문

본 논문은 감정 컴퓨팅, 인지심리학, 다중모달 AI 평가의 교차점에서 다섯 가지 기여를 한다. 첫째, VLM을 인간 평정 패러다임의 추가 참가자로 취급하는 VLM-as-rater 심리측정 프레임워크를 도입한다. 정확도와 F1로 VLM을 정답 레이블에 대해 평가하는 대신, 급내상관계수(ICC), Cohen’s κ, Krippendorff’s α, Bland-Altman 분석을 사용하여 인간 평정자 간 신뢰도를 실증적 상한선으로 설정한 합의도를 정량화한다. Cohen’s κ는 범주적 분류에 대한 우연 보정 합의 측정치로, 0은 우연 수준을, 1은 완벽한 일치를 나타낸다. Bland-Altman 분석은 체계적 편향과 95% 일치 한계를 통해 두 측정 방법 간의 합의를 평가하는 방법이다. 이 프레임워크는 정확도 기반 평가가 완전히 놓치는 VLM 행동의 차원들 — 정형화된 응답, 극성 과장, 차원 붕괴 — 을 드러낸다. 둘째, 완전 교차 3(인종) × 2(성별) × 6(감정) 요인 자극 설계와 완벽한 실험적 통제를 보장하는 1,440장의 AI 생성 얼굴 이미지를 사용한 오픈소스 VLM의 최초 체계적 인구통계적 편향 분석을 제시한다. 셋째, VLM이 감정 범주당 1–6개의 고유한 valence-arousal 값만을 산출하는(예: LLaMA의 neutral valence SD = 0.00) 정형화된 응답 현상을 발견하며, 이는 이미지별 강도 변별이 아닌 범주적 원형 조회를 나타낸다. 넷째, 두 VLM과 5개 FER 전용 모델을 동일한 인간 기저선(N = 1,000)에 대해 이중 비교하여, FER 모델이 valence 예측에서 우세하고 VLM이 arousal 예측에서 우세한 강점 역전(strength inversion)을 발견한다. 다섯째, Gemma3와 LLaMA가 서로 다른 차원에서, 다른 인구집단에 대해, 다른 방향으로 편향을 보이는 모델 특이적 인구통계 편향 프로파일을 식별한다.

본 연구의 연구 질문은 VLM-인간 비교의 세 축을 다룬다. RQ1은 VLM의 정서 평정이 범주적 및 차원적 측정에서 인간 평정자 간 신뢰도와 어떻게 비교되는지를 묻는다. RQ2는 VLM이 감정 귀인에서 체계적 인구통계적 편향을 보이는지, 그리고 이 편향이 모델 특이적인지를 묻는다. RQ3은 VLM이 분류 정확도, 차원 예측, 편향 프로파일에서 FER 전용 모델과 어떻게 비교되는지를 묻는다.

2. 선행 연구

2.1 감정 인식을 위한 VLM

VLM의 얼굴 감정 인식 적용은 혼재된 결과를 보여주고 있으며, 전통적 딥러닝 모델이 범주적 정확도에서 VLM을 일관되게 능가한다. Mulukutla et al.(2025)은 FER-2013 — 7개 감정 클래스에 걸친 35,887장의 저해상도 흑백 이미지를 포함하는 데이터셋 — 에서 오픈소스 VLM과 전통 모델의 최초 실증 비교를 수행하였다. 전통 모델 — EfficientNet-B0(86.44% 정확도)과 ResNet-50(85.72%) — 은 VLM을 20~35 백분율점 차이로 능가하였으며, CLIP은 64.07%, Phi-3.5 Vision은 51.66%를 달성하였다. 이 성능 격차는 VLM의 범용적 시각 이해 능력이 FER 수행으로 자동 전환되지 않음을 시사하며, 특히 저품질 시각 입력에서 그러하다.

Frontier API 모델은 더 유망한 결과를 보여주며, GPT-4o와 Gemini가 특정 표정에서 인간 수행과 일치한다. NimStim 데이터셋에서의 평가는 GPT-4o와 Gemini가 차분, 중립, 놀람 표정에서 인간 수행과 일치하거나 능가함을 보여주지만, 더 모호한 감정에서는 성능이 저하된다(Harb et al., 2025). Refoua et al.(2026)은 백인, 흑인, 한국인 얼굴 자극이 포함된 마음의 눈 읽기 검사(RMET)에서 ChatGPT-4, ChatGPT-4o, Claude 3 Opus를 평가하여, ChatGPT-4o가 세 인종 버전 모두에서 85번째 인간 백분위 이상의 정확도로 인종 간 일관된 수행을 달성함을 보고하였다. FER에 특화된 VLM 프레임워크도 등장하였으며, FACET-VLM(2025)은 다시점 얼굴 표상 학습과 의미론적 언어 안내를 통해 BU-4DFE에서 최대 99.41%를 달성하였다. 그러나 이러한 미세조정 모델은 VLM을 다목적 감정 주석 도구로서 매력적으로 만드는 범용성을 희생한다. 본 연구는 연구 배치에 접근 가능한 4B–11B 규모의 오픈소스 모델을 평가하여, FER 전용 접근법과 frontier API 접근법 사이의 공백을 연결한다.

2.2 감정 지각에서의 인간-AI 비교

인간과 기계 평정자의 심리측정적 비교는 임상심리학에서 오랜 전통을 가지며, 최근 대형 언어 모델로 확장되었다. 급내상관계수(ICC)는 두 측정 방법 간의 합의를 측정하는 지표이며, Bland-Altman 분석은 두 방법 간의 체계적 편향을 시각화한다. 둘 다 측정 합의도 평가의 표준 도구로 활용된다. 감정 컴퓨팅 분야에서 Tak과 Gratch(2024)는 GPT-4가 3인칭 관점에서 평균적 인간의 감정 인지를 모방하며, 자기 평가보다 타인의 감정에 대한 인간 판단과 더 밀접하게 정렬됨을 발견하였다. PLOS ONE에 발표된 연구(Alrasheed et al., 2025)는 GPT-4의 이미지 감정 해석 능력을 평가하여, 제네바 정서 사진 데이터베이스(GAPED)에서 제로샷 조건으로 valence r = 0.87, arousal r = 0.72의 수치 응답 상관을 달성하였다. 이러한 결과는 대형 언어 모델이 인간의 감정 지각을 근사할 수 있음을 확립하지만, 근사의 정도는 감정 차원에 따라 달라진다.

감정 지각에서의 선행 인간-AI 비교는 일반적으로 제한된 차원성을 가진 FER 전용 모델 또는 모델 내부에 대한 투명한 접근이 없는 frontier API 모델 중 하나를 사용하였다. Zhang et al.(2024)은 LLM 시대의 감정 컴퓨팅에 대한 종합 서베이를 제공하며, LLM이 감성 분류와 감정 탐지 같은 감정 이해 과제에서는 우수하지만, 차원적 감정 추정에서의 성능은 아직 충분히 탐구되지 않았음을 기술한다. 본 연구는 대규모 인간 데이터(N = 1,000)에 기반한 심리측정 프레임워크를 통해 통합적 범주+차원 평정을 산출하는 오픈소스 VLM을 평가함으로써 이 공백을 연결한다.

2.3 자동화된 감정 인식에서의 인구통계적 편향

자동화된 감정 인식에서 보고된 인종적, 성별 격차는 VLM으로 확장되는 공정성 우려를 제기하였다. Jankowiak et al.(2024)은 FER에서의 데이터셋 인구통계적 편향 측정을 위한 공식적 지표를 제안하여, 불균형한 훈련 데이터 구성이 인구통계 집단 간 체계적 성능 격차로 전파됨을 입증하였다. FER에서의 성별 편향은 두 가지 형태로 나타난다: 대표성 편향(representational bias) — 훈련 데이터에서의 불균등한 인구통계 대표 — 과 고정관념적 편향(stereotypical bias) — 감정과 인구통계 간의 체계적 연합, 예를 들어 여성 얼굴을 슬픔과, 남성 얼굴을 분노와 연결하는 것(Dominguez-Catena et al., 2024).

인간의 감정 지각 자체도 인구통계적으로 중립적이지 않다. 성별-감정 고정관념은 관찰자가 남성 얼굴을 분노와 같은 지배 관련 감정과, 여성 얼굴을 행복과 슬픔 같은 친사회적 감정과 연합하도록 이끈다(Hess et al., 2004). 인간 주석화에서의 이러한 편향은 훈련 데이터셋으로 전파되며 — AffectNet(Mollahosseini et al., 2017)은 이미지당 약 12명의 희소한 주석에 의존한다 — 알고리즘 최적화에 의해 증폭될 수 있다. 본 연구는 편향 분석을 상용 API와 훈련 데이터셋으로부터 오픈소스 VLM으로 확장하며, 혼합효과 모형을 통한 인종, 성별, 감정 효과의 직교적 추정을 가능하게 하는 요인 실험 설계를 사용한다.

2.4 감정 연구에서의 AI 생성 자극

감정 연구에 사용되는 전통적 얼굴 데이터베이스 — KDEF, ADFES, FER-2013, AffectNet 포함 — 는 표현 품질, 조명, 인구통계적 균형에서의 통제되지 않은 변동을 겪는다. 실제 얼굴 데이터베이스는 감정 표현을 연기하는 배우에 의존하여, 내적 타당도를 저해하는 혼입 변인을 생성하는 표현 품질과 강도에서의 개인차를 도입한다. 인구통계적 균형은 달성하기 어려우며, 대부분의 데이터베이스가 특정 인종 집단을 과대 대표한다.

AI 생성 얼굴 자극은 완벽한 실험적 통제를 보장하는 통제된 생성 파이프라인을 통해 이러한 한계를 해결한다. 본 연구에서 사용된 GIST-AIFaceDB는 표준화된 특징 — 동일한 회색 배경, 네이비 티셔츠, 정면 포즈 — 의 중립 기본 얼굴을 생성한 후, 정체성을 보존하면서 각 중립 얼굴을 5개의 감정 표현으로 변환한다. 이 파이프라인은 주어진 정체성에 대한 감정 표현 간의 모든 차이가 외부 시각 요인이 아닌 감정 조작에만 귀인될 수 있음을 보장한다. AI 생성 자극의 생태학적 타당성은 인간의 자연스러움 평정에 의해 지지된다: 본 데이터셋에서 평균 자연스러움은 5.26(공포)에서 6.94(행복)까지 9점 척도로 분포하여, 참가자들이 자극을 중간~높은 수준으로 현실적이라고 지각하였음을 나타낸다. Baudouin et al.(2025)은 차원 평정이 자극의 출처와 무관하게 얼굴 자극에서 신뢰롭게 수집될 수 있다는 지지 증거를 제공하며, AI 생성 얼굴이 촬영된 얼굴과 비교 가능한 정서 반응을 유발함을 시사한다.

3. 방법

그림 1은 전체 연구 파이프라인을 제시하며, 1,440장의 AI 생성 자극이 인간 평정, VLM 추론, FER 기저선 평가를 거쳐 심리측정적 비교로 수렴하는 흐름을 보여준다.

flowchart TB
    subgraph Stimuli["자극 생성"]
        A["OpenArt<br>STOIQO NewReality Flux"] -->|"240장 중립 얼굴"| B["Nano-Banana<br>Gemini 2.5 Flash Image"]
        B -->|"정체성당 5개 감정"| C["GIST-AIFaceDB<br>1,440장<br>3 인종 x 2 성별 x 6 감정 x 40 ID"]
    end

    subgraph Human["인간 평정"]
        C --> D["N = 1,000 한국인 성인<br>1인당 72장<br>총 72,000 응답"]
        D --> E["Valence 1-9<br>Arousal 1-9<br>Naturalness 1-9"]
    end

    subgraph VLM["VLM 추론"]
        C --> F["Gemma3-4B-IT<br>Google, QAT 4-bit"]
        C --> G["LLaMA-3.2-11B-Vision<br>Meta, 4-bit"]
        F --> H["Context-Carry<br>3단계 프롬프팅"]
        G --> H
        H --> I["감정 + Valence + Arousal<br>이미지당"]
    end

    subgraph FER["FER 기저선"]
        C --> J["5개 모델<br>PosterV2, MobileViT,<br>EfficientNet, BEiT, EmoNet"]
        J --> K["분류 +<br>VA 예측"]
    end

    subgraph Analysis["심리측정적 비교"]
        E --> L["Cohen kappa<br>Pearson r, MAE<br>혼합효과 모형<br>인구통계 편향"]
        I --> L
        K --> L
        L --> M["핵심 발견:<br>정형화된 응답<br>극성 과장<br>강점 역전<br>모델 특이적 편향"]
    end

    style Stimuli fill:#e1f5fe,stroke:#0288d1
    style Human fill:#fff3e0,stroke:#f57c00
    style VLM fill:#e8f5e9,stroke:#388e3c
    style FER fill:#fce4ec,stroke:#c62828
    style Analysis fill:#f3e5f5,stroke:#7b1fa2

그림 1. 전체 연구 파이프라인. AI 생성 자극(파란색)이 인간 평정자(주황색), 두 VLM(녹색), 5개 FER 기저선(빨간색)에 의해 평가되며, 모든 출력이 심리측정적 비교(보라색)로 수렴한다.

3.1 자극

자극 세트는 GIST AI 생성 얼굴 데이터베이스(GIST-AIFaceDB, 심사 중)의 1,440장 AI 생성 얼굴 이미지로 구성된다. 생성 파이프라인은 2단계 과정을 거쳤다. 1단계에서는 OpenArt 플랫폼에 배포된 STOIQO NewReality Flux 모델을 사용하여 240장의 중립 기본 얼굴을 생성하였다. 이 중립 얼굴은 회색 배경 앞에서 표준화된 네이비 티셔츠를 착용한 다양한 가상 정체성을 묘사하며, 생성 프롬프트는 3개 인종 집단(흑인, 백인, 한국인)과 2개 성별(남, 여)에 걸친 연령 다양성, 헤어스타일 변형, 인구통계적 특성을 명시하였다. 2단계에서는 Google AI Studio에 구현된 고급 이미지 편집 모델 Nano-Banana(Gemini 2.5 Flash Image)를 사용하여 각 중립 얼굴을 원본 이미지의 정체성, 조명, 배경을 보존하면서 5개의 추가 감정 표현 — 분노, 혐오, 공포, 행복, 슬픔 — 으로 변환하였다.

결과적으로 생성된 완전 교차 요인 설계 — 3(인종) × 2(성별) × 6(감정: 분노, 혐오, 공포, 행복, 슬픔, 중립) × 40(정체성) — 는 균형 잡힌 셀 크기를 가진 1,440장의 이미지를 산출한다: 감정당 240장, 인종당 480장, 성별당 720장, 인종-성별-감정 조합당 80장. 이 균형 잡힌 설계는 혼입 없이 모든 인구통계 효과의 직교적 추정을 가능하게 한다.

3.2 인간 평정 절차

연구 프로토콜은 기관생명윤리위원회(IRB)의 심의를 거쳐 면제 승인을 받았다. 1,000명의 한국인 성인(여성 500명, 남성 500명; 연령 M = 44.6, SD = 13.7, 범위 20–69)이 온라인 플랫폼을 통해 모집되었으며, 연령 코호트와 성별에 걸쳐 엄격히 균형 잡힌 모집이 이루어졌다. 각 참가자는 1,440장의 전체 풀에서 무작위로 선택된 72장의 이미지를 평가하였으며, 모든 이미지는 무작위 순서로 제시되었다. 이 역균형 교차 설계를 통해 각 이미지는 50개의 독립적 평정을 받아, 총 72,000개의 응답이 세 차원에 걸쳐 산출되었다: valence(1–9 리커트 척도, 1 = “매우 부정적,” 9 = “매우 긍정적”), arousal(1–9, 1 = “전혀 각성되지 않음,” 9 = “매우 각성됨”), 자연스러움(1–9, 1 = “매우 부자연스러움,” 9 = “매우 자연스러움”).

Krippendorff’s α(순서형)로 산출된 평정자 간 신뢰도는 인간 수행 상한선을 확립하였다: valence α = 0.471(빈약-양호), arousal α = 0.125(빈약), 자연스러움 α = 0.126(빈약). 이 값들이 낮아 보이지만, 감정 평정 연구의 일반적 범위 내에 위치하며 정서 지각 — 특히 arousal — 의 본질적 주관성을 반영한다. 선형 혼합효과 모형(LMM)은 고정효과(감정 범주와 같은 체계적 요인)와 무선효과(개별 이미지나 평정자와 같은 변산 원천)를 모두 포함하는 회귀 모형이다. 혼합효과 분산 분해는 평정자 개인차(valence σ² = 0.450, arousal σ² = 0.696)가 이미지 수준 분산을 valence에서 11배, arousal에서 32배 압도함을 확인하여, 낮은 신뢰도가 자극 모호성이 아닌 평정자 이질성에 의해 주도됨을 확인하였다.

3.3 VLM 추론

두 개의 instruction-tuned VLM이 평가되었다: Gemma3-4B-IT(Google, 40억 파라미터, QAT 4-bit 양자화)와 LLaMA-3.2-11B-Vision-Instruct(Meta, 110억 파라미터, 4-bit 양자화). 두 모델 모두 MLX 프레임워크를 통해 Apple Silicon(M1 Max, 32GB)에서 HTTP 오버헤드 없이 GPU 가속 추론으로 배포되었다.

추론은 3단계 context-carry 프롬프팅 전략을 따랐으며, 이는 이전 출력이 후속 예측의 맥락으로 전달되는 순차적 접근법을 기술하기 위해 본 연구에서 도입한 용어로, 인간의 순차적 판단에서의 고정효과(anchoring effects)에 대응한다. 1단계에서 모델은 구조화된 JSON 출력을 통해 6개 강제 선택 범주(행복, 슬픔, 분노, 공포, 혐오, 중립)로 얼굴 감정을 분류하였다. 2단계에서 분류된 감정이 맥락으로 전달되어 모델이 1–9 척도로 valence를 평정하였다. 3단계에서 분류된 감정과 valence 평정 모두가 전달되어 모델이 1–9 척도로 arousal을 평정하였다. 이 전략은 구조적 오류 전파를 도입한다: 1단계의 분류 오류가 후속 valence 및 arousal 평정에 체계적으로 영향을 미친다. 응답 파싱은 캐스케이드 전략 — 직접 JSON 파싱, 마크다운 펜스 제거, 정규식 대체 — 을 사용하였다. 감정 레이블은 첫 세 글자로 퍼지 매칭되었고, valence와 arousal 모두 [1, 9]로 클램핑되었다. Gemma3는 100% JSON 파싱 성공률과 1건의 무효 범주 출력(0.07%, “doubt”)을 달성하였으며, LLaMA도 유사한 준수율을 보였다. 두 모델 모두 1,440장 전체를 성공적으로 처리하였다.

그림 2는 본 연구에서 실제 사용한 프롬프트 템플릿과 함께 3단계 context-carry 프롬프팅 전략을 보여준다.

flowchart TD
    IMG["입력: 얼굴 이미지 + 프롬프트"] --> S1

    subgraph S1["1단계 — 감정 분류"]
        direction TB
        P1["프롬프트:<br>What is the facial expression<br>in this image? Choose one from:<br>happy, sad, angry, fear,<br>disgust, neutral.<br>Answer with a single word only."]
        P1 --> R1["모델 응답:<br>예: happy"]
    end

    S1 -->|"emotion = happy<br>2단계로 전달"| S2

    subgraph S2["2단계 — Valence 평정"]
        direction TB
        P2["프롬프트:<br>You identified this face as happy.<br>How pleasant is this facial<br>expression? Rate from 1 to 9<br>where 1 is very unpleasant and<br>9 is very pleasant.<br>Answer with a single number only."]
        P2 --> R2["모델 응답:<br>예: 8"]
    end

    S2 -->|"emotion = happy,<br>valence = 8<br>3단계로 전달"| S3

    subgraph S3["3단계 — Arousal 평정"]
        direction TB
        P3["프롬프트:<br>You identified this face as happy<br>with pleasantness 8 out of 9.<br>How intense or activated is the<br>emotion in this face? Rate from<br>1 to 9 where 1 is very calm<br>and 9 is very excited.<br>Answer with a single number only."]
        P3 --> R3["모델 응답:<br>예: 7"]
    end

    S3 --> OUT["최종 출력:<br>emotion=happy, valence=8, arousal=7"]

    S1 -.->|"오류 전파"| S2
    S2 -.->|"고정 효과"| S3

    style S1 fill:#e8f5e9,stroke:#388e3c
    style S2 fill:#fff3e0,stroke:#f57c00
    style S3 fill:#fce4ec,stroke:#c62828
    style OUT fill:#e1f5fe,stroke:#0288d1
    style P1 fill:#f1f8e9,stroke:#689f38,text-align:left
    style P2 fill:#fff8e1,stroke:#ffa000,text-align:left
    style P3 fill:#fce4ec,stroke:#e57373,text-align:left

그림 2. 실제 프롬프트 템플릿을 포함한 3단계 context-carry 프롬프팅 전략. 각 단계는 얼굴 이미지와 텍스트 프롬프트를 함께 입력받는다. 1단계 출력(감정 레이블)이 2단계 프롬프트 템플릿에 주입되고, 2단계 출력(valence)이 3단계 프롬프트에 추가 주입된다. 점선 화살표는 오류 전파를 나타낸다: 1단계의 오분류(예: “sad”가 “neutral”로 분류)가 2, 3단계에서 잘못된 감정 프레임 하에 valence와 arousal을 평정하게 한다.

3.4 FER 기저 모델

비교 분석을 위해 동일한 1,440장의 이미지에서 5개의 FER 전용 모델을 평가하였다. 얼굴 표정 인식(FER) 모델은 감정 레이블 데이터셋에서 end-to-end로 훈련되어 고정된 감정 범주나 연속적 valence-arousal 값을 출력하는 과제 특화 아키텍처이다. 5개 기저 모델은 PosterV2(Pyramid Transformer, 분류만), MobileViT(경량 Vision Transformer, 분류 및 VA 예측), EfficientNet-B0-8-VA-MTL(다중과제 CNN, 분류 및 VA 예측), BEiT(BERT Image Transformer, 분류만), EmoNet(CNN, 분류 및 VA 예측)을 포함하였다. VA 가능 3개 모델(EmoNet, MobileViT, EfficientNet)의 경우, 원래 [-1, 1] 범위의 예측값을 v_norm = (v_raw + 1) / 2 × 8 + 1 공식으로 인간 평정 척도 [1, 9]로 정규화하였다.

3.5 통계 분석

범주 일치도는 의도된 감정 레이블에 대한 Cohen’s κ로 정량화하였으며, McNemar 검정으로 모델 쌍별 비교를 수행하였다. 차원 정렬은 Pearson 상관, 평균 절대 오차(MAE), 평균 제곱근 오차(RMSE), Bland-Altman 분석(체계적 편향과 95% 일치 한계)으로 평가하였다. 감정별 편향 유의성은 Wilcoxon 부호 순위 검정으로 검증하였으며, 18회 비교(6감정 × 3개 VA 가능 모델)에 대한 Bonferroni 보정을 적용하였다.

편향 분해에는 R의 lme4 패키지(Bates et al., 2015)와 Satterthwaite 자유도(lmerTest)를 사용한 선형 혼합효과 모형(LMM)을 적용하였다. Satterthwaite 자유도는 정확한 자유도가 정의되지 않는 혼합효과 모형에서 p-value를 산출하기 위한 근사 방법이다. 감정 편향 모형은 rating ~ rater_type * emotion + (1|image_id) 공식을 사용하였으며, rater_type은 인간 집계 평정과 VLM 평정을 구분하고 image_id는 이미지 간 변산을 통제하는 교차 무선효과이다. 인구통계 편향 모형은 actor_race와 actor_gender를 고정효과로 한 유사한 공식을 사용하였다.

4. 결과

4.1 감정 분류

Gemma3-4B-IT는 Cohen’s κ = 0.671(상당한 일치)을 달성하여 EmoNet(κ = 0.665)을 능가하고 BEiT(κ = 0.713)에 근접한 반면, LLaMA-3.2-11B-Vision은 κ = 0.535(중간 수준 일치)를 달성하여 모든 FER 기저선보다 낮았다. 표 1은 전체 7개 모델 순위를 제시한다. 더 큰 LLaMA(110억 파라미터)가 더 작은 Gemma3(40억 파라미터)보다 낮은 성능을 보여, 모델 규모가 향상된 감정 인식을 보장하지 않으며 instruction tuning의 품질과 사전훈련 데이터 구성이 더 결정적인 요인임을 입증하였다.

표 1. 전체 감정 분류 수행 (N = 1,440).

모델	유형	파라미터	정확도	Macro F1	Cohen’s κ
PosterV2	FER	~44M	0.899	0.900	0.878
MobileViT	FER	~6M	0.875	0.874	0.848
EfficientNet	FER	~5M	0.854	0.856	0.823
BEiT	FER	~86M	0.766	0.772	0.713
Gemma3-4B	VLM	4B	0.726	0.683	0.671
EmoNet	FER	~5M	0.731	0.724	0.665
LLaMA-3.2-11B	VLM	11B	0.613	0.402	0.535

두 VLM 모두 행복과 중립을 완벽하게 분류하였으나, 슬픔에서 극적으로 실패하였다. Gemma3는 슬픔 F1 0.223을, LLaMA는 0.092만을 달성한 반면, PosterV2는 0.992를 기록하였다. 표 2는 7개 모델 전체의 감정별 정확도를 제시하며, 극단적 성능 양극화를 보여준다.

표 2. 감정별 분류 정확도 (정답 비율).

감정	Gemma3	LLaMA	PosterV2	MobileViT	EfficientNet	BEiT	EmoNet
행복	1.000	1.000	1.000	1.000	1.000	0.979	1.000
중립	1.000	1.000	0.912	0.863	0.729	0.529	0.533
공포	0.979	0.654	0.933	0.942	0.846	0.792	0.912
혐오	0.842	0.008	0.642	0.533	0.679	0.754	0.846
분노	0.404	0.921	0.917	0.954	0.887	0.800	0.637
슬픔	0.126	0.092	0.992	0.958	0.983	0.742	0.454

두 VLM은 FER 혼동 패턴과 질적으로 구별되는 상보적 오류 프로파일을 보인다. Gemma3는 슬픔 이미지의 71.1%를 중립으로 분류하는 중립 흡수(neutral absorption)를 보이며, LLaMA는 혐오 이미지의 99.2%를 분노로 분류하는 분노 병합(angry merger)을 보인다. 중립 흡수는 슬픔 표현을 중립으로 분류하는 VLM의 지배적 오류 패턴으로, 모델이 슬픔을 감정의 부재로 취급함을 시사한다. 반대로, LLaMA는 분노(92.1% 정확도)에서 Gemma3가 어려움을 겪는(40.4%) 반면 우수하고, Gemma3는 혐오(84.2%)에서 LLaMA가 완전히 실패하는(0.8%) 반면 우수하다. 이 두 지배적 오류 경로는 전체 분류 오류의 70.6%를 차지하며, 둘 다 FER 모델이 공유하는 분노-혐오 시각적 중첩 혼동과 질적으로 구별된다.

4.2 Valence 비교

표 3에 나타난 바와 같이, 두 VLM 모두 높은 valence 상관(r = .891–.901)을 달성하여 FER 모델(r = .928–.950)에 근접하지만 미치지 못한다. 그러나 절대 오차는 1.5~2.0배 크며(VLM MAE = 1.46–1.81 vs. FER MAE = 0.80–1.06), 정확한 순위 배열이지만 왜곡된 척도 사용 패턴을 반영한다.

표 3. Valence 예측 요약 통계.

모델	유형	Pearson r	MAE	모델 M (SD)	인간 M (SD)
MobileViT	FER	.950	0.916	4.18 (2.35)	4.60 (1.42)
EfficientNet	FER	.940	1.063	4.05 (2.57)	4.60 (1.42)
EmoNet	FER	.928	0.795	4.32 (2.00)	4.60 (1.42)
LLaMA-3.2-11B	VLM	.901	1.808	3.71 (3.08)	4.60 (1.42)
Gemma3-4B	VLM	.891	1.456	4.31 (2.65)	4.60 (1.42)

이 왜곡의 원인은 극성 과장 편향(polarity exaggeration bias)으로, 인간보다 더 극단적인 valence 평정 — 부정 감정에는 더 부정적, 긍정 감정에는 더 긍정적 — 을 산출하는 체계적 경향으로 정의된다. Gemma3의 valence SD 2.65는 인간 SD 1.42의 1.87배이며, LLaMA의 SD 3.08은 인간 SD의 2.17배이다. 표 4는 전 모델에 걸친 감정별 valence 편향을 제시한다.

표 4. 감정별 valence 편향 (모델 − 인간 평균).

감정	Gemma3	LLaMA	EmoNet	MobileViT	EfficientNet
공포	−1.99	−2.68	+0.40	−0.14	−0.62
혐오	−1.39	−2.25	−1.35	−0.78	−0.97
분노	−1.06	−2.04	−0.64	−1.01	−0.79
행복	+1.26	+1.58	+0.76	+1.01	+1.03
중립	+1.05	−0.28	+0.04	−0.09	+0.01
슬픔	+0.38	+0.53	−0.89	−1.51	−1.95

LLaMA의 부정 감정 valence 편향(−2.04 ~ −2.68)은 Gemma3(−1.06 ~ −1.99)의 약 2배이다. 혼합효과 모형은 모든 감정별 편향을 통계적으로 유의하게 확인하였다(p < .001). LLaMA의 LMM은 분노 기준 범주에 대해 rater_type[vlm]의 주효과 β = −2.050(t = −42.73, p < .001)을 산출하였으며, 이는 Gemma3의 β = −1.053(t = −18.06, p < .001)의 약 2배이다. 이는 모델 규모 증가가 극성 과장을 줄이기보다 오히려 증폭시킴을 나타낸다.

4.3 Arousal 비교

Arousal 예측에서 현저한 강점 역전이 나타난다. 강점 역전(strength inversion)은 FER 모델이 valence 예측에서 우세하고 VLM이 arousal 예측에서 우세한 상보적 패턴을 말한다. 표 5에 나타난 바와 같이, VLM은 모든 5개 FER 전용 모델의 arousal 예측을 상당히 능가하여(r = .759–.783 vs. .126–.448), 감정 강도에 대한 언어 매개 추론이 arousal 추정에 구조적 이점을 제공함을 시사한다. Gemma3는 추가적으로 7개 모델 전체에서 가장 낮은 arousal MAE(1.137)를 달성하였다.

표 5. Arousal 예측 요약 통계.

모델	유형	Pearson r	MAE	모델 M (SD)	인간 M (SD)
LLaMA-3.2-11B	VLM	.783	1.777	5.36 (2.42)	5.61 (0.60)
Gemma3-4B	VLM	.759	1.137	5.49 (1.74)	5.61 (0.60)
EfficientNet	FER	.448	1.696	6.53 (2.33)	5.61 (0.60)
MobileViT	FER	.409	1.864	6.68 (2.61)	5.61 (0.60)
EmoNet	FER	.126	1.369	6.48 (1.56)	5.61 (0.60)

모델 간 가장 현저한 차이는 행복 arousal에서 나타난다. Gemma3의 편향 +0.30은 LMM에서 유의하지 않으며(β = +0.059, p = .442), 행복 강도에 대한 적절한 보정을 나타낸다. 반대로, LLaMA는 행복 arousal을 8.87(인간 평균: 6.48)로 평정하여 +2.39의 과추정(β = +2.889, p < .001)을 보이며, 이는 극단적 “행복 = 최대 흥분” 원형을 반영한다. 표 6은 LMM 유의성을 포함한 감정별 arousal 편향을 제시한다.

표 6. 감정별 arousal 편향 (VLM − 인간 평균), LMM 유의성 포함.

감정	Gemma3 편향	LMM p	LLaMA 편향	LMM p
공포	+1.30	< .001	+1.21	< .001
행복	+0.30	.442	+2.39	< .001
분노	+0.24	< .001	−0.50	< .001
혐오	+0.42	.026	−0.57	.517
슬픔	−1.04	< .001	−2.10	< .001
중립	−1.90	< .001	−1.91	< .001

두 VLM 모두 중립 arousal(편향: −1.90 ~ −1.91)과 슬픔 arousal(편향: −1.04 ~ −2.10)을 심하게 과소추정하여, 낮은 시각적 현저성을 최소 arousal과 연합하는 체계적 경향을 드러낸다.

그림 3은 강점 역전 패턴을 시각화한다: FER 모델이 분류와 valence에서 우세하고, VLM이 arousal 예측에서 우세하다.

quadrantChart
    title Strength Inversion - FER vs VLM Performance
    x-axis "Low Valence r" --> "High Valence r"
    y-axis "Low Arousal r" --> "High Arousal r"
    quadrant-1 "VLM Advantage"
    quadrant-2 "Both Strong"
    quadrant-3 "Both Weak"
    quadrant-4 "FER Advantage"
    "Gemma3-4B": [0.68, 0.85]
    "LLaMA-11B": [0.70, 0.89]
    "EmoNet": [0.80, 0.10]
    "MobileViT": [0.86, 0.35]
    "EfficientNet": [0.84, 0.42]

그림 3. VLM과 FER 모델 간 강점 역전. 가로축은 인간 평정과의 valence 상관(r), 세로축은 arousal 상관을 나타낸다. VLM은 좌상단 사분면(강한 arousal, 중간 valence)에, FER 모델은 우하단(강한 valence, 약한 arousal)에 위치한다.

4.4 정형화된 응답과 차원 붕괴

LLaMA의 중립 valence SD 0.00은 240장의 모든 중립 이미지가 동일한 값 5를 받았으며 이미지별 변별이 전혀 없음을 의미한다. 차원 붕괴(dimensional collapse)는 연속적 차원 변동이 소수의 이산적 원형 값으로 축소되는 것이다. 정형화된 응답(stereotyped responding)은 감정 범주당 1–6개의 고유한 valence-arousal 값만을 산출하는 것으로, 이미지별 변별이 아닌 원형 조회를 나타낸다. 표 7은 두 VLM과 인간 평정자의 감정별 응답 분산을 제시한다.

표 7. 감정별 응답 분산: 각 감정 범주 내 평정의 표준편차.

감정	Gemma3 V SD	LLaMA V SD	인간 V SD	Gemma3 A SD	LLaMA A SD	인간 A SD
행복	0.48	0.13	1.31	0.66	0.72	1.57
중립	0.64	0.00	1.08	0.44	0.28	1.71
공포	0.16	0.50	1.61	0.47	1.86	1.52
분노	0.80	1.05	1.55	0.49	1.21	1.51
슬픔	1.02	1.13	1.44	1.03	0.35	1.53
혐오	0.39	0.82	1.54	0.49	1.55	1.51

모든 감정에 걸쳐 VLM valence SD(범위: 0.00–1.13)는 인간 SD(범위: 1.08–1.61)보다 극적으로 낮다. 이 차원 붕괴는 VLM의 이산적 토큰 생성 아키텍처에서 기인하며, 어휘로부터 특정 정수 토큰을 선택해야 한다. 반면 FER 회귀 헤드는 차원적 감정 데이터에서 end-to-end로 훈련된 전용 예측 레이어를 통해 연속적 출력을 산출한다. 이 구별은 진정한 개인 변산을 보이는 인간 평정자, 연속 분포를 산출하는 FER 모델 모두와 질적으로 다른 행동을 나타낸다.

4.5 인구통계적 편향 분석

혼합효과 모형은 VLM 인구통계 편향이 방향, 크기, 영향 차원에서 모델 특이적임을 드러내었다. 인종 편향과 관련하여, Gemma3는 유의한 인종-valence 편향을 보이지 않은 반면, LLaMA는 한국인 얼굴에 대한 유의한 valence 편향(β = +0.319, p = .009)을 보였다. Arousal에서 LLaMA의 인종 편향은 Gemma3의 3배였다: 한국인 얼굴은 LLaMA에서 1.204점 낮은 arousal(Gemma3의 0.399 감소 대비)을, 흑인 얼굴은 0.50점의 과추정을 받았다.

성별 편향과 관련하여, Gemma3는 유의한 성별-valence 편향(β = −0.332, p < .001)을 보여 여성 얼굴을 평균 0.33점 더 부정적으로 평정한 반면, LLaMA는 유의한 성별-valence 편향을 보이지 않았다. 성별-arousal 편향의 방향은 모델 간에 역전되었다: Gemma3는 여성 얼굴을 약간 높은 arousal로(+0.169, p = .020), LLaMA는 낮은 arousal로(−0.465, p < .001) 평정하였다.

인종과 감정의 교차점에서 Gemma3는 분노 분류에서 흑인 얼굴(61.3%)과 한국인 얼굴(22.5%) 사이에 2.7배의 정확도 격차를 보여, 인간 사회 인지에서 보고된 “화난 흑인 남성” 고정관념과 방향적으로 일치하였다(Hugenberg & Bodenhausen, 2003). 혐오는 반대 패턴(한국인 95.0% 정확도가 흑인 75.0%를 초과)을 보여, 인종 편향이 균일하게 작동하기보다 특정 인종-감정 조합에 대해 선택적으로 활성화됨을 드러내었다.

그림 4는 모델 특이적 인구통계 편향 프로파일을 요약하며, Gemma3와 LLaMA가 서로 다른 차원과 방향에서 편향을 보임을 나타낸다.

flowchart TB
    subgraph Gemma3["Gemma3-4B-IT 편향 프로파일"]
        direction TB
        G1["성별-Valence 편향<br>여성 얼굴 0.33점<br>더 부정적 평정<br>beta = -0.332, p < .001"]
        G2["성별-Arousal 편향<br>여성 얼굴 0.17점<br>더 높은 arousal<br>p = .020"]
        G3["인종-Valence 편향<br>유의하지 않음"]
        G4["인종-Arousal 편향<br>한국인 -0.40점<br>중간 효과"]
    end

    subgraph LLaMA["LLaMA-3.2-11B 편향 프로파일"]
        direction TB
        L1["성별-Valence 편향<br>유의하지 않음"]
        L2["성별-Arousal 편향<br>여성 얼굴 0.47점<br>더 낮은 arousal<br>p < .001"]
        L3["인종-Valence 편향<br>한국인 +0.32점<br>p = .009"]
        L4["인종-Arousal 편향<br>한국인 -1.20점<br>Gemma3의 3배"]
    end

    G1 -.-|"반대 방향"| L1
    G2 -.-|"역전"| L2
    G4 -.-|"LLaMA에서<br>3배 큼"| L4

    style Gemma3 fill:#e8f5e9,stroke:#388e3c
    style LLaMA fill:#e3f2fd,stroke:#1565c0
    style G1 fill:#ffcdd2,stroke:#c62828
    style G2 fill:#fff9c4,stroke:#f9a825
    style G3 fill:#e8f5e9,stroke:#388e3c
    style G4 fill:#fff9c4,stroke:#f9a825
    style L1 fill:#e8f5e9,stroke:#388e3c
    style L2 fill:#ffcdd2,stroke:#c62828
    style L3 fill:#ffcdd2,stroke:#c62828
    style L4 fill:#ffcdd2,stroke:#c62828

그림 4. 모델 특이적 인구통계 편향 프로파일. 녹색 상자는 유의하지 않은 편향, 빨간색 상자는 잠재적으로 유해한 방향의 유의한 편향, 노란색 상자는 중간 수준의 효과를 나타낸다. 점선은 두 모델 간 대응되는 편향 차원을 연결하여 방향 역전과 크기 차이를 강조한다.

5. 논의

5.1 정형화된 응답: 원형 조회 대 이미지별 변별

가장 근본적 발견은 VLM이 보여진 특정 얼굴 표정과 무관하게 감정 범주당 1–6개의 고정된 valence-arousal 값을 산출하는 감정 범주 원형 조회를 수행한다는 것이다. 이 차원 붕괴는 VLM의 이산적 토큰 생성 아키텍처에서 기인할 가능성이 높으며, 어휘로부터 특정 정수 토큰을 선택해야 한다. 반면 FER 회귀 헤드는 전용 예측 레이어를 통해 연속적 출력을 산출한다. VLM은 평균적 감정 원형을 재현할 수 있고, valence 및 arousal 차원에서의 감정 순위 배열은 대체로 정확하다. 그러나 가벼운 짜증과 격렬한 분노를 구분하는 범주 내 강도 구배를 포착하지 못한다.

이 발견은 VLM을 대규모 감정 데이터의 대리 주석자로 사용하는 새로운 관행(Zhang et al., 2024)에 직접적 함의를 갖는다. VLM이 생성한 감정 레이블은 체계적 왜곡 — 압축된 분산과 고정된 원형 — 을 수반하며, 이는 하류 훈련 파이프라인으로 전파될 것이다. VLM이 범주적 감정 분류를 위한 대략적 선별 도구로는 기능할 수 있으나, 감정 데이터베이스의 규준 개발이나 치료 개입의 보정과 같이 개별 자극 변산이 중요한 연구 맥락에서는 인간 평정자를 대체할 수 없다.

5.2 극성 과장 편향

두 VLM 모두 감정의 valence 극단성을 체계적으로 증폭하여, 표준편차가 인간 평정의 1.87~2.17배에 달한다. 이 극성 과장 편향은 감정적 언어가 과장되는 경향이 있는 — 화난 얼굴을 “약간 짜증난” 대신 “격노한”으로 기술하는 — VLM의 사전훈련 코퍼스에서 기원할 가능성이 높다. 더 큰 LLaMA(11B)가 더 작은 Gemma3(4B)보다 더 강한 극성 과장을 보여, 분노 valence 편향이 −2.05 대 −1.05이다. 이 패턴은 사전훈련 데이터가 감정적 뉘앙스에서 비례적으로 증가하지 않으면 증가된 모델 용량이 감정 고정관념을 오히려 증폭시킬 가능성과 일치하나, 두 모델이 아키텍처와 훈련 데이터에서도 차이가 있어 규모에 대한 깨끗한 인과적 귀인은 불가능하다.

감정과 모델에 걸친 극성 과장의 일관성은 실용적 완화 경로를 시사한다. 감정 범주별 사후 선형 보정이 높은 순위 순서 상관을 보존하면서 절대 오차를 상당히 줄일 수 있다. 예를 들어, 감정 범주별로 VLM 출력 분포를 인간 출력 분포로 매핑하는 단순 아핀 변환이 평균 이동과 분산 팽창을 모두 교정하여, 재훈련 없이 VLM MAE를 FER 모델 범위 내로 가져올 수 있을 것이다.

5.3 슬픔의 역설

슬픔은 FER 모델에 의해 신뢰롭게 분류됨에도(PosterV2 F1 = 0.994) 두 VLM 모두에서 가장 낮은 분류 성능을 보이는 감정이다(Gemma3 F1 = 0.223, LLaMA F1 = 0.092). 슬픔의 역설(sadness paradox)은 VLM이 고통 탐지에 가장 중요한 바로 그 감정인 슬픔을 체계적으로 인식하지 못하는 발견이다. 지배적 오류 경로는 중립 흡수이다: Gemma3는 슬픔 이미지의 71.1%, LLaMA는 66.7%를 중립으로 분류한다. 이 패턴은 VLM이 슬픔을 별개의 감정 상태가 아닌 감정의 부재로 취급함을 시사하며, FER 모델에서의 시각적 특징 중첩을 반영하는 분노-혐오 혼동과 질적으로 다르다.

슬픔의 역설은 본 연구팀의 선행 연구(Tae et al., 심사 중)에서 식별된 arousal 역전 — FER 모델이 여성 슬픔 얼굴에서 역방향 arousal 상관을 보인 — 을 확장한다. 현재 VLM 데이터는 더 근본적 실패를 드러낸다: VLM은 슬픔의 강도를 추정하는 것은 물론, 슬픔을 별개의 범주로 탐지하는 것조차 불가능하다. 이는 정신건강 지원 및 공감적 에이전트 설계에서의 VLM 배치에 중대한 위험을 제기한다. 슬픔과 감정적 중립성을 구분하지 못하는 시스템은 고통 탐지에서 근본적으로 실패할 것이며, 이는 감정 컴퓨팅이 가장 큰 사회적 이익을 약속하는 바로 그 응용 영역이다(Pantic et al., 2005).

5.4 VLM의 Arousal 우위

VLM이 모든 5개 FER 전용 모델의 arousal 예측을 상당히 능가한다는 것(r = .759–.783 vs. .126–.448)은 본 연구의 가장 예상 밖의 발견이다. 이 우위는 언어 매개 추론에서 기인한다고 가설을 세운다: VLM은 “차분한,” “동요된,” “흥분된”과 같은 표현을 통해 사전훈련에 인코딩된 감정 강도에 대한 언어 모델의 개념적 이해를 활용하여 arousal을 추정할 수 있다. 반면 FER 모델은 시각적 특징과 희소한 연속 주석만으로 arousal 매핑을 학습해야 한다. 이 발견은 FER 모델의 valence 우위와 결합하여, FER 분류 헤드와 VLM 기반 강도 추정을 결합한 하이브리드 시스템이 어느 한 아키텍처 단독보다 더 나은 성능을 달성할 수 있음을 시사하며, 차세대 감정 컴퓨팅 시스템을 위한 설계 권고를 제공한다.

5.5 모델 특이적 인구통계 편향

배치 결정에 가장 중요한 발견은 VLM 인구통계 편향이 방향, 크기, 영향 차원에서 모델 특이적이라는 것이다. Gemma3는 성별-valence 편향(β = −0.332)을 보이는 반면 LLaMA는 인종-arousal 편향을 Gemma3의 3배 크게 보인다. Gemma3는 여성 얼굴을 약간 높은 arousal로(+0.169), LLaMA는 낮은 arousal로(−0.465) 평정한다. 이 이질성은 단일 편향 감사로는 VLM 전체에 일반화할 수 없으며, 각 배치 맥락이 관련된 특정 인구집단과 감정에 대해 개별 평가를 요구함을 의미한다. 인종 편향의 감정 선택적 특성 — Gemma3의 흑인 얼굴 분노 분류 정확도(61.3%)가 한국인 얼굴(22.5%)의 2.7배인 — 은 인종-감정 지각 연구에서 보고된 “화난 흑인 남성” 고정관념을 반향하지만(Hugenberg & Bodenhausen, 2003), 혐오에서는 편향이 역전되어(한국인 95.0%가 흑인 75.0%를 초과), 인종 효과가 균일한 인종 선호가 아닌 감정 특이적 경로를 통해 작동함을 드러낸다.

5.6 제한점

몇 가지 제한점이 이러한 결과의 일반화 가능성을 제약한다. 첫째, 인간 참가자가 전적으로 한국인 성인이어서, VLM이 평가되는 기저선에 문화적 편향을 도입할 수 있다. 관찰된 패턴이 보편적인지 문화 특이적인지 확립하기 위해 다양한 평정자 집단을 포함한 교차문화적 반복이 필요하다. 둘째, 4B–11B 규모의 오픈소스 VLM 두 개만 검증하였으며, 더 큰 모델(70B 이상)과 frontier API(GPT-4o, Claude, Gemini)로의 확장이 정형화된 응답과 극성 과장이 모델 능력 스펙트럼 전체에 걸쳐 지속되는지를 밝힐 것이다. 셋째, 자극이 정적인 단일 감정 이미지인 반면, 실제 감정 인식은 일반적으로 동적, 다중 모달, 혼합 감정 자극을 포함한다. 넷째, context-carry 프롬프팅 전략이 단발 통합 프롬프팅과 같은 대안적 프롬프팅 접근법에는 존재하지 않을 수 있는 구조적 의존성(분류에서 차원 평정으로의 오류 전파)을 도입한다. 다섯째, 에지 배포에 사용된 4-bit 양자화가 전체 정밀도 추론과 비교하여 모델 행동에 영향을 미칠 수 있다.

6. 결론

본 연구는 완전 교차 요인 자극 설계를 사용한 VLM과 인간 정서 평정의 최초 심리측정적 비교를 제공하며, Vision Language Model이 중간~상당 수준의 범주 일치도(κ = 0.535–0.671)를 달성하지만 정형화된 응답, 극성 과장, 슬픔의 역설이라는 질적으로 구별되는 편향을 보여, 인간 평정자 및 FER 전용 모델과 차별화됨을 확립하였다.

세 가지 핵심 발견이 강건한 함의와 함께 도출된다. 첫째, VLM은 이미지별 지각적 변별이 아닌 범주적 원형 조회를 수행하여, 감정 범주 내에서 근사 영의 분산을 산출한다. 이 차원 붕괴는 VLM이 현재 자극 수준의 변산이 중요한 연구 맥락에서 인간 평정자를 대체할 수 없음을 의미한다. 둘째, 모델 패밀리 간에 강점 역전이 존재한다: FER 모델이 분류(κ = 0.665–0.878)와 valence(r = .928–.950)에서 우세하고, VLM이 arousal(r = .759–.783 vs. .126–.448)에서 우세하여, 하이브리드 시스템에서 활용될 수 있는 상보적 아키텍처 장점을 시사한다. 셋째, 인구통계적 편향이 방향, 크기, 영향 차원에서 모델 특이적이어서, 일반화된 “VLM 편향” 특성화가 아닌 모델별 감사를 요구한다. VLM이 정신건강 챗봇에서 정서 튜터링 시스템에 이르기까지 감정적으로 민감한 맥락에서 인간-컴퓨터 상호작용을 점점 더 매개함에 따라, VLM의 감정 지각과 인간 심리적 기준 간의 격차는 엄격한 측정 — 본 심리측정 프레임워크가 제공하는 — 과 모델 특이적 한계 및 편향에 대한 투명한 보고를 모두 요구한다. 향후 연구는 이 프레임워크를 더 큰 VLM, frontier API 모델, 동적 비디오 자극, 문화적으로 다양한 평정자 집단으로 확장하는 한편, 차원적으로 주석된 감정 데이터에 대한 미세조정이 본 연구에서 식별된 정형화된 응답과 극성 과장을 완화할 수 있는지 조사해야 할 것이다.

참고문헌

Alrasheed, H., Alghihab, A., Pentland, A., & Alghowinem, S. (2025). Evaluating the capacity of large language models to interpret emotions in images. PLOS ONE, 20(6), e0324127.

Bates, D., Machler, M., Bolker, B., & Walker, S. (2015). Fitting linear mixed-effects models using lme4. Journal of Statistical Software, 67(1), 1–48.

Baudouin, J.-Y., Gallian, F., Pinoit, J.-M., & Damon, F. (2025). Arousal, valence, and discrete categories in facial emotion. Scientific Reports, 15(1), 40268.

Dominguez-Catena, I., Paternain, D., & Galar, M. (2024). Less can be more: Representational vs. stereotypical gender bias in facial expression recognition. Progress in Artificial Intelligence, 13, 255–273.

Harb, E., et al. (2025). Evaluating the performance of general purpose large language models in identifying human facial emotions. npj Digital Medicine, 8.

Hess, U., Adams, R. B., Jr., & Kleck, R. E. (2004). Facial appearance, gender, and emotion expression. Emotion, 4(4), 378–388.

Hugenberg, K., & Bodenhausen, G. V. (2003). Facing prejudice: Implicit prejudice and the perception of facial threat. Psychological Science, 14(6), 640–643.

Jankowiak, P., et al. (2024). Metrics for dataset demographic bias: A case study on facial expression recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 46(8), 5520–5536.

Khare, S. K., Blanes-Vidal, V., Nadimi, E. S., & Acharya, U. R. (2024). Emotion recognition and artificial intelligence: A systematic review (2014–2023). Information Fusion, 102, 102019.

Mollahosseini, A., Hasani, B., & Mahoor, M. H. (2017). AffectNet: A database for facial expression, valence, and arousal computing in the wild. IEEE Transactions on Affective Computing, 10(1), 18–31.

Mulukutla, V. K., Pavarala, S. S., Rudraraju, S. R., & Bonthu, S. (2025). Evaluating open-source vision language models for facial emotion recognition against traditional deep learning models. arXiv preprint arXiv:2508.13524.

Pantic, M., Sebe, N., Cohn, J. F., & Huang, T. (2005). Affective multimodal human-computer interaction. In Proceedings of the 13th ACM International Conference on Multimedia (pp. 669–676).

Refoua, S., Elyoseph, Z., Piterman, H., et al. (2026). Evaluation of cross-ethnic emotion recognition capabilities in multimodal large language models using the reading the mind in the eyes test. Scientific Reports, 16.

Russell, J. A. (1980). A circumplex model of affect. Journal of Personality and Social Psychology, 39(6), 1161–1178.

Tak, A. N., & Gratch, J. (2024). GPT-4 emulates average-human emotional cognition from a third-person perspective. In Proceedings of the 12th International Conference on Affective Computing and Intelligent Interaction (ACII).

Telceken, M., Akgun, D., Kacar, S., Yesin, K., & Yildiz, M. (2025). Can artificial intelligence understand our emotions? Deep learning applications with face recognition. Current Psychology, 44(9), 7946–7956.

Zhang, Y., Yang, X., Xu, X., et al. (2024). Affective computing in the era of large language models: A survey from the NLP perspective. arXiv preprint arXiv:2408.04638.

Juhyeon's Blog

탐색기

manuscript_VLM_emotion_2026_v2_KR