Vision Language Model은 인간처럼 감정을 인식하는가? AI 생성 얼굴 자극에 대한 인간-VLM 정서 평정 비교 및 인구통계적 편향 분석

저자: 태지니, 박주현, 최원일

소속: 광주과학기술원 (GIST), 대한민국

초록

Vision Language Model(VLM)은 감정 컴퓨팅(affective computing) 분야에서 점차 활용이 확대되고 있으나, 범주적 정확도 지표를 넘어선 인간 감정 지각과의 정렬에 대한 이해는 아직 부족하다. 본 연구는 1,000명의 인간 참가자와 두 개의 instruction-tuned VLM — Gemma3-4B-IT(Google)와 LLaMA-3.2-11B-Vision(Meta) — 의 정서 평정을 3개 인종(흑인, 백인, 한국인), 2개 성별, 6개 기본 정서로 균형 잡힌 1,440장의 AI 생성 얼굴 이미지를 대상으로 비교한다. VLM을 추가 평정자로 취급하는 심리측정학적 프레임워크를 사용하여, 범주 일치도(Cohen’s κ), 차원 정렬(valence 및 arousal에 대한 Pearson 상관, MAE, 혼합효과 모형), 인구통계적 편향을 인간 평정자 간 신뢰도를 인간 합의 기준(human agreement benchmark)으로 설정하여 평가한다. 두 VLM 모두 중간~상당 수준의 범주 일치도(κ = 0.535–0.671)를 달성하였으나, 고정값 출력 패턴(fixed-value output pattern) — 감정 범주당 1–6개의 고유한 값만을 근사 영의 분산으로 산출 — 을 나타내어, 이미지별 변별이 아닌 고정값 출력에 해당함을 보여주었다. Valence 상관은 높지만(r = .891–.901) 절대 오차는 크며(MAE = 1.46–1.81), 이는 VLM이 부정 감정을 인간보다 더 부정적으로, 긍정 감정을 더 긍정적으로 평정하는 극성 과장 편향(polarity exaggeration bias)에 기인한다. Arousal에서 VLM과 인간 평정 간 상관은 두 VLM 모두 r = .759–.783이다. 본 연구는 감정 분류가 arousal 평정에 선행하는 순차적 context-carry 프롬프팅 설계가 혼입을 도입하기보다 인간 감정 판단의 본질적으로 순차적인 특성을 반영하므로, VLM-인간 arousal 비교가 생태학적으로 타당하다고 주장한다. FER 모델의 arousal 비교는 비동등한 정보 접근으로 인해 보충 자료에 별도 제시한다. 인구통계적 편향 패턴은 모델 특이적이다: Gemma3는 성별-valence 편향(β = −0.332)을, LLaMA는 인종-arousal 편향을 3배 더 크게 보인다. 이러한 결과는 VLM 정서 평정이 인간 판단을 대체할 수 없으며, 편향 감사가 모델별로 수행되어야 함을 보여준다. 본 연구는 두 VLM을 5개 FER 모델과 동일 자극에서 추가 비교하여, 범주-차원 분리선을 사이에 둔 상보적 강점을 확인하였다.

키워드: Vision Language Models, 얼굴 표정 인식, 심리측정 일치도, Valence-Arousal, 인구통계적 편향, AI 생성 얼굴, 감정 컴퓨팅

1. 서론

1.1 감정 컴퓨팅과 VLM의 가능성

정신건강 챗봇에서 반응형 가상 비서에 이르기까지 감정 컴퓨팅 시스템의 배치는 얼굴 표정으로부터의 정확한 자동 감정 인식에 점점 더 의존하고 있다. 이러한 시스템의 효능은 정서적 정렬(affective alignment) — 기계의 감정 단서 해석이 인간의 심리적 기준과 일치하는 정도로 정의되는 — 에 달려 있다(Pantic et al., 2005). 공감적 에이전트가 사용자의 고통 강도를 잘못 해석하면, 사용자의 신뢰를 해치고 의미 있는 상호작용을 유지하는 데 실패할 위험이 있다. 이러한 위험 고려가 기계와 인간의 감정 지각 간 엄밀한 실증적 비교를 동기화한다.

Vision Language Model(VLM)은 과제 특화 얼굴 표정 인식(FER) 모델에서 범용 다중모달 시스템으로의 패러다임 전환을 대표한다. VLM은 비전 인코더와 대형 언어 모델을 통합하여, 자연어 프롬프팅을 통한 이미지 조건부 텍스트 생성을 가능하게 하는 모델이다. FER 전용 모델이 감정 레이블 데이터셋에서 end-to-end로 훈련되어 고정된 감정 범주나 연속적 valence-arousal 값을 출력하는 반면, VLM은 지시 프롬프팅을 통해 범주적 평정과 차원적 평정을 유연하게 산출할 수 있으며, 이는 인간이 자연스럽게 수행하는 통합적 판단 과정에 대응한다. 이러한 유연성은 VLM이 비용이 큰 인간 감정 주석화 — 1,000명의 평정자로부터 72,000개의 응답을 수집하는 것과 같은 상당한 시간적, 재정적 투자 — 의 확장 가능한 대안이 될 수 있는 가능성을 제기한다.

VLM이 진정으로 인간처럼 감정을 지각하는지 평가하려면, 차원적 측정 프레임워크가 필요하다. Russell(1980)의 정서 순환 모형(Circumplex Model of Affect)은 모든 정서 경험을 valence와 arousal로 정의된 연속적 2차원 공간에 매핑하는 이론적 프레임워크이다. Valence는 정서 경험의 쾌락적 특성으로, 불쾌에서 유쾌까지의 범위를 갖는다. Arousal은 생리적 활성화의 정도로, 차분에서 흥분까지의 범위를 갖는다. 정서 순환 모형은 원래 자기보고 정서 경험을 위해 개발되었으나, 관찰자가 평정하는 얼굴 표정 지각의 특성화에도 널리 채택되어 왔다(Baudouin et al., 2025). 본 연구는 이 관례를 따르되, 타인의 감정을 지각하는 것과 자신의 감정을 느끼는 것이 서로 다른 과정을 포함할 수 있음을 주지한다. 이 차원적 프레임워크는 범주적 분류만으로는 포착할 수 없는 미세한 지각적 불일치를 감지할 수 있는 풍부한 표상 어휘를 제공한다. 두 시스템이 모두 표정을 “분노”로 정확하게 분류하더라도, 그 분노를 얼마나 강렬하게(arousal) 또는 얼마나 부정적으로(valence) 지각하는지에서는 차이가 날 수 있다. 차원적 평정의 이론적 중요성에도 불구하고, 감정 인식의 계산적 평가는 압도적으로 이산적 범주 정확도에 초점을 맞추어 왔다(Khare et al., 2024; Telceken et al., 2025).

1.2 평가의 공백

이러한 프레임워크가 존재함에도, 현행 VLM 평가는 이를 사용하지 못하고 있으며, 본 연구가 해결하고자 하는 네 가지 핵심 공백을 생성한다.

첫 번째 공백은 인간 합의 기준의 부재에 관한 것이다. 기존 벤치마크는 정답 레이블에 대한 정확도와 F1 점수에 의존하면서 인간 평정자 간의 상당한 불일치를 무시한다. 인간의 감정 지각은 본질적으로 가변적이며 — 특히 arousal의 경우 평정자 간 신뢰도가 Krippendorff’s α = 0.125만큼 낮을 수 있다(본 연구). Krippendorff’s α는 다수 평정자를 위한 신뢰도 계수로, 우연 일치를 보정하며 1.0은 완벽한 합의를, 0.0은 우연 수준의 일치를 나타낸다. 인간 평정자 간 신뢰도를 인간 합의 기준으로 설정하지 않으면, 모델의 오류가 진정한 실패를 반영하는 것인지 감정 지각의 본질적 주관성을 단순히 반영하는 것인지 판별할 수 없다.

두 번째 공백은 범주적 정확도에 대한 배타적 초점으로, 정서 과학의 핵심인 연속적 차원 평정을 무시한다. 모델이 완벽한 범주적 정확도를 달성하면서도 체계적으로 왜곡된 차원 평정을 산출할 수 있으며, 이 해리를 본 연구에서 실증적으로 보여준다.

세 번째 공백은 오픈소스 VLM에 대한 인구통계적 편향 감사의 부재에 관한 것이다. 상용 FER API에서 인구통계적 격차가 보고되었으나(Rhue, 2018; Jankowiak et al., 2024), 인종-성별-감정 교차점에 걸친 오픈소스 VLM의 체계적 편향 분석은 부재하다. 이 공백은 공정성 보장이 중요한 연구 및 응용 현장에서 오픈소스 VLM의 급속한 채택을 고려하면 우려스럽다.

네 번째 공백은 “AI”의 대리 변인으로서 대표성이 부족한 모델의 사용이다. 인간과 AI의 감정 지각을 비교한 선행 연구는 주로 FER 전용 모델 — 수백만 파라미터 수준의 경량 아키텍처(예: MobileViT 약 6M, EfficientNet 약 5M)로 AffectNet(Mollahosseini et al., 2017)과 같은 감정 레이블 데이터셋에서만 훈련된 — 을 사용하였다. 이러한 모델은 높은 분류 정확도를 달성하지만, 인터넷 규모의 다중모달 데이터에서 훈련된 수십억 파라미터의 현대적 파운데이션 모델의 능력을 대표하지 못하며, 인간이 자연스럽게 산출하는 통합적 범주+차원 평정도 지원하지 않는다. FER 전용 모델만으로 인간 평정자와 비교한 선행 연구는 현대적 파운데이션 모델의 능력을 적절히 대표하지 못할 수 있으며, 이것이 본 연구에서 VLM으로의 전환을 동기화하였다.

1.3 기여 및 연구 질문

본 논문은 감정 컴퓨팅, 인지심리학, 다중모달 AI 평가의 교차점에서 다섯 가지 기여를 한다. 첫째, VLM을 인간 평정 패러다임의 추가 참가자로 취급하는 VLM-as-rater 심리측정 프레임워크를 도입한다. 정확도와 F1로 VLM을 정답 레이블에 대해 평가하는 대신, 급내상관계수(ICC), Cohen’s κ, Krippendorff’s α, Bland-Altman 분석을 사용하여 인간 평정자 간 신뢰도를 실증적 합의 기준으로 설정한 합의도를 정량화한다. Cohen’s κ는 범주적 분류에 대한 우연 보정 합의 측정치로, 0은 우연 수준을, 1은 완벽한 일치를 나타낸다. Bland-Altman 분석은 체계적 편향과 95% 일치 한계를 통해 두 측정 방법 간의 합의를 평가하는 방법이다. 이 프레임워크는 정확도 기반 평가가 완전히 놓치는 VLM 행동의 차원들 — 고정값 출력 패턴, 극성 과장, 차원 붕괴 — 을 드러낸다. 둘째, 완전 교차 3(인종) × 2(성별) × 6(감정) 요인 자극 설계와 완벽한 실험적 통제를 보장하는 1,440장의 AI 생성 얼굴 이미지를 사용한 오픈소스 VLM의 체계적 인구통계적 편향 분석을 최초 수준으로 제시한다. 셋째, VLM이 감정 범주당 1–6개의 고유한 valence-arousal 값만을 산출하는(예: LLaMA의 neutral valence SD = 0.00) 고정값 출력 패턴을 기록한다. 이 패턴은 greedy decoding(temperature = 0), 4-bit 양자화, 이산적 토큰 생성의 복합 효과와 일치하며, 모델의 내부 표상 능력을 반드시 반영하는 것은 아니다. 넷째, 두 VLM과 5개 FER 전용 모델을 동일한 인간 기저선(N = 1,000)에 대해 이중 비교한다. VLM이 FER 모델보다 높은 arousal 상관을, FER 모델이 더 높은 valence 상관과 분류 정확도를 보인다. 이러한 표면적 상보성은 신중한 해석이 필요한데, context-carry 프롬프팅 설계가 VLM에게 arousal 평정 전에 범주적 감정 레이블을 제공하는 — FER 모델이 받지 못하는 — 정보적 이점을 주기 때문이다. 다섯째, Gemma3와 LLaMA가 서로 다른 차원에서, 다른 인구집단에 대해, 다른 방향으로 편향을 보이는 모델 특이적 인구통계 편향 프로파일을 식별한다.

본 연구는 탐색적(exploratory) 성격을 갖는다. 사전 등록된 가설을 검증하기보다, VLM 정서 평정 행동을 다차원에 걸쳐 체계적으로 특성화하여 향후 확인적(confirmatory) 연구를 위한 검증 가능한 가설을 생성한다. 본 연구의 연구 질문은 VLM-인간 비교의 세 축을 다룬다. RQ1은 VLM의 정서 평정이 범주적 및 차원적 측정에서 인간 평정자 간 신뢰도와 어떻게 비교되는지를 묻는다. RQ2는 VLM이 감정 귀인에서 체계적 인구통계적 편향을 보이는지, 그리고 이 편향이 모델 특이적인지를 묻는다. RQ3은 VLM이 분류 정확도, 차원 예측, 편향 프로파일에서 FER 전용 모델과 어떻게 비교되는지를 묻는다.

2. 선행 연구

2.1 감정 인식을 위한 VLM

VLM의 얼굴 감정 인식 적용은 혼재된 결과를 보여주고 있으며, 전통적 딥러닝 모델이 범주적 정확도에서 VLM을 일관되게 능가한다. Mulukutla et al.(2025)은 FER-2013 — 7개 감정 클래스에 걸친 35,887장의 저해상도 흑백 이미지를 포함하는 데이터셋 — 에서 오픈소스 VLM과 전통 모델의 최초 실증 비교를 수행하였다. 전통 모델 — EfficientNet-B0(86.44% 정확도)과 ResNet-50(85.72%) — 은 VLM을 20~35 백분율점 차이로 능가하였으며, CLIP은 64.07%, Phi-3.5 Vision은 51.66%를 달성하였다. 이 성능 격차는 VLM의 범용적 시각 이해 능력이 FER 수행으로 자동 전환되지 않음을 시사한다.

Frontier API 모델은 더 유망한 결과를 보여주며, GPT-4o와 Gemini가 특정 표정에서 인간 수행과 일치한다. NimStim 데이터셋에서의 평가는 GPT-4o와 Gemini가 차분, 중립, 놀람 표정에서 인간 수행과 일치하거나 능가함을 보여주지만, 더 모호한 감정에서는 성능이 저하된다(Harb et al., 2025). Refoua et al.(2026)은 백인, 흑인, 한국인 얼굴 자극이 포함된 마음의 눈 읽기 검사(RMET)에서 ChatGPT-4, ChatGPT-4o, Claude 3 Opus를 평가하여, ChatGPT-4o가 세 인종 버전 모두에서 85번째 인간 백분위 이상의 정확도로 인종 간 일관된 수행을 달성함을 보고하였다. FER에 특화된 VLM 프레임워크도 등장하였으며, FACET-VLM(2025)은 다시점 얼굴 표상 학습과 의미론적 언어 안내를 통해 BU-4DFE에서 최대 99.41%를 달성하였다. 그러나 이러한 미세조정 모델은 VLM을 다목적 감정 주석 도구로서 매력적으로 만드는 범용성을 희생한다. Bhattacharyya와 Wang(2025)은 NAACL에서 VLM의 유발 감정 인식에 대한 종합적 평가를 제시하여, 다수의 데이터셋에 걸친 벤치마크 비교를 수립하고 제로샷 VLM이 지도학습 시스템에 뒤처짐을 확인하였다. AlDahoul et al.(2026)은 PaliGemma 기반 다중 에이전트 VLM 시스템인 FaceScanPaliGemma를 개발하여, 감정(59.4% 정확도), 인종, 성별, 연령을 포함한 동시 얼굴 속성 인식을 구현함으로써 VLM 기반 인구통계 인식 얼굴 분석의 실현 가능성을 입증하였다. 본 연구는 연구 배치에 접근 가능한 4B–11B 규모의 오픈소스 모델을 평가하여, FER 전용 접근법과 frontier API 접근법 사이의 공백을 연결한다.

2.2 감정 지각에서의 인간-AI 비교

인간과 기계 평정자의 심리측정적 비교는 임상심리학에서 오랜 전통을 가지며, 최근 대형 언어 모델로 확장되었다. 급내상관계수(ICC)는 두 측정 방법 간의 합의를 측정하는 지표이며, Bland-Altman 분석은 두 방법 간의 체계적 편향을 시각화한다. 둘 다 측정 합의도 평가의 표준 도구로 활용된다. 감정 컴퓨팅 분야에서 Tak과 Gratch(2024)는 GPT-4가 3인칭 관점에서 평균적 인간의 감정 인지를 모방하며, 자기 평가보다 타인의 감정에 대한 인간 판단과 더 밀접하게 정렬됨을 발견하였다. PLOS ONE에 발표된 연구(Alrasheed et al., 2025)는 비-얼굴 정서 이미지(제네바 정서 사진 데이터베이스 GAPED의 풍경, 동물, 추상 장면)에서 GPT-4의 감정 해석 능력을 평가하여, 제로샷 조건으로 valence r = 0.87, arousal r = 0.72의 수치 응답 상관을 달성하였다. 이러한 결과는 얼굴 표정 인식이 아닌 일반적 정서 이미지 이해에 관한 것이다. 이러한 결과는 대형 언어 모델이 인간의 감정 지각을 근사할 수 있음을 확립하지만, 근사의 정도는 감정 차원에 따라 달라진다.

감정 지각에서의 선행 인간-AI 비교는 일반적으로 제한된 차원성을 가진 FER 전용 모델 또는 모델 내부에 대한 투명한 접근이 없는 frontier API 모델 중 하나를 사용하였다. Zhang et al.(2024)은 LLM 시대의 감정 컴퓨팅에 대한 종합 서베이를 제공하며, LLM이 감성 분류와 감정 탐지 같은 감정 이해 과제에서는 우수하지만, 차원적 감정 추정에서의 성능은 아직 충분히 탐구되지 않았음을 기술한다. 본 연구는 대규모 인간 데이터(N = 1,000)에 기반한 심리측정 프레임워크를 통해 통합적 범주+차원 평정을 산출하는 오픈소스 VLM을 평가함으로써 이 공백을 연결한다.

2.3 자동화된 감정 인식에서의 인구통계적 편향

자동화된 감정 인식에서 보고된 인종적, 성별 격차는 VLM으로 확장되는 공정성 우려를 제기하였다. Jankowiak et al.(2024)은 FER에서의 데이터셋 인구통계적 편향 측정을 위한 공식적 지표를 제안하여, 불균형한 훈련 데이터 구성이 인구통계 집단 간 체계적 성능 격차로 전파됨을 입증하였다. FER에서의 성별 편향은 두 가지 형태로 나타난다: 대표성 편향 — 훈련 데이터에서의 불균등한 인구통계 대표 — 과 고정관념적 편향 — 감정과 인구통계 간의 체계적 연합, 예를 들어 여성 얼굴을 슬픔과, 남성 얼굴을 분노와 연결하는 것(Dominguez-Catena et al., 2024).

인간의 감정 지각 자체도 인구통계적으로 중립적이지 않다. 성별-감정 고정관념은 관찰자가 남성 얼굴을 분노와 같은 지배 관련 감정과, 여성 얼굴을 행복과 슬픔 같은 친사회적 감정과 연합하도록 이끈다(Plant et al., 2000). 주목할 점으로, Hess et al.(2004)은 얼굴의 지배성과 친화성 단서를 통제했을 때 이러한 고정관념적 연합이 역전될 수 있음을 보여주어, 얼굴 지각에서 성별-감정 상호작용의 복잡성을 부각하였다. 인간 주석화에서의 이러한 편향은 훈련 데이터셋으로 전파되며 — AffectNet(Mollahosseini et al., 2017)은 약 450,000장의 이미지에 걸쳐 12명의 주석자가 작업하였으며, 대부분의 이미지는 단일 주석을 받았다 — 알고리즘 최적화에 의해 증폭될 수 있다. 본 연구는 편향 분석을 상용 API와 훈련 데이터셋으로부터 오픈소스 VLM으로 확장하며, 혼합효과 모형을 통한 인종, 성별, 감정 효과의 직교적 추정을 가능하게 하는 요인 실험 설계를 사용한다.

2.4 감정 연구에서의 AI 생성 자극

감정 연구에 사용되는 전통적 얼굴 데이터베이스 — KDEF, ADFES, FER-2013, AffectNet 포함 — 는 표현 품질, 조명, 인구통계적 균형에서의 통제되지 않은 변동을 겪는다. 실제 얼굴 데이터베이스는 감정 표현을 연기하는 배우에 의존하여, 내적 타당도를 저해하는 혼입 변인을 생성하는 표현 품질과 강도에서의 개인차를 도입한다. 인구통계적 균형은 달성하기 어려우며, 대부분의 데이터베이스가 특정 인종 집단을 과대 대표한다.

AI 생성 얼굴 자극은 완벽한 실험적 통제를 보장하는 통제된 생성 파이프라인을 통해 이러한 한계를 해결한다. 본 연구에서 사용된 GIST-AIFaceDB는 표준화된 특징 — 동일한 회색 배경, 네이비 티셔츠, 정면 포즈 — 의 중립 기본 얼굴을 생성한 후, 정체성을 보존하면서 각 중립 얼굴을 5개의 감정 표현으로 변환한다. 이 파이프라인은 주어진 정체성에 대한 감정 표현 간의 모든 차이가 외부 시각 요인이 아닌 감정 조작에만 귀인될 수 있음을 보장한다. AI 생성 자극의 생태학적 타당성은 인간의 자연스러움 평정에 의해 지지된다: 본 데이터셋에서 평균 자연스러움은 5.26(공포)에서 6.94(행복)까지 9점 척도로 분포하여, 참가자들이 자극을 중간~높은 수준으로 현실적이라고 지각하였음을 나타낸다. Baudouin et al.(2025)은 차원 평정이 자극의 출처와 무관하게 얼굴 자극에서 신뢰롭게 수집될 수 있다는 지지 증거를 제공하며, AI 생성 얼굴이 촬영된 얼굴과 비교 가능한 정서 반응을 유발함을 시사한다.

3. 방법

그림 1은 전체 연구 파이프라인을 제시하며, 1,440장의 AI 생성 자극이 인간 평정, VLM 추론, FER 기저선 평가를 거쳐 심리측정적 비교로 수렴하는 흐름을 보여준다.

flowchart TB
    subgraph Stimuli["자극 생성"]
        A["OpenArt<br>STOIQO NewReality Flux"] -->|"240장 중립 얼굴"| B["Nano-Banana<br>Gemini 2.5 Flash Image"]
        B -->|"정체성당 5개 감정"| C["GIST-AIFaceDB<br>1,440장<br>3 인종 x 2 성별 x 6 감정 x 40 ID"]
    end

    subgraph Human["인간 평정"]
        C --> D["N = 1,000 한국인 성인<br>1인당 72장<br>총 72,000 응답"]
        D --> E["Valence 1-9<br>Arousal 1-9<br>Naturalness 1-9"]
    end

    subgraph VLM["VLM 추론"]
        C --> F["Gemma3-4B-IT<br>Google, QAT 4-bit"]
        C --> G["LLaMA-3.2-11B-Vision<br>Meta, 4-bit"]
        F --> H["Context-Carry<br>3단계 프롬프팅"]
        G --> H
        H --> I["감정 + Valence + Arousal<br>이미지당"]
    end

    subgraph FER["FER 기저선"]
        C --> J["5개 모델<br>PosterV2, MobileViT,<br>EfficientNet, BEiT, EmoNet"]
        J --> K["분류 +<br>VA 예측"]
    end

    subgraph Analysis["심리측정적 비교"]
        E --> L["Cohen kappa<br>Pearson r, MAE<br>혼합효과 모형<br>인구통계 편향"]
        I --> L
        K --> L
        L --> M["핵심 관찰:<br>고정값 출력 패턴<br>극성 과장<br>강점 역전<br>모델 특이적 편향"]
    end

    style Stimuli fill:#e1f5fe,stroke:#0288d1
    style Human fill:#fff3e0,stroke:#f57c00
    style VLM fill:#e8f5e9,stroke:#388e3c
    style FER fill:#fce4ec,stroke:#c62828
    style Analysis fill:#f3e5f5,stroke:#7b1fa2

그림 1. 전체 연구 파이프라인. AI 생성 자극(파란색)이 인간 평정자(주황색), 두 VLM(녹색), 5개 FER 기저선(빨간색)에 의해 평가되며, 모든 출력이 심리측정적 비교(보라색)로 수렴한다.

3.1 자극

자극 세트는 GIST AI 생성 얼굴 데이터베이스(GIST-AIFaceDB, 심사 중)의 1,440장 AI 생성 얼굴 이미지로 구성된다. 생성 파이프라인은 2단계 과정을 거쳤다. 1단계에서는 OpenArt 플랫폼에 배포된 STOIQO NewReality Flux 모델을 사용하여 240장의 중립 기본 얼굴을 생성하였다. 이 중립 얼굴은 회색 배경 앞에서 표준화된 네이비 티셔츠를 착용한 다양한 가상 정체성을 묘사하며, 생성 프롬프트는 3개 인종 집단(흑인, 백인, 한국인)과 2개 성별(남, 여)에 걸친 연령 다양성, 헤어스타일 변형, 인구통계적 특성을 명시하였다. 2단계에서는 Google AI Studio에 구현된 고급 이미지 편집 모델 Nano-Banana(Gemini 2.5 Flash Image)를 사용하여 각 중립 얼굴을 원본 이미지의 정체성, 조명, 배경을 보존하면서 5개의 추가 감정 표현 — 분노, 혐오, 공포, 행복, 슬픔 — 으로 변환하였다.

결과적으로 생성된 완전 교차 요인 설계 — 3(인종) × 2(성별) × 6(감정: 분노, 혐오, 공포, 행복, 슬픔, 중립) × 40(정체성) — 는 균형 잡힌 셀 크기를 가진 1,440장의 이미지를 산출한다: 감정당 240장, 인종당 480장, 성별당 720장, 인종-성별-감정 조합당 80장. 이 균형 잡힌 설계는 혼입 없이 모든 인구통계 효과의 직교적 추정을 가능하게 한다.

3.2 인간 평정 절차

연구 프로토콜은 기관생명윤리위원회(IRB)의 심의를 거쳐 면제 승인을 받았다. 1,000명의 한국인 성인(여성 500명, 남성 500명; 연령 M = 44.6, SD = 13.7, 범위 20–69)이 온라인 플랫폼을 통해 모집되었으며, 연령 코호트와 성별에 걸쳐 엄격히 균형 잡힌 모집이 이루어졌다. 각 참가자는 1,440장의 전체 풀에서 무작위로 선택된 72장의 이미지를 평가하였으며, 모든 이미지는 무작위 순서로 제시되었다. 이 역균형 교차 설계를 통해 각 이미지는 50개의 독립적 평정을 받아, 총 72,000개의 응답이 세 차원에 걸쳐 산출되었다: valence(1–9 리커트 척도, 1 = “매우 부정적,” 9 = “매우 긍정적”), arousal(1–9, 1 = “전혀 각성되지 않음,” 9 = “매우 각성됨”), 자연스러움(1–9, 1 = “매우 부자연스러움,” 9 = “매우 자연스러움”).

Krippendorff’s α(순서형)로 산출된 평정자 간 신뢰도는 인간 합의 기준을 확립하였다: valence α = 0.471(빈약-양호), arousal α = 0.125(빈약), 자연스러움 α = 0.126(빈약). 이 값들이 낮아 보이지만, 감정 평정 연구의 일반적 범위 내에 위치하며 정서 지각 — 특히 arousal — 의 본질적 주관성을 반영한다. 선형 혼합효과 모형(LMM)은 고정효과(감정 범주와 같은 체계적 요인)와 무선효과(개별 이미지나 평정자와 같은 변산 원천)를 모두 포함하는 회귀 모형이다. 혼합효과 분산 분해는 평정자 개인차(valence σ² = 0.450, arousal σ² = 0.696)가 이미지 수준 분산을 valence에서 11배, arousal에서 32배 압도함을 확인하여, 낮은 신뢰도가 자극 모호성이 아닌 평정자 이질성에 의해 주도됨을 확인하였다. 본 연구는 개별 평정에 대한 Krippendorff’s α를 보고한다. 이미지 수준 평균(50명 평정자 평균)의 집계 신뢰도는 Spearman-Brown 공식에 의해 상당히 높아지지만, 개별 수준 α가 단일 VLM 평정자를 인간 평정 분포와 비교하기 위한 적절한 기준으로 남는다.

3.3 VLM 추론

두 개의 instruction-tuned VLM이 평가되었다: Gemma3-4B-IT(Google, 40억 파라미터, QAT 4-bit 양자화)와 LLaMA-3.2-11B-Vision-Instruct(Meta, 110억 파라미터, 4-bit 양자화). 두 모델 모두 MLX 프레임워크를 통해 Apple Silicon(M1 Max, 32GB)에서 HTTP 오버헤드 없이 GPU 가속 추론으로 배포되었다. 두 모델 모두 temperature = 0(greedy decoding)으로 실행되어, 각 이미지에 대해 결정론적 출력을 생성하였다. 이 디코딩 설정은 모델이 각 생성 단계에서 항상 최고 확률 토큰을 선택하므로 출력 다양성을 본질적으로 제한한다.

추론은 3단계 context-carry 프롬프팅 전략을 따랐으며, 이는 이전 출력이 후속 예측의 맥락으로 전달되는 순차적 접근법을 기술하기 위해 본 연구에서 도입한 용어로, 인간의 순차적 판단에서의 고정효과(anchoring effects)에 대응한다. 1단계에서 모델은 구조화된 JSON 출력을 통해 6개 강제 선택 범주(행복, 슬픔, 분노, 공포, 혐오, 중립)로 얼굴 감정을 분류하였다. 2단계에서 분류된 감정이 맥락으로 전달되어 모델이 1–9 척도로 valence를 평정하였다. 3단계에서 분류된 감정과 valence 평정 모두가 전달되어 모델이 1–9 척도로 arousal을 평정하였다. 이 전략은 구조적 오류 전파를 도입한다: 1단계의 분류 오류가 후속 valence 및 arousal 평정에 체계적으로 영향을 미친다. 응답 파싱은 캐스케이드 전략 — 직접 JSON 파싱, 마크다운 펜스 제거, 정규식 대체 — 을 사용하였다. 감정 레이블은 첫 세 글자로 퍼지 매칭되었고, valence와 arousal 모두 [1, 9]로 클램핑되었다. Gemma3는 100% JSON 파싱 성공률과 1건의 무효 범주 출력(0.07%, “doubt”)을 달성하였으며, LLaMA도 유사한 준수율을 보였다. 두 모델 모두 1,440장 전체를 성공적으로 처리하였다.

그림 2는 본 연구에서 실제 사용한 프롬프트 템플릿과 함께 3단계 context-carry 프롬프팅 전략을 보여준다.

flowchart TD
    IMG["입력: 얼굴 이미지 + 프롬프트"] --> S1

    subgraph S1["1단계 — 감정 분류"]
        direction TB
        P1["프롬프트:<br>What is the facial expression<br>in this image? Choose one from:<br>happy, sad, angry, fear,<br>disgust, neutral.<br>Answer with a single word only."]
        P1 --> R1["모델 응답:<br>예: happy"]
    end

    S1 -->|"emotion = happy<br>2단계로 전달"| S2

    subgraph S2["2단계 — Valence 평정"]
        direction TB
        P2["프롬프트:<br>You identified this face as happy.<br>How pleasant is this facial<br>expression? Rate from 1 to 9<br>where 1 is very unpleasant and<br>9 is very pleasant.<br>Answer with a single number only."]
        P2 --> R2["모델 응답:<br>예: 8"]
    end

    S2 -->|"emotion = happy,<br>valence = 8<br>3단계로 전달"| S3

    subgraph S3["3단계 — Arousal 평정"]
        direction TB
        P3["프롬프트:<br>You identified this face as happy<br>with pleasantness 8 out of 9.<br>How intense or activated is the<br>emotion in this face? Rate from<br>1 to 9 where 1 is very calm<br>and 9 is very excited.<br>Answer with a single number only."]
        P3 --> R3["모델 응답:<br>예: 7"]
    end

    S3 --> OUT["최종 출력:<br>emotion=happy, valence=8, arousal=7"]

    S1 -.->|"오류 전파"| S2
    S2 -.->|"고정 효과"| S3

    style S1 fill:#e8f5e9,stroke:#388e3c
    style S2 fill:#fff3e0,stroke:#f57c00
    style S3 fill:#fce4ec,stroke:#c62828
    style OUT fill:#e1f5fe,stroke:#0288d1
    style P1 fill:#f1f8e9,stroke:#689f38,text-align:left
    style P2 fill:#fff8e1,stroke:#ffa000,text-align:left
    style P3 fill:#fce4ec,stroke:#e57373,text-align:left

그림 2. 실제 프롬프트 템플릿을 포함한 3단계 context-carry 프롬프팅 전략. 각 단계는 얼굴 이미지와 텍스트 프롬프트를 함께 입력받는다. 1단계 출력(감정 레이블)이 2단계 프롬프트 템플릿에 주입되고, 2단계 출력(valence)이 3단계 프롬프트에 추가 주입된다. 점선 화살표는 오류 전파를 나타낸다: 1단계의 오분류(예: “sad”가 “neutral”로 분류)가 2, 3단계에서 잘못된 감정 프레임 하에 valence와 arousal을 평정하게 한다.

3.4 FER 기저 모델

비교 분석을 위해 동일한 1,440장의 이미지에서 5개의 FER 전용 모델을 평가하였다. 얼굴 표정 인식(FER) 모델은 감정 레이블 데이터셋에서 end-to-end로 훈련되어 고정된 감정 범주나 연속적 valence-arousal 값을 출력하는 과제 특화 아키텍처이다. 5개 기저 모델은 PosterV2(Pyramid Transformer, 분류만), MobileViT(경량 Vision Transformer, 분류 및 VA 예측), EfficientNet-B0-8-VA-MTL(다중과제 CNN, 분류 및 VA 예측), BEiT(BERT Image Transformer, 분류만), EmoNet(CNN, 분류 및 VA 예측)을 포함하였다. VA 가능 3개 모델(EmoNet, MobileViT, EfficientNet)의 경우, 원래 [-1, 1] 범위의 예측값을 v_norm = (v_raw + 1) / 2 × 8 + 1 공식으로 인간 평정 척도 [1, 9]로 정규화하였다.

3.5 통계 분석

범주 일치도는 의도된 감정 레이블에 대한 Cohen’s κ로 정량화하였으며, McNemar 검정으로 모델 쌍별 비교를 수행하였다. 차원 정렬은 Pearson 상관, 평균 절대 오차(MAE), 평균 제곱근 오차(RMSE), Bland-Altman 분석(체계적 편향과 95% 일치 한계)으로 평가하였다. 감정별 편향 유의성은 Wilcoxon 부호 순위 검정으로 검증하였으며, 18회 비교(6감정 × 3개 VA 가능 모델)에 대한 Bonferroni 보정을 적용하였다.

편향 분해에는 R의 lme4 패키지(Bates et al., 2015)와 Satterthwaite 자유도(lmerTest)를 사용한 선형 혼합효과 모형(LMM)을 적용하였다. Satterthwaite 자유도는 정확한 자유도가 정의되지 않는 혼합효과 모형에서 p-value를 산출하기 위한 근사 방법이다. 감정 편향 모형은 rating ~ rater_type * emotion + (1|image_id) 공식을 사용하였으며, rater_type은 인간 집계 평정과 VLM 평정을 구분하고 image_id는 이미지 간 변산을 통제하는 교차 무선효과이다. 인구통계 편향 모형은 actor_race와 actor_gender를 고정효과로 한 유사한 공식을 사용하였다.

4. 결과

4.1 감정 분류

Gemma3-4B-IT는 Cohen’s κ = 0.671(상당한 일치)을 달성하여 EmoNet(κ = 0.665)을 능가하고 BEiT(κ = 0.713)에 근접한 반면, LLaMA-3.2-11B-Vision은 κ = 0.535(중간 수준 일치)를 달성하여 모든 FER 기저선보다 낮았다. 표 1은 전체 7개 모델 순위를 제시한다. 더 큰 LLaMA(110억 파라미터)가 더 작은 Gemma3(40억 파라미터)보다 낮은 성능을 보여, 모델 규모가 향상된 감정 인식을 보장하지 않으며 instruction tuning의 품질과 사전훈련 데이터 구성이 더 결정적인 요인임을 시사하였다.

표 1. 전체 감정 분류 수행 (N = 1,440).

모델	유형	파라미터	정확도	Macro F1	Cohen’s κ
PosterV2	FER	~44M	0.899	0.900	0.878
MobileViT	FER	~6M	0.875	0.874	0.848
EfficientNet	FER	~5M	0.854	0.856	0.823
BEiT	FER	~86M	0.766	0.772	0.713
Gemma3-4B	VLM	4B	0.726	0.683	0.671
EmoNet	FER	~5M	0.731	0.724	0.665
LLaMA-3.2-11B	VLM	11B	0.613	0.402	0.535

두 VLM 모두 행복과 중립을 완벽하게 분류하였으나, 슬픔에서 극적으로 실패하였다. Gemma3는 슬픔 F1 0.223을, LLaMA는 0.092만을 달성한 반면, PosterV2는 0.992를 기록하였다. 표 2는 7개 모델 전체의 감정별 정확도를 제시하며, 극단적 성능 양극화를 보여준다.

표 2. 감정별 분류 정확도 (정답 비율).

감정	Gemma3	LLaMA	PosterV2	MobileViT	EfficientNet	BEiT	EmoNet
행복	1.000	1.000	1.000	1.000	1.000	0.979	1.000
중립	1.000	1.000	0.912	0.863	0.729	0.529	0.533
공포	0.979	0.654	0.933	0.942	0.846	0.792	0.912
혐오	0.842	0.008	0.642	0.533	0.679	0.754	0.846
분노	0.404	0.921	0.917	0.954	0.887	0.800	0.637
슬픔	0.126	0.092	0.992	0.958	0.983	0.742	0.454

두 VLM은 FER 혼동 패턴과 질적으로 구별되는 상보적 오류 프로파일을 보인다. Gemma3는 슬픔 이미지의 71.1%를 중립으로 분류하는 중립 흡수(neutral absorption)를 보이며, LLaMA는 혐오 이미지의 99.2%를 분노로 분류하는 분노 병합(angry merger)을 보인다. 중립 흡수는 슬픔 표현을 중립으로 분류하는 VLM의 지배적 오류 패턴으로, 모델이 슬픔에 대해 중립을 출력함을 나타낸다. 반대로, LLaMA는 분노(92.1% 정확도)에서 Gemma3가 어려움을 겪는(40.4%) 반면 우수하고, Gemma3는 혐오(84.2%)에서 LLaMA가 완전히 실패하는(0.8%) 반면 우수하다. 이 두 지배적 오류 경로는 전체 분류 오류의 70.6%를 차지하며, 둘 다 FER 모델이 공유하는 분노-혐오 시각적 중첩 혼동과 질적으로 구별된다.

4.2 Valence 비교

표 3에 나타난 바와 같이, 두 VLM 모두 높은 valence 상관(r = .891–.901)을 달성하여 FER 모델(r = .928–.950)에 근접하지만 미치지 못한다. 그러나 절대 오차는 1.5~2.0배 크며(VLM MAE = 1.46–1.81 vs. FER MAE = 0.80–1.06), 정확한 순위 배열이지만 왜곡된 척도 사용 패턴을 반영한다.

표 3. Valence 예측 요약 통계.

모델	유형	Pearson r	MAE	모델 M (SD)	인간 M (SD)
MobileViT	FER	.950	0.916	4.18 (2.35)	4.60 (1.42)
EfficientNet	FER	.940	1.063	4.05 (2.57)	4.60 (1.42)
EmoNet	FER	.928	0.795	4.32 (2.00)	4.60 (1.42)
LLaMA-3.2-11B	VLM	.901	1.808	3.71 (3.08)	4.60 (1.42)
Gemma3-4B	VLM	.891	1.456	4.31 (2.65)	4.60 (1.42)

이 왜곡의 원인은 극성 과장 편향(polarity exaggeration bias)으로, 인간보다 더 극단적인 valence 평정 — 부정 감정에는 더 부정적, 긍정 감정에는 더 긍정적 — 을 산출하는 체계적 경향으로 정의된다. Gemma3의 valence SD 2.65는 인간 SD 1.42의 1.87배이며, LLaMA의 SD 3.08은 인간 SD의 2.17배이다. 표 4는 전 모델에 걸친 감정별 valence 편향을 제시한다.

표 4. 감정별 valence 편향 (모델 − 인간 평균).

감정	Gemma3	LLaMA	EmoNet	MobileViT	EfficientNet
공포	−1.99	−2.68	+0.40	−0.14	−0.62
혐오	−1.39	−2.25	−1.35	−0.78	−0.97
분노	−1.06	−2.04	−0.64	−1.01	−0.79
행복	+1.26	+1.58	+0.76	+1.01	+1.03
중립	+1.05	−0.28	+0.04	−0.09	+0.01
슬픔	+0.38	+0.53	−0.89	−1.51	−1.95

LLaMA의 부정 감정 valence 편향(−2.04 ~ −2.68)은 Gemma3(−1.06 ~ −1.99)의 약 2배이다. 혼합효과 모형은 모든 감정별 편향을 통계적으로 유의하게 확인하였다(p < .001). LLaMA의 LMM은 분노 기준 범주에 대해 rater_type[vlm]의 주효과 β = −2.050(t = −42.73, p < .001)을 산출하였으며, 이는 Gemma3의 β = −1.053(t = −18.06, p < .001)의 약 2배이다. 이는 모델 규모 증가가 극성 과장을 줄이기보다 오히려 증폭시킴을 나타낸다.

4.3 Arousal 비교

Arousal 예측에서 현저한 강점 역전이 나타난다. 강점 역전(strength inversion)은 FER 모델이 valence 예측에서 우세하고 VLM이 arousal 예측에서 우세한 상보적 패턴을 말한다. 표 5에 나타난 바와 같이, VLM은 모든 5개 FER 전용 모델의 arousal 예측을 상당히 능가하여(r = .759–.783 vs. .126–.448), 감정 강도에 대한 언어 매개 추론이 arousal 추정에 구조적 이점을 제공할 수 있음을 시사한다. Gemma3는 추가적으로 7개 모델 전체에서 가장 낮은 arousal MAE(1.137)를 달성하였다.

표 5. Arousal 예측 요약 통계.

모델	유형	Pearson r	MAE	모델 M (SD)	인간 M (SD)
LLaMA-3.2-11B	VLM	.783	1.777	5.36 (2.42)	5.61 (0.60)
Gemma3-4B	VLM	.759	1.137	5.49 (1.74)	5.61 (0.60)
EfficientNet	FER	.448	1.696	6.53 (2.33)	5.61 (0.60)
MobileViT	FER	.409	1.864	6.68 (2.61)	5.61 (0.60)
EmoNet	FER	.126	1.369	6.48 (1.56)	5.61 (0.60)

모델 간 가장 현저한 차이는 행복 arousal에서 나타난다. Gemma3의 편향 +0.30은 LMM에서 유의하지 않으며(β = +0.059, p = .442), 행복 강도에 대한 적절한 보정을 나타낸다. 반대로, LLaMA는 행복 arousal을 8.87(인간 평균: 6.48)로 평정하여 +2.39의 과추정(β = +2.889, p < .001)을 보이며, 이는 극단적 “행복 = 최대 흥분” 원형을 반영한다. 표 6은 LMM 유의성을 포함한 감정별 arousal 편향을 제시한다.

표 6. 감정별 arousal 편향 (VLM − 인간 평균), LMM 유의성 포함.

감정	Gemma3 편향	LMM p	LLaMA 편향	LMM p
공포	+1.30	< .001	+1.21	< .001
행복	+0.30	.442	+2.39	< .001
분노	+0.24	< .001	−0.50	< .001
혐오	+0.42	.026	−0.57	.517
슬픔	−1.04	< .001	−2.10	< .001
중립	−1.90	< .001	−1.91	< .001

두 VLM 모두 중립 arousal(편향: −1.90 ~ −1.91)과 슬픔 arousal(편향: −1.04 ~ −2.10)을 심하게 과소추정하여, 낮은 시각적 현저성을 최소 arousal과 연합하는 체계적 경향을 드러낸다.

그림 3은 강점 역전 패턴을 시각화한다: FER 모델이 분류와 valence에서 우세하고, VLM이 arousal 예측에서 우세하다.

quadrantChart
    title Strength Inversion - FER vs VLM Performance
    x-axis "Low Valence r" --> "High Valence r"
    y-axis "Low Arousal r" --> "High Arousal r"
    quadrant-1 "VLM Advantage"
    quadrant-2 "Both Strong"
    quadrant-3 "Both Weak"
    quadrant-4 "FER Advantage"
    "Gemma3-4B": [0.68, 0.85]
    "LLaMA-11B": [0.70, 0.89]
    "EmoNet": [0.80, 0.10]
    "MobileViT": [0.86, 0.35]
    "EfficientNet": [0.84, 0.42]

그림 3. VLM과 FER 모델 간 강점 역전. 가로축은 인간 평정과의 valence 상관(r), 세로축은 arousal 상관을 나타낸다. VLM은 좌상단 사분면(강한 arousal, 중간 valence)에, FER 모델은 우하단(강한 valence, 약한 arousal)에 위치한다.

4.4 고정값 출력 패턴과 차원 붕괴

LLaMA의 중립 valence SD 0.00은 240장의 모든 중립 이미지가 동일한 값 5를 받았으며 이미지별 변별이 전혀 없음을 의미한다. 차원 붕괴(dimensional collapse)는 연속적 차원 변동이 소수의 이산적 원형 값으로 축소되는 것이다. 고정값 출력 패턴은 감정 범주당 1–6개의 고유한 valence-arousal 값만을 산출하는 것으로, 이미지별 변별이 아닌 고정값 출력을 나타낸다. 표 7은 두 VLM과 인간 평정자의 감정별 응답 분산을 제시한다.

표 7. 감정별 응답 분산: 각 감정 범주 내 평정의 표준편차.

감정	Gemma3 V SD	LLaMA V SD	인간 V SD	Gemma3 A SD	LLaMA A SD	인간 A SD
행복	0.48	0.13	1.31	0.66	0.72	1.57
중립	0.64	0.00	1.08	0.44	0.28	1.71
공포	0.16	0.50	1.61	0.47	1.86	1.52
분노	0.80	1.05	1.55	0.49	1.21	1.51
슬픔	1.02	1.13	1.44	1.03	0.35	1.53
혐오	0.39	0.82	1.54	0.49	1.55	1.51

모든 감정에 걸쳐 VLM valence SD(범위: 0.00–1.13)는 인간 SD(범위: 1.08–1.61)보다 극적으로 낮다. 이 차원 붕괴는 VLM의 이산적 토큰 생성 아키텍처에서 기인하며, 어휘로부터 특정 정수 토큰을 선택해야 한다. 반면 FER 회귀 헤드는 차원적 감정 데이터에서 end-to-end로 훈련된 전용 예측 레이어를 통해 연속적 출력을 산출한다. 이 구별은 진정한 개인 변산을 보이는 인간 평정자, 연속 분포를 산출하는 FER 모델 모두와 질적으로 다른 행동을 나타낸다.

4.5 인구통계적 편향 분석

혼합효과 모형은 VLM 인구통계 편향이 방향, 크기, 영향 차원에서 모델 특이적임을 드러내었다. 인종 편향과 관련하여, Gemma3는 유의한 인종-valence 편향을 보이지 않은 반면, LLaMA는 한국인 얼굴에 대한 유의한 valence 편향(β = +0.319, p = .009)을 보였다. Arousal에서 LLaMA의 인종 편향은 Gemma3의 3배였다: 한국인 얼굴은 LLaMA에서 1.204점 낮은 arousal(Gemma3의 0.399 감소 대비)을, 흑인 얼굴은 0.50점의 과추정을 받았다.

성별 편향과 관련하여, Gemma3는 유의한 성별-valence 편향(β = −0.332, p < .001)을 보여 여성 얼굴을 평균 0.33점 더 부정적으로 평정한 반면, LLaMA는 유의한 성별-valence 편향을 보이지 않았다. 성별-arousal 편향의 방향은 모델 간에 역전되었다: Gemma3는 여성 얼굴을 약간 높은 arousal로(+0.169, p = .020), LLaMA는 낮은 arousal로(−0.465, p < .001) 평정하였다.

인종과 감정의 교차점에서 Gemma3는 분노 분류에서 흑인 얼굴(61.3%)과 한국인 얼굴(22.5%) 사이에 2.7배의 정확도 격차를 보였다. 이 정확도 차이가 인종 집단 간 실제 분노 얼굴에 대한 차별적 민감도를 반영하며, 반드시 흑인 얼굴에 대한 분노의 과잉 귀인을 의미하지 않음에 주의해야 한다. 과잉 귀인을 확립하려면 인종별 거짓 긍정률(비-분노 얼굴을 분노로 분류하는 비율)을 보고해야 하며, 이는 현 분석의 범위를 벗어난다. 혐오는 반대 패턴(한국인 95.0% 정확도가 흑인 75.0%를 초과)을 보여, 인종 효과가 VLM 감정 분류에서 균일하게 작동하기보다 감정 특이적임을 나타내었다.

그림 4는 모델 특이적 인구통계 편향 프로파일을 요약하며, Gemma3와 LLaMA가 서로 다른 차원과 방향에서 편향을 보임을 나타낸다.

flowchart TB
    subgraph Gemma3["Gemma3-4B-IT 편향 프로파일"]
        direction TB
        G1["성별-Valence 편향<br>여성 얼굴 0.33점<br>더 부정적 평정<br>beta = -0.332, p < .001"]
        G2["성별-Arousal 편향<br>여성 얼굴 0.17점<br>더 높은 arousal<br>p = .020"]
        G3["인종-Valence 편향<br>유의하지 않음"]
        G4["인종-Arousal 편향<br>한국인 -0.40점<br>중간 효과"]
    end

    subgraph LLaMA["LLaMA-3.2-11B 편향 프로파일"]
        direction TB
        L1["성별-Valence 편향<br>유의하지 않음"]
        L2["성별-Arousal 편향<br>여성 얼굴 0.47점<br>더 낮은 arousal<br>p < .001"]
        L3["인종-Valence 편향<br>한국인 +0.32점<br>p = .009"]
        L4["인종-Arousal 편향<br>한국인 -1.20점<br>Gemma3의 3배"]
    end

    G1 -.-|"반대 방향"| L1
    G2 -.-|"역전"| L2
    G4 -.-|"LLaMA에서<br>3배 큼"| L4

    style Gemma3 fill:#e8f5e9,stroke:#388e3c
    style LLaMA fill:#e3f2fd,stroke:#1565c0
    style G1 fill:#ffcdd2,stroke:#c62828
    style G2 fill:#fff9c4,stroke:#f9a825
    style G3 fill:#e8f5e9,stroke:#388e3c
    style G4 fill:#fff9c4,stroke:#f9a825
    style L1 fill:#e8f5e9,stroke:#388e3c
    style L2 fill:#ffcdd2,stroke:#c62828
    style L3 fill:#ffcdd2,stroke:#c62828
    style L4 fill:#ffcdd2,stroke:#c62828

그림 4. 모델 특이적 인구통계 편향 프로파일. 녹색 상자는 유의하지 않은 편향, 빨간색 상자는 잠재적으로 유해한 방향의 유의한 편향, 노란색 상자는 중간 수준의 효과를 나타낸다. 점선은 두 모델 간 대응되는 편향 차원을 연결하여 방향 역전과 크기 차이를 강조한다.

5. 논의

5.1 고정값 출력 패턴: 출력 파이프라인 대 내부 표상

가장 주목할 만한 관찰은 VLM이 보여진 특정 얼굴 표정과 무관하게 감정 범주당 1–6개의 고정된 valence-arousal 값을 산출한다는 것이다. 이 고정값 출력 패턴은 동시에 작용하는 복수의 기여 요인과 일치한다: greedy decoding(temperature = 0)은 항상 최고 확률 토큰을 선택하여 출력 다양성을 자명하게 제한하고, 4-bit 양자화는 가중치 공간을 압축하여 세밀한 내부 구분을 저하시키며, 이산적 토큰 생성 아키텍처 자체가 출력을 정수 값으로 제약한다. 중요하게도, 출력 패턴이 반드시 모델의 내부 표상 능력을 반영하지는 않는다 — 토큰 1부터 9까지의 전체 softmax 분포는 greedy decoding이 폐기하는 의미 있는 범주 내 분산을 포함할 수 있다(지식 증류에서의 “dark knowledge”에 유비된다). 향후 연구는 이러한 logit 분포를 분석하여 VLM이 동일한 출력 토큰을 산출함에도 불구하고 동일 감정 범주 내 얼굴 표정을 내부적으로 변별하는지를 결정해야 한다. 반면 FER 회귀 헤드는 전용 예측 레이어를 통해 연속적 출력을 산출한다. VLM은 평균적 감정 원형을 재현할 수 있고, valence 및 arousal 차원에서의 감정 순위 배열은 대체로 정확하다. 그러나 가벼운 짜증과 격렬한 분노를 구분하는 범주 내 강도 구배를 포착하지 못한다.

실용적 관점에서 이는, “이 분노 얼굴이 1점에서 9점까지 중 얼마나 유쾌한가?”라고 물었을 때 VLM이 얼굴이 가벼운 짜증을 보이든 격렬한 분노를 보이든 동일한 답을 산출함을 의미한다 — 세밀한 강도 변별이 필요한 모든 응용에 대한 핵심적 제한이다. 그러나 이 관찰은 반드시 모델의 내부 표상 능력이 아닌 출력 파이프라인(이산적 정수 토큰의 greedy decoding)을 반영한다. VLM이 생성한 감정 레이블은 체계적 왜곡 — 압축된 분산과 고정된 범주 수준 값 — 을 수반하며, 이는 하류 훈련 파이프라인으로 전파될 것이다. VLM이 동일한 출력 토큰을 산출함에도 불구하고 동일 감정 범주 내 자극을 내부적으로 변별하는지 여부는, dark knowledge 분석(argmax 이전의 전체 softmax 분포 검토)이 해결할 수 있는 미해결 질문으로 남는다(Zhang et al., 2024).

5.2 극성 과장 편향

두 VLM 모두 감정의 valence 극단성을 체계적으로 증폭하여, 표준편차가 인간 평정의 1.87~2.17배에 달한다. 이 극성 과장 편향은 감정적 언어가 과장되는 경향이 있는 — 화난 얼굴을 “약간 짜증난” 대신 “격노한”으로 기술하는 — VLM의 사전훈련 코퍼스에서 기원할 가능성이 높다. 더 큰 LLaMA(11B)가 더 작은 Gemma3(4B)보다 더 강한 극성 과장을 보여, 분노 valence 편향이 −2.05 대 −1.05이다. 이 패턴은 사전훈련 데이터가 감정적 뉘앙스에서 비례적으로 증가하지 않으면 증가된 모델 용량이 감정 고정관념을 오히려 증폭시킬 가능성과 일치하나, 두 모델이 아키텍처와 훈련 데이터에서도 차이가 있어 규모에 대한 깨끗한 인과적 귀인은 불가능하다.

감정과 모델에 걸친 극성 과장의 일관성은 실용적 완화 경로를 시사한다. 감정 범주별 사후 선형 보정이 높은 순위 순서 상관을 보존하면서 절대 오차를 상당히 줄일 수 있다. 예를 들어, 감정 범주별로 VLM 출력 분포를 인간 출력 분포로 매핑하는 단순 아핀 변환이 평균 이동과 분산 팽창을 모두 교정하여, 재훈련 없이 VLM MAE를 FER 모델 범위 내로 가져올 수 있을 것이다.

5.3 슬픔-중립 혼동

슬픔은 FER 모델에 의해 신뢰롭게 분류됨에도(PosterV2 F1 = 0.994) 두 VLM 모두에서 가장 낮은 분류 성능을 보이는 감정이다(Gemma3 F1 = 0.223, LLaMA F1 = 0.092). 이 혼동은 정서 순환 모형에서 예측 가능한데, 슬픔이 중립에 근접한 저각성, 중간 부정 영역을 차지하기 때문이다. 이 발견은 역설적이지 않으며, 오히려 VLM이 슬픔을 감정적 중립성과 구분하는 미세하고 저강도의 얼굴 단서에 특히 둔감함을 드러낸다. 지배적 오류 경로는 중립 흡수이다: Gemma3는 슬픔 이미지의 71.1%, LLaMA는 66.7%를 중립으로 분류한다. 이 패턴은 VLM이 슬픔 자극에 대해 중립을 출력함을 시사하며, FER 모델에서의 시각적 특징 중첩을 반영하는 분노-혐오 혼동과 질적으로 다르다.

슬픔-중립 혼동은 본 연구팀의 선행 연구(Tae et al., 심사 중)에서 식별된 arousal 역전 — FER 모델이 여성 슬픔 얼굴에서 역방향 arousal 상관을 보인 — 을 확장한다. 현재 VLM 데이터는 더 근본적 실패를 드러낸다: VLM은 슬픔의 강도를 추정하는 것은 물론, 슬픔을 별개의 범주로 탐지하는 것조차 불가능하다. 이는 정신건강 지원 및 공감적 에이전트 설계에서의 VLM 배치에 중대한 위험을 제기한다. 슬픔과 감정적 중립성을 구분하지 못하는 시스템은 고통 탐지에서 근본적으로 실패할 것이며, 이는 감정 컴퓨팅이 가장 큰 사회적 이익을 약속하는 바로 그 응용 영역이다(Pantic et al., 2005).

5.4 VLM Arousal 평정과 Context-Carry 설계의 생태학적 타당성

VLM은 인간 평정과의 arousal 상관(r = .759–.783)에서 FER 모델(r = .126–.448)보다 높은 수치를 보인다. Context-carry 프롬프팅 설계가 VLM에게 arousal 평정 전에 범주적 감정 레이블을 제공하므로 — FER 모델이 받지 못하는 정보 — 이 비교가 혼입되어 있다고 주장할 수 있다. 그러나 본 연구는 이러한 프레이밍이 비교의 본질을 오해하고 있다고 반박한다.

인간의 감정 지각은 본질적으로 순차적이며, 차원별로 독립적이지 않다. 인간 평정자가 얼굴을 볼 때, 범주적 감정 지각은 자동적이고 빠르게(약 170ms 이내) 발생하며, 이 범주적 표상이 이후의 valence 및 arousal 차원 판단에 고정효과(anchoring)로 작용한다. “분노”로 지각한 얼굴의 arousal을 판단하는 평정자는 진공 상태에서 판단하지 않는다 — 분노라는 범주적 지각이 강도 판단을 형성한다. 이러한 순차적 의존성은 감정 지각 연구에서 잘 확립되어 있다: Barrett의 구성적 감정 이론(Conceptual Act Theory, 2017)은 감정 개념이 지각적 경험을 능동적으로 형성함을 보여주고, Scherer의 구성요소 과정 모형(Component Process Model, 2009)은 평가(appraisal)를 본질적으로 순차적이고 구성요소별 평가로 기술한다. 결정적으로, 본 연구에서 인간 참가자에게 사용된 실험 절차 자체가 순차적이었다 — 참가자들은 valence를 먼저 평정한 후 arousal을 평정하였으며, 각 판단이 다음 판단에 잠재적으로 고정효과를 미친다.

따라서 context-carry 설계는 VLM에게 인간이 갖지 않는 “추가” 정보를 제공하는 것이 아니다. 오히려, 인간이 자연스럽게 수행하는 순차적 범주-차원 판단 과정에 유비되는 정보 흐름을 VLM에게 제공한다. 본 논문이 채택한 VLM-as-rater 관점 — VLM을 인간 평정 패러다임의 추가 참가자로 취급하는 — 에서 관련 비교는 동일한 순차적 판단 구조 하에서 얻어진 VLM 평정과 인간 평정 사이의 비교이다. 이 프레이밍 하에서, VLM-인간 arousal 비교는 방법론적으로 적절하다.

진정한 비교 가능성 문제는 VLM이 아닌 FER 모델에 관한 것이다. FER 모델은 중간 범주적 표상에 대한 접근 없이 픽셀 수준 특징으로부터 직접 arousal을 예측하며, 인간이나 VLM과는 근본적으로 다른 정보 체제 하에서 작동한다. 이 아키텍처적 차이는 FER-VLM arousal 비교를 비동등하게 만든다. 따라서 본 연구는 FER arousal 결과를 참고용으로 보충 자료(Supplementary Materials)에 제시하며, 주 분석은 공통된 순차적 정보 구조를 공유하는 VLM-인간 arousal 비교에 초점을 맞춘다. 모든 모델 유형에 걸쳐 동등한 입-출력 매핑을 포함하는 FER 분류 및 valence 비교는 주 분석에 유지된다.

텍스트 전용 ablation — 얼굴 이미지 없이 감정 레이블만 제공 — 은 향후 실험으로서 가치가 있으나, 인간-VLM 비교의 혼입을 해결하기 위한 것이 아니라 VLM arousal 추정에 대한 시각적 특징 대 언어적 감정 지식의 상대적 기여를 정량화하기 위한 것이다.

5.5 모델 특이적 인구통계 편향

배치 결정에 가장 중요한 관찰은 VLM 인구통계 편향이 방향, 크기, 영향 차원에서 모델 특이적이라는 것이다. Gemma3는 성별-valence 편향(β = −0.332)을 보이는 반면 LLaMA는 인종-arousal 편향을 Gemma3의 3배 크게 보인다. Gemma3는 여성 얼굴을 약간 높은 arousal로(+0.169), LLaMA는 낮은 arousal로(−0.465) 평정한다. 이 이질성은 단일 편향 감사로는 VLM 전체에 일반화할 수 없으며, 각 배치 맥락이 관련된 특정 인구집단과 감정에 대해 개별 평가를 요구함을 의미한다. 인종 정확도 차이의 감정 선택적 특성 — Gemma3의 흑인 얼굴 분노 분류 정확도(61.3%)가 한국인 얼굴(22.5%)의 2.7배인 — 은 특정 감정에 대한 인종 집단 간 차별적 민감도를 나타낸다. 이 정확도 격차가 흑인 얼굴에 대한 분노의 과잉 귀인을 직접 나타내지는 않으며, 이를 위해서는 거짓 긍정률 분석이 필요하다(Hugenberg & Bodenhausen, 2003). 혐오에서는 패턴이 역전되어(한국인 95.0%가 흑인 75.0%를 초과), VLM 분류에 대한 인종 효과가 균일한 인종 선호가 아닌 감정 특이적 경로를 통해 작동함을 확인한다.

5.6 제한점

몇 가지 제한점이 이러한 결과의 일반화 가능성을 제약한다. 첫째, 인간 참가자가 전적으로 한국인 성인이어서, VLM이 평가되는 기저선에 문화적 편향을 도입할 수 있다. 관찰된 패턴이 보편적인지 문화 특이적인지 확립하기 위해 다양한 평정자 집단을 포함한 교차문화적 반복이 필요하다. 둘째, 4B–11B 규모의 오픈소스 VLM 두 개만 검증하였으며, 더 큰 모델(70B 이상)과 frontier API(GPT-4o, Claude, Gemini)로의 확장이 고정값 출력 패턴과 극성 과장이 모델 능력 스펙트럼 전체에 걸쳐 지속되는지를 밝힐 것이다. 셋째, 자극이 정적인 단일 감정 이미지인 반면, 실제 감정 인식은 일반적으로 동적, 다중 모달, 혼합 감정 자극을 포함한다. 넷째, context-carry 프롬프팅 전략이 단발 통합 프롬프팅과 같은 대안적 프롬프팅 접근법에는 존재하지 않을 수 있는 구조적 의존성(분류에서 차원 평정으로의 오류 전파)을 도입한다. 다섯째, 에지 배포에 사용된 4-bit 양자화가 출력 이산화와 응답 분산 감소에 독립적으로 기여할 수 있다. 최근 연구는 VLM이 공격적 양자화 하에서 감정적 뉘앙스를 상실할 수 있으며, 감정 과제에서 10%를 초과하는 정확도 저하를 보일 수 있음을 입증한다(MBQ, CVPR 2025). 본 연구에서 관찰된 고정값 출력 패턴은 전체 정밀도 비교 없이는 VLM 아키텍처만으로 깨끗하게 귀인될 수 없다. 여섯째, context-carry 프롬프팅 전략은 인간 감정 판단의 순차적 특성을 반영하지만(Section 5.4), VLM arousal 추정에 대한 순수 시각적 기여를 언어 기반 추론으로부터 분리하는 것을 방해한다. 텍스트 전용 ablation이 이 상대적 기여를 정량화할 것이다. 일곱째, 모든 자극이 AI 생성 얼굴이며, 이는 VLM과 FER 모델에 대해 서로 다른 분포 이동을 나타낼 수 있다. FER 모델은 실제 얼굴 데이터셋(AffectNet, FER-2013)에서 훈련되어 AI 생성 얼굴이 분포 외(out-of-distribution)인 반면, 웹 규모 데이터에서 훈련된 VLM은 사전훈련 과정에서 AI 생성 이미지를 접했을 수 있다. 이 비대칭적 분포 이동이 성능 차이에 독립적으로 기여할 수 있으며, 일반화 가능성을 확립하기 위해 실제 얼굴 자극을 사용한 반복이 필요하다.

6. 결론

본 연구는 완전 교차 요인 자극 설계를 사용한 VLM과 인간 정서 평정의 심리측정적 비교를 제공하며, Vision Language Model이 중간~상당 수준의 범주 일치도(κ = 0.535–0.671)를 달성하지만 고정값 출력 패턴, 극성 과장, 슬픔-중립 혼동이라는 질적으로 구별되는 편향을 보여, 인간 평정자 및 FER 전용 모델과 차별화됨을 확립하였다.

세 가지 핵심 관찰이 도출되며, 각각 ablation 실험을 통한 추가 검증이 필요하다. 첫째, greedy decoding과 4-bit 양자화 조건에서 VLM은 감정 범주 내에서 근사 영의 출력 분산을 산출하여, 자극 민감적 평정이 아닌 고정된 범주 수준 값을 산출한다. 이 출력 수준의 패턴은 세밀한 강도 변별이 필요한 맥락에서 인간 평정자의 대체로서의 유용성을 제한하지만, 모델의 내부 표상이 출력이 표현하는 것보다 풍부한 정보를 포함하는지 여부는 미확인으로 남는다. 둘째, VLM의 arousal 상관(r = .759–.783)은 상당하며, 본 연구는 순차적 context-carry 설계가 혼입을 도입하기보다 인간 감정 판단의 본질적으로 순차적인 특성(범주적 지각이 차원적 평정에 선행)을 반영한다고 주장한다. VLM-인간 arousal 비교는 따라서 VLM-as-rater 프레임워크 내에서 생태학적으로 타당하다. 범주적 중간 표상에 대한 접근 없이 시각적 특징만으로 arousal을 예측하는 FER 모델은 다른 정보 체제 하에서 작동하며 보충 자료에 별도 제시한다. FER 모델은 동등한 입-출력 조건에서 분류(κ = 0.665–0.878)와 valence(r = .928–.950)에서 우세하다. 셋째, 인구통계적 편향이 방향, 크기, 영향 차원에서 모델 특이적이어서, 일반화된 “VLM 편향” 특성화가 아닌 모델별 감사를 요구한다. VLM이 정신건강 챗봇에서 정서 튜터링 시스템에 이르기까지 감정적으로 민감한 맥락에서 인간-컴퓨터 상호작용을 점점 더 매개함에 따라, VLM의 감정 지각과 인간 심리적 기준 간의 격차는 엄격한 측정 — 본 심리측정 프레임워크가 제공하는 — 과 모델 특이적 한계 및 편향에 대한 투명한 보고를 모두 요구한다. 향후 연구는 본 연구에서 식별된 혼입을 표적화된 ablation 실험을 통해 해결해야 한다. 첫째, 텍스트 전용 ablation — 얼굴 이미지 없이 감정 레이블만 제공 — 이 언어 기반 원형 추론으로부터 arousal 추정에 대한 시각적 기여를 분리할 것이다. 둘째, 단발 프롬프팅(context carry 없이 감정, valence, arousal을 동시에 요청)이 오류 전파와 고정 혼입을 제거할 것이다. 셋째, 동일 모델에서의 전체 정밀도(FP16) 추론과 4-bit 양자화 추론의 비교가 양자화 효과를 아키텍처 제약으로부터 분리할 것이다. 넷째, greedy decoding 이전 출력 토큰에 대한 전체 softmax 분포(dark knowledge)의 분석이 VLM이 동일한 출력 토큰을 산출함에도 감정 범주 내 자극을 내부적으로 변별하는지를 드러낼 것이다. 이러한 ablation 이후로, 프레임워크를 더 큰 VLM(70B 이상), frontier API 모델, 동적 비디오 자극, 문화적으로 다양한 평정자 집단으로 확장하여 여기서 관찰된 패턴의 일반화 가능성을 확립해야 할 것이다.

참고문헌

AlDahoul, N., et al. (2026). FaceScanPaliGemma: Multi-agent vision language models for facial attribute recognition. Scientific Reports, 16.

Alrasheed, H., Alghihab, A., Pentland, A., & Alghowinem, S. (2025). Evaluating the capacity of large language models to interpret emotions in images. PLOS ONE, 20(6), e0324127.

Bates, D., Machler, M., Bolker, B., & Walker, S. (2015). Fitting linear mixed-effects models using lme4. Journal of Statistical Software, 67(1), 1–48.

Bhattacharyya, A., & Wang, S. (2025). Evaluating vision-language models for emotion recognition. In Findings of the Association for Computational Linguistics: NAACL 2025.

Barrett, L. F. (2017). The theory of constructed emotion: An active inference account of interoception and categorization. Social Cognitive and Affective Neuroscience, 12(1), 1–23.

Baudouin, J.-Y., Gallian, F., Pinoit, J.-M., & Damon, F. (2025). Arousal, valence, and discrete categories in facial emotion. Scientific Reports, 15(1), 40268.

Dominguez-Catena, I., Paternain, D., & Galar, M. (2024). Less can be more: Representational vs. stereotypical gender bias in facial expression recognition. Progress in Artificial Intelligence, 13, 255–273.

Harb, E., et al. (2025). Evaluating the performance of general purpose large language models in identifying human facial emotions. npj Digital Medicine, 8.

Hess, U., Adams, R. B., Jr., & Kleck, R. E. (2004). Facial appearance, gender, and emotion expression. Emotion, 4(4), 378–388.

Hugenberg, K., & Bodenhausen, G. V. (2003). Facing prejudice: Implicit prejudice and the perception of facial threat. Psychological Science, 14(6), 640–643.

Jankowiak, P., et al. (2024). Metrics for dataset demographic bias: A case study on facial expression recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 46(8), 5520–5536.

Khare, S. K., Blanes-Vidal, V., Nadimi, E. S., & Acharya, U. R. (2024). Emotion recognition and artificial intelligence: A systematic review (2014–2023). Information Fusion, 102, 102019.

Mollahosseini, A., Hasani, B., & Mahoor, M. H. (2017). AffectNet: A database for facial expression, valence, and arousal computing in the wild. IEEE Transactions on Affective Computing, 10(1), 18–31.

Mulukutla, V. K., Pavarala, S. S., Rudraraju, S. R., & Bonthu, S. (2025). Evaluating open-source vision language models for facial emotion recognition against traditional deep learning models. arXiv preprint arXiv:2508.13524.

Plant, E. A., Hyde, J. S., Keltner, D., & Devine, P. G. (2000). The gender stereotyping of emotions. Psychology of Women Quarterly, 24(1), 81–92.

Pantic, M., Sebe, N., Cohn, J. F., & Huang, T. (2005). Affective multimodal human-computer interaction. In Proceedings of the 13th ACM International Conference on Multimedia (pp. 669–676).

Refoua, S., Elyoseph, Z., Piterman, H., et al. (2026). Evaluation of cross-ethnic emotion recognition capabilities in multimodal large language models using the reading the mind in the eyes test. Scientific Reports, 16.

Scherer, K. R. (2009). The dynamic architecture of emotion: Evidence for the component process model. Cognition and Emotion, 23(7), 1307–1351.

Russell, J. A. (1980). A circumplex model of affect. Journal of Personality and Social Psychology, 39(6), 1161–1178.

Tak, A. N., & Gratch, J. (2024). GPT-4 emulates average-human emotional cognition from a third-person perspective. In Proceedings of the 12th International Conference on Affective Computing and Intelligent Interaction (ACII).

Telceken, M., Akgun, D., Kacar, S., Yesin, K., & Yildiz, M. (2025). Can artificial intelligence understand our emotions? Deep learning applications with face recognition. Current Psychology, 44(9), 7946–7956.

Zhang, Y., Yang, X., Xu, X., et al. (2024). Affective computing in the era of large language models: A survey from the NLP perspective. arXiv preprint arXiv:2408.04638.

부록: 수정 이력 (v2 → v5)

버전 요약

버전	날짜	리뷰어	점수	핵심 변경
v2	2026-03-25	(iterative-academic-writer 초안)	80 (자체 평가)	초기 원고
v3	2026-03-25	ruthless-paper-reviewer (~62), reviewer-cognitive-psychology (50)	~70 (추정)	13건 수정
v4	2026-03-25	reviewer-ai-ml (48), persona-hinton (정성적)	~78 (추정)	8건 수정
v5	2026-03-25	persona-feynman (정성적), persona-bengio (정성적)	~80 (추정)	5건 수정, 수렴 도달

Iteration 1: v2 → v3 (ruthless-paper-reviewer + cognitive-psychology)

#	이슈	심각도	수정 방법	상태
1	Temperature=0 미보고	Critical	Section 3.3에 “temperature = 0 (greedy decoding)” 추가	완료
2	”Angry Black man” 해석 오류 (정확도 ≠ 과잉 귀인)	Critical	고정관념 언어 제거, FPR 구분 주석 추가	완료
3	4-bit 양자화가 사소한 제한점으로 처리	Critical	MBQ CVPR 2025 인용과 함께 주요 제한점으로 격상	완료
4	Context-carry 혼입 미논의	Critical	언어 기반 추론 혼입에 대한 논의 문단 추가	완료
5	AffectNet “이미지당 12명 평정자” 사실 오류	Critical	”~450K 이미지에 걸쳐 12명 주석자, 대부분 단일 주석”으로 수정	완료
6	Bhattacharyya & Wang (NAACL 2025) 누락	Critical	Section 2.1 + 참고문헌에 인용 추가	완료
7	Hess et al. (2004) 오귀인 (실제 결과 = 역전)	Critical	정확한 기술로 수정, Plant et al. (2000)을 주요 참고로 추가	완료
8	α=0.125에 대한 “ceiling” 용어	Critical	”human agreement benchmark”로 교체 + Spearman-Brown 주석	완료
9	”Sadness paradox” 과장	Major	”sadness-neutral confusion”으로 개명 + 순환 모형 예측 명시	완료
10	의인화 언어 (“VLMs see”, “prototype lookup”)	Major	”VLMs classify/process”, “fixed-value output pattern”으로 교체	완료
11	탐색적 연구 프레이밍 부재	Major	Section 1.3에 명시적 탐색적 프레이밍 추가	완료
12	순환 모형 범위 (자기보고 vs 관찰자)	Major	Section 1.1에 범위 구분 추가	완료
13	참고문헌 누락 (Plant et al., Bhattacharyya)	Minor	참고문헌에 추가	완료

Iteration 2: v3 → v4 (reviewer-ai-ml + persona-hinton)

#	이슈	심각도	수정 방법	상태
14	혼입에도 불구한 “Strength inversion” 과잉 주장	Critical	초록 + 결론에서 명시적 혼입 주의 사항과 함께 하향 조정	완료
15	”고정값 출력”이 발견으로 프레이밍	Critical	3개 기여 요인 + dark knowledge 논의를 포함한 관찰로 재프레이밍	완료
16	Alrasheed et al. GAPED = 비-얼굴 이미지	Major	”비-얼굴 정서 이미지(풍경, 동물, 추상 장면)” 추가	완료
17	FaceScanPaliGemma (2026) 누락	Major	Section 2.1 + 참고문헌에 추가	완료
18	결론의 “robust implications”	Major	”ablation 실험을 통한 추가 검증 필요”로 변경	완료
19	구체적 ablation 실험 미제안	Major	Future Work에 4개 구체적 ablation 추가	완료
20	결론 strength inversion 주의 사항 미비	Major	결론에 context-carry 혼입 주석 추가	완료
21	AlDahoul et al. 참고문헌 누락	Minor	참고문헌에 추가	완료

Iteration 3: v4 → v5 (persona-feynman + persona-bengio)

#	이슈	심각도	수정 방법	상태
22	기여 3이 여전히 “discover”로 프레이밍	Major	출력 파이프라인 귀인과 함께 “document”로 재프레이밍	완료
23	기여 4가 여전히 진정한 상보성 암시	Major	명시적 정보적 이점 주의 사항 추가	완료
24	OOD 일반화 미논의 (AI vs 실제 얼굴)	Major	7번째 제한점 추가: 비대칭적 분포 이동	완료
25	Section 5.1 핵심 메시지 과도하게 복잡	Minor	Feynman 스타일 예시 + 출력 vs 표상 구분으로 단순화	완료
26	결론 첫 번째 발견 과장	Minor	”greedy decoding과 4-bit 양자화 조건에서” 한정어로 재프레이밍	완료
27	Context-carry가 혼입으로 프레이밍됨	Critical	반박 논증: 인간 순차적 판단 과정을 반영 (Barrett 2017, Scherer 2009). FER arousal을 보충 자료로 이동. Section 5.4 재작성.	완료
28	FER arousal 비교가 비동등	Major	FER arousal 결과를 다른 정보 체제로 인해 보충 자료로 이동. 주 분석은 VLM-인간 비교에 초점.	완료

미해결 이슈 (추가 실험 필요)

#	이슈	필요한 실험	우선순위
R1	~~Arousal에 대한 context-carry 혼입~~	~~텍스트 전용 ablation (이미지 없이 레이블만)~~	~~Critical~~ → 이론적 논증으로 해결 (Section 5.4: context-carry는 인간 순차적 판단을 반영; 생태학적 타당성 방어). 텍스트 전용 ablation은 시각 vs 언어 기여 정량화에 가치 있으나 타당성 위협은 아님. FER arousal은 보충 자료로 이동.
R2	~~Arousal에 대한 context-carry 혼입~~	~~무-맥락 ablation (레이블 없이 이미지만)~~	~~Critical~~ → Medium으로 하향 (FER arousal 비교가 보충 자료로 이동; VLM-인간 비교가 주요하며 순차적 구조를 공유).
R3	Greedy decoding vs 출력 다양성	Temperature > 0 비교 (0.3, 0.7)	High
R4	양자화 vs 아키텍처 귀인	동일 모델에서 FP16 vs 4-bit 비교	High
R5	Dark knowledge / 내부 표상	Softmax 분포 분석 (1-9에 대한 logits)	High
R6	~~N=2 VLM 일반화~~	~~Qwen2-VL, InternVL 등 추가 VLM~~	~~High~~ → Frontier API 모델 추가로 해결 예정: Google Gemini 2.5 Flash + OpenAI GPT-4o-mini 추가. 오픈소스(4B–11B) → frontier API로 범위 확장, N=2 비판 대응 및 오픈소스 vs frontier 비교 가능.
R7	OOD 일반화	실제 얼굴 자극 비교	Medium
R8	인구통계 편향 FPR	분노 분류에 대한 인종별 거짓 긍정률	Medium
R9	단발 프롬프팅	감정+valence+arousal 동시 추출	Medium
R10	Hidden state 분석	모델 활성화와 인간 평정 간 CKA/RSA	Low

manuscript_VLM_emotion_2026_v5_KR