Vision Language Model은 인간처럼 감정을 인식하는가? AI 생성 얼굴 자극에 대한 인간-VLM 정서 평정 비교 및 인구통계적 편향 분석

저자: 태지니, 박주현, 최원일

소속: 광주과학기술원 (GIST), 대한민국

초록

Vision Language Model(VLM)은 감정 컴퓨팅 분야에서 점차 활용이 확대되고 있으나, 범주적 정확도 지표를 넘어선 인간 감정 지각과의 정렬(alignment)에 대한 이해는 아직 부족하다. 본 연구는 1,000명의 인간 참가자와 두 개의 instruction-tuned VLM—Gemma3-4B-IT(Google)와 LLaMA-3.2-11B-Vision(Meta)—의 정서 평정을 3개 인종(흑인, 백인, 한국인), 2개 성별, 6개 기본 정서로 균형 잡힌 1,440장의 AI 생성 얼굴 이미지를 대상으로 비교한다. VLM을 추가 평정자로 취급하는 심리측정학적 프레임워크를 사용하여, 범주 일치도(Cohen’s κ), 차원 정렬(valence 및 arousal에 대한 Pearson 상관, MAE, Bland-Altman 분석), 인구통계적 편향(혼합효과 모형)을 인간 평정자 간 신뢰도를 상한선(ceiling)으로 설정하여 평가한다. 결과에 따르면, 두 VLM 모두 중간~상당 수준의 범주 일치도(κ = 0.535–0.671)를 달성하였으나, 정형화된 응답(stereotyped responding)—감정 범주당 1–6개의 고유한 값만을 근사 영의 분산으로 산출—을 나타내어, 이미지별 지각적 변별이 아닌 원형(prototype) 조회에 해당함을 보여주었다. Valence 상관은 높지만(r = .891–.901) 절대 오차는 크며(MAE = 1.46–1.81), 이는 VLM이 부정 감정을 인간보다 더 부정적으로, 긍정 감정을 더 긍정적으로 평정하는 *극성 과장 편향(polarity exaggeration bias)*에 기인한다. 놀랍게도 arousal 예측은 5개 FER 전용 기저 모델 전체를 능가하여(r = .759–.783 vs. .126–.448), 언어 매개 추론이 강도 추정에 구조적 이점을 제공함을 시사한다. 인구통계적 편향 패턴은 모델 특이적이다: Gemma3는 성별-valence 편향을, LLaMA는 인종-arousal 편향을 3배 더 크게 보인다. 본 연구는 두 VLM을 5개 FER 전용 모델(PosterV2, MobileViT, EfficientNet, BEiT, EmoNet)과 동일 자극에서 추가 비교하여, 상보적 강점—FER 모델이 분류와 valence에서, VLM이 arousal에서 우세—을 발견하였다. 이러한 결과는 VLM 정서 평정이 인간 판단을 대체할 수 없으며, 편향 감사(bias audit)가 모델별로 수행되어야 함을 보여준다.

키워드: Vision Language Models, 얼굴 표정 인식, 심리측정 일치도, Valence-Arousal, 인구통계적 편향, AI 생성 얼굴, 감정 컴퓨팅

1. 서론

1.1 감정 컴퓨팅과 VLM의 가능성

정신건강 챗봇에서 반응형 가상 비서에 이르기까지 감정 컴퓨팅 시스템의 배치는 얼굴 표정으로부터의 정확한 자동 감정 인식에 점점 더 의존하고 있다. 이러한 시스템의 효능은 정서적 정렬(affective alignment)—기계의 감정 단서 해석이 인간의 심리적 기준과 일치하는 정도—에 달려 있다(Pantic et al., 2005). 만약 공감적 에이전트가 사용자의 고통 강도를 잘못 해석한다면, 사용자의 신뢰를 해치고 의미 있는 상호작용을 유지하는 데 실패할 위험이 있다.

Vision Language Model(VLM)은 과제 특화 얼굴 표정 인식(FER) 모델에서 범용 다중모달 시스템으로의 패러다임 전환을 대표한다. VLM은 비전 인코더와 대형 언어 모델을 통합하여, 자연어 프롬프팅을 통한 이미지 조건부 텍스트 생성을 가능하게 한다. 감정 레이블 데이터셋에서 end-to-end로 훈련되어 고정된 감정 범주나 연속적 valence-arousal 값을 출력하는 FER 전용 모델과 달리, VLM은 지시 프롬프팅을 통해 범주적 평정과 차원적 평정을 유연하게 산출할 수 있으며, 이는 인간이 자연스럽게 수행하는 통합적 판단 과정을 반영한다. 이러한 유연성은 VLM이 비용이 큰 인간 감정 주석화—1,000명의 평정자로부터 72,000개의 응답을 수집하는 것과 같은—의 확장 가능한 대안이 될 수 있는 가능성을 제기한다.

Russell(1980)의 정서 순환 모형(Circumplex Model of Affect)은 모든 정서 경험을 valence(유쾌-불쾌의 쾌락적 특성)와 arousal(차분-흥분의 생리적 활성화 정도)로 정의된 연속적 2차원 공간에 매핑한다. 이 차원적 프레임워크는 범주적 분류만으로는 포착할 수 없는 미세한 지각적 불일치를 감지할 수 있는 풍부한 표상 어휘를 제공한다. 예를 들어, 두 시스템이 모두 표정을 “분노”로 정확하게 분류하더라도, 그 분노를 얼마나 강렬하게(arousal) 또는 얼마나 부정적으로(valence) 지각하는지에서는 상당히 다를 수 있다. 차원적 평정의 이론적 중요성에도 불구하고, 감정 인식의 계산적 평가는 압도적으로 이산적 범주 정확도에 초점을 맞추어 왔다(Khare et al., 2024; Telceken et al., 2025).

1.2 평가의 공백

VLM 감정 인식에 대한 현행 평가는 본 연구가 해결하고자 하는 네 가지 핵심 한계를 지닌다.

첫째, 기존 벤치마크는 정답 레이블에 대한 정확도와 F1 점수에 의존하지만, 이 지표들은 인간 평정자 간의 상당한 불일치를 무시한다. 인간의 감정 지각은 본질적으로 가변적이며—특히 arousal의 경우 평정자 간 신뢰도가 α = 0.125만큼 낮을 수 있다(본 연구)—모든 의미 있는 평가는 모델 오류를 이러한 인간 변산에 상대적으로 해석해야 한다. 인간 평정자 간 신뢰도를 수행의 상한선으로 설정하지 않으면, 모델의 오류가 진정한 실패를 반영하는 것인지 아니면 감정 지각의 본질적 주관성을 단순히 반영하는 것인지 판별할 수 없다.

둘째, 선행 연구는 거의 전적으로 범주적 정확도에만 초점을 맞추어, 정서 과학의 핵심이자 미세한 지각적 편향을 감지하는 데 필요한 연속적 차원 평정(valence, arousal)을 무시해 왔다. 모델이 완벽한 범주적 정확도를 달성하면서도 체계적으로 왜곡된 차원 평정을 산출할 수 있음을 본 연구에서 실증적으로 보여준다.

셋째, 상용 FER API(Rhue, 2018; Jankowiak et al., 2024)에서 인구통계적 격차가 보고되었으나, 인종-성별-감정 교차점에 걸친 오픈소스 VLM의 체계적 편향 분석은 부재하다. 이 공백은 공정성 보장이 중요한 연구 및 응용 현장에서 오픈소스 VLM의 급속한 채택을 고려하면 특히 우려스럽다.

넷째, 인간과 AI의 감정 지각을 비교한 선행 연구는 주로 FER 전용 모델—수백만 파라미터 수준의 경량 아키텍처(예: MobileViT ~6M, EfficientNet ~5M)로 AffectNet(Mollahosseini et al., 2017)과 같은 감정 레이블 데이터셋에서만 훈련된—을 사용하였다. 이러한 모델은 높은 분류 정확도를 달성하지만, 인터넷 규모의 다중모달 데이터에서 훈련된 수십억 파라미터의 현대적 파운데이션 모델의 능력을 대표하지 못하며, 인간이 자연스럽게 산출하는 통합적 범주+차원 평정도 지원하지 않는다. 본 연구팀의 선행 연구(Tae et al., 심사 중)에 대한 리뷰어의 비판이 “AI”의 대리 변인으로서 FER 전용 모델의 대표성에 직접 문제를 제기하였으며, 이것이 본 연구에서 VLM으로의 전환을 동기화하였다.

1.3 기여

본 논문은 감정 컴퓨팅, 인지심리학, 다중모달 AI 평가의 교차점에서 다섯 가지 기여를 한다.

첫째, VLM을 인간 평정 패러다임의 추가 참가자로 취급하는 VLM-as-rater 심리측정 프레임워크를 도입한다. 정확도/F1로 VLM을 정답 레이블에 대해 평가하는 대신, 급내상관계수(ICC), Cohen’s κ, Krippendorff’s α, Bland-Altman 분석을 사용하여 인간 평정자 간 신뢰도를 실증적 상한선으로 설정한 합의도를 정량화한다. 이 프레임워크는 정확도 기반 평가가 완전히 놓치는 VLM 행동의 차원들—정형화된 응답, 극성 과장, 차원 붕괴—을 드러낸다.

둘째, 완전 교차 3(인종: 흑인, 백인, 한국인) × 2(성별: 남, 여) × 6(감정) 요인 자극 설계를 사용한 오픈소스 VLM의 최초 체계적 인구통계적 편향 분석을 제시한다. 1,440장의 AI 생성 얼굴 이미지 사용은 완벽한 실험적 통제(감정 조건 간 동일한 배경, 조명, 정체성 일관성)를 보장하며, 교차 무선효과를 포함한 혼합효과 모형이 체계적 모델 편향을 이미지 수준 노이즈로부터 분리한다.

셋째, VLM이 감정 범주당 1–6개의 고유한 valence-arousal 값만을 산출하는(예: LLaMA의 neutral valence SD = 0.00) 정형화된 응답(stereotyped responding) 현상을 발견한다. 이는 이미지별 강도 변별이 아닌 범주적 원형 조회를 나타낸다. 이 행동은 인간의 변산성과 FER 모델의 행동 모두와 질적으로 구별된다.

넷째, 두 VLM과 5개 FER 전용 모델을 동일한 인간 기저선(N = 1,000)에 대해 이중 비교하여, 현저한 강점 역전(strength inversion)—FER 모델이 valence 예측에서 우세하고 VLM이 arousal 예측에서 우세—을 발견하며, 이는 상보적 아키텍처 장점을 시사한다.

다섯째, Gemma3와 LLaMA가 서로 다른 차원에서, 다른 인구집단에 대해, 다른 방향으로 편향을 보이는 모델 특이적 인구통계 편향 프로파일을 식별하여, 단일 편향 감사로는 VLM 전체에 일반화할 수 없음을 확립한다.

본 연구의 연구 질문은 다음과 같다. RQ1: VLM의 정서 평정은 범주적 및 차원적 측정에서 인간 평정자 간 신뢰도와 어떤 관계에 있는가? RQ2: VLM은 감정 귀인에서 체계적 인구통계적 편향을 보이며, 이 편향은 모델 특이적인가? RQ3: VLM은 분류 정확도, 차원 예측, 편향 프로파일에서 FER 전용 모델과 어떻게 비교되는가?

2. 선행 연구

2.1 감정 인식을 위한 VLM

Vision Language Model의 얼굴 감정 인식 적용은 시각적 질의응답에서 입증된 역량의 자연스러운 확장으로 등장하였다. 그러나 최근 평가는 혼재된 결과를 보여준다. Mulukutla et al.(2025)은 FER-2013에서 오픈소스 VLM(CLIP, Phi-3.5 Vision)과 전통적 딥러닝 모델의 최초 실증 비교를 수행하여, 전통적 모델—EfficientNet-B0(86.44%)과 ResNet-50(85.72%)—이 VLM(CLIP 64.07%, Phi-3.5 Vision 51.66%)을 유의하게 능가함을 보고하였다. 이는 VLM의 범용적 시각 이해 능력이 FER 수행으로 자동 전환되지 않음을 시사하며, 특히 저해상도 흑백 이미지에서 그러하다.

Frontier API 모델 영역에서는 NimStim 데이터셋에서 GPT-4o, Gemini 2.0, Claude 3.5 Sonnet의 평가가 GPT-4o와 Gemini가 차분/중립 및 놀람 표정에서 인간 수행과 일치하거나 능가함을 보여주었으나, 더 모호한 감정에서는 성능이 저하되었다(npj Digital Medicine, 2025). Refoua et al.(2026)은 백인, 흑인, 한국인 얼굴 자극이 포함된 마음의 눈 읽기 검사(RMET)에서 ChatGPT-4, ChatGPT-4o, Claude 3 Opus를 평가하여, ChatGPT-4o가 인종 간 일관된 수행을 달성함을 보고하였다. 이러한 연구들은 수천억 파라미터의 frontier(폐쇄형) 모델에 초점을 맞추는 반면, 본 연구는 연구 배치에 접근 가능한 4B–11B 규모의 오픈소스 모델을 평가한다.

FER에 특화된 VLM 프레임워크도 등장하였으며, FACET-VLM(2025)은 다시점 얼굴 표상 학습과 언어 프롬프트의 의미론적 안내를 통합하여 BU-4DFE에서 최대 99.41%를 달성하였다. 그러나 이러한 미세조정 모델은 VLM을 다목적 감정 주석 도구로서 매력적으로 만드는 범용성을 희생한다.

2.2 감정 지각에서의 인간-AI 비교

인간과 기계 평정자의 심리측정적 비교는 임상심리학에서 오랜 전통을 가지며, ICC와 Bland-Altman 분석이 측정 합의도 평가의 표준 도구로 활용되어 왔다. 감정 컴퓨팅 분야에서 Tak과 Gratch(2024)는 GPT-4가 3인칭 관점에서 평균적 인간의 감정 인지를 모방하며, 자기 평가보다 타인의 감정에 대한 인간 판단과 더 밀접하게 정렬됨을 발견하였다. PLOS ONE 연구(2025)는 GPT-4의 이미지 감정 해석 능력을 평가하여, 제네바 정서 사진 데이터베이스(GAPED)에서 제로샷 조건으로 valence r = 0.87, arousal r = 0.72의 수치 응답 상관을 달성하였다. 이러한 결과는 대형 언어 모델이 인간의 감정 지각을 근사할 수 있음을 확립하지만, 이 근사의 정도는 감정 차원에 따라 상당히 달라진다.

Zhang et al.(2024)은 LLM 시대의 감정 컴퓨팅에 대한 종합 서베이를 제공하며, 미세조정된 사전학습 언어 모델에서 맥락 내 학습 접근법으로의 패러다임 전환을 기술한다. LLM이 감정 이해 과제(감성 분류, 감정 탐지)에서는 우수하지만, 차원적 감정 추정에서의 성능은 아직 충분히 탐구되지 않았음을 확인한다.

중요하게도, 감정 지각에서의 선행 인간-AI 비교는 일반적으로 (a) 제한된 차원성을 가진 FER 전용 모델 또는 (b) 모델 내부에 대한 투명한 접근이 없는 frontier API 모델 중 하나를 사용하였다. 본 연구는 대규모 인간 데이터(N = 1,000)에 기반한 심리측정 프레임워크를 통해 통합적 범주+차원 평정을 산출하는 오픈소스 VLM을 평가함으로써 이 공백을 연결한다.

2.3 FER에서의 인구통계적 편향

자동화된 감정 인식에서 보고된 인종적, 성별 격차는 상당한 공정성 우려를 제기하였다. Jankowiak et al.(2024)은 FER에서의 데이터셋 인구통계적 편향 측정을 위한 공식적 지표를 제안하여, 불균형한 훈련 데이터 구성이 인구통계 집단 간 체계적 성능 격차로 전파됨을 입증하였다. FER에서의 성별 편향은 두 가지 형태로 나타난다: 대표성 편향(representational bias)(훈련 데이터에서의 불균등한 인구통계 대표)과 고정관념적 편향(stereotypical bias)(감정과 인구통계 간의 체계적 연합, 예를 들어 여성 얼굴을 슬픔과, 남성 얼굴을 분노와 연결)(Springer PRAI, 2024).

인간의 감정 지각 자체도 인구통계적으로 중립적이지 않다. 성별-감정 고정관념은 관찰자가 남성 얼굴을 지배 관련 감정(분노)과, 여성 얼굴을 친사회적 감정(행복, 슬픔)과 연합하도록 이끈다(Hess et al., 2004). 인간 주석화에서의 이러한 편향은 훈련 데이터셋으로 전파되며—AffectNet(Mollahosseini et al., 2017)은 이미지당 약 12명의 희소한 주석에 의존한다—알고리즘 최적화에 의해 증폭될 수 있다.

본 연구는 편향 분석을 상용 API와 훈련 데이터셋으로부터 오픈소스 VLM으로 확장하며, 혼합효과 모형을 통한 인종, 성별, 감정 효과의 직교적 추정을 가능하게 하는 요인 실험 설계를 사용한다.

2.4 감정 연구에서의 AI 생성 자극

감정 연구에 사용되는 전통적 얼굴 데이터베이스(KDEF, ADFES, FER-2013, AffectNet)는 몇 가지 방법론적 한계를 지닌다. 실제 얼굴 데이터베이스는 감정 표현을 연기하는 배우에 의존하여, 표현 품질과 강도에 개인차를 도입한다. 조명, 배경, 헤어스타일, 화장이 자극 간에 달라져 내적 타당도를 저해하는 혼입 변인을 생성한다. 인구통계적 균형을 달성하기 어려우며, 대부분의 데이터베이스가 특정 인종 집단을 과대 대표한다.

AI 생성 얼굴 자극은 통제된 생성 파이프라인을 통해 이러한 한계를 해결한다. 본 연구에서 사용된 GIST-AIFaceDB는 표준화된 특징(동일한 회색 배경, 네이비 티셔츠, 정면 포즈)의 중립 기본 얼굴을 생성한 후, 각 중립 얼굴을 정체성을 보존하면서 5개의 감정 표현으로 변환한다. 이 파이프라인은 주어진 정체성에 대한 감정 표현 간의 모든 차이가 외부 시각 요인이 아닌 감정 조작에만 귀인될 수 있음을 보장한다.

AI 생성 자극의 생태학적 타당성은 인간의 자연스러움 평정에 의해 지지된다: 본 데이터셋에서 평균 자연스러움은 5.26(공포)에서 6.94(행복)까지 9점 척도로 분포하여, 참가자들이 AI 생성임을 알면서도 자극을 중간~높은 수준으로 현실적이라고 지각하였음을 나타낸다. Baudouin et al.(2025)은 차원 평정(valence, arousal)이 자극의 출처와 무관하게 얼굴 자극에서 신뢰롭게 수집될 수 있다는 지지 증거를 제공하며, AI 생성 얼굴이 실제 얼굴과 비교 가능한 정서 반응을 유발함을 시사한다.

3. 방법

3.1 자극

자극 세트는 GIST AI 생성 얼굴 데이터베이스(GIST-AIFaceDB, 심사 중)의 1,440장 AI 생성 얼굴 이미지로 구성된다. 생성 파이프라인은 2단계 과정을 거쳤다. 1단계에서는 OpenArt 플랫폼에 배포된 STOIQO NewReality Flux 모델을 사용하여 240장의 중립 기본 얼굴을 생성하였다. 이 중립 얼굴은 회색 배경 앞에서 표준화된 네이비 티셔츠를 착용한 다양한 가상 정체성을 묘사하며, 생성 프롬프트는 연령 다양성, 헤어스타일 변형, 인구통계적 특성을 명시하였다. 2단계에서는 Google AI Studio에 구현된 고급 이미지 편집 모델 Nano-Banana(Gemini 2.5 Flash Image)를 사용하여 각 중립 얼굴을 원본 이미지의 정체성, 조명, 배경을 보존하면서 5개의 추가 감정 표현(분노, 혐오, 공포, 행복, 슬픔)으로 변환하였다.

결과적으로 생성된 완전 교차 요인 설계—3(인종: 흑인, 백인, 한국인) × 2(성별: 남, 여) × 6(감정: 분노, 혐오, 공포, 행복, 슬픔, 중립) × 40(정체성)—는 감정당 240장, 인종당 480장, 성별당 720장, 인종-성별-감정 조합당 80장의 균형 잡힌 셀 크기를 산출하여, 모든 인구통계 효과의 직교적 추정을 가능하게 한다.

3.2 인간 평정 절차

연구 프로토콜은 기관생명윤리위원회(IRB)의 심의를 거쳐 면제 승인을 받았다. 1,000명의 한국인 성인(여성 500명, 남성 500명; 연령 M = 44.6, SD = 13.7, 범위 20–69)이 온라인 플랫폼을 통해 모집되었으며, 연령 코호트와 성별에 걸쳐 엄격히 균형 잡힌 모집이 이루어졌다.

각 참가자는 1,440장의 전체 풀에서 무작위로 선택된 72장의 이미지를 평가하였으며, 모든 이미지는 무작위 순서로 제시되었다. 이 역균형 교차 설계를 통해 각 이미지는 50개의 독립적 평정을 받아, 총 72,000개의 응답이 산출되었다. 절차는 두 가지 주요 정서 평정 과제로 구성되었다. Valence 과제에서 참가자는 각 얼굴 표정의 정서적 긍정성 또는 부정성을 9점 리커트 척도(1 = “매우 부정적,” 9 = “매우 긍정적”)로 평정하였다. Arousal 과제에서는 감정적 활성화 또는 강도의 수준을 9점 척도(1 = “전혀 각성되지 않음,” 9 = “매우 각성됨”)로 평정하였다. 자연스러움 평정(1 = “매우 부자연스러움,” 9 = “매우 자연스러움”)도 함께 수집되었다.

Krippendorff’s α(순서형)로 산출된 평정자 간 신뢰도는 다음과 같은 인간 상한선을 확립하였다: valence α = 0.471(빈약–양호), arousal α = 0.125(빈약), 자연스러움 α = 0.126(빈약). 이 값들이 낮아 보이지만, 감정 평정 연구의 일반적 범위 내에 위치하며 정서 지각—특히 arousal—의 본질적 주관성을 반영한다. 혼합효과 분산 분해는 평정자 개인차(valence σ² = 0.450, arousal σ² = 0.696)가 이미지 수준 분산을 11배(valence) 및 32배(arousal) 압도함을 확인하여, 낮은 신뢰도가 자극 모호성이 아닌 평정자 이질성에 의해 주도됨을 확인하였다.

3.3 VLM 추론

두 개의 instruction-tuned VLM이 평가되었다: Gemma3-4B-IT(Google, 40억 파라미터, QAT 4-bit 양자화)와 LLaMA-3.2-11B-Vision-Instruct(Meta, 110억 파라미터, 4-bit 양자화). 두 모델 모두 MLX 프레임워크를 통해 Apple Silicon(M1 Max, 32GB)에서 HTTP 오버헤드 없이 GPU 가속 추론으로 배포되었다.

추론은 3단계 context-carry 프롬프팅 전략을 따랐다. 1단계에서 모델은 구조화된 JSON 출력을 통해 6개 강제 선택 범주(행복, 슬픔, 분노, 공포, 혐오, 중립)로 얼굴 감정을 분류하였다. 2단계에서 분류된 감정이 맥락으로 전달되어 모델이 1–9 척도로 valence를 평정하였다. 3단계에서 분류된 감정과 valence 평정 모두가 전달되어 모델이 1–9 척도로 arousal을 평정하였다. 이 순차 전략은 인간의 순차적 판단에서의 고정효과(anchoring effects)를 반영하는 동시에, 구조적 오류 전파를 도입한다: 1단계의 분류 오류가 후속 valence 및 arousal 평정에 체계적으로 영향을 미친다.

응답 파싱은 캐스케이드 전략을 사용하였다: 직접 JSON 파싱 → 마크다운 펜스 제거 → 정규식 대체. 감정 레이블은 첫 세 글자로 퍼지 매칭되었고, valence는 [1, 9]로, arousal은 [1, 9]로 클램핑되었다. Gemma3는 100% JSON 파싱 성공률과 1건의 무효 범주 출력(0.07%, “doubt”)을 달성하였으며, LLaMA도 유사한 준수율을 보였다. 두 모델 모두 1,440장 전체를 성공적으로 처리하였다.

3.4 FER 기저 모델

비교 분석을 위해 동일한 1,440장의 이미지에서 5개의 FER 전용 모델을 평가하였다: PosterV2(Pyramid Transformer, 분류만), MobileViT(경량 Vision Transformer, 분류 + VA), EfficientNet-B0-8-VA-MTL(다중과제 CNN, 분류 + VA), BEiT(BERT Image Transformer, 분류만), EmoNet(CNN, 분류 + VA). VA 가능 3개 모델의 경우, 원래 [-1, 1] 범위의 예측값을 v_norm = (v_raw + 1) / 2 × 8 + 1 공식으로 [1, 9] 척도로 정규화하였다.

3.5 통계 분석

범주 일치도는 의도된 감정 레이블에 대한 Cohen’s κ로 정량화하였으며, McNemar 검정으로 모델 쌍별 비교를 수행하였다. 차원 정렬은 Pearson 상관, 평균 절대 오차(MAE), 평균 제곱근 오차(RMSE), Bland-Altman 분석(체계적 편향과 95% 일치 한계)으로 평가하였다. 감정별 편향 유의성은 Wilcoxon 부호 순위 검정으로 검증하였으며, 18회 비교(6감정 × 3개 VA 가능 모델)에 대한 Bonferroni 보정을 적용하였다.

편향 분해에는 R의 lme4 패키지(Bates et al., 2015)와 Satterthwaite 자유도(lmerTest)를 사용한 선형 혼합효과 모형(LMM)을 적용하였다. 감정 편향 모형은 rating ~ rater_type * emotion + (1|image_id) 공식을 사용하였으며, rater_type은 인간 집계와 VLM 평정을 구분하고 image_id는 이미지 간 변산을 통제하는 교차 무선효과이다. 인구통계 편향 모형은 actor_race와 actor_gender를 고정효과로 한 유사한 공식을 사용하였다.

4. 결과

4.1 감정 분류

표 1은 5개 FER 전용 기저 모델과 함께 두 VLM의 전체 분류 수행을 제시한다.

표 1. 전체 감정 분류 수행 (N = 1,440).

모델	유형	정확도	Macro F1	Cohen’s κ
PosterV2	FER	0.899	0.900	0.878
MobileViT	FER	0.875	0.874	0.848
EfficientNet	FER	0.854	0.856	0.823
BEiT	FER	0.766	0.772	0.713
Gemma3-4B	VLM	0.726	0.683	0.671
EmoNet	FER	0.731	0.724	0.665
LLaMA-3.2-11B	VLM	0.613	0.402	0.535

Gemma3-4B-IT는 Cohen’s κ = 0.671(상당한 일치)을 달성하여 EmoNet(κ = 0.665)을 능가하고 BEiT(κ = 0.713)에 근접하였다. LLaMA-3.2-11B-Vision은 κ = 0.535(중간 수준 일치)를 달성하여 모든 FER 기저선보다 낮았다. 주목할 점은 더 큰 LLaMA(11B)가 더 작은 Gemma3(4B)보다 낮은 성능을 보여, 모델 규모가 향상된 감정 인식을 보장하지 않음을 입증한다.

표 2는 감정별 분류 정확도를 제시하며, 극단적 성능 양극화를 보여준다.

표 2. 감정별 분류 정확도 (정답 비율).

감정	Gemma3	LLaMA	PosterV2	MobileViT	EfficientNet	BEiT	EmoNet
행복	1.000	1.000	1.000	1.000	1.000	0.979	1.000
중립	1.000	1.000	0.912	0.863	0.729	0.529	0.533
공포	0.979	0.654	0.933	0.942	0.846	0.792	0.912
혐오	0.842	0.008	0.642	0.533	0.679	0.754	0.846
분노	0.404	0.921	0.917	0.954	0.887	0.800	0.637
슬픔	0.126	0.092	0.992	0.958	0.983	0.742	0.454

두 VLM 모두 행복과 중립을 완벽하게 분류하였으나, 슬픔에서 극적으로 실패하였다(Gemma3 F1 = 0.223, LLaMA F1 = 0.092). 두 VLM은 상보적 오류 프로파일을 보인다: LLaMA는 분노(92.1%)에서 Gemma3가 어려움을 겪는(40.4%) 반면 우수하고, Gemma3는 혐오(84.2%)에서 LLaMA가 완전히 실패하는(0.8%) 반면 우수하다. 지배적 오류 경로는 질적으로 구별된다: Gemma3는 중립 흡수(neutral absorption)(슬픔 이미지의 71.1%가 중립으로 분류)를 보이고, LLaMA는 분노 병합(angry merger)(혐오 이미지의 99.2%가 분노로 분류)을 보인다.

4.2 Valence 비교

표 3. Valence 예측 요약 통계.

모델	유형	Pearson r	MAE	모델 M(SD)	인간 M(SD)
MobileViT	FER	.950	0.916	4.18 (2.35)	4.60 (1.42)
EfficientNet	FER	.940	1.063	4.05 (2.57)	4.60 (1.42)
EmoNet	FER	.928	0.795	4.32 (2.00)	4.60 (1.42)
LLaMA-3.2-11B	VLM	.901	1.808	3.71 (3.08)	4.60 (1.42)
Gemma3-4B	VLM	.891	1.456	4.31 (2.65)	4.60 (1.42)

두 VLM 모두 높은 valence 상관(r = .891–.901)을 달성하여 FER 모델(r = .928–.950)에 근접하지만 미치지 못한다. 그러나 절대 오차는 상당히 크며(VLM MAE = 1.46–1.81 vs. FER MAE = 0.80–1.06), “정확한 순위 배열이지만 왜곡된 척도 사용” 패턴을 반영한다.

이 왜곡의 원인은 *극성 과장 편향(polarity exaggeration bias)*이다. Gemma3의 valence SD(2.65)는 인간 SD(1.42)의 1.87배, LLaMA의 SD(3.08)는 인간 SD의 2.17배이다. 두 VLM 모두 부정 감정을 인간보다 더 부정적으로, 긍정 감정을 더 긍정적으로 체계적으로 평정한다.

표 4. 감정별 valence 편향 (VLM − 인간 평균).

감정	Gemma3 편향	LLaMA 편향	EmoNet 편향	MobileViT 편향	EfficientNet 편향
공포	−1.99	−2.68	+0.40	−0.14	−0.62
혐오	−1.39	−2.25	−1.35	−0.78	−0.97
분노	−1.06	−2.04	−0.64	−1.01	−0.79
행복	+1.26	+1.58	+0.76	+1.01	+1.03
중립	+1.05	−0.28	+0.04	−0.09	+0.01
슬픔	+0.38	+0.53	−0.89	−1.51	−1.95

LLaMA의 부정 감정 valence 편향(−2.04 ~ −2.68)은 Gemma3(−1.06 ~ −1.99)의 약 2배로, 모델 규모 증가가 극성 과장을 줄이기보다 오히려 증폭시킴을 나타낸다. 혼합효과 모형은 모든 감정별 편향을 통계적으로 유의하게 확인하였으며(p < .001), LLaMA의 분노 편향(β = −2.050)이 Gemma3(β = −1.053)의 약 2배임을 보여주었다.

4.3 Arousal 비교

표 5. Arousal 예측 요약 통계.

모델	유형	Pearson r	MAE	모델 M(SD)	인간 M(SD)
LLaMA-3.2-11B	VLM	.783	1.777	5.36 (2.42)	5.61 (0.60)
Gemma3-4B	VLM	.759	1.137	5.49 (1.74)	5.61 (0.60)
EfficientNet	FER	.448	1.696	6.53 (2.33)	5.61 (0.60)
MobileViT	FER	.409	1.864	6.68 (2.61)	5.61 (0.60)
EmoNet	FER	.126	1.369	6.48 (1.56)	5.61 (0.60)

현저한 강점 역전이 나타난다: VLM은 모든 FER 전용 모델의 arousal 예측을 상당히 능가하여(r = .759–.783 vs. .126–.448), 감정 강도에 대한 언어 매개 추론이 arousal 추정에 구조적 이점을 제공함을 시사한다. Gemma3는 추가적으로 7개 모델 전체에서 가장 낮은 arousal MAE(1.137)를 달성하였다.

표 6. 감정별 arousal 편향 (VLM − 인간 평균), LMM 유의성 포함.

감정	Gemma3 편향	LMM p	LLaMA 편향	LMM p
공포	+1.30	< .001	+1.21	< .001
행복	+0.30	.442	+2.39	< .001
분노	+0.24	< .001	−0.50	< .001
혐오	+0.42	.026	−0.57	.517
슬픔	−1.04	< .001	−2.10	< .001
중립	−1.90	< .001	−1.91	< .001

모델 간 가장 현저한 차이는 행복 arousal에서 나타난다: Gemma3의 편향(+0.30)은 LMM에서 유의하지 않으나(p = .442), LLaMA는 행복 arousal을 8.87(인간 평균: 6.48)로 평정하여 +2.39의 과추정(p < .001)을 보인다. 이는 LLaMA의 극단적 “행복 = 최대 흥분” 원형을 반영한다. 두 VLM 모두 중립 arousal(−1.90 ~ −1.91)과 슬픔 arousal(−1.04 ~ −2.10)을 심하게 과소추정하여, 낮은 시각적 현저성을 최소 arousal과 연합하는 체계적 경향을 드러낸다.

4.4 정형화된 응답과 차원 붕괴

표 7. 감정별 응답 분산: 고유 값 수와 표준편차.

감정	Gemma3 V SD	LLaMA V SD	인간 V SD	Gemma3 A SD	LLaMA A SD	인간 A SD
행복	0.48	0.13	1.31	0.66	0.72	1.57
중립	0.64	0.00	1.08	0.44	0.28	1.71
공포	0.16	0.50	1.61	0.47	1.86	1.52
분노	0.80	1.05	1.55	0.49	1.21	1.51
슬픔	1.02	1.13	1.44	1.03	0.35	1.53
혐오	0.39	0.82	1.54	0.49	1.55	1.51

LLaMA의 중립 valence SD = 0.00은 240장의 모든 중립 이미지가 동일한 값(5)을 받았으며, 이미지별 변별이 전혀 없음을 의미한다. 모든 감정에 걸쳐 VLM의 valence SD(0.00–1.13)는 인간 SD(1.08–1.61)보다 극적으로 낮아, VLM이 이미지별 지각적 변별이 아닌 원형 조회를 수행함을 확인한다. 이 *차원 붕괴(dimensional collapse)*는 인간 평정자(진정한 개인 변산을 보이는)와 FER 모델(회귀 헤드를 통해 연속 분포를 산출하는) 모두와 질적으로 다른 행동을 나타낸다.

4.5 인구통계적 편향 분석

혼합효과 모형은 모델 특이적 인구통계 편향 패턴을 드러내었다.

인종 편향. Gemma3는 유의한 인종-valence 편향을 보이지 않은 반면, LLaMA는 한국인 얼굴에 대한 유의한 편향(β = +0.319, p = .009)을 보였다. Arousal에서 LLaMA의 인종 편향은 Gemma3의 3배였다: 한국인 얼굴은 LLaMA에서 −1.204점 낮은 arousal(Gemma3의 −0.399 대비)을, 흑인 얼굴은 +0.50점의 과추정을 받았다.

성별 편향. Gemma3는 유의한 성별-valence 편향(β = −0.332, p < .001, 여성 얼굴을 0.33점 더 부정적으로 평정)을 보인 반면, LLaMA는 유의한 성별-valence 편향을 보이지 않았다. 성별-arousal 편향의 방향은 모델 간에 역전되었다: Gemma3는 여성 얼굴을 약간 높은 arousal로(+0.169, p = .020), LLaMA는 낮은 arousal로(−0.465, p < .001) 평정하였다.

감정 선택적 인종 편향. 인종과 감정의 교차점에서 Gemma3는 분노 분류에서 2.7배의 정확도 격차(흑인 61.3% vs. 한국인 22.5%)를 보여, 인간 지각 연구에서 보고된 “화난 흑인 남성” 고정관념과 방향적으로 일치하였다. 혐오는 반대 패턴(한국인 95.0% > 흑인 75.0%)을 보여, 인종 편향이 균일하게 작동하기보다 특정 인종-감정 조합에 대해 선택적으로 활성화됨을 드러내었다.

5. 논의

5.1 정형화된 응답: 원형 조회 대 이미지별 변별

본 연구의 가장 근본적 발견은 VLM이 보여진 특정 얼굴 표정과 무관하게 감정 범주당 1–6개의 고정된 valence-arousal 값을 산출하는 감정 범주 원형 조회를 수행한다는 것이다. 이 차원 붕괴는 VLM의 이산적 토큰 생성 아키텍처에서 기인할 가능성이 높은데, VLM은 어휘로부터 특정 정수 토큰을 선택해야 하기 때문이다. 이와 대조적으로 FER 회귀 헤드는 차원적 감정 데이터에서 end-to-end로 훈련된 전용 예측 레이어를 통해 연속적 출력을 산출한다.

이 발견은 VLM을 대규모 감정 데이터의 대리 주석자로 사용하는 새로운 관행(Zhang et al., 2024)에 직접적 함의를 갖는다. VLM은 평균적 감정 원형을 재현할 수 있고—valence 및 arousal 차원에서의 감정 순위 배열은 대체로 정확하지만—예를 들어 가벼운 짜증과 격렬한 분노를 구분하는 범주 내 강도 구배를 포착하지 못한다. 따라서 VLM이 생성한 감정 레이블은 체계적 왜곡(압축된 분산, 고정된 원형)을 수반하며, 이는 하류 훈련 파이프라인으로 전파될 것이다.

5.2 극성 과장 편향

두 VLM 모두 감정의 valence 극단성을 체계적으로 증폭하여, 표준편차가 인간 평정의 1.87–2.17배에 달한다. 이 극성 과장 편향은 감정적 언어가 과장(예: 화난 얼굴을 “약간 짜증난” 대신 “격노한”으로 기술)되는 경향이 있는 VLM의 사전훈련 코퍼스에서 기원할 가능성이 높다. 반직관적으로, 더 큰 LLaMA(11B)가 더 작은 Gemma3(4B)보다 더 강한 극성 과장을 보여—분노 valence 편향 −2.05 vs. −1.05—사전훈련 데이터가 감정적 뉘앙스에서 비례적으로 증가하지 않으면 증가된 모델 용량이 감정 고정관념을 오히려 증폭시킬 수 있음을 시사한다.

감정과 모델에 걸친 극성 과장의 일관성은 사후 보정(예: 감정 범주별 단순 선형 재조정)이 높은 순위 순서 상관을 보존하면서 절대 오차를 상당히 줄일 수 있음을 시사하며, 응용 감정 컴퓨팅 시스템을 위한 실용적 경로를 제공한다.

5.3 슬픔의 역설

본 연구는 VLM 감정 인식에서 *슬픔의 역설(sadness paradox)*을 식별한다: 슬픔은 FER 모델에 의해 신뢰롭게 분류됨에도(PosterV2 F1 = 0.994) 두 VLM 모두에서 가장 낮은 분류 성능을 보이는 감정이다(Gemma3 F1 = 0.223, LLaMA F1 = 0.092). 지배적 오류 경로는 중립 흡수이다: Gemma3는 슬픔 이미지의 71.1%, LLaMA는 66.7%를 중립으로 분류하여, VLM이 슬픔을 별개의 감정 상태가 아닌 감정의 부재로 취급함을 시사한다. 이는 시각적 특징 중첩을 반영하는 FER 모델과 공유되는 분노-혐오 혼동과 질적으로 다르며, 범주적 비인식을 반영한다.

이는 본 연구팀의 선행 연구(Tae et al., 심사 중)에서 처음 식별된 슬픔-arousal 역전—FER 모델이 여성 슬픔 얼굴에서 역방향 arousal 상관을 보인—을 확장한다. 현재 VLM 데이터는 더 심각한 차원을 추가한다: VLM은 슬픔의 강도를 추정하는 것은 물론, 슬픔을 별개의 감정 범주로 탐지하는 것조차 실패한다.

슬픔의 역설은 정신건강 지원 및 공감적 에이전트 설계에서의 VLM 배치에 중대한 위험을 제기한다. 슬픔과 감정적 중립성을 구분하지 못하는 시스템은 고통 탐지라는 핵심 과제에서 근본적으로 실패할 것이며, 이는 감정 컴퓨팅이 가장 큰 사회적 이익을 약속하는 바로 그 응용 영역이다(Pantic et al., 2005).

5.4 VLM의 Arousal 우위

아마도 가장 예상 밖의 발견은 VLM이 모든 5개 FER 전용 모델의 arousal 예측을 상당히 능가한다는 것이다(r = .759–.783 vs. .126–.448). 이 우위는 언어 매개 추론에서 기인한다고 가설을 세운다: VLM은 사전훈련 코퍼스에 인코딩된 감정 강도에 대한 언어 모델의 개념적 이해(“차분한,” “동요된,” “흥분된”과 같은 표현을 통해)를 활용하여 arousal을 추정할 수 있는 반면, FER 모델은 시각적 특징과 희소한 연속 주석만으로 arousal 매핑을 학습해야 한다.

이 발견은 FER 모델의 valence 우위와 결합하여, FER 분류 헤드와 VLM 기반 강도 추정을 결합한 하이브리드 시스템이 어느 한 아키텍처 단독보다 더 나은 성능을 달성할 수 있음을 시사한다. 이러한 상보적 통합은 차세대 감정 컴퓨팅 시스템의 유망한 방향을 나타낸다.

5.5 모델 특이적 인구통계 편향

배치 결정에 가장 중요한 발견은 VLM 인구통계 편향이 방향, 크기, 영향 차원에서 모델 특이적이라는 것이다. Gemma3는 성별-valence 편향을 보이는 반면 LLaMA는 인종-arousal 편향을 보인다; Gemma3는 여성 얼굴을 약간 높은 arousal로 평정하는 반면 LLaMA는 낮은 arousal로 평정한다. 이 이질성은 단일 편향 감사로는 VLM 전체에 일반화할 수 없으며, 각 배치 맥락이 관련된 특정 인구집단과 감정에 대해 개별 평가를 요구함을 의미한다.

인종 편향의 감정 선택적 특성—Gemma3의 흑인 얼굴 분노 분류 정확도(61.3%)가 한국인 얼굴(22.5%)의 2.7배인—은 인간 사회 인지에서 보고된 “화난 흑인 남성” 고정관념을 반향한다(Hess et al., 2004). 그러나 혐오에서는 편향이 역전되어(한국인 95.0% > 흑인 75.0%), VLM 감정 인식에 대한 인종 효과가 균일한 인종 선호가 아닌 감정 특이적 경로를 통해 작동함을 드러낸다.

5.6 제한점

몇 가지 제한점을 언급해야 한다. 첫째, 인간 참가자가 전적으로 한국인 성인이어서, VLM이 평가되는 기저선에 문화적 편향을 도입할 수 있다. 다양한 평정자 집단을 포함한 교차문화적 반복이 필요하다. 둘째, 4B–11B 규모의 오픈소스 VLM 두 개만 검증하였으며, 더 큰 모델(70B+)과 frontier API(GPT-4o, Claude, Gemini)로의 확장이 본 연구에서 보고된 패턴이 모델 능력 스펙트럼 전체에 걸쳐 일반화되는지를 밝힐 것이다. 셋째, 자극이 정적인 단일 감정 이미지이며, 실제 감정 인식은 일반적으로 동적, 다중 모달, 혼합 감정 자극을 포함한다. 넷째, context-carry 프롬프팅 전략이 대안적 프롬프팅 접근법(예: 단발 통합 프롬프팅)에는 존재하지 않을 수 있는 구조적 의존성(분류에서 차원 평정으로의 오류 전파)을 도입한다. 다섯째, 에지 배포에 사용된 4-bit 양자화가 전체 정밀도 추론과 비교하여 모델 행동에 영향을 미칠 수 있다.

6. 결론

본 연구는 완전 교차 요인 자극 설계를 사용한 VLM과 인간 정서 평정의 최초 심리측정적 비교를 제공하며, Vision Language Model이 중간~상당 수준의 범주 일치도(κ = 0.535–0.671)를 달성하지만 정형화된 응답, 극성 과장, 슬픔의 역설이라는 질적으로 구별되는 편향을 보여, 인간 평정자 및 FER 전용 모델과 차별화됨을 확립하였다.

세 가지 핵심 발견이 도출된다. 첫째, VLM은 이미지별 지각적 변별이 아닌 범주적 원형 조회를 수행하여, 감정 범주 내에서 근사 영의 분산을 산출한다. 이 차원 붕괴는 VLM이 현재 자극 수준의 변산이 중요한 연구 맥락에서 인간 평정자를 대체할 수 없음을 의미한다. 둘째, 모델 패밀리 간에 현저한 강점 역전이 존재한다: FER 모델이 분류(κ = 0.665–0.878)와 valence(r = .928–.950)에서 우세하고, VLM이 arousal(r = .759–.783 vs. .126–.448)에서 우세하여, 상보적 아키텍처 장점을 시사한다. 셋째, 인구통계적 편향이 방향, 크기, 영향 차원에서 모델 특이적이어서, 일반화된 “VLM 편향” 특성화가 아닌 모델별 감사를 요구한다.

VLM이 정신건강 챗봇에서 정서 튜터링 시스템에 이르기까지 감정적으로 민감한 맥락에서 인간-컴퓨터 상호작용을 점점 더 매개함에 따라, VLM의 감정 지각과 인간 심리적 기준 간의 격차는 엄격한 측정—본 심리측정 프레임워크가 제공하는—과 모델 특이적 한계 및 편향에 대한 투명한 보고를 모두 요구한다. 향후 연구는 이 프레임워크를 더 큰 VLM, frontier API 모델, 동적 비디오 자극, 문화적으로 다양한 평정자 집단으로 확장하는 한편, 차원적으로 주석된 감정 데이터에 대한 미세조정이 본 연구에서 식별된 정형화된 응답과 극성 과장을 완화할 수 있는지 조사해야 할 것이다.

참고문헌

Baudouin, J.-Y., Gallian, F., Pinoit, J.-M., & Damon, F. (2025). Arousal, valence, and discrete categories in facial emotion. Scientific Reports, 15(1), 40268.

Bates, D., Mächler, M., Bolker, B., & Walker, S. (2015). Fitting linear mixed-effects models using lme4. Journal of Statistical Software, 67(1), 1–48.

Hess, U., Adams Jr, R. B., & Kleck, R. E. (2004). Facial appearance, gender, and emotion expression. Emotion, 4(4), 378–388.

Jankowiak, P., et al. (2024). Metrics for dataset demographic bias: A case study on facial expression recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 46(8).

Khare, S. K., Blanes-Vidal, V., Nadimi, E. S., & Acharya, U. R. (2024). Emotion recognition and artificial intelligence: A systematic review (2014–2023). Information Fusion, 102, 102019.

Mollahosseini, A., Hasani, B., & Mahoor, M. H. (2017). AffectNet: A database for facial expression, valence, and arousal computing in the wild. IEEE Transactions on Affective Computing, 10(1), 18–31.

Mulukutla, V. K., Pavarala, S. S., Rudraraju, S. R., & Bonthu, S. (2025). Evaluating open-source vision language models for facial emotion recognition against traditional deep learning models. arXiv preprint arXiv:2508.13524.

Nomiya, H., Shimokawa, K., Namba, S., Osumi, M., & Sato, W. (2025). An artificial intelligence model for sensing affective valence and arousal from facial images. Sensors, 25(4), 1188.

Pantic, M., Sebe, N., Cohn, J. F., & Huang, T. (2005). Affective multimodal human-computer interaction. In Proceedings of the 13th ACM International Conference on Multimedia (pp. 669–676).

Refoua, S., Elyoseph, Z., Piterman, H., et al. (2026). Evaluation of cross-ethnic emotion recognition capabilities in multimodal large language models using the reading the mind in the eyes test. Scientific Reports, 16.

Russell, J. A. (1980). A circumplex model of affect. Journal of Personality and Social Psychology, 39(6), 1161–1178.

Tak, A. N., & Gratch, J. (2024). GPT-4 emulates average-human emotional cognition from a third-person perspective. arXiv preprint arXiv:2408.13718.

Telceken, M., Akgun, D., Kacar, S., Yesin, K., & Yıldız, M. (2025). Can artificial intelligence understand our emotions? Deep learning applications with face recognition. Current Psychology, 44(9), 7946–7956.

Zhang, Y., Yang, X., Xu, X., et al. (2024). Affective computing in the era of large language models: A survey from the NLP perspective. arXiv preprint arXiv:2408.04638.

부록: 투고 추천 학회 및 저널

본 연구의 학제간 특성(인지심리학 × 감정 컴퓨팅 × 다중모달 AI)에 기반하여, 적합도 순으로 다음 학회/저널을 추천한다:

Tier 1: 주요 대상

학회/저널	유형	적합 근거
ACM CHI	학회	HCI 프레이밍, 정서적 에이전트, 정신건강 UX에 대한 슬픔의 역설 함의. FER 모델을 VLM으로 대체하여 선행 desk-rejection에 대응.
EMNLP / ACL	학회	VLM 평가 방법론, context-carry 프롬프팅, NLP와 감정 컴퓨팅의 융합. Findings 트랙에 강한 적합성.
IEEE Transactions on Affective Computing (TAFFC)	저널	본 연구의 학문적 본거지. 7개 모델 비교, 인간 상한선 프레임워크, 극성 과장 편향 개념.

Tier 2: 유력 대안

학회/저널	유형	적합 근거
ACII (Affective Computing & Intelligent Interaction)	학회	전문 학회. 심리측정 프레임워크와 이중 VLM-FER 비교가 새로운 기여.
ACM FAccT	학회	공정성 관점: 모델 특이적 인구통계 편향, 감정 선택적 인종 효과, 모델별 감사 요구.
AIES (AAAI/ACM AI Ethics & Society)	학회	배포된 시스템에서의 VLM 감정 편향의 광범위한 사회적 함의.
CSCW	학회	협업 및 사회 컴퓨팅 관점: VLM 편향이 집단 대면 정서 기술에 미치는 영향.

Tier 3: 고영향력 저널 옵션

저널	유형	적합 근거
Nature Human Behaviour	저널	대규모 인간-AI 비교(N=1,000), 사회적 함의, 교차 인구통계 분석.
Cognition and Emotion	저널	선도적 정서 과학 저널. 정서 순환 모형 기반, 심리측정 프레임워크, 슬픔의 역설.
Computers in Human Behavior	저널	인간-AI 상호작용, 기술 매개 정서, 응용 함의.
PLOS ONE	저널	광범위한 학제간 독자, 오픈 액세스, 재현 가능한 방법론.

manuscript_VLM_emotion_2026_KR