AI 생성 얼굴 감정 자극에 대한 인간 평정 통계 분석

1. 데이터 개요

본 보고서는 AI로 생성된 얼굴 감정 자극 이미지 1,440장에 대한 인간 평정 데이터의 통계 분석 결과를 정리한다. 자극 세트는 3(인종: Black, Caucasian, Korean) × 2(성별: Man, Woman) × 6(감정: angry, disgust, fear, happy, sad, neutral) × 40(배우)의 완전 요인 설계(fully factorial design)로 구성되어 있다. 총 1,000명의 참가자(평균 연령 44.6세, SD = 13.7, 범위 20–69세, 남녀 각 500명)가 평정에 참여하였으며, 각 이미지당 약 50명이 평정하여 전체 72,000건의 응답이 수집되었다.

평정 차원은 세 가지로, 정서가(valence, 1–9 Likert, 1 = 매우 불쾌, 9 = 매우 유쾌), 각성도(arousal, 1–9, 1 = 매우 차분, 9 = 매우 각성), 자연스러움(naturalness, 1–9, 1 = 매우 부자연스러움, 9 = 매우 자연스러움)이다. 각 차원에 대한 반응시간(RT)도 함께 기록되었다.

2. 감정별 기술통계

다음 표는 72,000건 개별 응답 수준에서의 감정별 기술통계이다. 각 감정 범주당 12,000건(240 자극 × 50 평정자)의 응답이 포함되어 있다.

감정	Valence M(SD)	Arousal M(SD)	Naturalness M(SD)
Angry	3.48 (1.55)	5.60 (1.51)	5.49 (1.62)
Disgust	3.51 (1.54)	5.57 (1.51)	5.43 (1.66)
Fear	3.97 (1.61)	5.99 (1.52)	5.26 (1.84)
Happy	7.40 (1.31)	6.48 (1.57)	6.94 (1.43)
Sad	3.98 (1.44)	5.17 (1.53)	5.66 (1.49)
Neutral	5.28 (1.08)	4.83 (1.71)	6.01 (1.41)

Valence 차원에서 happy(7.40)는 다른 모든 감정과 명확하게 구분된다. 부정 감정(angry, disgust, fear, sad)은 3.48–3.98 범위에 밀집되어 있으며, neutral(5.28)은 척도 중앙에 위치한다. Arousal 차원에서는 fear(5.99)와 happy(6.48)가 가장 높고, neutral(4.83)이 가장 낮다. 부정 감정 중에서 sad(5.17)는 상대적으로 낮은 각성을 보여, valence-arousal 공간에서 다른 부정 감정과 구분되는 위치를 점한다.

Naturalness 차원에서 happy(6.94)가 가장 자연스럽게 평가되었고, fear(5.26)가 가장 부자연스럽게 평가되었다. AI 생성 이미지임에도 불구하고 전체 평균 naturalness가 5.26–6.94 범위로 중간 이상의 평가를 받았으며, 이는 해당 자극 세트의 생태학적 타당성(ecological validity)을 일정 수준 지지한다.

반응시간 패턴

감정	Valence RT (M)	Arousal RT (M)	Naturalness RT (M)
Angry	7.49s	3.17s	2.85s
Disgust	6.37s	3.19s	5.64s
Fear	6.18s	2.91s	3.15s
Happy	4.53s	2.96s	2.71s
Sad	4.91s	4.65s	2.92s
Neutral	5.97s	5.33s	2.99s

Valence 평정의 RT는 angry(7.49s)에서 가장 길고 happy(4.53s)에서 가장 짧았다. 이는 부정 감정의 valence 판단에 더 많은 인지적 처리가 필요함을 시사한다. Arousal RT는 neutral(5.33s)과 sad(4.65s)에서 길었으며, 이는 각성 수준이 모호한 자극에서 판단 난이도가 높아짐을 반영한다. Naturalness RT에서 disgust(5.64s)가 다른 감정(2.71–3.15s)에 비해 현저히 높은 값을 보이는데, 이는 혐오 표정의 자연스러움 판단이 특히 어려운 과제임을 시사하며, AI 생성 얼굴에서 혐오 표현의 시각적 충실도(fidelity) 문제를 반영할 가능성이 있다.

3. 인구통계별 분석

3.1 인종별 Valence 패턴

이미지 수준 평균(이미지당 50명 평정의 평균)을 기준으로 인종별 valence를 분석하였다.

인종	Angry	Disgust	Fear	Happy	Sad	Neutral
Black	3.46	3.46	3.92	7.38	3.92	5.17
Caucasian	3.62	3.63	3.98	7.41	4.06	5.40
Korean	3.37	3.44	4.01	7.41	3.96	5.27

Caucasian 자극이 전반적으로 약간 높은 valence 평정을 받았으며, 특히 neutral(5.40 vs Black 5.17)과 angry(3.62 vs Korean 3.37)에서 차이가 관찰된다. Happy 감정에서는 세 인종 간 차이가 미미하다(7.38–7.41). 이러한 소규모 인종 효과는 참가자의 내집단 편향(in-group bias) 또는 자극 생성 알고리즘의 인종별 표현 차이를 반영할 수 있다.

3.2 인종별 Arousal 패턴

인종	Angry	Disgust	Fear	Happy	Sad	Neutral
Black	5.66	5.65	6.08	6.55	5.22	4.81
Caucasian	5.49	5.47	6.01	6.44	5.13	4.83
Korean	5.64	5.59	5.89	6.45	5.17	4.85

Arousal에서는 Black 자극이 대부분의 감정에서 미세하게 높은 평정을 받았다. 가장 큰 차이는 fear에서 관찰되었으며(Black 6.08, Korean 5.89), 차이 크기는 0.19점으로 1-9 척도의 약 2.4%에 해당한다.

3.3 성별 효과

성별	Angry	Disgust	Fear	Happy	Sad	Neutral
Man (V)	3.56	3.57	4.08	7.34	4.13	5.30
Woman (V)	3.41	3.45	3.86	7.46	3.83	5.26
Man (A)	5.55	5.50	6.01	6.43	5.07	4.82
Woman (A)	5.64	5.64	5.98	6.53	5.27	4.84

여성 자극은 부정 감정(angry, disgust, fear, sad)에서 남성보다 낮은 valence를 받았으나, happy(7.46 vs 7.34)에서는 더 높은 평정을 받았다. 이는 여성 얼굴의 감정 표현이 더 극단적으로(부정은 더 부정적, 긍정은 더 긍정적) 지각되는 경향을 반영한다. Arousal에서도 여성 자극이 angry(5.64 vs 5.55), disgust(5.64 vs 5.50), sad(5.27 vs 5.07)에서 더 높은 각성 평정을 받았다.

3.4 Naturalness의 인종별 패턴

인종	Angry	Disgust	Fear	Happy	Sad	Neutral
Black	5.62	5.56	5.39	6.92	5.69	5.97
Caucasian	5.53	5.45	5.30	6.98	5.72	6.08
Korean	5.32	5.28	5.10	6.93	5.56	5.97

Korean 자극이 부정 감정에서 일관적으로 가장 낮은 naturalness를 받았다(angry 5.32, disgust 5.28, fear 5.10). 이는 한국인 얼굴의 AI 생성 품질이 부정 감정 표현에서 상대적으로 낮거나, 평정자 대다수가 비한국인이어서 비친숙(unfamiliarity) 효과가 반영되었을 가능성이 있다.

4. 평정자 간 신뢰도

Krippendorff’s α는 다수의 평정자 간 일치도를 측정하는 신뢰도 지표로, 우연에 의한 일치를 보정하며 1.0이 완벽한 일치, 0.0이 우연 수준을 의미한다. 본 데이터에서 ordinal 수준으로 산출한 결과는 다음과 같다. 참고로, 각 참가자는 72개 이미지를 평정하는 교차 설계(crossed design)로 배정되었다.

차원	Krippendorff’s α	해석
Valence	0.471	Poor–Fair
Arousal	0.125	Poor
Naturalness	0.126	Poor

Valence의 α = 0.471은 “poor” 수준이지만 감정 평정 연구에서 보고되는 일반적 범위(0.3–0.6) 내에 위치한다. Arousal(0.125)과 naturalness(0.126)의 신뢰도가 현저히 낮은 이유는, 두 차원이 valence에 비해 더 주관적이고 개인차가 크기 때문이다. 특히 arousal은 개인의 감정 조절 전략(emotion regulation strategy)과 정서 강도 민감도(affect intensity)에 의해 크게 영향받는 것으로 알려져 있다.

이러한 낮은 신뢰도는 비전 모델 평가 시 중요한 함의를 갖는다. 인간 평정자 간 일치도가 낮다는 것은, 어떤 모델이라도 인간 평균에 완벽히 일치하기 어렵다는 것을 의미한다. 따라서 모델-인간 일치도는 이 인간 간 일치도를 ceiling(상한선)으로 해석해야 한다.

5. 주요 발견 및 시사점

5.1 Valence-Arousal 공간에서의 감정 분포

Happy는 valence-arousal 공간에서 가장 독특한 위치(고valence, 고arousal)를 점하며, 모든 인구통계 조건에서 일관적으로 명확하게 구분된다. 부정 감정 4종(angry, disgust, fear, sad)은 valence에서 밀집(3.48–3.98)하나, arousal에서 fear(5.99)와 sad(5.17) 사이의 0.82점 차이로 분화된다. Neutral은 valence-arousal 공간의 중앙에 위치하여 기준점 역할을 한다.

5.2 인구통계 효과의 크기와 의미

인종 효과와 성별 효과는 통계적으로 유의할 수 있으나, 효과 크기는 1-9 척도에서 0.1–0.3점 수준으로 작다. 가장 큰 차이(Caucasian neutral valence 5.40 vs Black neutral valence 5.17 = 0.23점)도 개별 응답의 표준편차(약 1.5점) 대비 0.15 SD에 불과하다. 이는 인종이나 성별에 따른 체계적 편향이 존재하나, 개인차 변산에 비해 작은 효과임을 시사한다.

5.3 모델 평가를 위한 시사점

인간 평정자 간 신뢰도(Krippendorff’s α = 0.125–0.471)는 비전 모델 평가의 상한선을 설정한다. Valence에서 α = 0.471이므로, 모델-인간 일치도를 측정하는 ICC(2,k)(Intraclass Correlation Coefficient, 평균 측정의 급내 상관계수)가 0.4 이상이면 인간 수준에 근접하는 것으로 해석할 수 있다. Krippendorff’s α는 다수 평정자 간 일치도를, ICC(2,k)는 두 측정 방식(모델 vs 인간 평균) 간 일치도를 측정하므로, 인간-인간 비교에는 α를, 모델-인간 비교에는 ICC를 사용한다. Arousal에서는 α = 0.125로 매우 낮으므로, 모델의 arousal 예측이 인간 평균과 낮은 상관을 보이더라도 이는 반드시 모델의 실패를 의미하지 않으며, 과제 자체의 주관성을 고려해야 한다. 또한 인구통계별 소규모 효과가 존재하므로, 모델의 인종·성별 편향 분석 시 인간 평정의 기저 편향(baseline bias)을 함께 고려해야 한다.

Juhyeon's Blog

탐색기

human_rating_analysis