04_methods

3. 방법

Figure 1은 전체 연구 파이프라인을 제시하며, 1,440장의 AI 생성 자극이 인간 평정과 VLM 추론을 거쳐 대체 가능성 판정에서 수렴하는 과정을 보여준다.

flowchart TB
    subgraph Stimuli["자극 생성"]
        A["OpenArt<br>STOIQO NewReality Flux"] -->|"240개 중립 얼굴"| B["Nano-Banana<br>Gemini 2.5 Flash Image"]
        B -->|"정체성당 5개 감정"| C["GIST-AIFaceDB<br>1,440장 이미지<br>3 인종 × 2 성별 × 6 감정 × 40 ID"]
    end

    subgraph Human["인간 평정 (N = 1,000)"]
        C --> D["참가자당 72장 이미지<br>총 72,000개 응답"]
        D --> E["Valence 1–9<br>Arousal 1–9<br>자연스러움 1–9<br>반응 시간"]
    end

    subgraph VLM["VLM 추론 (8개 조건)"]
        C --> F1["로컬 비-Thinking<br>Gemma3-4B, Gemma3-12B,<br>Gemma3-27B, LLaMA-3.2-11B-Vision"]
        C --> F2["로컬 Thinking<br>Qwen3-VL-4B"]
        C --> F3["프론티어 API<br>GPT-4o-mini,<br>Gemini 2.5 Flash (Thinking),<br>Gemini 2.5 Flash (NoThink)"]
        F1 --> H["Context-Carry<br>3단계 프롬프팅"]
        F2 --> H
        F3 --> H
        H --> I["감정 + Valence + Arousal<br>+ Thinking 흔적"]
    end

    subgraph Analysis["대체 가능성 평가"]
        E --> L["합치도 지표:<br>Cohen's κ, Pearson r,<br>Bland-Altman, LMM"]
        I --> L
        L --> L2["대체 가능성 분석:<br>Krippendorff's α (Δα),<br>z-score, 응답 다양성"]
        L2 --> M["대체 가능성 판정 매트릭스:<br>감정 × 차원별<br>✅ 대체 가능 / ⭐ 부분 가능 / ⚠️ 보정 필요 / ❌ 대체 불가"]
    end

    style Stimuli fill:#e1f5fe,stroke:#0288d1
    style Human fill:#fff3e0,stroke:#f57c00
    style VLM fill:#e8f5e9,stroke:#388e3c
    style Analysis fill:#f3e5f5,stroke:#7b1fa2

Figure 1. 전체 연구 파이프라인. AI 생성 자극(파란색)은 1,000명의 인간 평정자(주황색)와 세 규모 및 두 추론 모드에 걸친 여덟 VLM 조건(초록색)에 의해 평가되며, 합치도 지표와 대체 가능성 분석(보라색)을 거쳐 감정 × 차원별 대체 가능성 판정 매트릭스로 수렴한다.

3.1 자극

자극 세트는 GIST AI 생성 얼굴 데이터베이스(GIST-AIFaceDB, 심사 중)의 1,440장 AI 생성 얼굴 이미지로 구성된다. 생성 파이프라인은 2단계 과정을 사용하였다. 1단계에서는 OpenArt 플랫폼에 배치된 STOIQO NewReality Flux 모델을 사용하여 세 인종 집단(흑인, 백인, 한국인)과 두 성별(남성, 여성)에 걸쳐 회색 배경의 표준화된 네이비 티셔츠를 입은 다양한 가상 정체성을 묘사하는 240개의 중립 기본 얼굴을 생성하였다. 2단계에서는 Google AI Studio(Gemini 2.5 Flash Image)에 구현된 이미지 편집 모델인 Nano-Banana를 사용하여 각 중립 얼굴을 정체성, 조명, 배경을 유지하면서 분노, 혐오, 공포, 행복, 슬픔의 다섯 가지 추가 감정 표현으로 변환하였다.

그 결과 완전 교차 요인 설계 — 3(인종) × 2(성별) × 6(감정) × 40(정체성) — 는 균형 잡힌 셀 크기를 가진 1,440장의 이미지를 산출한다: 감정당 240장, 인종당 480장, 성별당 720장, 인종-성별-감정 조합당 80장. 이 균형 설계는 교란 없이 모든 인구통계 효과의 직교 추정을 가능케 한다.

3.2 인간 평정 절차

1,000명의 한국 성인(여성 500명, 남성 500명; 나이 M = 44.6, SD = 13.7, 범위 20–69세)이 온라인 플랫폼을 통해 모집되었으며, 연령 코호트와 성별에 걸쳐 균형 잡힌 모집이 이루어졌다(IRB 면제 승인). 각 참가자는 총 1,440장에서 무작위로 선택된 72장의 이미지를 평가하였으며, 모든 이미지는 무선화된 순서로 제시되었다. 이 역균형 교차 설계를 통해 각 이미지는 50개의 독립 평정을 받았으며, valence(1–9 Likert 척도), arousal(1–9), 자연스러움(1–9) 세 차원에서 총 72,000개의 응답을 산출하였다. 각 평정에 대해 반응 시간이 기록되었다.

Krippendorff’s α(서열)로 산출된 평정자 간 신뢰도가 인간 일치 기준을 확립하였다: valence α = 0.498(나쁨-보통), arousal α = 0.116(나쁨), 자연스러움 α = 0.126(나쁨). 이 값들은 절대적 기준에서 낮으나, 감정 평정 연구의 전형적 범위 내에 속하며 정서 인식의 본질적 주관성을 반영한다. 선형 혼합효과 모델(LMM)은 평정자 개인차(valence σ² = 0.450, arousal σ² = 0.696)가 이미지 수준 분산보다 valence에서 11배, arousal에서 32배 지배적임을 확인하여, 낮은 신뢰도가 자극 모호성이 아닌 평정자 이질성에 의해 주도됨을 확인하였다.

3.3 VLM 추론

본 연구는 모델 규모, 배포 방식, 추론 모드를 체계적으로 교차한 8가지 VLM 조건을 구성하였다. Table 1은 모델 사양을 요약한다.

Table 1. VLM 사양.

Model	Provider	Parameters	Quantization	Thinking	Backend	Key Settings
Gemma3-4B-IT	Google	4B	QAT 4-bit	No	MLX (local)	temp=0
Gemma3-12B-IT	Google	12B	QAT 4-bit	No	MLX (local)	temp=0
Gemma3-27B-IT	Google	27B	QAT 4-bit	No	MLX (local)	temp=0
LLaMA-3.2-11B-Vision	Meta	11B	4-bit	No	MLX (local)	temp=0
Qwen3-VL-4B-Thinking	Alibaba	4B	4-bit	Yes (budget=1024)	MLX (local)	temp=0, rep_penalty=1.5
GPT-4o-mini	OpenAI	Frontier	Full-precision	No	API	temp=0, seed=42, image_detail=high
Gemini 2.5 Flash	Google	Frontier	Full-precision	Yes (dynamic)	API	temp=0, includeThoughts=true
Gemini 2.5 Flash (NoThink)	Google	Frontier	Full-precision	No (budget=0; ~199 internal tokens persist)	API	temp=0, includeThoughts=false

Gemma3 계열(4B, 12B, 27B)은 동일 아키텍처 패밀리 내에서 매개변수 규모의 영향을 조사할 수 있는 3점 스케일링 시리즈를 구성한다. Gemini 2.5 Flash (NoThink) 조건은 동일 프론티어 모델에서 thinking 모드를 억제한 within-model 비교를 제공한다. thinking_budget을 0으로 설정하였으나, 본 연구 실험에서 API는 추론 단계당 평균 약 199개의 내부 thinking 토큰을 보고하여, 외부 추론 흔적만 억제되고 내부 계산은 완전히 제거되지 않았다. 이 조건은 ablation이 아닌 독립적 모델 조건으로 전체 분석에 포함된다.

네 로컬 non-thinking 모델(Gemma3-4B, Gemma3-12B, Gemma3-27B, LLaMA-3.2-11B)은 메모리 효율적 추론을 위해 4-bit 양자화와 함께 MLX 프레임워크를 통해 Apple Silicon(M1 Max, 32 GB)에 배치되었다. Gemma3 계열은 QAT(Quantization-Aware Training) 방식으로 양자화되었다. QAT는 학습 과정에서 가중치를 저비트 정수로 압축하도록 훈련된 경량화 기법으로, 사후 양자화(post-training quantization)보다 정밀도 손실이 적다. Qwen3-VL-4B-Thinking은 동일 하드웨어에서 Chain-of-Thought 추론이 활성화된 상태로 배치되었다: 모델은 JSON 응답을 생성하기 전에 <think>...</think> 태그 내에서 명시적 추론을 생성하며, 양자화 모델에서의 무한 생성을 방지하기 위해 추론 단계당 1,024 토큰의 thinking_budget을 설정하였다. GPT-4o-mini는 결정론적 설정(temperature = 0, seed = 42, image_detail = “high”)으로 OpenAI API를 통해 접근하였다. Gemini 2.5 Flash는 두 조건으로 배치되었다: thinking 조건은 동적 thinking 예산과 includeThoughts: true로 추론 흔적을 수집하며, NoThink 조건은 thinking_budget = 0과 includeThoughts: false로 외부 추론 흔적을 억제한다.

모든 모델은 결정론적 출력을 위해 temperature = 0(탐욕 디코딩)으로 실행되었다. 전정밀도로 작동하는 세 프론티어 API 조건(GPT-4o-mini, Gemini 2.5 Flash, Gemini 2.5 Flash NoThink)의 포함은 양자화 아티팩트에 구애받지 않는 성능 상한을 설정하고, 양자화 효과와 아키텍처적 한계를 부분적으로 분리할 수 있게 한다. 최근 연구는 비전 토큰이 언어 토큰보다 양자화 손실에 덜 민감하며, 모달리티 균형 양자화가 VLM 품질을 효과적으로 유지함을 보여준다(Li et al., 2025).

추론은 3단계 context-carry 프롬프팅 전략을 따랐으며, 이전 출력이 후속 예측의 맥락으로 전달되어 인간 순차 판단의 정박 효과를 반영한다. 1단계에서 모델은 6개 강제 선택 범주(행복, 슬픔, 분노, 공포, 혐오, 중립)에서 얼굴 감정을 JSON 출력으로 분류하였다. 2단계에서는 분류된 감정이 전달되어 모델이 1–9 척도로 valence를 평정하였다. 3단계에서는 분류된 감정과 valence 평정 모두 전달되어 모델이 1–9 척도로 arousal을 평정하였다. 이 전략은 구조적 오류 전파를 도입한다: 1단계의 분류 오류가 후속 valence와 arousal 평정에 체계적으로 영향을 미친다. 응답 파싱은 캐스케이드 전략을 사용하였다: 직접 JSON 파싱, 마크다운 펜스 제거, 정규식 폴백. 여덟 조건 모두 1,440장의 이미지를 성공적으로 처리하여 총 11,520개(8 조건 × 1,440장)의 VLM 예측을 산출하였다.

3.4 통계 분석

왜 Spearman 상관이 아닌가. 선행 연구에서 VLM-인간 비교에 흔히 사용되는 Spearman 순위 상관( $r_{s}$ )은 두 변수의 순위 단조성(monotonic association)만을 측정하며, 절대적 수준 차이를 반영하지 못한다. 예를 들어, VLM이 모든 valence를 +2만큼 체계적으로 과대평가하더라도 순위가 보존되면 $r_{s} \approx 1.0$ 이 산출된다. 대체 가능성 판정에서는 순위 정렬뿐 아니라 절대적 수치의 일치가 요구되므로, 본 연구는 상관 지표로 선형 관계의 강도와 방향을 포착하는 Pearson $r$ 을, 절대적 합치도 지표로 개별 평정자의 원시 응답을 직접 사용하며 결측치에 강건한 Krippendorff’s α를 채택하였다. Bland-Altman 분석은 편향의 크기·방향(편향 $\overset{ˉ}{d}$ )과 이미지 간 확산( $S D_{d}$ )을 함께 진단한다. 평균 절대 오차(MAE)는 $(\overset{ˉ}{d}, S D_{d})$ 쌍의 파생량이므로 본 연구에서는 보조 지표로 Supplementary S4에 분리 보고한다.

본 연구는 세 가지 분석 대상 — 정서 분류(범주형), valence(연속형), arousal(연속형) — 에 따라 서로 다른 지표 체계를 적용한다. 각 분석 대상의 데이터 유형이 다르므로 적합한 지표도 다르며, 합치도 지표(§3.4.1–3.4.2)와 대체 가능성 지표(§3.4.3)는 각각 “VLM이 인간과 얼마나 비슷한가”와 “VLM이 인간을 대체할 수 있는가”라는 서로 다른 질문에 답한다. 범주형 분류에서는 높은 합치도(κ)가 곧 대체 가능성을 의미하므로 두 개념이 사실상 동일하다. 그러나 연속형 차원(valence, arousal)에서는 합치도가 다차원적으로 분해된다: 신호 추적(Pearson $r$ — 같은 이미지 속성에 반응하는가), 척도 교정(Bland-Altman bias — 같은 방식으로 숫자를 쓰는가), 범위 소속( $\pm 1 S D$ % — 인간이 줄 법한 값을 주는가). 이 세 차원은 독립적이므로 — 예컨대 $r$ 이 높아도 체계적 편향이 존재하거나, 편향이 없어도 응답 다양성이 부족할 수 있으므로 — 합치도는 대체 가능성의 필요조건이지 충분조건이 아니며, 양자를 별도로 평가해야 한다. 이에 더해 인구통계학적 편향 분석(§3.4.4)은 “VLM의 오차가 인구통계 속성에 따라 달라지는가”라는 직교적 질문을 다룬다. Table 1a는 분석 대상별 사용 지표를 요약한다.

Table 1a. 분석 대상별 사용 지표 요약.

분석 대상	데이터 유형	합치도 지표 (§3.4.1–3.4.2)	대체 가능성 지표 (§3.4.3)
정서 분류	범주형 (6개 클래스)	Cohen’s κ, Accuracy, Precision, Recall, F1-macro	— (κ와 recall로 직접 판정)
Valence	연속형 (1–9 척도)	Pearson r, Bland-Altman (Bias, LoA)	Krippendorff’s α (Δα), z-score ( $W_{1 SD}$ )
Arousal	연속형 (1–9 척도)	Pearson r, Bland-Altman (Bias, LoA)	Krippendorff’s α (Δα), z-score ( $W_{1 SD}$ )
공통 (차원적)	—	LMM (편향 분해)	응답 다양성 분석, 대체 가능성 판정 매트릭스

3.4.1 정서 분류 분석 지표

정서 분류는 6개 감정 범주(행복, 슬픔, 분노, 공포, 혐오, 중립) 간 범주적 일치도를 평가한다. 범주형 데이터는 연속형 지표(상관, Bland-Altman)가 아닌 범주 전용 지표를 필요로 한다. 여섯 감정 범주는 자연스러운 서열 구조를 갖지 않으므로(예: “분노”가 “공포”보다 크다고 할 수 없으므로), 가중 κ가 아닌 비가중 Cohen’s κ를 사용한다.

Cohen’s κ (비가중). 두 평정자 간 범주적 일치도를 우연 일치를 보정하여 측정하는 지표이다(Cohen, 1960):

$κ = \frac{p _{o} - p _{e}}{1 - p _{e}}$

여기서 $p_{o} = \frac{1}{N} \sum_{k = 1}^{K} n_{kk}$ 는 관측된 일치 비율로, $N$ 개 항목 중 두 평정자가 동일 범주 $k$ 에 배정한 빈도 $n_{kk}$ 의 합이다. $p_{e} = \sum_{k = 1}^{K} p_{k \cdot} \cdot p_{\cdot k}$ 는 우연에 의해 기대되는 일치 비율로, 각 평정자의 범주별 주변 확률의 곱의 합이다. κ = 1이면 완전 일치, κ = 0이면 우연 수준, κ < 0이면 우연보다 낮은 체계적 불일치를 의미한다. 본 연구에서는 의도된 감정 라벨(ground truth)과 VLM 예측 범주 간 κ를 산출하였다. 판정 기준은 Landis and Koch(1977)의 가이드라인을 따른다: κ < .00 poor, .00–.20 slight, .21–.40 fair, .41–.60 moderate, .61–.80 substantial, .81–1.00 almost perfect.

κ는 전체 일치도를 단일 수치로 요약하지만, 어떤 감정에서 실패하는지를 드러내지 못한다. 감정별 분류 성능의 세부 프로파일을 진단하기 위해 정확도, 정밀도, 재현율, F1-score를 함께 산출하였다.

정확도 (Accuracy). 전체 이미지 중 올바르게 분류된 비율이다:

$Accuracy = \frac{1}{N} \sum_{k = 1}^{K} T P_{k}$

여기서 $T P_{k}$ 는 감정 범주 $k$ 의 참양성(true positive) 수, $N$ 은 전체 이미지 수이다. 정확도는 직관적이나, 특정 감정의 체계적 실패를 전체 수치에서 희석시킬 수 있다. 예를 들어, 슬픔 재현율이 0.125(240장 중 30장만 정답)이더라도 나머지 5개 감정의 높은 정확도에 의해 전체 정확도는 0.724로 보고된다.

정밀도 (Precision). 특정 감정 $k$ 로 예측한 이미지 중 실제로 해당 감정인 비율이다:

$Precision_{k} = \frac{T P _{k}}{T P _{k} + F P _{k}}$

여기서 $F P_{k}$ 는 다른 감정을 감정 $k$ 로 잘못 분류한 위양성 수이다. 정밀도가 낮다는 것은 모델이 해당 감정을 과잉 탐지(over-detection)함을 의미한다. 예를 들어, 중립 정밀도가 낮으면 슬픔이나 혐오 이미지를 중립으로 잘못 분류하는 경향을 반영한다.

재현율 (Recall). 실제 감정 $k$ 인 이미지 중 올바르게 해당 감정으로 분류된 비율이다:

$Recall_{k} = \frac{T P _{k}}{T P _{k} + F N _{k}}$

여기서 $F N_{k}$ 는 실제 감정 $k$ 를 다른 범주로 잘못 분류한 위음성 수이다. 재현율이 낮다는 것은 모델이 해당 감정을 체계적으로 놓침(under-detection)을 의미한다. 본 연구에서 슬픔 재현율은 대체 가능성의 핵심 진단 지표로, 대부분의 VLM이 슬픈 얼굴을 중립으로 오분류하는 패턴을 드러낸다.

F1-score와 Macro F1. 정밀도와 재현율의 조화 평균으로, 두 지표 간 균형을 단일 수치로 요약한다:

$F 1_{k} = \frac{2 \cdot Precision _{k} \cdot Recall _{k}}{Precision _{k} + Recall _{k}}$

$F 1_{macro} = \frac{1}{K} \sum_{k = 1}^{K} F 1_{k}$

Macro F1은 각 범주에 동일한 가중치를 부여하므로, 소수 범주의 실패도 전체 점수에 균등하게 반영된다. 본 연구의 균형 설계(범주당 240장)에서 accuracy와 macro F1의 차이는 주로 모델이 특정 감정에서 정밀도와 재현율의 불균형을 보이는 정도를 반영한다.

3.4.2 차원적 평정(Valence, Arousal) 합치도 지표

Valence(1–9)와 arousal(1–9)은 모두 등간(interval) 수준의 연속형 변수이므로 동일한 지표 체계를 적용한다. 차원적 평정에서의 합치도는 “VLM이 인간 평정 평균과 얼마나 비슷한 값을 산출하는가”를 묻는다. 이를 위해 상관(패턴의 유사성), 오차(절대적 편차 크기), 편향(체계적 방향성)의 세 측면을 각각 다른 지표로 포착한다.

Pearson 상관계수 ( $r$ ) — 패턴의 유사성. 두 연속 변수 간 선형 관계의 강도와 방향을 측정한다:

$r = \frac{\sum _{j = 1}^{N} ( x _{j} - x ˉ ) ( y _{j} - y ˉ )}{\sum _{j = 1}^{N} ( x _{j} - x ˉ ) ^{2} \cdot \sum _{j = 1}^{N} ( y _{j} - y ˉ ) ^{2}}$

여기서 $x_{j}$ 는 이미지 $j$ 에 대한 VLM 예측값, $y_{j}$ 는 해당 이미지를 평정한 인간 50명의 평균값이다. 각 참가자가 1,440장 중 72장만 평정하는 역균형 설계이므로, 개별 참가자와 VLM 간 직접 상관은 산출할 수 없다. 대신, 이미지별로 50명의 평정을 집계한 평균( $\overset{y}{ˉ}_{j}$ )을 준거(reference)로 사용하여, 1,440개의 (VLM 예측, 인간 평균) 쌍에 대해 상관을 산출하였다.

이 접근의 한계는 인간 평정의 이미지 내 변산(within-image variance)을 무시한다는 점이다. 인간 50명의 arousal 평정이 $\overset{y}{ˉ}_{j} = 5.0$ , $S D_{j} = 2.0$ 인 이미지에서 VLM이 6.0을 예측하면, 이 편차(1.0점)는 인간 변동 범위( $\pm 1 S D$ ) 이내이지만 Pearson r 계산에서는 단순히 잔차로만 반영된다. 반대로, $S D_{j} = 0.3$ 인 이미지에서 동일한 1.0점 편차는 인간 분포에서 3.3 표준편차에 해당하는 이상치이나, r 계산에서는 동일한 가중치를 받는다. 즉, Pearson r은 인간 평정자 집단 내 자연스러운 변동성을 고려하지 못하며, 높은 r이 곧 인간 수준의 일치를 의미하지 않는다.

그럼에도 Pearson r을 유지하는 이유는 대체 가능성 판정 체계에서 보정 가능성의 진단 도구로 기능하기 때문이다. ICC가 낮을 때 그 원인이 (a) 체계적 편향(r은 높으나 절대 수준이 다름)인지, (b) 비체계적 오류(r도 낮음)인지를 구분해야 한다. 전자는 아핀 보정( $y^{'} = a \cdot y + b$ )으로 교정 가능하고, 후자는 교정이 불가능하다. 인간 변동성을 고려한 대체 가능성 판단은 ICC(2,1), Krippendorff’s α, z-score ( $W_{1 SD}$ )가 담당하며(Section 3.4.3), Pearson r은 이들 지표의 해석을 보완하는 역할에 한정된다.

Pearson r이 제공하는 보정 가능성 진단은 Bland-Altman 분석만으로도 충분히 수행할 수 있다. Bias가 크고 LoA 폭이 좁으면 체계적 편향(아핀 보정 가능)을, LoA 폭이 넓으면 비체계적 오류(보정 불가)를 의미하므로, r 없이도 동일한 결론에 도달할 수 있다. 그럼에도 Pearson r을 보고하는 이유는 두 가지이다. 첫째, 선행 VLM 감정 평가 연구(Khare et al., 2024; Telceken et al., 2025)가 모두 r을 주요 지표로 보고하므로, r을 생략하면 직접적 비교가 불가능해진다. 둘째, “r = .963이지만 ICC < .20”이라는 대비는 본 연구의 핵심 메시지 — 높은 상관이 대체 가능성을 보장하지 않는다 — 를 독자에게 가장 직관적으로 전달하는 수단이다. 독자에게 익숙한 언어(r)로 먼저 접근시킨 후, 그 한계를 Bland-Altman과 Krippendorff’s α로 드러내는 구조가 논증적으로 더 효과적이다.

Bland-Altman 분석 — 체계적 편향과 일치 범위. 두 측정 방법 간 체계적 편향(bias)과 일치 한계(limits of agreement)를 동시에 진단하는 방법이다(Bland & Altman, 1986).

설계 한계: 인간 평정의 불완전 블록과 평균 축약. 본 연구의 인간 평정 데이터는 역균형 교차 설계(counterbalanced crossed design)로 수집되어, 각 참가자가 전체 1,440장 중 72장(5%)만을 평정하였다. 결과적으로 참가자 x 이미지 행렬의 95%가 결측이며, 완전 교차 행렬을 전제하는 표준 평정자 간 합치도 분석(예: 모든 평정자에 대한 ICC(2,1))을 직접 적용할 수 없다. 이 구조적 제약 때문에 본 연구는 Bland-Altman 분석의 방법 A로 이미지별 인간 50명 평정의 산술평균( $\overset{y}{ˉ}_{j}$ )을 사용하였다.

이 축약은 두 가지 타협을 수반한다. 첫째, 이미지 내 50명의 원시 평정을 단일 스칼라로 수렴시키는 과정에서 이미지 내부(within-image)의 인간 평정자 간 변산이 소거된다. 특히 valence/arousal은 본 데이터에서 Krippendorff α = 0.498(valence), α = 0.116(arousal)로 인간 내부 변산이 큰 차원이므로, 이 축약은 엄밀한 평정자 수준의 편차 분석이 아니다. 둘째, 따라서 Bland-Altman으로 산출된 bias와 LoA는 “VLM이 인간 집단의 중심 경향(central tendency)으로부터 얼마나 떨어져 있는가”의 방향성과 크기에 대한 요약 지표로 해석되어야 하며, “VLM이 임의의 인간 개인을 대체할 수 있는가”라는 대체 가능성 판정의 엄밀한 증거로 해석되어서는 안 된다.

이러한 한계 때문에 본 연구는 Bland-Altman을 보조 진단 지표로 위치시키고, 개별 인간 평정자의 응답을 직접 사용하는 두 지표 — Krippendorff’s α(결측치에 강건)와 z-score ( $W_{1 SD}$ )(이미지별 인간 $S D_{j}^{human}$ 로 정규화) — 를 대체 가능성 판정의 주요 근거로 사용한다(Section 3.4.3). Bland-Altman은 “편향이 어느 방향으로 얼마나 있는가”를 원단위로 보여주는 해석 친화적 요약을, z-score ( $W_{1 SD}$ )는 “그 편차가 인간 내 변동 기준으로 얼마나 큰가”를 정량화하는 엄밀한 판정을 각각 담당한다.

본 연구에서 방법 A는 이미지별 인간 평정자 50명의 평균( $\overset{y}{ˉ}_{j}$ ), 방법 B는 VLM의 단일 예측값( $x_{j}$ )이다. 각 이미지 $j$ 에 대해 두 측정값의 차이 $d_{j} = \overset{y}{ˉ}_{j} - x_{j}$ 를 산출한 후, 편향과 95% 일치 한계를 정의한다:

$Bias = \overset{ˉ}{d} = \frac{1}{N} \sum_{j = 1}^{N} d_{j}$

$S D_{d} = \frac{1}{N - 1} \sum_{j = 1}^{N} (d_{j} - \overset{ˉ}{d})^{2}$

$LoA = \overset{ˉ}{d} \pm 1.96 \cdot S D_{d}$

여기서 $S D_{d}$ 는 차이값( $d_{j}$ )의 표본표준편차(자유도 $N - 1$ )이다. 주의할 점은 $S D_{d}$ 가 **“인간 평정자 간 변동”이 아니라 “이미지 집합 전체에 걸쳐 VLM 예측과 인간 합의값의 차이가 이미지마다 얼마나 달라지는가”**를 측정한다는 것이다. 구체적으로, 이미지 $j$ 의 차이값 $d_{j}$ 는 이미 해당 이미지 내 50명 인간 평정의 평균( $\overset{y}{ˉ}_{j}$ )과 VLM의 단일 예측값( $x_{j}$ )으로 축약된 스칼라이므로, $S D_{d}$ 계산 과정에서 인간 내부 변산( $S D_{j}^{human}$ )은 소거된다. 즉, $S D_{d}$ 는 이미지 간(between-image) 변동성을 반영하며, 이미지 내(within-image) 변동성은 반영하지 않는다.

본 연구에서는 Bland-Altman 분석을 두 수준에서 산출하였다. 전체 수준에서는 모델당 1,440장 이미지 전체에 대해 단일 $\overset{ˉ}{d}$ 와 $S D_{d}$ 를 산출하였고(Tables 4 [valence], 5 [arousal]), 감정별 수준에서는 각 감정 $e$ 에 속하는 240장 이미지에 대해 감정-특정 $\overset{ˉ}{d}_{e}$ 와 $S D_{d, e}$ 를 산출하여 감정 범주별 편향 프로파일을 진단하였다(Tables 4a [valence], 5a [arousal]; Figures 2, 3).

$S D_{d}$ 의 해석은 bias와의 상대적 크기에 의존한다. $∣ \overset{ˉ}{d} ∣ ≫ S D_{d}$ 인 경우(예: $\overset{ˉ}{d} = + 2.65$ , $S D_{d} = 0.52$ ) 모든 이미지에서 VLM이 거의 일정한 양만큼 체계적으로 편향되어 있음을 의미하며, 상수 보정(bias 빼기) 또는 아핀 보정( $y^{'} = a y + b$ )으로 교정 가능하다. 반대로 $∣ \overset{ˉ}{d} ∣ ≲ S D_{d}$ 인 경우(예: $\overset{ˉ}{d} = - 0.47$ , $S D_{d} = 1.88$ ) 편향의 방향과 크기가 이미지마다 들쭉날쭉하여 단순 보정으로 교정할 수 없는 비체계적 오류에 해당한다. Bias가 0에서 유의하게 벗어나면 체계적 과대/과소평가를 의미하고, LoA의 폭( $2 \times 1.96 \cdot S D_{d}$ )은 개별 이미지 수준에서의 일치도를 반영한다. 높은 Pearson r이 반드시 높은 절대적 일치를 의미하지 않는 상황(예: 체계적으로 +2점 편향된 예측)을 Bland-Altman이 포착한다. 또한 Bland-Altman 산점도(x축: 두 측정의 평균, y축: 차이)의 기울기를 통해 비례 편향(proportional bias) — 측정 수준이 높을수록(또는 낮을수록) 편차가 체계적으로 변하는 패턴 — 을 시각적으로 진단할 수 있다.

다만, 인간 측의 값이 50명의 평균으로 평활화되어 있으므로, 차이값( $d_{j}$ )은 거의 전적으로 VLM 쪽의 편차를 반영한다는 점에 유의해야 한다. Bland-Altman 분석은 편향의 방향과 크기를 원단위(1–9 척도)로 제공하고 비례 편향을 진단하는 반면, 인간 평정의 이미지 내 변동성( $S D_{j}^{human}$ )을 고려하지 않는다 — 인간 평정자 간 불일치가 큰 이미지와 작은 이미지에서 동일한 1점 차이를 동등하게 취급한다. 이러한 한계는 Section 3.4.3의 z-score ( $W_{1 SD}$ ) 분석이 보완한다: z-score는 각 이미지의 차이를 해당 이미지의 인간 표준편차( $S D_{j}^{human}$ )로 정규화하여( $z_{j} = (x_{j} - \overset{y}{ˉ}_{j}) / S D_{j}^{human}$ ), 인간 내 변동성을 기준으로 VLM 편차를 재맥락화한다.

선형 혼합효과 모델 (LMM) — 편향의 원천 분해. 군집 수준 편향이 감정에 따라 다른지(상호작용 효과)를 검증하기 위해, R의 lme4 패키지(Bates et al., 2015)로 적합된 LMM을 Satterthwaite 자유도(lmerTest)와 함께 사용하였다. LMM은 고정 효과(fixed effects)와 무선 효과(random effects)를 동시에 추정하여, 반복 측정 데이터에서 집단 수준의 체계적 차이와 개별 이미지의 변동을 분리한다:

$y_{ij} = β_{0} + β_{1} \cdot rater_type_{i} + β_{2} \cdot emotion_{j} + β_{3} \cdot (rater_type_{i} \times emotion_{j}) + u_{j} + ε_{ij}$

여기서 $β_{0}$ 는 절편, $β_{1}$ 은 평정자 유형(인간 vs. VLM)의 주효과, $β_{2}$ 는 감정 범주의 주효과, $β_{3}$ 는 상호작용 효과, $u_{j} \sim N (0, σ_{u}^{2})$ 는 이미지별 무선 절편, $ε_{ij} \sim N (0, σ_{ε}^{2})$ 는 잔차이다. 상호작용 항 $β_{3}$ 가 유의하면 VLM의 편향이 감정에 따라 다름을 의미하며, 이는 특정 감정에서의 선택적 실패를 포착한다.

3.4.3 대체 가능성 분석 지표

Section 3.4.1–3.4.2의 합치도 지표가 “VLM이 인간 평균과 얼마나 비슷한가”를 정량화하는 반면, 대체 가능성 분석은 “VLM이 인간 평정자 풀의 구성원으로 기능할 수 있는가”를 판정한다. 합치도가 높더라도 대체가 불가능한 경우가 있다: Pearson r = .95이더라도 VLM이 모든 이미지에 동일한 값을 부여하거나, 체계적으로 극단값을 과장하면 인간 평정자 한 명을 대신할 수 없다. 대체 가능성(replaceability)은 VLM의 평정이 인간 평정자 집단 내 개인 간 변동 범위 이내에 놓이는 정도를 가리키는 조작적 개념으로, 본 연구에서는 세 가지 분석을 통해 이를 평가한다.

왜 ICC(2,1)과 Lin’s CCC를 사용하지 않는가. 급내상관계수 ICC(2,1)(Shrout & Fleiss, 1979)과 Lin’s concordance correlation coefficient(CCC; Lin, 1989)는 두 측정 방법 간 절대적 합치도를 추정하는 표준 지표이나, 본 연구의 역균형 설계에는 적합하지 않다. ICC(2,1)은 모든 평정자가 모든 항목을 평정한 완전 교차 행렬을 전제하나, 본 연구에서 각 참가자는 1,440장 중 72장만 평정하므로 평정자 x 이미지 행렬의 95%가 결측이다. 인간 평균을 단일 “평정자”로 축약하여 VLM과 2인 ICC를 산출할 수는 있으나, 이 경우 (a) k=2에서 ICC(2,1)은 CCC와 수학적으로 동치이며(Lin, 1989; Nickerson, 1997) “다중 평정자 교환 가능성”이라는 ICC 본래의 해석이 성립하지 않고, (b) 인간 내 변산이 소거된 집계값을 사용하므로 개별 평정자 수준의 교환 가능성을 반영하지 못한다. CCC를 직접 산출하는 경우에도 동일한 한계가 적용된다: CCC는 Pearson $r$ 과 bias correction factor $C_{b}$ 의 곱( $ρ_{c} = r \times C_{b}$ )으로 분해되며, 두 성분 모두 이미지별 인간 평균 $\overset{y}{ˉ}_{j}$ 와 VLM 예측 $x_{j}$ 의 쌍 위에서 계산되므로 이미지 내 인간 변산을 고려하지 못한다. 또한, CCC가 단일 수치로 혼합하는 패턴 일치( $r$ )와 절대적 편향( $C_{b}$ )은 본 연구에서 Pearson $r$ (Section 3.4.2)과 Bland-Altman 분석(Section 3.4.2)으로 이미 분해 보고되어 진단적 정보량이 더 크다. 이에 본 연구는 결측치에 강건하고 개별 응답을 직접 사용하는 Krippendorff’s α를 절대적 합치도의 대안 지표로 채택하였으며, 인간 개인의 편차 분포와 직접 비교하는 z-score ( $W_{1 SD}$ )와 함께 대체 가능성의 핵심 지표로 사용한다.

Krippendorff’s α (VLM 포함) — 집단 신뢰도 유지 여부. Krippendorff’s α는 명목·순서·등간·비율 척도 모두에 적용 가능하며 평정자 수와 결측치에 강건한 다중 평정자 신뢰도 지표이다(Krippendorff, 2011). 본 연구처럼 각 참가자가 전체 이미지의 일부(72/1,440)만 평정하는 불완전 블록 설계에서도 결측값을 자연스럽게 처리하며, 인간 평균이 아닌 개별 참가자의 원시 응답을 직접 사용한다는 점에서 본 연구의 대체 가능성 판정에 가장 적합한 지표이다. 산출 공식은 다음과 같다:

$α = 1 - \frac{D _{o}}{D _{e}}$

여기서 $D_{o} = \frac{1}{n ^{'}} \sum_{c, k} o_{c k} \cdot δ_{c k}^{2}$ 는 관측된 불일치, $D_{e} = \frac{1}{n ^{'} ( n ^{'} - 1 )} \sum_{c, k} n_{c} \cdot n_{k} \cdot δ_{c k}^{2}$ 는 우연에 의해 기대되는 불일치이다. $o_{c k}$ 는 값 $c$ 와 $k$ 가 동일 단위 내에서 동시 관측된 빈도, $n_{c}$ 와 $n_{k}$ 는 각 값의 주변 빈도, $n^{'}$ 는 총 관측 쌍 수, $δ_{c k}^{2}$ 는 척도 유형에 따른 차이 함수(interval 척도의 경우 $(c - k)^{2}$ )이다. 1,000명 인간 평정자 풀에 VLM을 1,001번째 평정자로 추가한 후 α 변화량을 산출하였다:

$Δ α = α_{human+VLM} - α_{human only}$

Δα가 양수이면 VLM 편입이 집단 신뢰도를 유지 또는 향상시키며, 음수이면 저하시킨다. valence와 arousal 각각 interval 수준에서 산출하였다.

α의 핵심 아이디어는 “실제로 관측된 불일치가 우연에 의해 기대되는 불일치보다 얼마나 작은가”를 측정하는 것이다. 같은 이미지를 평정한 두 사람의 응답이 다르면 불일치가 발생한다. 1-9 척도에서 무작위로 숫자를 고르더라도 어느 정도 불일치는 생기며, 이것이 $D_{e}$ (기대 불일치)이다. 평정자들이 체계적으로 일치한다면 실제 불일치 $D_{o}$ 는 $D_{e}$ 보다 작아지고, $D_{o} / D_{e} < 1$ 이므로 α > 0이 된다. 완전 일치하면 $D_{o} = 0$ 이므로 α = 1이고, 우연 수준이면 $D_{o} = D_{e}$ 이므로 α = 0이다. 이 구조가 결측치에 강건한 이유는 α가 동일 이미지를 공유하는 평정자 쌍에서만 불일치를 계산하기 때문이다. 평정자 x 이미지 행렬의 결측 셀은 자연스럽게 제외되므로, 본 연구의 역균형 설계(참가자당 72/1,440장)에서 α가 ICC보다 적합하다. VLM을 1,001번째 평정자로 추가하면, VLM은 1,440장 모두를 평정했으므로 모든 인간 평정자와 겹치는 이미지가 존재한다. Δα는 이 추가가 전체 불일치를 증가시키는지(VLM이 집단에서 이탈) 감소시키는지(VLM이 집단에 동화)를 직접 측정한다.

z-score 분석 ( $W_{1 SD}$ ) — 인간 변동 범위 이내 여부. VLM의 편차가 인간 개인의 자연스러운 편차 범위를 초과하는지를 검증한다. 각 이미지 $j$ 에 대해 VLM $i$ 의 예측값 $x_{ij}$ 를 인간 분포 기준으로 z-score로 변환하였다:

$z_{ij}^{VLM} = \frac{x _{ij} - M _{j}}{S D _{j}}$

여기서 $M_{j}$ 와 $S D_{j}$ 는 이미지 $j$ 에 대한 인간 평정자 50명의 평균과 표준편차이다. $∣ z_{ij}^{VLM} ∣ \leq 1.0$ 이면 VLM 예측이 인간 분포의 ±1SD 이내, 즉 정규분포 가정 시 인간 평정자의 약 68.3%가 포함되는 전형적 변동 범위 안에 위치함을 의미한다. 이를 이미지 전체에 걸쳐 집계한 범위 소속 비율 $W_{1 SD}$ 를 정의한다:

$W_{1 SD}^{VLM} = \frac{1}{N} \sum_{j = 1}^{N} 1 [∣ z_{ij}^{VLM} ∣ \leq 1.0]$

$W_{1 SD}$ 는 0~1.0 범위의 비율로, 1.0에 가까울수록 VLM 예측이 인간 분포의 중심부(±1SD)에 밀집함을 나타낸다.

인간 LOO 기저선. VLM의 $W_{1 SD}$ 를 해석하기 위한 비교 기준으로, 인간 개인의 Leave-One-Out(LOO) $W_{1 SD}$ 를 산출하였다. 각 이미지 $j$ 에서 평정자 $h$ 를 제외한 나머지 49명의 평균과 표준편차( $M_{j}^{(- h)}$ , $S D_{j}^{(- h)}$ )를 기준으로 해당 평정자의 |z|를 계산한다:

$z_{hj}^{LOO} = \frac{x _{hj} - M _{j}^{(- h)}}{S D _{j}^{(- h)}}$

이미지당 50명 전원에 대해 이 LOO |z|를 산출하면, 각 평정자가 나머지 집단 대비 얼마나 벗어나는지의 결정적(deterministic) 기저선이 확보된다. 인간 LOO $W_{1 SD}^{LOO}$ 는 전체 LOO |z| 중 $∣ z ∣ \leq 1.0$ 인 비율로, 평정자 50명 × 이미지 1,440장 = 72,000개의 LOO 관측치로부터 산출된다. 이 기저선은 “인간 한 명이 나머지 집단과 얼마나 일치하는가”의 자연적 수준을 반영하며, 본 데이터에서 valence $W_{1 SD}^{LOO}$ ≈ 0.70, arousal $W_{1 SD}^{LOO}$ ≈ 0.69이다. VLM의 $W_{1 SD}$ 가 이 기저선에 근접할수록 VLM이 인간 개인과 유사한 수준의 편차를 보임을 의미한다.

$W_{1 SD}$ 의 핵심 질문은 “VLM의 평정이 인간도 흔히 하는 수준인가, 아니면 인간이라면 하지 않을 수준인가”이다. 예를 들어, 어떤 슬픈 얼굴 이미지에 대해 인간 50명의 valence 평정이 평균 3.0, 표준편차 1.5라고 하자. VLM이 4.0을 예측하면 |z| = 0.67로 +-1SD 이내이며 이 이미지는 $W_{1 SD}$ 에 기여한다. 반면 VLM이 7.0을 예측하면 |z| = 2.67로 +-1SD 밖이며 기여하지 않는다. $W_{1 SD}$ = 0.23이면 1,440장 중 약 330장에서만 VLM이 인간 범위 안이며, $W_{1 SD}$ = 0.70이면 인간 개인(LOO 약 0.70)과 동등한 수준이다.

응답 다양성 분석 — 획일성 진단. VLM 예측의 고유값 수(unique values), 표준편차, 분포 형태를 인간 응답 다양성과 비교하여, VLM이 인간 평정자 집단의 응답 변동성을 반영하는지 아니면 획일적(stereotyped) 응답을 산출하는지를 평가하였다. 구체적으로, 각 차원에서 VLM의 응답 표준편차 $S D_{VLM}$ 과 인간 평정자 집단의 평균 이미지별 표준편차 $\overline{S D}_{human}$ 을 비교하였다. 7개 VLM 간 분산(inter-LLM variance)은 감정 $e$ 별로 다음과 같이 산출하였다:

$σ_{LLM, e}^{2} = \frac{1}{N _{e}} \sum_{j \in e} Var (x_{1 j}, x_{2 j}, \dots, x_{7 j})$

여기서 $x_{ij}$ 는 모델 $i$ 의 이미지 $j$ 에 대한 예측값, $N_{e}$ 는 감정 $e$ 에 속하는 이미지 수이다. 이를 인간 평정자 7명을 비복원 추출한 표본의 동일 분산과 부트스트랩 비교하여 표본 크기 비대칭을 보정하였다(1,000회 반복, seed = 42).

대체 가능성 판정 기준. 상기 지표들을 종합하여, 감정 범주(6) × 측정 차원(범주 분류, valence, arousal)별로 네 수준의 판정을 순차적으로 적용하였다. 첫째, Δα ≥ 0(VLM 편입이 집단 신뢰도를 저하시키지 않음)이고 $W_{1 SD}^{VLM} \geq W_{1 SD}^{LOO}$ (VLM의 범위 소속 비율이 인간 LOO 기저선 이상)인 경우 대체 가능(✅)으로 판정하며, 이는 VLM이 인간 평정자 풀의 구성원으로 기능할 수 있는 수준을 가리킨다. 인간 LOO 기저선은 감정별로 산출되므로(예: valence 행복 0.62, 슬픔 0.73), 판정 기준은 감정 난이도에 자동 적응한다. 둘째, Δα ≥ 0이되 기준을 충족하는 모델이 소수(1-3개)에 한정되는 경우 부분 가능(⭐)으로 판정한다. 이는 특정 모델 조건에서만 대체 가능성이 확인되며, 모델 선택에 의존적임을 의미한다. 셋째, Δα ≥ 0이되 Bland-Altman Bias가 유의하게 0에서 벗어나고 LoA 폭이 인간 내 변동 범위 이내인 경우 보정 필요(⚠️)로 판정한다. 이 경우 집단 신뢰도는 유지되나 체계적 편향이 존재하여, 아핀 보정(y’ = a·y + b)으로 교정이 가능하다. 넷째, Δα < 0(VLM 편입이 집단 신뢰도를 저하)이거나 기준을 충족하는 모델이 없는 경우 대체 불가(❌)로 판정하며, 이는 보정으로도 교정이 불가능한 구조적 한계를 의미한다. 이 네 수준은 상호 배타적이며, 가장 엄격한 기준(대체 가능)에서 순차적으로 완화하여 적용한다.

이러한 다중 기준 접근은 단일 지표(예: 정확도)로는 포착할 수 없는 다차원적 특성을 반영하며, 후속 연구자가 자신의 VLM 배치에 적용할 수 있는 실용적 가이드라인을 제공한다.

3.4.4 인구통계학적 편향 분석

§3.4.1–3.4.2의 합치도 지표가 “VLM이 인간 평균과 얼마나 비슷한가”를, §3.4.3의 대체 가능성 지표가 “VLM이 인간 평정자를 대체할 수 있는가”를 묻는 반면, 본 섹션의 인구통계학적 편향 분석은 “VLM의 오차가 자극의 인구통계 속성(인종, 성별)에 따라 체계적으로 달라지는가”라는 직교적 질문에 답한다. §3.1의 3(인종) × 2(성별) × 6(감정) × 40(정체성) 완전 균형 설계는 이 질문에 대한 교란 없는 직교 추정을 가능케 한다. 본 연구는 두 수준에서 분석을 수행한다: 분류 수준에서는 인종과 성별을 각각 독립된 병렬 mixed-effects logistic regression으로 검증하고(인종과 성별은 각각 별도의 모형에 투입), 차원 수준에서는 valence/arousal 편향이 emotion-dependent 측정치라는 사실을 고려하여 감정을 stratification 축으로 떼어내고 각 감정 내에서 race × gender 2원 factorial ANOVA를 수행한다. 결과는 Results §4.5의 Tables 7–7c 및 Figures 7–7b에 보고된다.

분류 수준의 인구통계 편향 (mixed-effects logistic regression). 이진 정오(correct: VLM 예측 = ground-truth 라벨) 결과에 대한 인구통계 효과는 다음 두 모형의 우도비(χ²) 검정으로 검증하였다:

$correct \sim race + (1 ∣ gt_emotion)$
$correct \sim gender + (1 ∣ gt_emotion)$

감정 카테고리(gt_emotion)는 random intercept로 처리하여 감정 간 난이도 차이를 흡수하였다. 인종 효과는 race 항이 포함된 모형과 포함되지 않은 null 모형의 우도비 검정으로, 성별 효과는 동일한 방식으로 gender 항에 대해 각각 검증하였다. 결과는 χ²(df)·p-value로 Results §4.5에 F1-macro 기반 Table 7/7a와 함께 보고된다.

우도비(LR) χ² 검정. 분류 수준 분석에 사용된 χ² 검정은 우도비 검정(likelihood-ratio test)으로, 단일 분할표의 관측-기대 빈도를 직접 비교하는 Pearson χ² 적합도 검정과는 다르다. 두 중첩 모형의 로그우도 차이에 $- 2$ 를 곱한 값이 Wilks’ theorem에 의해 점근적으로 χ² 분포를 따른다는 원리를 이용한다:

$χ_{Δ df}^{2} = - 2 \cdot (ℓ_{reduced} - ℓ_{full})$

여기서 $ℓ$ 은 각 모형의 ML 로그우도, $Δ df$ 는 larger 모형이 reduced 모형 대비 추가한 자유 파라미터의 수이다. 본 연구에서 인종(3 수준)은 $Δ df = 2$ , 성별(2 수준)은 $Δ df = 1$ 이므로 Results Section 4.5에 각각 χ²(2), χ²(1)로 보고된다. 본 섹션 후반부의 차원 수준 분석(emotion-stratified bias ~ race * gender factorial ANOVA)은 nested F-test를 사용하는 반면, 분류 수준은 LR χ² 검정을 사용한다. 두 검정은 “중첩 모형 간 적합도 개선 여부”라는 동일한 논리 구조를 갖지만, 로지스틱 회귀는 이항 종속변수와 비선형 링크 함수(logit)로 인해 정규 오차 가정이 성립하지 않고, random intercept로 인해 잔차 자유도가 불확실하므로 점근적 LR χ² 검정이 적합하다.

차원 수준의 인구통계 편향 (emotion-stratified race × gender factorial ANOVA). Valence와 arousal의 편향값(bias = VLM 예측 − 인간 평균)은 emotion-dependent 측정치이다: “happy의 valence 8.2”와 “sad의 valence 2.4”는 동일 measurement scale이지만 의미 공간이 다르며(normative 수준과 분산이 감정 범주에 따라 크게 상이), bias ~ race × emotion 같은 단일 회귀는 서로 다른 분모(잔차 분산)를 가진 감정별 편차를 같은 residual 공간에 pooling한다. 본 연구는 이 emotion-dependence 문제를 해결하는 동시에 race × gender 교차(intersectional) 편향을 형식 검정하기 위해, 감정을 stratification 축으로 떼어내고 각 감정 내에서 race × gender 2원 factorial ANOVA를 수행한다. 이는 수학적으로 3원 모형 bias ~ race × gender × emotion의 emotion-strata 분해이자, 해석 가능한 6개의 2원 ANOVA로 재표현한 것이다 (감정당 240장 × 6 cell(3 race × 2 gender) × 40 identity의 완전 균형 설계가 각 감정 stratum 내에서도 직교성을 유지).

VLM은 이미지당 단 하나의 예측값을 산출하므로 이미지 수준의 random intercept (1|image_id)를 추정할 수 없어, mixed-effects 모델이 아닌 고정효과 factorial ANOVA를 선택하였다. 각 모델 × 감정 × 차원(valence, arousal) 조합에 대해 다음 네 개의 선형 모형을 R의 lm()으로 적합하였다:

$M_{full} : bias \sim race \times gender (full: 주효과 2 개 + 교차 상호작용)$
$M_{add} : bias \sim race + gender (additive: 주효과만, 교차 없음)$
$M_{race} : bias \sim race (race-only)$
$M_{gen} : bias \sim gender (gender-only)$

세 개의 nested F-검정으로 효과를 분리한다:

Race 주효과는 $M_{gen}$ 과 $M_{add}$ 의 F-검정으로 검증한다. Gender를 이미 통제한 모형에 race 항을 추가할 때 잔차 제곱합이 유의하게 감소하는지를 묻는다 — $F (2, 236)$ , 3 race 수준 $\to$ 2 df:

$F_{race} = \frac{( RS S _{M_{gen}} - RS S _{M_{add}} ) / ( d f _{M_{gen}} - d f _{M_{add}} )}{RS S _{M_{add}} / d f _{M_{add}}}$

Gender 주효과는 $M_{race}$ 와 $M_{add}$ 의 F-검정으로 동일 원리로 검증한다 — $F (1, 236)$ , 2 gender 수준 $\to$ 1 df.
Race × gender 교차 상호작용은 $M_{add}$ 와 $M_{full}$ 의 F-검정으로 검증한다. 주효과만 있는 가산 모형에 교차 항을 추가할 때의 설명력 증가를 묻는다 — $F (2, 234)$ , $(3 - 1) (2 - 1) = 2$ df. 유의하면 특정 race × gender 조합(예: Caucasian 여성 vs Caucasian 남성)이 동일 감정 안에서 구분되는 편향을 받음을 의미하며, 이는 Figure 7b에서 시각화된 intersectional 패턴의 형식 통계 확증이다.

효과 크기는 $η^{2}$ (해당 항의 제곱합 / 총 제곱합)로 보고한다. 감정 stratum도 완전 균형 설계(3 × 2 × 40 = 240장)이므로 Type I·II·III 제곱합이 동일한 결과를 산출하며(아래 callout 참조), 본 분석은 R anova(lm_fit) 기본값인 Type I SS를 사용하였다. 사후 검정은 race × gender 교차 상호작용이 유의한 (모델, 감정, 차원) 조합에 한해 emmeans 패키지의 Tukey 조정 쌍별 비교를 6 cell 간에 실시한다.

다중검정 보정. 차원 수준 분석은 총 8 모델 × 2 차원(valence, arousal) × 6 감정 × 3 항(race, gender, race:gender) = 288개의 nested F-검정을 포함한다. 다중검정 부담은 (모델, 차원) 가족 내에서 Benjamini-Hochberg FDR 보정으로 통제한다 (총 16 families = 8 models × 2 dimensions; 가족당 6 emotions × 3 terms = 18 검정, $α = 0.05$ ). 원 $p_{raw}$ 와 보정 $q_{B H}$ 두 값을 병기하며, 유의성 표기(✱)는 $q_{B H}$ 기준으로 판정한다. 분류 수준의 LR χ² 검정은 별도 가족으로 취급되어 본 보정 체계에 포함되지 않는다. Results §4.5의 Tables 7b–7c에 각 (모델, 감정, 차원) 조합의 race 주효과·gender 주효과·교차 상호작용 $F$ , $η^{2}$ , $p_{raw}$ , $q_{B H}$ 가 보고된다.

인종 × 성별 교차(intersectional) 편향의 형식 검정. 이전 버전(v10.6)의 본 연구는 race × gender 교차 항을 형식 통계 검정에 포함하지 않고 Figure 7b의 시각화만 제공했으며, 형식 검정은 §5.7 Limitation으로 이관한 상태였다. v10.7의 방법론 재설계에서 본 절의 emotion-stratified race × gender factorial ANOVA가 이 한계를 해소한다: 각 감정 stratum 내에서 race × gender 교차 항 $F (2, 234)$ 가 nested F-검정으로 검증되며, $q_{B H} < .05$ 인 (모델, 감정, 차원) 조합에 대해 6 cell 간 Tukey 조정 쌍별 비교가 Results §4.5에 보고된다. Figure 7b는 이 분석의 시각적 동반자이며, 특히 Gemma3-12B의 Caucasian 남/녀 F1 격차(17.2 pp, 분류 수준)와 같은 패턴이 차원 수준 교차 검정과 직접 대응된다. 단, 본 분석은 단일 통합 3원 모형(bias ~ race × gender × emotion)이나 identity 수준 random effects를 사용하지 않으며, 감정 간 race × gender 이질성의 3원 형식 검정도 수행하지 않는다. 감정 간 heterogeneity의 aggregate view가 필요한 독자는 v10.6의 bias ~ race × emotion / bias ~ gender × emotion omnibus 분석 결과를 Supplementary §S5에서 참조할 수 있다.

ANOVA에서 “Type I/II/III SS”는 가설검정의 1종/2종 오류와는 전혀 다른 개념으로, 여러 요인이 있을 때 총 제곱합(total SS)을 각 요인에 어떻게 귀속시킬 것인가에 대한 세 가지 계산 방식을 가리킨다. Type I(순차적)은 항의 투입 순서에 의존하고(R anova() 기본값), Type II(주변적)는 같은 레벨 항끼리 상호 조정하며(R car::Anova() 기본값), Type III(부분적)는 상호작용을 포함한 모든 다른 항으로 조정한 후의 고유 SS를 계산한다(SPSS 기본값). Section 3.1의 3(인종) x 2(성별) x 6(감정) x 40(정체성) 완전 균형 요인 설계에서는 모든 셀의 $n$ 이 같아 요인 간 직교성이 성립하므로( $Cov (X_{A}, X_{B}) = 0$ ), Type I/II/III 선택이 결과에 영향을 주지 않는다. 본 분석이 Type I SS를 명시한 것은 재현 가능성을 위한 표기 관례이다.

3.4.5 지표의 집계 단위와 사용 목적

§3.4.1–§3.4.3에서 정의한 지표들을 “인간 평정 내 평균화 여부”의 축으로 재정렬하면 세 계층이 드러난다. 차원적 합치도 지표(Pearson r, Bland-Altman, 감정-편향 LMM; §3.4.2)는 이미지당 인간 50명의 산술평균 $\overset{y}{ˉ}_{j}$ 를 단일 기준값으로 사용하고, §3.4.3의 Krippendorff’s α는 인간 개별 응답을 원 행렬 그대로 사용하며, §3.4.1의 Cohen’s κ는 인간 감정 범주 라벨이 수집되지 않은 관계로(§3.2는 valence·arousal·자연스러움 세 연속 차원만 평정) ground-truth 자극 라벨을 단일 준거로 사용한다. 세 계층 중 평정자 간 변산 자체를 판정 기준에 내재화하는 지표는 §3.4.3의 Krippendorff’s α와 z-score ( $W_{1 SD}$ )에 국한된다.

§3.4.2의 차원 합치도 지표 — Pearson $r$ , Bland-Altman의 편향 $\overset{ˉ}{d}$ 및 95% LoA, 감정-편향 LMM(rating ~ rater_type * emotion + (1|image_id)) — 는 모두 이미지 $j$ 의 $R \approx 50$ 개 독립 인간 평정 ${y_{j, 1}, \dots, y_{j, R}}$ 으로부터 산출된 이미지별 인간 기준값 $\overset{y}{ˉ}_{j} = (1/ R) \sum_{h = 1}^{R} y_{j, h}$ 와 VLM의 단일 예측 $x_{j}$ 의 쌍 배열( $N = 1, 440$ ) 위에서 계산된다. LMM의 경우 rater_type ∈ {human-agg, VLM}의 두 수준으로 이미지당 2행을 구성하여 이미지 간 변동을 $(1∣ image_id)$ 랜덤 절편으로 흡수한다. 이 파이프라인은 src/data/human_ratings.py의 HumanRatingStore._aggregate()가 image_id 기준 groupby().mean()으로 이미지별 평균을 1회 생성한 뒤, scripts/generate_comprehensive_stats.py의 compute_va_metrics()가 그 결과 배열 위에서 전 차원 지표를 호출하는 구조로 구현되어 있다. 동일한 $(\overset{y}{ˉ}_{j}, x_{j})$ 쌍에서 유도되는 보조 지표인 MAE는 Supplementary S4에 분리 보고한다.

Table 1b. §3.4.1–§3.4.3 일차(primary) 합치도·대체 가능성 지표의 집계 단위와 사용 목적 요약. 본 표는 v9 manuscript의 §3.4.1 서브섹션을 v10의 지표 체계로 필터링하여 재구성한 것이며, v10에서 제거된 지표(McNemar, Spearman ρ, ICC(2,1), paired t-test/Wilcoxon, Kruskal-Wallis)는 포함되지 않는다. 본 표는 “인간 평정 내 평균화 여부” 축만을 다루므로, 이 축과 무관한 v10 고유 분석(Accuracy·Precision·Recall·F1은 §3.4.1, z-score ( $W_{1 SD}$ )·Inter-LLM variance·응답 다양성은 §3.4.3, 인구통계 편향 ANOVA는 §3.4.4)은 본 표의 scope에서 제외된다.

지표	인간 평정 내 평균화 여부	비교 단위	용도
Krippendorff’s α (interval) (§3.4.3)	평균 X — 1,001 × 1,440 rater × image 원 행렬 (95% 결측)	평정자 간 등간 일치도	$Δ α = α_{human+VLM} - α_{human only}$ 로 집단 신뢰도 유지·저하 판정
Cohen’s κ (unweighted) (§3.4.1)	해당 없음 — ground-truth 자극 라벨 사용	이미지 × 6 범주	우연 보정 범주 일치 (VLM 예측 대 의도된 감정 라벨)
Pearson r (§3.4.2)	평균 O — 이미지별 $\overset{y}{ˉ}_{j}$	이미지 단위 선형 관계	선형 상관 + 아핀 보정 가능성 진단 (ICC 저하의 원인 분해)
Bland-Altman (Bias, 95% LoA) (§3.4.2)	평균 O — 이미지별 $\overset{y}{ˉ}_{j}$	이미지 단위 차이 $d_{j} = \overset{y}{ˉ}_{j} - x_{j}$ 분포	체계적 편향과 95% 일치 한계 (이미지 간 변동만 반영)
LMM (`rating ~ rater_type * emotion + (1\|image_id)`) (§3.4.2)	평균 O — rater_type ∈ {human-agg, VLM} 이미지당 2행	이미지 랜덤 절편으로 이미지 간 변동 흡수	감정별 체계적 편향과 rater_type × emotion 상호작용

표의 분할에 따라 지표는 세 계층으로 나뉜다. 범주 지표(Cohen’s κ, §3.4.1)는 인간 감정 범주 평정이 수집되지 않은 관계로 “인간 평정 내 평균화” 축 자체가 적용되지 않으며, 의도된 감정 라벨을 단일 준거로 사용한다. 차원 합치도 지표(Pearson r, Bland-Altman, 감정-편향 LMM, §3.4.2)는 이미지별 평균 $\overset{y}{ˉ}_{j}$ 를 1차 요약값으로 사용하여 이미지 간 변동을 포착하되 이미지 내 인간 변산( $S D_{j}^{human}$ )은 설계상 소거되며, 이 한계는 §3.4.2의 Bland-Altman 설계-한계 callout(본문 “설계 한계: 인간 평정의 불완전 블록과 평균 축약”)과 Pearson r 한계 해석에서 별도로 논의된다. 대체 가능성 지표(Krippendorff’s α, §3.4.3)는 이미지별 평균으로 수렴시키지 않고 인간 개별 응답을 직접 사용하여, 평균화가 소거한 within-image 변산을 판정 기준으로 복원한다.

차원 합치도 지표가 이미지 내 인간 변산을 직접 모델링하지 않는다는 선택의 근거는 네 가지이다. 첫째, VLM은 이미지당 단일 점추정치만 산출하므로 비교 구조 자체가 점 대 점 요약을 요구하며, 이 제약은 인간 평정의 집계 수준을 이미지 평균으로 맞추는 것을 자연스럽게 만든다. 둘째, $R \approx 50$ 일 때 이미지 평균 $\overset{y}{ˉ}_{j}$ 의 표준오차는 원 평정 표준편차의 $1/ 50 \approx 0.14 σ$ 로 축소되어, 이미지 간 비교 신호에 개입하는 평균 추정 오차의 상한이 0.14σ 수준이다. 셋째, §3.2의 차원 Krippendorff’s α 값(valence α = 0.498, arousal α = 0.116)은 within-image 변산이 무시할 수 없는 크기임을 보여주므로, 본 연구는 차원적 합치도 지표(Pearson r, Bland-Altman, LMM)를 단독 근거로 삼지 않고 §3.4.3의 Krippendorff’s α Δα와 z-score ( $W_{1 SD}$ ) — 이 두 지표는 인간 개별 응답을 직접 사용하여 within-image 변산을 판정 기준에 내재화한다 — 를 주요 대체 가능성 판정 지표로 병기하며, 차원적 합치도 결론이 §3.4.3의 판정과 충돌하는 경우는 §5 Discussion에서 명시한다. 넷째, Pearson $r$ (단위 무관)은 선행 VLM 감정 평가 문헌(Khare et al., 2024; Telceken et al., 2025)과 직접 비교 가능한 단위라는 점에서 1차 요약 지표로 유지된다. 선행 문헌이 함께 보고하는 MAE(원 1–9 척도 단위 보존)는 본 연구에서 산출된 $(\overset{ˉ}{d}, S D_{d})$ 의 근사 파생량이므로 Supplementary S4에 분리 보고하여, 주 본문 지표가 네 축(Pearson r, Bland-Altman, LMM, §3.4.3 대체 가능성 지표) 간 orthogonality를 유지하도록 하였다.

Revision History (이 섹션 관련)

Iteration	#	Issue	Severity	How Fixed	Status
v2→v3	#1	Temperature=0 not reported	Critical	Added in Section 3.3: “temperature = 0 (greedy decoding)“	Done
v2→v3	#8	”Ceiling” terminology for α=0.125	Critical	Replaced with “human agreement benchmark” + Spearman-Brown note	Done
v7→v8-2	#20	Missing limitations: prompt sensitivity, κ specification	Major	Added to Sections 3.4 and 5.6	Done
v9→v10	—	Major methods expansion	Major	Table 1: 6→8 conditions, 3.3: 11,520 predictions, 3.4 restructured (3.4.1 합치도 + 3.4.2 replaceability with Krippendorff α, z-score, response variability, replaceability criteria)	Done
v10→v10.2	—	ICC removed; methods restructured by analysis target	Critical	ICC(2,1) removed (inappropriate for incomplete block design, k=2 degeneration). Callout added explaining why. 3.4 reorganized: 3.4.1 정서 분류, 3.4.2 차원적 평정 (valence+arousal), 3.4.3 대체 가능성. Table 1a added. McNemar/Wilcoxon removed. Pearson r computation and limitations explicitly documented. All formulas (κ, acc, prec, recall, F1, r, MAE, Bland-Altman, LMM, α, z-score, inter-LLM variance) added	Done
v10.4→v10.5	—	MAE definition relegated to Supplementary S4	Major	(1) Section 3.4.2 bullet for “평균 절대 오차 (MAE)” (formula + interpretation) deleted — relocated verbatim to `09_supplementary.md` §S4.2. (2) §3.4.4 MAE-centric computational-pipeline paragraph rewritten to lead with Pearson r / Bland-Altman / LMM; MAE moved to a trailing cross-reference. (3) Table 1a “합치도 지표” cells for valence and arousal rows: “MAE,” removed. Table 1b: MAE row removed (table shrinks from 6 to 5 rows). (4) Mermaid Figure 1 metric-list node: “MAE,” removed. (5) §3.4 Spearman callout and §3.4.1 opening passing mentions: “MAE” swapped for “Bland-Altman”. (6) §3.4.4 “넷째” justification rewritten: Pearson r retained as 1차 summary for cross-study comparability; MAE moved to S4 as a derivable quantity to preserve orthogonality of the main-text metric set. Rationale: MAE $\approx \overset{ˉ}{d}^{2} + (2/ π) S D_{d}^{2}$ — structurally dependent on the reported Bland-Altman pair.	Done
v10.6→v10.7	—	Dimensional demographic analysis restructured: emotion-stratified race × gender	Major	(1) §3.4.4 차원 수준 단락 전면 재작성: 기존 `bias ~ race × emotion` / `bias ~ gender × emotion` 병렬 2원 ANOVA ( $M_{1} / M_{2} / M_{3}$ nested F-test)를 emotion-stratified race × gender factorial ANOVA ( $M_{full} / M_{add} / M_{race} / M_{gen}$ 4-모형 세트, 3개 nested F-test: race main $F (2, 236)$ , gender main $F (1, 236)$ , race × gender $F (2, 234)$ )로 교체. 정당화: valence/arousal은 emotion-dependent 측정치이므로 감정별 잔차 분산이 이질적이며, 단일 회귀는 분모가 다른 편차를 같은 residual 공간에 pooling함 (`happy valence 8.2` vs `sad valence 2.4`의 의미 공간 차이). (2) race × gender 교차 편향의 형식 통계 검정 확보 — v10.6 §5.6 Limitation(“intersectional bias 형식 검정 부재”) 해소. (3) 다중검정 보정을 (모델, 차원) 가족 내 BH FDR로 명시 (총 16 families, 가족당 18 검정; raw p와 q_BH 병기 보고). (4) §3.4.4 intro 단락을 “분류=병렬 LR χ², 차원=emotion-stratified factorial” 2수준 구조로 재작성. (5) `compute_dimensional_stratified_interaction()` 함수 신설, Excel sheets 27/28 (`Demo_DimStratified_ANOVA`/`PostHoc`) 추가; 기존 `compute_demographic_dimensional_lmm()` 및 sheets 25/26은 유지 → Supplementary §S5 archive로 재사용. (6) `05_results.md` §4.5의 v10.6 차원 내용(lines 408–468: Tables 6b–6e, 관련 해설 전체)을 `09_supplementary.md` §S5로 verbatim 이관; 결론 단락(line 470)만 본문에 유지. (7) Main text의 Tables 6b–6e는 emotion-stratified 버전 Tables 6b(new)·6c(new)로 교체. (8) `06_discussion.md` §5.6 Limitations에서 “race × gender 형식 검정 부재” 문장 제거·수정.	Done
v10.5→v10.6	—	Demographic bias analysis promoted to its own sub-section	Major	(1) New §3.4.4 인구통계학적 편향 분석 created, hosting the demographic analysis previously embedded as a trailing paragraph in §3.4.2. (2) Analysis description expanded: classification-level mixed-effects logistic regression (`correct ~ race/gender + (1\|gt_emotion)`) and dimensional-level fixed-effects factorial ANOVA with nested F-test ( $M_{1}$ full / $M_{2}$ additive / $M_{3}$ emotion-only) explicitly named as the inference engine; the previously ambiguous “주효과 모형” label eliminated. (3) Intersectional (race × gender) consideration added: parallel 2-way ANOVAs retained (matching Tables 6b–6e); formal 3-way `race × gender × emotion` test deferred to Limitations with Figure 6b as visual placeholder. (4) Type I/II/III SS callout moved into §3.4.4 alongside the ANOVA description. (5) LMM (`rating ~ rater_type * emotion + (1\|image_id)`) intentionally kept in §3.4.2 — it is a dimensional-agreement metric for rater-type × emotion bias decomposition, not a demographic analysis (no race/gender in the formula). (6) Former §3.4.4 (지표의 집계 단위) renumbered to §3.4.5. (7) §3.4 opening prose and Table 1a header: stale `(3.4.1)`/`(3.4.2)` references (legacy from v10.1 2-section structure) corrected to `(§3.4.1–3.4.2)` / `(§3.4.3)`; a new sentence introducing §3.4.4 added. (8) Table 1b caption rewritten to clarify that it covers only the primary agreement/replaceability metrics (§3.4.1–3.4.3) and explicitly excludes the §3.4.4 demographic ANOVA, which operates on a different axis (“demographic attribution of bias” rather than “human-within-image averaging”).	Done

미해결 이슈 (추가 실험 필요)

#	Issue	Required Experiment	Priority
R3	Greedy decoding vs output diversity	Temperature > 0 comparison (0.3, 0.7)	High
R4	Quantization vs architecture attribution	FP16 vs 4-bit comparison on same models	High
R9	Single-shot prompting	Simultaneous emotion+valence+arousal extraction	Medium

Juhyeon's Blog

탐색기