06_discussion

5. 논의

5.1 대체 가능성의 조건과 한계

본 연구의 핵심 발견은 높은 상관이 대체 가능성을 의미하지 않는다는 것이다. 여덟 VLM 조건은 valence에서 r = .891-.963의 높은 Pearson 상관을 달성하지만, 부트스트랩 z-score 분석에서 대부분의 VLM은 인간 개인보다 집단 평균에서 유의하게 더 크게 벗어난다( $p_{sig}$ = 95.4-100%). 대체 가능성 판정 매트릭스(Table 8)에서 대체 가능(Δα ≥ 0 AND $p_{sig}$ < 50%)을 충족하는 셀은 존재하지 않는다. 이 결과는 상관 기반 평가가 대체 가능성을 과대추정할 수 있음을 보여준다.

이 해리의 원인은 Pearson r의 구조적 한계에서 비롯된다. Pearson r은 이미지별 인간 평균과의 선형 패턴만을 측정하여, 인간 평정자 내 변산과 절대적 수준 차이(level difference)를 무시한다. 이는 측정 일치도(agreement) 평가에서 Pearson r의 부적절성을 지적한 Bland and Altman(1986)의 고전적 비판과 정확히 일치한다 — 두 측정 방법이 체계적으로 다른 절대 수준을 산출하더라도 완벽한 선형 관계가 유지될 수 있으며, 이 경우 r = 1.0이 달성되지만 두 방법은 상호 대체 불가능하다. VLM이 인간보다 체계적으로 극단적인 값을 산출하더라도(극성 과장 편향) 순위 정렬만 유지되면 높은 r이 달성되며, 이는 정서 컴퓨팅 문헌에서 VLM의 “높은 상관”이 대체 가능성의 증거로 제시되는 관행에 대한 주의를 환기한다. 반면 부트스트랩 z-score는 각 이미지에서 VLM의 편차를 인간 개인의 자연스러운 편차 분포와 직접 비교하므로, 인간 변동성을 고려한 대체 가능성 판단이 가능하다. 이 구분은 VLM을 “인식 도구”가 아닌 “대체 평정자”로 평가할 때 핵심적이다.

집단 수준과 개인 수준의 대체 가능성은 상이한 결론을 산출한다. Krippendorff’s alpha 분석(Tables 4c, 5c)에서 VLM을 1,001번째 평정자로 추가했을 때 delta_alpha는 valence에서 +0.004 ~ +0.006, arousal에서 +0.003 ~ +0.009로 모두 양수이며, VLM 추가가 집단 신뢰도를 저하시키지 않는다. 이 결과만 보면 VLM이 대체 가능한 것처럼 보인다. 그러나 이는 1,000명이라는 대규모 풀에서 단일 이탈값이 희석되는 구조적 결과이다. 부트스트랩 z-score 분석(Tables 4d, 5d)은 개인 수준에서 다른 그림을 보여준다: 대부분의 VLM은 인간 LOO 기준선보다 유의하게 큰 |z|를 보이며(valence: 0.995-1.272 vs. 인간 0.784), 2,000회 반복의 100%에서 인간 개인과 구별된다. Gemma3-4B의 arousal(|z| = 0.740, 32.5%만 유의)과 Gemma3-27B의 arousal(|z| = 0.759, 95.4% 유의)만이 인간 기준선에 근접한다.

차원별로 대체 가능성의 패턴이 구분된다. 범주적 분류에서 행복과 중립은 대부분의 모델에서 kappa >= .80으로, 보정 필요(calibratable) 수준에 해당한다. 이 감정들은 인간 정확도도 거의 완벽(0.993)하므로, 대체 가능하다기보다 과제 자체가 용이한 것이다. 공포와 분노는 모델에 따라 성능이 달라 특정 모델에서만 보정 필요 수준에 도달한다. 혐오와 슬픔은 대체 불가이다. Valence에서는 높은 상관에도 불구하고 극성 과장 편향으로 인해 z-score 기준 인간 범위를 체계적으로 초과하여 대부분 대체 불가이나, 편향이 체계적이므로 아핀 보정의 적용 가능성이 존재한다(Section 5.4). Arousal은 인간 평정자 간 신뢰도 자체가 alpha = 0.116으로 극히 낮아 달성 가능한 천장이 구조적으로 제한되며, 모든 감정-모델 조합에서 대체 불가이다.

5.2 VLM 응답의 획일성 문제

VLM의 대체 가능성을 제약하는 두 번째 구조적 한계는 응답 획일성이다. Table 6에서 VLM 간 valence SD는 인간 SD의 33%(행복: 0.431 vs. 1.290)에서 84%(슬픔: 1.185 vs. 1.406)에 그치며, 여섯 감정 모두에서 인간보다 낮다. 이는 VLM이 동일 감정 범주 내 이미지 간 정서적 미세 차이를 탐지하지 못하고 범주 전체를 유사한 값으로 축소하는 경향을 반영한다.

획일성의 극단적 사례는 개별 모델 수준에서 확인된다. GPT-4o-mini는 240장의 행복 이미지에 동일한 valence 값(9.00)을 산출하여 고유값이 1개이며, LLaMA도 중립 valence에서 고유값 1개(5.00)를 보인다. 인간 평정자는 동일 감정 범주 내에서도 이미지에 따라 다양한 반응을 보이며, 이 다양성은 개인차와 자극 특이성의 정상적 표현이다. 모든 이미지에 동일 값을 산출하는 VLM은 이 다양성을 포착하지 못하므로, 정확도가 높더라도 유효한 대체가 아니다.

슬픔은 VLM 간 분산이 인간에 근접하는 예외적 감정이나(valence SD: 1.185 vs. 1.406), 이는 다양성이 아닌 불안정성을 반영한다. 일부 모델(Gemma3-12B, LLaMA)은 슬픔 valence에서 고유값이 1-2개로 동일 값을 반복 출력하는 반면, 다른 모델(Gemma3-4B, Qwen3-VL)은 넓은 범위에 걸쳐 불안정한 예측을 보인다. 이 두 극단 사이의 차이가 VLM 간 분산을 인위적으로 높인다.

응답 획일성은 VLM이 인간 평정자를 대체할 때 연구 데이터의 분포적 특성을 왜곡하는 실질적 위험을 만든다. 감정 연구에서 평정자 간 변동성은 잡음이 아니라 연구 대상 자체인 경우가 많다. 개인차 연구, 정서적 모호성 분석, 감정 범주의 경계 탐구 등에서 VLM의 획일적 응답은 이론적으로 중요한 변동을 제거한다.

획일성의 잠재적 완화 전략으로 온도(temperature) 조절과 반복 샘플링이 고려될 수 있다. 높은 온도에서의 다회 추론은 단일 결정적 응답 대비 분포적 다양성을 증가시킬 수 있으나, 이 전략이 인간 평정자 간 자연스러운 변동과 동일한 구조적 특성(예: 자극 특이성에 의한 체계적 변동 vs. 무작위 잡음)을 재현하는지는 실증적으로 검증되지 않았다. 온도 증가가 의미 있는 개인차를 모방하는 것인지, 단순히 출력 잡음을 추가하는 것인지의 구분은 향후 VLM 기반 평정 연구의 핵심 검증 과제이다.

5.3 슬픔-중립 혼동: 대체 불가능한 영역의 사례

슬픔은 대체 가능성 매트릭스(Table 8)에서 세 차원 모두 대체 불가로 판정된 유일한 감정이며, 대체 가능성의 감정별 이질성을 보여주는 사례이다. 여덟 조건 중 슬픔 분류 정확도가 0.600을 초과하는 조건이 없으며, non-thinking 소형 모델은 10% 미만의 정확도를 보인다. 주된 오류 경로는 중립 흡수로, VLM이 슬픔을 감정의 부재로 취급한다.

Gemma3-27B(0.546)가 non-thinking 모델임에도 thinking 모델인 Qwen3-VL(0.546)과 동등한 슬픔 정확도를 달성한 관찰은 탐색적이지만 시사적이다. 이 결과는 슬픔 인식에서 명시적 Chain-of-Thought 추론이 아닌 모델 규모 자체가 성능의 주된 결정 인자일 수 있음을 시사한다. Gemma3 스케일링(4B: 0.125, 12B: 0.267, 27B: 0.546)은 규모 증가에 따른 슬픔 정확도의 단조 증가를 보여주며(Section 4A.2), 향후 더 큰 규모의 모델에서 슬픔 대체 가능성이 개선될 가능성을 시사한다.

슬픔 인식의 보편적 어려움은 인간에게서도 관찰된다. 인간 평정자는 슬픔 자극에서 가장 긴 arousal 반응 시간(Mdn = 1.745초)을 보이며, Calvo and Nummenmaa(2013)는 슬픔 인식이 행복보다 3.5-10배 긴 노출을 필요로 함을 보고하였다. 이 병행 패턴은 이중 처리 이론(Kahneman, 2011)의 관점에서 슬픔이 빠른 패턴 매칭을 넘어서는 처리를 요구하는 감정임을 시사하나, VLM의 thinking 흔적과 인간의 숙고적 처리 간의 유비는 기능적이지 기계적이지 않다. 본 연구에서 이중 처리 프레임워크는 보조적 해석 도구로 활용되며, 인과적 주장으로 확장되지 않는다.

인간 반응 시간(RT) 데이터는 이 패턴을 감정 전반으로 확장할 수 있는 가능성을 시사한다. Valence RT는 행복(Mdn = 2.139초)과 중립(2.157초)에서 가장 짧고, 공포(2.518초)에서 가장 긴 380ms의 범위를 보이는 반면, arousal RT는 69ms의 좁은 범위(1.676-1.745초)에 걸쳐 감정 범주 간 차이가 미미하다. 이 차원 간 비대칭은 arousal 판단이 감정 범주에 상대적으로 독립적인 처리를 거치는 반면, valence 판단은 감정의 범주적 모호성에 더 민감하게 영향받을 수 있음을 시사하며, 본 연구에서 관찰된 차원별 대체 가능성의 차이(Section 5.1)와도 맥락을 같이한다.

여섯 감정에 걸친 valence RT와 VLM 평균 분류 정확도 간의 Spearman 상관은 ρ ≈ +0.60으로, 인간에게 차원적 판단이 오래 걸리는 감정이 VLM에게도 범주적 분류가 어려운 경향이 있다. 그러나 공포는 이 패턴의 주요 예외이다: 인간은 공포 자극의 valence 판단에 가장 오래 걸리지만(2.518초), VLM 분류 정확도는 0.917로 높다. 이 해리는 공포의 차원적 모호성(부정적이지만 높은 arousal로 인해 dimensional space에서 위치가 복잡)이 인간의 연속적 평정을 어렵게 만드는 반면, VLM은 범주적 라벨(“fearful”)을 비교적 쉽게 판별함을 시사한다. 공포의 자연스러움 평정이 여섯 감정 중 가장 낮다는 점(M = 5.260)도 이 차원적 처리 어려움에 기여할 수 있다.

이러한 관찰은 탐색적이며, 본 연구의 RT 데이터는 감정 수준 요약(N = 6)으로만 보고되어 통계적 검정력이 제한적이다. 향후 연구에서는 이미지 수준의 RT를 VLM 오답 확률과 직접 연결하는 로지스틱 회귀, RT를 인간-VLM 차원적 불일치(MAE)의 예측 변인으로 사용하는 분석, 나아가 자연스러움 → RT → VLM 일치도 경로에서의 매개 효과 검정이 처리 난이도의 인간-VLM 병행 구조를 보다 엄밀하게 검증할 수 있을 것이다.

이는 정신건강 지원 및 공감 에이전트 설계에서의 VLM 배치에 중대한 위험을 제기한다. 슬픔을 감정적 중립과 구별할 수 없는 시스템은 고통 감지에 근본적으로 실패할 것이며, 이는 정서 컴퓨팅이 사회적 이익을 약속하는 핵심 적용 영역이다(Pantic et al., 2005).

5.4 극성 과장 편향: 보정 가능성

여덟 VLM 조건 모두 체계적으로 valence 극단성을 증폭하며(Table 4; 감정별 프로파일은 Table 4a 및 Figure 2), 이 극성 과장 편향(polarity exaggeration bias)은 프론티어 전정밀도 모델에서도 지속된다. 부정적 감정은 더 부정적으로, 긍정적 감정은 인간 평정보다 더 긍정적으로 평정되며, 이는 양자화 아티팩트가 아닌 VLM 감정 처리의 구조적 속성이다.

극성 과장의 일관성은 대체 가능성 판정에서 “보정 필요” 범주의 근거를 제공한다. 편향이 체계적이고 방향이 예측 가능하므로, 감정 범주별 아핀 보정(y’ = a*y + b)이 높은 순위 상관을 유지하면서 절대 오차를 줄일 수 있다. Gemma3-27B는 가장 낮은 MAE(1.365)를 달성하여 일부 모델이 다른 모델보다 적은 보정을 필요로 함을 보여준다.

구체적으로, 아핀 보정은 각 감정 범주 내에서 VLM 예측값을 인간 평균값에 대해 최소자승 회귀하여 기울기(a)와 절편(b)을 추정하는 절차이다. Table 4a의 편향 프로파일에서 공포의 bias/ $S D_{d}$ 비율이 모든 모델에서 3.31 이상으로 가장 높아, 단일 오프셋 보정의 효과가 가장 클 것으로 예상된다. 반면 슬픔과 분노 등 bias/ $S D_{d}$ 가 1 근처인 감정-모델 조합에서는 아핀 보정의 이득이 제한적일 수 있다. 보정의 실행 가능성은 향후 연구에서 실증적으로 검증되어야 하며, 핵심 검증 과제는 세 가지이다: (1) 보정 매개변수의 자극 세트 의존성 — 동일 감정 범주의 다른 자극 세트(out-of-sample)에서 in-sample 보정 계수가 유지되는지, (2) 보정 후 z-score 범위 소속 비율( $W_{1 SD}$ )이 인간 LOO 기저선에 도달하는지, (3) 보정이 응답 획일성(Section 5.2)을 완화하지 못하는 한계 — 아핀 변환은 분산을 스케일링하지만 고유값 수를 증가시키지 않으므로, 단일 값 출력 문제는 보정으로 해결되지 않는다.

5.5 인구통계 편향과 공정성

VLM이 인간 평정자를 대체하면 해당 모델의 인구통계 편향이 곧 연구의 편향이 된다. 인간 평정자 집단에서는 개인의 편향이 다수 평정자의 평균화를 통해 부분적으로 상쇄되지만, 단일 VLM이 전체 평정을 담당하면 이 상쇄 기제가 작동하지 않는다.

Table 7에서 인종별 분류 성능 격차(F1-macro 기준)는 3.8 pp(Gemma3-27B)에서 10.1 pp(Qwen3-VL)까지 분포한다. 편향 방향은 모델별로 다르다: Gemini 계열과 GPT-4o-mini는 흑인 얼굴에서 가장 높은 정확도를 보이는 반면, Qwen3-VL과 LLaMA는 한국인 얼굴에서 가장 높다. Gemma3 계열에서 규모 증가에 따라 인종 격차가 단조 감소하는 패턴(4B: 6.0 pp, 12B: 4.8 pp, 27B: 3.8 pp)은 모델 규모가 인구통계 공정성을 개선할 수 있음을 시사하나, N=1 패밀리의 관찰이므로 일반화에 주의가 필요하다.

이 이질성은 VLM 대체 시 모델별 편향 감사가 필수적임을 확인한다. 단일 모델에 대한 편향 특성화가 다른 모델로 전이될 수 없으며, 배치 대상 인구통계 집단과 감정 범주에 대한 개별 평가가 요구된다. 나아가, v10.7의 감정별 stratified race × gender factorial ANOVA(Methods §3.4.4, Tables 7b–7c)는 Figure 7b에 시각화된 intersectional 패턴(예: Gemma3-12B의 Caucasian 남/녀 F1 격차 17.2 pp)에 대한 첫 번째 형식 통계 검정을 제공하며, 일부 모델·감정 조합에서 race × gender 교차 편향이 특정 감정 안에서 선택적으로 증폭됨을 드러낸다. 이는 단일 인구통계 축(인종 단독 혹은 성별 단독) 감사만으로는 intersectional 편향을 포착할 수 없음을 보여주며, 감정·인종·성별의 세 축을 모두 함께 고려한 세분화된 감사가 필요함을 시사한다.

5.6 실용적 지침

이상의 발견을 종합하여, VLM을 감정 평정에 활용하고자 하는 연구자를 위한 조건부 지침을 제시한다.

첫째, VLM은 인간 평정자의 완전한 대체가 아닌 보조 도구로 위치시켜야 한다. 대체 가능성 매트릭스(Table 8)에서 완전 대체 가능 셀이 없다는 결과는, 현재 세대의 VLM이 독립적 평정자로 기능하기에 불충분함을 의미한다. 다만, 부분 대체 가능 셀이 다수 존재하므로, 특정 감정-차원 조합에서 예비 스크리닝이나 대규모 데이터셋의 초기 라벨링에 VLM을 활용하고 인간 평정자가 이를 검증하는 혼합 전략이 비용 효율적일 수 있다.

둘째, VLM 선택은 목표 감정과 측정 차원에 따라 달라져야 한다. 단일 “최선의” 모델은 존재하지 않는다 — Gemma3-27B는 valence에서 가장 안정적이지만( $\overset{ˉ}{d}$ = 0.515, $S D_{d}$ = 1.390), arousal에서는 Gemma3-4B와 동등하며, 슬픔 분류에서는 Qwen3-VL과 동률이다. 연구자는 자신의 연구 설계에서 관심 있는 감정-차원 조합에 대해 Table 8의 판정을 참조해야 한다.

셋째, VLM 출력에 대한 감정별 아핀 보정은 극성 과장 편향이 체계적인 조건(특히 공포, 행복)에서 우선 적용해야 하며, 보정 계수의 교차 검증이 필수적이다.

넷째, 인구통계 편향 감사는 모델과 대상 집단에 특이적으로 수행되어야 한다. 하나의 모델에 대한 편향 프로파일이 다른 모델로 전이되지 않으며(Section 5.5), 감정 범주에 따라 편향 방향이 달라질 수 있다.

5.7 한계

몇 가지 한계가 이 발견의 일반화 가능성을 제약한다(총 16개).

첫째, 인간 참가자가 전적으로 한국 성인이어서 기준선에 문화적 편향을 도입할 수 있다. 다양한 평정자 집단으로의 교차문화적 복제가 필요하다. 둘째, 교차 모델 분석에서의 성능 차이는 추론 모드, 아키텍처, 훈련 데이터를 교란시킨다. Gemini output suppression test(Section 4A.1)는 내부 토큰이 지속되어 비정보적이었으며, 깨끗한 within-model ablation이 필요하다. 셋째, Gemini 2.5 Flash는 thinking_budget=0에서도 약 199개의 내부 토큰을 생성하여 외부 통제가 불가능하다. 넷째, Qwen3-VL의 thinking budget 제약(단계당 1,024 토큰)이 심사숙고적 추론의 이점을 제한할 수 있다. 다섯째, 자극은 정적인 단일 감정 이미지인 반면 실제 감정 인식은 동적이고 다중 모달이다. 여섯째, context-carry 프롬프팅 전략은 구조적 오류 전파를 도입한다. 일곱째, 모든 자극이 AI 생성 얼굴이며, 실제 얼굴 자극으로의 복제가 필요하다. 여덟째, VLM thinking 흔적과 인간 숙고의 유비는 기능적이지 기계적이지 않다. 아홉째, Gemini 2.5 Flash Image가 자극 생성에 사용되고 Gemini 2.5 Flash가 평정자로 사용되어 잠재적 순환성이 존재한다. 열째, 동일 프롬프트가 모든 모델에 사용되었으나 대안적 프롬프팅 전략에 대한 일반화 가능성은 검증되지 않았다.

v10에서 추가된 한계로, 열한째, 대체 가능성 판정 매트릭스의 기준(Δα ≥ 0 AND $p_{sig}$ < 50%)은 본 연구에서 제안된 것으로, 외부적으로 검증되지 않았다. 이 기준의 타당성은 향후 다양한 데이터셋과 평정 맥락에서의 교차 검증을 필요로 한다. 열두째, Krippendorff alpha의 안정성은 N=1,000이라는 대규모 평정자 풀에서 관찰된 것으로, 소규모 평정자 풀(예: N=10-50)에서 VLM 추가가 alpha에 미치는 영향은 달라질 수 있다. 열셋째, 8개 VLM 조건은 현재 가용한 모델의 부분 집합이며, 다른 아키텍처(예: InternVL, Phi-4 Vision)로의 일반화는 추가 실험을 필요로 한다.

v10.7에서 추가된 한계로, 열넷째, 감정별 stratified race × gender factorial ANOVA(§3.4.4)는 각 감정 stratum 내에서 intersectional 편향을 형식 검정하나, 감정 간 race × gender 이질성 자체의 3원 형식 검정(즉 emotion × race × gender 3-way interaction)은 수행하지 않는다. Stratum 수준 결과의 이질성은 서술적 추론에 의존하며, 엄밀한 aggregate 검정이 필요한 독자는 Supplementary §S5의 v10.6 omnibus 결과를 참조해야 한다. 열다섯째, 차원 수준 분석은 identity 수준의 random effects를 모델링하지 않는 고정효과 ANOVA이다. 40명 identity 내 반복 측정 구조(각 정체성당 6 감정 표현)는 현재 설계에서 factor 간 직교성으로 대부분 흡수되나, 엄밀한 identity-clustering 보정은 향후 mixed-effects 확장에서 다루어야 한다. 열여섯째, 차원 수준 분석의 다중검정 보정은 (모델, 차원) 가족 내 BH FDR로 수행되나, 가족 간에는 독립 보정되므로 “전체 288 검정 중 몇 %가 유의한가?” 같은 통합적 해석은 권장되지 않는다.

Revision History (이 섹션 관련)

Iteration	#	Issue	Severity	How Fixed	Status
v2→v3	#3	4-bit quantization as minor limitation	Critical	Elevated to major limitation with MBQ CVPR 2025 citation	Done
v2→v3	#4	Context-carry confounding unaddressed	Critical	Added Discussion paragraph on language-based inference confound	Done
v7→v8-1	#7	Dual-process thinking claims too strong	Critical	Revised Section 5.1: thinking advantage scoped	Done
v7→v8-2	#14	Gemini family circularity	Critical	Added to Limitations	Done
v7→v8-2	#15	”maps onto” dual-process too strong	Major	Changed to “loosely parallels”	Done
v7→v8-2	#18	Naturalness = ruling-out, not convergent evidence	Major	Distinction clarified	Done
v9→v10	—	Major discussion restructuring for replaceability	Critical	5.1 replaceability conditions (central message: “높은 상관 ≠ 대체 가능”), 5.2 response homogeneity (NEW), 5.3 sadness demoted, 5.4 calibration, 5.5 fairness, 5.6 limitations expanded (+3 new), dual-process demoted	Done
v10→v10.2	—	ICC replaced with Δα + z-score throughout	Critical	Section 5.1: r vs z-score comparison (was r vs ICC). Section 5.6 limitation 11: criteria updated to Δα/p_sig based	Done
v10.2→v10.3	—	Discussion thin for depth of findings	Major	§5.1: Bland-Altman r limitation literature added. §5.2: temperature/sampling mitigation paragraph. §5.4: affine calibration 3-point validation agenda. §5.6 practical guidelines (NEW). §5.7 limitations count explicit (16). Δα range corrected to +0.003~+0.009 (was +0.004~+0.009)	Done
v10.7→v10.8	—	RT × VLM difficulty cross-analysis absent	Minor	§5.3: 3 paragraphs added — valence/arousal RT asymmetry, fear dissociation (longest RT but high VLM accuracy), future directions for image-level RT analysis	Done

미해결 이슈 (추가 실험 필요)

#	Issue	Required Experiment	Priority
R7	OOD generalization	Real face stimuli comparison	Medium
R11	Affine calibration validation	In-sample vs out-of-sample correction performance	High
R12	Small pool alpha sensitivity	N=10,50,100 rater pool VLM addition simulation	Medium
R13	Image-level RT × VLM disagreement	Logistic regression: per-image RT → VLM error probability	Medium
R14	Naturalness → RT → VLM agreement mediation	Path analysis with image-level data	Low

Juhyeon's Blog

탐색기