GPT-4가 GAPED(Geneva Affective PicturE Database) 비얼굴(non-facial) 정서 이미지(장면, 동물, 추상 이미지 등)를 대상으로 valence/arousal 차원 평정을 수행할 수 있는지 평가한 연구. zero-shot 조건에서 valence r = 0.87, arousal r = 0.72 의 인간-모델 상관을 보고하며, LLM이 전통적 정서 자극 타당화 과정을 자동화·확장할 수 있음을 시사.
연구 목적
전통적인 정서 자극(IAPS, GAPED 등) 타당화는 노동집약적·편향 민감적 → LLM 기반 자동 타당화 가능성 탐색.
GPT-4가 이미지에서 valence(긍-부정) 와 arousal(각성-진정) 차원을 인간 평정자 수준으로 평정할 수 있는가?
입력 형식(이미지 vs 이미지의 텍스트 설명), 학습 조건(zero-shot vs few-shot), 응답 형식(수치 vs Likert) 간 비교.
방법
자극
GAPED (Geneva Affective PicturE Database): 비얼굴 정서 유도 이미지 — 풍경, 동물, 추상 장면, 사물 중심.
⚠️ 얼굴 자극 아님 — 일반 장면/사물 기반 정서 유도 이미지.
평정 과제
두 차원: valence (positive/neutral/negative), arousal (calm/neutral/stimulated).
두 응답 형식: (1) 수치 응답 평정(numeric), (2) Likert 척도.
두 학습 조건: zero-shot, few-shot (프롬프트 내 예시 포함).
추가 조건: 이미지 자체 입력 vs 이미지의 텍스트 설명 입력 비교.
모델
GPT-4 / GPT-4V (OpenAI) 단일 모델 중심. 다중 VLM 비교 아님.
지표
Pearson 상관(모델 평정 vs 인간 평균 평정) — 주로 numeric 응답에서.
정확도(accuracy) — Likert 척도 응답에서.
주요 결과
조건
Valence
Arousal
Zero-shot, numeric, correlation (r)
0.87
0.72
Zero-shot, Likert, accuracy
0.77
0.57
Few-shot ≯ Zero-shot: 프롬프트에 예시를 포함해도 일관된 성능 향상 없음. 저자들은 동일 카테고리 내 인간 평정 분산이 커서 예시가 오히려 편향을 유도할 수 있다고 해석.
Arousal < Valence: arousal 차원이 일관되게 더 어렵다. 미묘한 정서 단서(subtler emotional cues) 분류에 한계.
텍스트 설명 입력 ≈ 이미지 입력 (약간 열세): 이미지 직접 입력이 텍스트 매개 입력보다 미세하게 우수.
함의 (저자 주장)
GPT-4는 인간 평정에 근접한 차원 평정을 zero-shot으로 수행 → 정서 자극 데이터베이스 타당화를 자동화할 수 있는 잠재력.
심리학 실험 설계와 정서 지능 AI 에이전트 개발에 활용 가능.
단, 세밀한 정서 구별과 arousal 차원은 여전히 한계.
본 연구(GIST-AIFaceDB VLM 대체가능성)와의 비교
축
Alrasheed et al. (2025)
본 연구
자극 유형
GAPED 비얼굴 장면·동물·추상 이미지
통제된 AI 생성 얼굴 (5 emotion × race × gender)
모델 범위
GPT-4 단일(+텍스트 설명 변형)
8개 VLM 조건 비교
평정 축
valence, arousal 차원 (2축)
discrete 범주 + valence + arousal (범주 + 차원 병행)
핵심 지표
Pearson r (인간 vs 모델), accuracy
Krippendorff’s α + 부트스트랩 z-score
프레이밍
인간-모델 일치도(agreement) / 자동 타당화
VLM이 인간 평정자를 대체 가능한가(replaceability) 의 통계적 동치성 검정
자극 통제
자연 장면 — 저수준 시각 속성 혼재
race/gender/emotion 요인 교차 설계로 체계적 통제
차별점 요약
자극 영역이 다르다: GAPED는 얼굴이 아니므로, 본 연구가 다루는 얼굴 정서 인식에서 VLM 대체가능성 질문에 직접 답하지 않는다. 얼굴은 진화적으로 특화된 사회-정서 신호 채널이므로, 비얼굴 이미지에서의 GPT-4 성능이 얼굴 자극에 그대로 외삽되지 않는다 (Barrett et al. 2019 등).
프레이밍 전환: “r = 0.87 → 인간과 비슷하다”라는 상관 기반 일치는 집단 평균과의 유사성만 평가하며, 개별 평정자 간 신뢰도 프레임(Krippendorff α + CI)에서 본 연구가 던지는 “VLM이 인간 평정자 풀에 들어가도 신뢰도가 유의미하게 저하되지 않는가” 라는 질문과는 논리적으로 다르다.
단일 VLM vs VLM 생태계: 본 연구의 8개 모델 비교는 모델 간 분산을 drop-in replaceability 판단의 핵심으로 둠.
Arousal 취약성 재확인: 본 연구에서도 arousal 차원이 valence 대비 낮은 α를 보일 경우, Alrasheed et al.의 결과(arousal r = 0.72 < valence r = 0.87)와 수렴하는 패턴으로 해석할 여지가 있다.