CHI26 Manuscript & Review 종합 평가 보고서
논문: “Facial Emotion Perception Similarity and Gender Bias: Comparing Humans and AI in Detection and Rating Performance”
저자: Jini Tae, Ju-Hyeon Park, Wonil Choi (GIST)
제출: CHI 2026 Poster Track | 결과: Desk-Reject
평가일: 2026-02-14
평가 방법: 3개 독립 전문 에이전트 병렬 분석 + 리뷰 타당성 교차 검증
목차
1. 논문 독립 평가
1.1 평가 에이전트 개요
| 에이전트 | 관점 | 종합 평점 |
|---|---|---|
| Ruthless Paper Reviewer | 전반적 학술 품질, novelty, CHI venue 적합성 | 4.5 / 10 |
| Cognitive Psychology Reviewer | 실험 설계, Circumplex Model, 통계 방법론, 심리학적 타당성 | 3.6 / 10 |
| AI/ML Reviewer | 모델 선택, 벤치마크 방법론, 기술적 깊이 | 3.0 / 10 |
| 가중 평균 | 3.7 / 10 |
1.2 에이전트 간 수렴 분석
3개 에이전트가 완전히 독립적으로 도출한 결론들이 수렴하는 지점을 정리한다. 수렴도가 높을수록 해당 문제의 객관성이 높다.
완전 수렴 (3/3 에이전트 동의) — 객관적 결함
| # | 수렴 포인트 | Ruthless | CogPsych | AI/ML |
|---|---|---|---|---|
| 1 | Spearman correlation ≠ Agreement: ICC/CCC를 사용해야 함 | C1 | C2 | C3 |
| 2 | AI 생성 자극의 표정 품질 미검증: construct validity 위협 | C2 | C1 | Domain shift |
| 3 | 2개 모델로 “AI” 일반화 불가: 모델 수 부족 | M1 | M3 | C2 |
| 4 | ”Sadness paradox” 과대 해석: 대안 설명 미검토 | M3 | C4 | M2 |
| 5 | 다중비교 보정 미적용: 36+ tests without correction | M2 | 체크리스트 | C3 |
| 6 | AffectNet 귀인이 검증되지 않은 추론: 인과 근거 부재 | Claim 분석 | Claim 4 | Claim 4 |
부분 수렴 (2/3 에이전트 동의)
| # | 수렴 포인트 | 동의 에이전트 |
|---|---|---|
| 7 | 모델 귀속(attribution) 오류: Savchenko 미인용 | Ruthless, AI/ML |
| 8 | Inter-rater reliability 미보고 | CogPsych, AI/ML |
| 9 | 핵심 참고문헌 다수 누락 (Hu & Kollias 2024, Dominguez-Catena 2025 등) | Ruthless, AI/ML |
| 10 | Effect size / 정확한 통계량(CI, df, exact p) 미보고 | Ruthless, CogPsych |
개별 에이전트 고유 발견
| 에이전트 | 고유 발견 |
|---|---|
| CogPsych | Hess et al. (2004) 인용 오독 — 원 논문은 stereotype 확인이 아니라 역전을 보여줌 |
| CogPsych | 사전 예측(a priori predictions)의 완전 부재 — 탐색적 연구임도 명시하지 않음 |
| CogPsych | ”Ecological validity”와 “experimental control” 개념 혼동 |
| AI/ML | 두 모델이 동일 프레임워크(EmotiEffLib/HSEmotion, Savchenko)에서 동일 training pipeline으로 학습됨 — “distinct architectures” 비교가 사실상 backbone 변이 비교 |
| AI/ML | CCC가 VA estimation의 de facto standard (ABAW 2020-2025)인데 전혀 사용되지 않음 |
| AI/ML | Spearman rho를 (p)로 표기하는 notation 오류 — p-value와의 혼동 유발 |
| Ruthless | 합성 얼굴의 fear/disgust 인식률이 3-14%까지 낮을 수 있다는 선행연구 (PAGE test, 2025) |
1.3 논문의 강점 (3개 에이전트 공통 인정)
- 대규모 인간 표본: N=1,000, 성별/연령 균형 배분, 각 이미지당 50개 독립 평정 — 3개 에이전트 모두 “인상적”으로 평가
- 체계적 자극 설계: 240 identities × 6 emotions × 2 genders × 3 races — 균형 잡힌 factorial design
- 연구 질문의 사회적 의미: AI 감정 인식의 공정성 문제는 HCI 분야에서 중요한 주제
- IRB 승인: 윤리적 절차 준수
- Figure 시각화: Heatmap (Figure 2B, 3B)은 효과적인 결과 전달
1.4 논문의 핵심 약점 (심각도순)
CRITICAL — 결과 해석의 기반을 흔드는 문제
C1. 통계 분석의 근본적 부적절성 (3/3 수렴)
- Spearman correlation은 association을 측정하지, agreement를 측정하지 않음
- AI가 인간보다 체계적으로 2점 높게 평정해도 rho = 1.0 가능 — 이것이 “alignment”인가?
- 필요한 대안: ICC(2,k), CCC (Concordance Correlation Coefficient), Bland-Altman plot
- ABAW competition (2020-2025)에서 CCC는 VA estimation의 표준 metric
C2. AI 생성 자극의 타당성 미검증 (3/3 수렴)
- GIST-AIFaceDB의 감정 표현이 해당 감정을 정확히 대표하는지 검증 없음
- 선행연구(PAGE test 2025)에 따르면 AI-generated face의 감정 인식률은 fear 3%, disgust 14%까지 낮아질 수 있음
- Two-step pipeline (neutral base → emotional editing)의 표정이 자연스러운 AU 패턴에 기반하는지 불명확
- “Sadness paradox”가 자극 artifact일 가능성을 배제할 수 없음
- 논문이 “high ecological validity”를 주장하지만, AI 생성 얼굴은 experimental control을 높이는 것이지 ecological validity를 높이는 것이 아님 (CogPsych 에이전트 지적)
C3. 모델 귀속(Attribution) 오류 (2/3 수렴, AI/ML 에이전트 핵심 발견)
enet_b0_8_va_mtl을 Tan & Le (2019)로 인용했으나, 이는 EfficientNet backbone 논문일 뿐- 실제 모델은 Savchenko (CVPR Workshop 2023, ECCV Workshop 2022)의 EmotiEffLib 프레임워크에서 개발
- MobileViT 모델도 마찬가지: Mehta & Rastegari (2021)는 architecture 논문이고, VA estimation 모델은 Savchenko의 fine-tuned checkpoint
- 두 모델이 동일 프레임워크에서 동일 training pipeline (VGGFace2 → AffectNet MTL)으로 학습됨
- 따라서 “distinct computational architectures” 비교라는 주장이 사실상 무효
C4. Hess et al. (2004) 인용 오독 (CogPsych 에이전트 고유 발견)
- 논문은 Hess et al.을 “male faces = anger, female faces = happiness/sadness” stereotype 확인으로 인용
- 그러나 원 논문의 핵심 발견은 facial morphology를 통제했을 때 이 stereotype가 역전된다는 것
- Introduction의 이론적 논거가 근본적으로 약화됨
MAJOR — 반드시 수정 필요하지만 극복 가능
| # | 문제 | 수렴도 |
|---|---|---|
| M1 | 2개 lightweight 모델만으로 “AI”를 대표하는 과도한 일반화 | 3/3 |
| M2 | 다중비교 보정 미적용 (36+ tests, familywise error 팽창) | 3/3 |
| M3 | ”Sadness paradox”의 대안 설명 미검토 (range restriction, 개념 정의 불일치, 자극 artifact) | 3/3 |
| M4 | Inter-rater reliability 미보고 (50명 평정의 신뢰성 검증 없음) | 2/3 |
| M5 | 핵심 참고문헌 다수 누락 (Savchenko, Hu & Kollias, Dominguez-Catena 등) | 2/3 |
| M6 | 사전 예측(hypothesis) 부재 — 탐색적 연구임도 명시하지 않음 | CogPsych |
| M7 | Domain shift 미검토 (AffectNet 학습 모델 → AI-generated face 테스트) | AI/ML |
| M8 | Wang et al. (2024) 불완전 인용 (제목, venue, DOI 전부 누락) | 3/3 |
2. 리뷰 타당성 평가
CHI26 리뷰의 각 지적사항을 3개 에이전트의 독립 분석 결과와 교차 검증한다.
2.1 리뷰 지적사항별 판정
지적 1: “Static Stimulus Materials” — 외적 타당도 제한
“Using only static facial images fails to encompass dynamic and multimodal emotional expressions in real-world interactions, potentially affecting external validity.”
판정: 부분적으로 타당 ⚠️
| 측면 | 평가 |
|---|---|
| 타당한 부분 | 정적 자극이 동적 상호작용의 복잡성을 포착하지 못한다는 지적 자체는 맞음 |
| 과소 평가 | 리뷰어가 더 심각한 문제를 놓침 — 자극이 “정적”인 것보다 **“AI 생성 표정의 품질이 미검증”**인 것이 더 근본적 문제 |
| 맥락 부족 | CHI poster (6pp) 형식에서 동적 자극까지 요구하는 것은 과도할 수 있으나, AI 생성 자극의 validation은 반드시 필요 |
| 에이전트 근거 | 3/3 에이전트가 자극 validation 부재를 Critical로 판정. Ruthless: “합성 얼굴의 fear 인식률 3%”, CogPsych: “FACS AU 코딩 미수행”, AI/ML: “domain shift 미검토” |
종합: 리뷰어의 방향은 맞지만, 더 핵심적인 문제를 빗나감. “동적 자극이 아니라서 문제”가 아니라 “검증되지 않은 합성 자극이라서 문제”가 더 정확한 진단.
지적 2: “Limited Model Selection” — 2개 모델의 대표성 부족
“Testing only two lightweight models does not cover a wider range of AI architectures, potentially limiting the representativeness of the conclusions.”
판정: 타당 ✅ (사실 리뷰어가 인지한 것보다 더 심각)
| 측면 | 평가 |
|---|---|
| 타당한 부분 | 2개 모델이 AI 전반을 대표하지 못한다는 지적은 정확 |
| 과소 평가 | 리뷰어가 놓친 더 심각한 문제: 두 모델이 동일 프레임워크(Savchenko의 EmotiEffLib)에서 동일 training pipeline으로 학습되었으므로, 실질적으로 backbone 변이 비교에 불과 |
| 에이전트 근거 | AI/ML(C2): “N=2 실험에서 population-level 결론을 내리는 것과 같다”. 최소 5개 모델(다른 training data, 다른 규모, 다른 paradigm) 필요 |
종합: 리뷰어의 지적이 완전히 타당하며, 실제로는 리뷰어가 인지한 것보다 더 심각한 문제. AI/ML 에이전트가 밝힌 “동일 training pipeline” 사실이 이 문제를 Critical 수준으로 격상시킴.
지적 3: “Insufficient Exploration of Bias Causes”
“While pointing out the limitations of training data (such as AffectNet), no further specific data optimization or model correction strategies are proposed.”
판정: 타당 ✅
| 측면 | 평가 |
|---|---|
| 타당한 부분 | AffectNet 귀인에 대한 검증이 없다는 방향은 정확 |
| 보완 필요 | 리뷰어는 “mitigation strategy 부재”에 초점을 맞추었으나, 더 근본적 문제는 원인 추론 자체가 검증 불가라는 점 |
| 에이전트 근거 | 3/3 에이전트가 AffectNet 귀인의 논리적 취약성을 지적. CogPsych: “다른 감정에서도 동일 문제가 나타나야 하지 않는가?”, AI/ML: “AffectNet sadness arousal 분포 분석 필요”, Ruthless: “다른 training data 모델과의 비교 필요” |
종합: 리뷰어의 지적이 타당하나, 문제의 본질을 약간 빗나감. “해결책이 없다”보다 “원인 진단 자체가 검증되지 않았다”가 더 정확.
지적 4: “Incorrect Citation Format”
“Incorrect Citation Format.”
판정: 타당하지만 피상적 ⚠️
| 측면 | 평가 |
|---|---|
| 타당한 부분 | ACM citation format 미준수는 사실 |
| 과소 평가 | 형식 문제보다 더 심각한 내용적 인용 문제가 있음: (1) enet_b0_8_va_mtl의 실제 개발자(Savchenko) 미인용 — 모델 귀속 오류, (2) Hess et al. (2004) 결론 오독, (3) Wang et al. (2024) 불완전 인용 (제목/venue/DOI 전무) |
| 에이전트 근거 | AI/ML: “저자들이 자신이 사용하는 모델의 실제 출처와 training procedure를 파악하지 못했다”. CogPsych: “Hess et al. 인용이 원 논문과 정반대” |
종합: 리뷰어가 “형식 오류”로만 지적한 것은 아쉬움. 실제로는 형식보다 심각한 인용 내용의 오류(귀속 오류, 오독)가 존재.
지적 5: “Anonymous Submission Requirements Not Met”
“The manuscript did not meet the requirements for anonymous submission.”
판정: 타당 ✅ (Desk-Reject의 정당한 사유)
| 측면 | 평가 |
|---|---|
| 타당한 부분 | CHI 2026은 mutually anonymous review 요구. 익명성 미준수는 규정적 위반 |
| 에이전트 근거 | Ruthless(C3): “규정적 문제이며, 연구의 질과 무관하게 desk reject의 정당한 사유”. 이것은 완전히 회피 가능한 문제 |
종합: 절차적으로 완전히 타당한 지적. 이것만으로도 desk-reject의 충분 조건.
2.2 리뷰어가 놓친 중요한 문제점 (누락된 지적)
3개 에이전트가 독립적으로 발견했으나 CHI26 리뷰어가 지적하지 않은 문제들:
| # | 누락된 지적 | 심각도 | 수렴도 | 설명 |
|---|---|---|---|---|
| N1 | Correlation ≠ Agreement | CRITICAL | 3/3 | Spearman은 association 측정, agreement 측정 아님. ICC/CCC 필요. 결과 해석의 기반 자체가 흔들림 |
| N2 | 합성 자극 품질 미검증 | CRITICAL | 3/3 | 리뷰어는 “정적”만 지적. 더 근본적으로 AI가 생성한 표정이 해당 감정을 대표하는지 검증 없음 |
| N3 | 모델 귀속 오류 | CRITICAL | 2/3 | Savchenko 모델을 backbone 논문으로만 인용. 실제 training pipeline 파악 실패 |
| N4 | Hess et al. (2004) 오독 | CRITICAL | 1/3 | 이론적 배경의 핵심 인용이 원 논문과 정반대로 기술됨 |
| N5 | 다중비교 보정 미적용 | MAJOR | 3/3 | 36+ statistical tests without correction |
| N6 | Inter-rater reliability 미보고 | MAJOR | 2/3 | 50명 평정의 신뢰성이 감정 범주별로 검증되지 않음 |
| N7 | Domain shift 미분석 | MAJOR | 1/3 | Real-face-trained 모델을 synthetic face에 적용하면서 gap 미검토 |
| N8 | ”Sadness paradox” 대안 설명 부재 | MAJOR | 3/3 | Range restriction, 개념 정의 불일치, 자극 artifact 등 최소 3가지 대안 |
2.3 리뷰 품질 종합 평가
| 평가 항목 | 등급 | 설명 |
|---|---|---|
| 정확성 | B- | 지적한 내용은 대부분 맞으나, 표면적 수준에 머무름 |
| 포괄성 | D+ | 가장 심각한 문제(통계 방법론, 자극 validation, 모델 귀속)를 모두 놓침 |
| 건설성 | C+ | “Future work” 제안은 있으나 구체성 부족. 개선 방향이 모호 |
| 깊이 | D | 방법론적 근본 문제에 대한 분석 없이 표면적 한계만 나열 |
| 공정성 | B | 장점(연구 설계, 응용 가치)을 인정한 점은 공정 |
리뷰 한계: 이 리뷰는 논문의 “무엇이 부족한가”를 일부 짚었으나, “왜 결과를 신뢰할 수 없는가”에 대한 근본적 분석이 결여되어 있다. 특히 통계 방법론(correlation ≠ agreement)과 자극 validity 문제는 결과 해석의 전제 조건이므로, 이를 놓친 것은 리뷰 품질의 심각한 한계.
3. Desk-Reject 판정의 적절성
3.1 절차적 관점
Desk-reject는 절차적으로 정당하다.
- 익명 제출 요건 미충족: CHI 2026의 mutually anonymous review 정책 위반
- 인용 형식 오류: ACM Reference Format 미준수
- 이 두 가지는 submission requirement 위반이므로, desk-reject의 충분 조건
3.2 내용적 관점
형식 문제가 없었더라도 acceptance는 어려웠을 것으로 판단한다.
3개 에이전트의 독립 평가를 종합하면:
| 판단 근거 | 에이전트 소견 |
|---|---|
| 통계 방법론 | Spearman correlation은 alignment/agreement를 측정하지 못함. 결과 해석의 기반이 무효화됨 (3/3 동의) |
| 자극 타당성 | AI 생성 표정의 품질 미검증으로 모든 발견의 internal validity 의문 (3/3 동의) |
| 모델 대표성 | 동일 프레임워크 2개 모델로 “AI”를 일반화하는 것은 설득력 없음 (3/3 동의) |
| Novelty | ”Sadness paradox”는 이미 알려진 arousal annotation 문제의 재기술. Dominguez-Catena et al. (2025), Hu & Kollias (2024) 등이 더 체계적으로 유사 문제를 다룸 |
3.3 Desk-Reject vs. Major Revision 판단
| 시나리오 | 판단 |
|---|---|
| 현 상태 그대로 | Desk-reject 정당 (형식 위반) |
| 형식만 수정한 경우 | Reject (내용적 Critical 4건) |
| 형식 + 통계 수정 | Major Revision 가능 (CCC 추가, ICC 보고, 다중비교 보정) |
| 형식 + 통계 + 자극검증 + 모델확장 | Accept 가능 (사실상 새 논문 수준의 보강) |
종합 의견: Desk-reject 판정 자체는 적절하나, 리뷰의 질이 저자에게 충분한 피드백을 제공하지 못했다. 리뷰어가 형식 문제와 일반적 한계에만 초점을 맞추어, 저자가 근본적 방법론 문제(통계, 자극, 모델 귀속)를 인지하지 못할 위험이 있다.
4. 개선 권고사항
4.1 즉시 수정 가능 (재투고 전 필수)
| # | 항목 | 예상 소요 | 난이도 |
|---|---|---|---|
| A1 | 익명 제출 형식 준수 (anonymous template) | 1일 | 낮음 |
| A2 | ACM Reference Format으로 전체 인용 수정 | 1일 | 낮음 |
| A3 | Wang et al. (2024) 완전 인용 또는 삭제 | 1시간 | 낮음 |
| A4 | enet_b0_8_va_mtl → Savchenko (2022, 2023) 정확히 인용 | 1일 | 낮음 |
| A5 | Hess et al. (2004) 인용 내용 수정 (원 논문의 실제 결론 반영) | 1일 | 낮음 |
| A6 | ”Sadness paradox” → “sadness arousal divergence”로 용어 완화 | 1시간 | 낮음 |
| A7 | Notation 수정: Spearman’s rho 표기 통일 (p → ρ_s) | 1시간 | 낮음 |
| A8 | 오타 수정: “human dta” → “human data”, email 주소 .kr 누락 등 | 1시간 | 낮음 |
4.2 분석 보강 (기존 데이터로 가능)
| # | 항목 | 예상 소요 | 영향도 |
|---|---|---|---|
| B1 | ICC/CCC 산출: 각 감정 × 성별 조건에서 Human-AI agreement 재계산 | 1주 | CRITICAL |
| B2 | Inter-rater reliability: 50명 평정의 ICC(2,1)을 감정 범주별 보고 | 3일 | MAJOR |
| B3 | 다중비교 보정: Benjamini-Hochberg FDR correction 적용 | 2일 | MAJOR |
| B4 | Fisher z-test: Male vs. Female 상관계수 차이의 통계적 검정 | 2일 | MAJOR |
| B5 | Effect size 보고: Cohen’s d 또는 MAE/RMSE 추가 | 3일 | MAJOR |
| B6 | Human rating descriptive statistics: 감정/성별별 평균, SD, 분포 | 2일 | MINOR |
| B7 | ”Sadness paradox” 대안 설명 추가: Range restriction, 개념 정의 불일치, 자극 artifact를 Discussion에서 체계적으로 논의 | 3일 | MAJOR |
4.3 추가 실험/분석 필요 (새 데이터 수집)
| # | 항목 | 예상 소요 | 영향도 |
|---|---|---|---|
| C1 | AI 모델 확장: 최소 3-5개 추가 (다른 training data, 다른 규모, VLM 포함) | 2-4주 | CRITICAL |
| C2 | 자극 validation: 독립 pilot study로 forced-choice emotion categorization 수행 | 2-3주 | CRITICAL |
| C3 | AffectNet sadness arousal 분포 분석: Training data의 bias를 직접 검증 | 1주 | MAJOR |
| C4 | Real face control condition: 동일 분석을 validated real face DB에서도 수행 | 3-4주 | MAJOR |
| C5 | Mixed-effects model: Image/participant를 random effect로 포함하는 multilevel 분석 | 2주 | MAJOR |
4.4 추천 재투고 전략
단기 (4.1 + 4.2 수행 후)
| 순위 | Venue | 예상 결과 | 비고 |
|---|---|---|---|
| 1 | CHI 2027 Late-Breaking Work | 가능 | Poster보다 exploratory 성격 허용 |
| 2 | ACII 2027 Workshop | 가능 | Affective computing 전문 |
| 3 | HCI Korea 2027 | 높음 | Local venue, 기여 인정 가능성 |
중기 (4.1 + 4.2 + 4.3 수행 후)
| 순위 | Venue | 예상 결과 | 비고 |
|---|---|---|---|
| 1 | CHI 2027 Poster | 보통-높음 | 통계 보강 + 모델 확장 시 |
| 2 | ACII 2027 Full Paper | 보통 | CCC + 5개 모델 + domain shift 분석 |
| 3 | IEEE FG 2027 | 보통 | 얼굴 분석 전문 학회 |
| 4 | IJHCS | 낮음-보통 | Full paper로 확장 시 |
| 5 | Frontiers in Psychology | 보통 | Open-access, interdisciplinary |
4.5 우선순위 요약
[최우선] A1-A8 (형식 수정) + B1 (CCC/ICC) + B3 (다중비교 보정)
→ 이것만으로 CHI LBW / HCI Korea 재투고 가능
[중요] C1 (모델 확장) + C2 (자극 validation) + B2 (inter-rater reliability)
→ CHI Poster / ACII 수준 도달
[이상적] C3-C5 (AffectNet 분석, real face control, mixed-effects)
→ Full paper (IJHCS, IEEE TAC) 수준 도달
부록: 에이전트별 상세 평점
A. Ruthless Paper Reviewer
| 항목 | 점수 | 비고 |
|---|---|---|
| Novelty | 3.5 | ”Sadness paradox”는 reframing 수준 |
| Technical Soundness | 3.0 | Correlation ≠ Agreement; 자극 미검증 |
| Experimental Rigor | 5.0 | N=1,000 강점, 그러나 분석 방법 부적절 |
| Clarity & Writing | 4.5 | 구조 양호, overclaiming과 불완전 인용 |
| Significance & Impact | 4.0 | 관찰 보고 수준; 메커니즘 미제시 |
| Reproducibility | 3.0 | DB 미공개; 생성 파이프라인 상세 부족 |
| 종합 | 4.5/10 |
B. Cognitive Psychology Reviewer
| 항목 | 점수 | 비고 |
|---|---|---|
| Technical Novelty | 3.5 | AI-generated face DB는 참신, 분석은 기본적 |
| Conceptual Novelty | 3.0 | ”Sadness paradox”는 포장; 이론적 기여 미약 |
| Technical Soundness | 2.5 | 통계 근본적 부적절, 자극 미검증 |
| Experimental Rigor | 4.0 | 표본 규모 긍정적, 핵심 통제 누락 |
| Logical Coherence | 3.0 | 이론→예측 단절, 인용 오독 |
| Clarity & Writing | 5.5 | Figure 효과적, 통계 보고 불완전 |
| Significance & Impact | 3.5 | HCI 함의 있으나 과대 해석 |
| Reproducibility | 4.0 | 자극 DB 공개 예정, 코드 미언급 |
| 종합 | 3.6/10 |
C. AI/ML Reviewer
| 항목 | 점수 | 비고 |
|---|---|---|
| Technical Novelty | 2.0 | Inference-only, 새 method 없음 |
| Conceptual Novelty | 3.5 | Gender-stratified VA는 약간의 관점 기여 |
| Technical Soundness | 2.5 | 모델 귀속 오류, CCC 미사용, domain shift 무시 |
| Experimental Rigor | 3.0 | Human data 우수, AI 분석 불충분 |
| Logical Coherence | 3.0 | 다수의 논리적 비약 |
| Clarity & Writing | 4.5 | 구조 양호, notation/인용 오류 |
| Significance & Impact | 3.5 | Human benchmark 가치 있으나 AI 분석이 제한 |
| Reproducibility | 2.0 | 모델 출처 불명확, 코드 미공개 |
| 종합 | 3.0/10 |
최종 한줄 평: 1,000명 규모의 대규모 인간 벤치마크 데이터라는 인상적인 인프라를 갖추었으나, 검증되지 않은 합성 자극, 동일 프레임워크의 모델 2개만으로의 과도한 일반화, agreement가 아닌 association만 측정하는 통계 방법, 그리고 핵심 인용의 오독이 결합되어 — 데이터 수집은 훌륭하나 분석과 해석이 이를 따라가지 못하는 논문이다. 리뷰 역시 형식적 문제에만 초점을 맞추어 근본적 방법론 문제를 놓쳤다. 그러나 기존 데이터를 활용한 통계 보강(CCC, ICC, 다중비교 보정)과 모델 확장만으로도 유의미한 개선이 가능하며, CHI 2027 또는 ACII 재투고가 현실적 목표이다.
V2 Addendum: 저자 컨텍스트 반영 추가 분석 (2026-02-14)
배경: v1 보고서 완성 후, 제1저자(Park)가 4가지 추가 컨텍스트를 제공했다. 이를 반영하여 v1의 일부 판정을 보완·수정하고, 구체적 revision 전략을 추가한다. v1의 전체적 평가 기조(3.7/10)는 유지하되, 저자 컨텍스트를 반영한 nuanced 분석을 제공한다.
V2.1 Spearman 선택의 전략적 기술 방안
저자 컨텍스트
“AI 모델은 -1
1 연속값, 인간 평정은 19 Likert 척도를 사용한다. 척도가 근본적으로 다르므로 ICC 적용이 어렵다고 판단하여 Spearman을 선택했다.”
평가
저자의 판단은 부분적으로 타당하다. 그러나 현 manuscript에는 이 근거가 전혀 기술되어 있지 않아, 리뷰어가 “왜 ICC/CCC가 아닌가?”라는 의문을 제기할 수밖에 없다.
| 측면 | 평가 |
|---|---|
| 타당한 부분 | Spearman은 rank-based이므로 척도 차이에 본질적으로 강건하다. AI(-1 |
| 불충분한 부분 | Spearman은 association(연관)을 측정하지, agreement(일치)를 측정하지 않는다는 v1의 핵심 비판은 여전히 유효. 리뷰어는 “높은 Spearman = 높은 alignment”라는 논문의 해석을 문제 삼을 것 |
| 해결 가능성 | z-score 정규화 후 CCC 산출이 표준 해법. ABAW competition(2020-2025)에서 CCC는 VA estimation의 de facto standard metric (Kollias et al., 2024) |
구체적 revision 전략
1. Methods 섹션에 추가할 내용:
“AI models output continuous valence-arousal predictions in [-1, 1], while human raters used a 9-point Likert scale (1-9). Due to this fundamental scale mismatch, we employed Spearman’s rank correlation (ρ) to assess monotonic relationships independent of scale (Spearman, 1904). Additionally, we applied z-score normalization to both scales and computed Lin’s Concordance Correlation Coefficient (CCC; Lin, 1989) to evaluate absolute agreement, following the standard evaluation protocol of the ABAW competition (Kollias et al., 2024).”
2. Results 섹션 보강:
- Spearman ρ (현재 보고)와 CCC (추가) 를 병행 보고
- 해석 기준: CCC < 0.3 = poor, 0.3-0.5 = fair, 0.5-0.7 = moderate, > 0.7 = good (참고: Koo & Li, 2016)
- 두 지표의 불일치가 있다면 Discussion에서 해석 (예: “높은 ρ + 낮은 CCC = 순서는 일치하나 절대적 수준에서 체계적 편차 존재”)
3. Discussion 섹션 보강:
“The discrepancy between Spearman ρ and CCC reveals that while AI models rank emotional stimuli in a similar order to humans (high ρ), their absolute predictions systematically differ from human ratings (lower CCC), suggesting a calibration gap rather than a fundamental perceptual divergence.”
v1 판정 수정
v1의 C1 (통계 분석의 근본적 부적절성) 판정을 다음과 같이 수정한다:
- v1: “Spearman correlation은 association을 측정하지, agreement를 측정하지 않음” → CRITICAL
- v2: “Spearman 선택은 척도 차이를 고려한 합리적 판단이었으나, 이 근거가 논문에 기술되지 않았고, CCC를 병행하지 않아 agreement 측정이 누락됨” → CRITICAL 유지, 다만 해결 가능성 상향 (기존 데이터로 즉시 보강 가능)
V2.2 AI 생성 얼굴 검증: 별도 DB 논문과의 관계
저자 컨텍스트
“GIST-AIFaceDB의 구축과 검증은 별도 DB 논문으로 제출 예정이므로, 이 논문에서 상세히 다루기 어렵다.”
평가
전략 자체는 합리적이나, CHI 논문에도 최소한의 검증 정보는 필수적이다.
| 측면 | 평가 |
|---|---|
| 합리적인 부분 | DB 구축 논문과 활용 논문을 분리하는 것은 학술적으로 일반적인 관행. DB 논문에서 상세 검증을 제시하고, 활용 논문에서 인용하는 구조는 타당 |
| 문제점 | CHI 리뷰어는 DB 논문을 접할 수 없다. 자극의 validity에 대한 최소한의 근거가 없으면, 연구 전체의 internal validity에 대한 의문이 해소되지 않음 |
| 심각도 | v1에서 3/3 에이전트가 이 문제를 CRITICAL로 판정. 선행연구(PAGE test, 2025)에서 AI 생성 얼굴의 fear 인식률이 3%까지 낮아질 수 있음을 고려하면, “검증은 다른 논문에서”만으로는 불충분 |
CHI 논문에 최소한 포함해야 할 검증 수준
1단계: 필수 (1-2문장으로 가능)
“A forced-choice emotion categorization pilot (N=30) confirmed that AI-generated facial expressions were recognized at above-chance accuracy across all six emotions (mean accuracy = XX%, range: XX-XX%), validating stimulus quality [details in forthcoming DB paper].”
이 1문장만으로도 “자극이 해당 감정을 대표하는가?”라는 근본적 의문을 상당 부분 해소할 수 있다. Pilot 데이터가 없다면, 적어도 인간 평정의 confusion matrix (Figure 2A에 이미 존재)를 자극 validation의 간접적 근거로 활용할 수 있다:
“Human recognition accuracy for AI-generated expressions (Figure 2A diagonal) ranged from XX% (sadness) to XX% (happiness), suggesting adequate stimulus quality for most emotion categories.”
2단계: 권장 (보충자료로 가능)
- AI 생성 파이프라인의 FACS AU 일관성 검토
- Real face DB(예: AffectNet, KDEF)와의 표정 인식률 비교
익명 리뷰 시 “under review” 인용 제약 대처법
| 방법 | 설명 | 추천도 |
|---|---|---|
| Anonymous supplementary | DB 검증 결과를 supplementary material로 첨부 (익명 유지) | ⭐⭐⭐ |
| Self-citation 우회 | ”The database was validated in a separate study (anonymized for review)” + 보충자료에 핵심 결과 포함 | ⭐⭐⭐ |
| Inline validation | 위 1단계의 1문장을 Methods에 직접 포함 | ⭐⭐ |
| Anonymous repository | OSF 등에 익명 preregistration으로 DB 검증 결과 등록 | ⭐ |
v1 판정 수정
- v1 C2 (AI 생성 자극의 타당성 미검증): CRITICAL 유지
- v2 추가: 별도 DB 논문 전략은 합리적이나, CHI 논문에 최소 1문장의 validation 근거를 포함해야 함. 이 보강이 이루어지면 심각도를 MAJOR로 하향 가능
V2.3 두 모델 아키텍처 논쟁: v1 판정 수정
저자 컨텍스트
“공저자가 두 모델의 결과가 유사하니 하나로 합치자고 제안했으나, 저자(Park)가 아키텍처 차이(attention block 구조)를 근거로 강하게 반대하여 두 모델을 유지했다.”
v1 판정의 재검토
v1 보고서의 C3 판정(AI/ML 에이전트 고유 발견)은 다음과 같았다:
“두 모델이 동일 프레임워크(EmotiEffLib/HSEmotion, Savchenko)에서 동일 training pipeline으로 학습됨 — ‘distinct architectures’ 비교가 사실상 backbone 변이 비교”
이 판정은 과도하게 단순화되어 있었다. v2에서 수정한다.
SE Attention vs. Transformer Self-Attention: 실질적 차이 분석
| 특성 | EfficientNet-B0 (SE Attention) | MobileViT (Transformer Self-Attention) |
|---|---|---|
| Attention 유형 | Squeeze-and-Excitation: channel-wise recalibration | Multi-Head Self-Attention: position-wise global dependency |
| 작동 범위 | 채널 간 관계 모델링 (Global Average Pooling → MLP → channel weights) | 전체 시퀀스의 모든 토큰 간 관계 모델링 (QKV dot-product) |
| Inductive bias | 강한 locality bias (Conv 기반, 제한된 receptive field) | 약한 inductive bias (global receptive field from first layer) |
| Feature 특성 | 로컬 특징(미세 근육 움직임, 질감) 포착에 강점 | 글로벌 맥락(얼굴 전체 구조, 원거리 영역 관계) 포착에 강점 |
| 데이터 효율 | 제한된 데이터에서 더 효과적 (강한 prior) | 대규모 데이터 필요 (약한 prior) |
결론: SE attention과 Transformer self-attention은 근본적으로 다른 연산이다. Hu et al. (2018)의 SE는 channel recalibration이고, Vaswani et al. (2017)의 self-attention은 spatial/positional dependency modeling이다. 이 차이는 감정 인식에서도 실질적으로 다른 feature representation을 생성한다 (Nature Scientific Reports, 2024; MVT-CEAM, 2024).
그러나 training pipeline 공유의 의미도 무시할 수 없다
| 공유 요소 | 의미 |
|---|---|
| Pretraining: VGGFace2 → AffectNet fine-tuning | 두 모델이 동일한 data distribution에서 학습 → 유사한 decision boundary 형성 가능 |
| Framework: Savchenko의 EmotiEffLib/HSEmotion | 동일한 학습 hyperparameter, augmentation, loss function 공유 가능성 |
| Task head: 동일한 8-class + VA MTL 구조 | 출력 layer의 동일성이 예측 패턴 유사성에 기여 |
중재 의견: 공저자 vs. 저자
| 입장 | 근거 | 판정 |
|---|---|---|
| 공저자 (합치기) | 결과가 유사하므로 하나만 보고해도 충분 | △ 결과 유사성만으로는 합치기의 충분 조건 아님 |
| 저자 (분리 유지) | Attention block 아키텍처가 근본적으로 다름 | ○ 아키텍처 차이는 실재하므로 분리 보고가 타당 |
| v2 중재 | 분리 유지하되, 프레이밍을 수정 | ◎ 아래 재프레이밍 전략 참조 |
재프레이밍 전략
현 논문의 프레이밍: “두 개의 distinct AI architectures를 비교”
→ 문제: 독립적인 두 시스템을 비교한 것처럼 들림
제안하는 재프레이밍:
“We conducted a controlled architectural comparison within a shared training framework (Savchenko, 2022; 2023). Both models were trained on AffectNet using the EmotiEffLib pipeline, isolating the effect of attention mechanism: channel-wise squeeze-and-excitation (Hu et al., 2018) vs. multi-head self-attention (Vaswani et al., 2017). This controlled setup allows us to attribute performance differences specifically to the attention architecture rather than confounding factors such as training data, augmentation, or loss function.”
이 프레이밍의 장점:
- Training pipeline 공유를 약점이 아닌 통제 변인(controlled variable) 으로 전환
- 아키텍처 차이를 독립 변인으로 명확히 설정
- Reviewer의 “동일 프레임워크” 비판을 선제적으로 흡수
Fisher z-test로 두 모델 상관 차이 통계적 검정
두 모델의 Human-AI agreement가 통계적으로 유의하게 다른지 확인하기 위해 Fisher z-test를 적용할 수 있다:
1. 각 모델의 Spearman ρ (또는 CCC)를 Fisher z 변환: z' = arctanh(r)
2. 검정 통계량: Z = (z'₁ - z'₂) / √[(1/(n₁-3)) + (1/(n₂-3))]
3. 양측 검정: |Z| > 1.96이면 p < 0.05
이 검정을 감정 범주별 × 성별 조건별로 실시하면, “두 아키텍처가 실질적으로 다른 패턴을 보이는 조건”을 식별할 수 있다. 만약 대부분의 조건에서 유의한 차이가 없다면, 공저자의 의견(합치기)이 데이터에 의해 지지되는 셈이다. 유의한 차이가 있는 조건이 존재한다면, 저자의 의견(분리)이 지지된다.
v1 판정 수정
- v1 C3: “두 모델이 동일 프레임워크에서 동일 training pipeline으로 학습됨 → ‘distinct architectures’ 비교가 사실상 무효” → CRITICAL
- v2 C3 수정: “두 모델의 attention 아키텍처(SE vs. Transformer)는 실질적으로 다르며, 분리 비교는 타당하다. 그러나 training pipeline 공유로 인해 ‘distinct architectures’가 아닌 ‘controlled architectural comparison within shared training’으로 재프레이밍해야 한다. Savchenko 귀속 오류(실제 개발자 미인용)는 여전히 수정 필요” → MAJOR로 하향 (재프레이밍 + 정확한 인용으로 해결 가능)
V2.4 Grad-CAM 분석의 전략적 활용
저자 컨텍스트
“원인 분석용으로 이미 4,320개 Grad-CAM 시각화를 생성 완료했다(gradcam.ipynb). 그러나 글을 쓰는데 아직 사용하지 않았다.”
기존 자산의 가치 평가
GRADCAM_ANALYSIS_REPORT.md 검토 결과, 이미 생성된 자산은 다음과 같다:
| 항목 | 수량 | 상태 |
|---|---|---|
| EmoNet Grad-CAM | 1,440개 | 생성 완료, target layer: conv4 |
| ENet-B0 Grad-CAM | 1,440개 | 생성 완료, target layer: encoder.blocks[-1] |
| MobileViT Grad-CAM | 1,440개 | 생성 완료, target layer: blocks[-1] |
| Total | 4,320개 | 3 models × 240 identities × 6 emotions |
| TensorBoard 로그 | 3개 | 모델별 학습/평가 메트릭 포함 |
| 파일 명명 규칙 | 체계적 | {Race}_{Gender}_{ID}_{Emotion}_{Model}_gradcam.png |
이것은 사용되지 않은 강력한 자산이다. CHI 리뷰어의 지적 3 (“Insufficient Exploration of Bias Causes”)에 대한 가장 직접적인 대응 도구가 이미 준비되어 있다.
”Bias 원인 탐색 부족” 비판에 대한 직접적 대응
v1 보고서 2.1절의 지적 3 판정에서, 리뷰어와 3개 에이전트 모두 “AffectNet 귀인에 대한 검증이 없다”를 핵심 문제로 지적했다. Grad-CAM 분석은 이 비판에 대해 다음의 구체적 답변을 제공할 수 있다:
| 질문 | Grad-CAM으로 답변 가능한 방법 |
|---|---|
| ”AI가 감정을 인식할 때 어디를 보는가?” | 감정별 aggregate heatmap으로 주시 영역(ROI) 식별 |
| ”남성/여성 얼굴에서 다른 영역을 보는가?” | 성별 × 감정 조건별 heatmap 비교 → 차별적 주시 패턴 검출 |
| ”Sadness에서 왜 인간과 불일치하는가?” | Sadness의 heatmap이 다른 감정과 겹치는 영역 분석 |
| ”인종별로 다른 특징에 의존하는가?” | 인종 × 감정 조건별 heatmap 비교 |
구체적 분석 계획
Phase 1: Aggregate Heatmap 생성 (필수, 즉시 가능)
6 emotions × 2 genders × 3 races × 3 models = 108개 aggregate heatmap
+ 6 emotions × 2 genders × 3 models = 36개 (race-collapsed) aggregate heatmap
+ 6 emotions × 3 models = 18개 (gender+race-collapsed) aggregate heatmap
각 조건에 해당하는 개별 Grad-CAM을 평균하여, 해당 조건에서 모델이 “일반적으로 어디를 보는가”를 시각화한다.
Phase 2: ROI 정량화 (권장)
Attention-IoU 방법(SegDebias, 2024; FaceSaliencyAug, 2024)을 적용:
- 얼굴을 의미론적 영역으로 분할 (눈, 코, 입, 이마, 볼 등)
- 각 Grad-CAM heatmap과 ROI의 IoU 산출
- 감정별 × 성별별 IoU 패턴 비교
이를 통해 “AI가 happiness 인식 시 입 영역에 88% 집중하지만, sadness 인식 시에는 눈(45%)과 입(30%)에 분산됨” 등의 정량적 발견이 가능하다.
Phase 3: Gender 차이 시각화 (강력 권장)
ΔHeatmap = Mean_Heatmap(Male) - Mean_Heatmap(Female)
이 차분 heatmap이 논문의 핵심 발견(“gender-dependent perception differences”)에 대한 시각적 증거를 제공한다.
Grad-CAM 해석 방법론 가이드: 5가지 접근법
Grad-CAM heatmap 4,320개를 어떻게 해석할 것인가는 단순히 “어디가 빨간가”를 넘어선 체계적 방법론이 필요하다. 아래 5가지 접근법을 계층적으로 조합하여 사용할 것을 권고한다.
방법 1: FACS Action Unit (AU) 기반 ROI 비교
핵심 아이디어: 각 감정에는 심리학적으로 기대되는 근육 활성화 패턴(AU)이 있다. Grad-CAM이 이 영역에 집중하는지 검증한다.
| 감정 | 기대 AU | 공간적 위치 |
|---|---|---|
| Happiness | AU6 (cheek raiser) + AU12 (lip corner puller) | 볼 + 입꼬리 |
| Sadness | AU1 (inner brow raiser) + AU4 (brow lowerer) + AU15 (lip corner depressor) | 눈썹 안쪽 + 입꼬리 |
| Anger | AU4 + AU5 (upper lid raiser) + AU7 (lid tightener) + AU23/24 | 눈썹 + 눈 + 입술 |
| Fear | AU1 + AU2 (outer brow raiser) + AU4 + AU5 + AU20 (lip stretcher) | 눈썹 + 눈 + 입 |
| Surprise | AU1 + AU2 + AU5 + AU26 (jaw drop) | 눈썹 + 눈 + 턱 |
| Disgust | AU9 (nose wrinkler) + AU15 + AU16 (lower lip depressor) | 코 + 입 |
구현 방법:
- MediaPipe Face Mesh (468 landmarks) 또는 dlib (68 landmarks)로 얼굴 영역 분할
- 각 AU에 해당하는 spatial ROI를 landmark 기반으로 정의
- Energy-Based Pointing Game 산출:
AU_score = Σ(Grad-CAM ∈ AU_region) / Σ(Grad-CAM ∈ entire_face) - 감정별로 기대 AU region에 에너지가 집중되는지 확인
해석 예시: “Happiness에서 ENet-B0은 AU12 영역(입꼬리)에 에너지의 72%를 집중하여 FACS 이론과 높은 일치를 보였으나, Sadness에서는 기대 AU(눈썹 + 입꼬리)에 35%만 집중하여 모델이 비표준 특징에 의존할 가능성을 시사한다.”
중요 한계: Gebele et al. (2025)에 따르면, ML 모델이 학습한 특징은 FACS 이론과 반드시 일치하지 않는다. AU 분석은 “모델이 심리학적으로 올바른 곳을 보는가”를 검증하는 도구이지, 불일치가 곧 오류를 의미하지는 않는다. 모델이 FACS 외 영역에서 진단적 정보를 추출할 수 있다.
방법 2: Semantic Face Region 7분할 정량화
핵심 아이디어: 얼굴을 7개 의미론적 영역으로 나누고, 각 영역의 attention 비율을 정량화한다. AU보다 해석이 단순하고 시각화에 적합하다.
영역 정의 (MediaPipe 468 landmarks 기반):
┌─────────────────────┐
│ 이마 (Forehead) │
├───────┬─────┬───────┤
│ 왼눈 │ 코 │ 오른눈│
│(L-Eye)│(Nose)│(R-Eye)│
├───────┤ ├───────┤
│ 왼볼 │ │ 오른볼│
│(L-Chk)│ │(R-Chk)│
├───────┴─────┴───────┤
│ 입 (Mouth) │
└─────────────────────┘
정량화 방법:
# 각 영역별 attention 비율 산출
attention_dist = {}
for region_name, mask in region_masks.items():
attention_dist[region_name] = np.sum(gradcam * mask) / np.sum(gradcam)
# 결과 예: {'forehead': 0.05, 'left_eye': 0.18, 'right_eye': 0.17,
# 'nose': 0.12, 'mouth': 0.35, 'left_cheek': 0.07, 'right_cheek': 0.06}활용: 감정별 × 성별별 attention distribution을 stacked bar chart로 시각화하면, “AI가 남성 anger에서는 눈 영역에 42% 집중하지만 여성 anger에서는 입 영역에 38% 집중한다”와 같은 정량적 발견이 가능하다.
방법 3: 인간 시선 패턴(Eye-Tracking)과의 비교
핵심 아이디어: 심리학 문헌에서 인간이 감정 인식 시 어디를 보는지는 잘 연구되어 있다. Grad-CAM과 인간 시선 패턴의 일치도를 측정하면 “AI가 인간과 유사하게 판단하는가”를 직접적으로 평가할 수 있다.
인간 시선 패턴 (eye-tracking 문헌 종합):
| 감정 | 인간의 주요 주시 영역 | 특성 | 참고문헌 |
|---|---|---|---|
| Happiness | 입 (초기 + 지속적) | 입이 가장 먼저, 가장 오래 주시됨 | Calvo & Nummenmaa (2008) |
| Sadness | 눈 (지속적) | 눈 영역이 연장된 주시 시간을 받음 | Eisenbarth & Alpers (2011) |
| Anger | 눈 (초기 + 지속적) | 눈을 가장 먼저, 가장 오래 주시 | Calvo & Nummenmaa (2008) |
| Fear | 눈 + 입 (균형적) | 두 영역에 균형 있게 분산 | Schurgin et al. (2014) |
| Surprise | 눈 + 입 (균형적) | 두 영역 모두 주의를 끔 | Eisenbarth & Alpers (2011) |
| Disgust | 코/볼 (초기) | 코 주름 영역이 초기 주시를 받음 | Calvo & Nummenmaa (2008) |
비교 방법:
- 인간 시선 패턴을 7분할 영역의 “기대 attention 분포”로 변환
- Grad-CAM의 7분할 attention 분포와 Spearman 순위 상관 산출
- 감정별로 “인간-AI attention 일치도” 보고
해석 예시: “Happiness에서 세 모델 모두 인간과 유사하게 입 영역에 최고 attention을 보였으나(ρ = 0.89), Sadness에서는 인간(눈 중심)과 AI(분산적) 간 attention 패턴 불일치가 크게 나타났다(ρ = 0.31). 이 불일치가 Sadness에서의 낮은 Human-AI agreement를 부분적으로 설명할 수 있다.”
문화적 고려사항: 서양인은 얼굴 전체를 스캔하되 눈 우세, 동아시아인은 눈 영역에 강하게 집중하는 경향이 있다 (Blais et al., 2008). 본 연구의 인간 참여자가 한국인이므로, 동아시아인 시선 패턴 문헌을 우선 참조해야 한다.
방법 4: Cross-Demographic 통계적 비교 (Bias Detection)
핵심 아이디어: 동일 감정에 대해 남성/여성 (또는 인종별) 얼굴의 Grad-CAM 패턴이 통계적으로 유의하게 다른지 검정한다. 이것이 “AI의 gender bias 원인”에 대한 가장 직접적인 증거이다.
검정 방법 3가지:
| 방법 | 측정 대상 | 장점 | 적합한 상황 |
|---|---|---|---|
| Permutation test + Wasserstein distance | 두 heatmap 분포의 공간적 거리 | 비모수적, 공간 구조 반영, 강건함 | 1차 분석 (권장) |
| Bootstrap CI + 영역별 attention 차이 | 각 영역에서 남성-여성 attention 비율 차이 | 해석 용이, 영역별 결론 가능 | 2차 분석 (시각화용) |
| KL divergence (Jensen-Shannon) | 두 attention 분포의 정보론적 거리 | 분포 차이에 민감 | 보조 지표 |
Permutation test 절차:
1. 각 (모델, 감정) 조합에서 Male/Female heatmap 분리
2. Mean_Male, Mean_Female heatmap 산출
3. Wasserstein distance(Mean_Male, Mean_Female) = D_obs
4. Male/Female 라벨을 10,000번 무작위 셔플하여 null distribution 생성
5. p = P(D_null ≥ D_obs)
6. 유의수준: p < 0.05 (Bonferroni 보정 적용: 6 emotions × 3 models = 18 tests → α = 0.0028)
결과 표 형식 예시:
| Model | Emotion | W-distance | p-value | 유의 영역 (Male > Female) | 유의 영역 (Female > Male) |
|---|---|---|---|---|---|
| ENet-B0 | Happiness | 0.142 | 0.001** | Eyes (+12%) | Mouth (+8%) |
| MobileViT | Sadness | 0.089 | 0.034* | Forehead (+5%) | — |
| … | … | … | … | … | … |
이 표는 “어떤 감정에서, 어떤 모델이, 어떤 얼굴 영역에서 gender-biased attention을 보이는가”를 한눈에 보여준다.
방법 5: ΔHeatmap + Aggregate 시각화
핵심 아이디어: 방법 1-4의 정량적 결과를 시각적으로 전달하는 최종 산출물이다.
3가지 핵심 시각화:
A. Emotion × Gender Aggregate Heatmap Grid (Figure용)
Happiness Sadness Anger Fear Surprise Disgust
Male Face: [heatmap] [heatmap] [heatmap] [heatmap] [heatmap] [heatmap]
Female Face: [heatmap] [heatmap] [heatmap] [heatmap] [heatmap] [heatmap]
ΔDifference: [diff map] [diff map][diff map][diff map][diff map][diff map]
→ 3행 × 6열 = 18 패널. Poster에 가장 적합한 형태.
B. Region Attention Bar Chart (정량적 비교용)
각 감정에 대해 7개 영역의 Male vs. Female attention 비율을 grouped bar chart로 표시. Bootstrap 95% CI를 error bar로 포함.
C. Human-AI Attention Alignment Radar Chart (종합 비교용)
7개 영역을 축으로 하는 radar chart에 Human 기대치, ENet-B0, MobileViT를 겹쳐 그린다. 감정별로 1개씩 생성.
방법론 선택 가이드: Venue별 권장 조합
| Venue | 권장 방법 조합 | 근거 |
|---|---|---|
| CHI Poster (6pp) | 방법 2 (7분할 정량화) + 방법 5A (ΔHeatmap grid) | 공간 제약, 시각적 임팩트 우선 |
| CHI LBW (4pp) | 방법 2 + 방법 4 (permutation test) + 방법 5A | 통계적 근거 + 시각화 |
| CHI Full Paper | 방법 1-5 전체 | 포괄적 분석 가능 |
| ACII / FG | 방법 1 (AU 기반) + 방법 4 + 방법 5 | CV 커뮤니티에서 AU 분석 중시 |
최소 권장 조합 (어떤 venue든): 방법 2 + 방법 4 + 방법 5A
- 방법 2: 정량적 근거 (어디를 보는가)
- 방법 4: 통계적 근거 (성별 차이가 유의한가)
- 방법 5A: 시각적 전달 (한눈에 보이는가)
2024-2025 문헌에서의 Grad-CAM 활용 트렌드
| 참고문헌 | 기여 | 관련성 |
|---|---|---|
| Gebele et al. (2025), Springer | Grad-CAM으로 FER 모델의 감정 해석, 인간 연구로 시각화 효과 검증 | 직접 관련 — 동일 방법론 |
| FaceSaliencyAug (2024), SIVP | Grad-CAM saliency map 기반 데이터 augmentation으로 gender bias 완화 | Bias 탐지 방법론 참조 가능 |
| Dominguez-Catena et al. (2024), TPAMI | FER 데이터셋 demographic bias 측정 메트릭 체계화 | 정량적 bias 측정 프레임워크 |
| SegDebias (2024), arXiv | Attention-IoU로 ViT 기반 모델의 demographic fairness 정량화 | IoU 기반 ROI 분석 방법론 |
| XAI for Bias Detection (2024), ESWA | Grad-CAM + SHAP + LIME 다층 설명으로 bias 탐지 | 다중 XAI 방법론 통합 접근 |
| Are Explainability Tools Gender Biased? (2023), arXiv | Grad-CAM 자체가 성별 편향을 보일 수 있음 — 설명 품질이 인구통계에 따라 다를 수 있다는 경고 | 해석 시 한계 기술에 필수 인용 |
| Faces of Fairness (2025), arXiv | FER 데이터셋 + 모델 수준 bias 체계적 평가, 범용 모델이 높은 정확도와 높은 bias를 동시 표출 | 모델 bias 논의의 최신 맥락 |
| Feature-level Bias Evaluation (2025), arXiv | 특징 수준 bias 평가 프레임워크 — 모델이 인구통계별로 다른 특징에 의존하는지 분석 | 방법 4의 이론적 근거 |
| Calvo & Nummenmaa (2008), Cognition & Emotion | 감정별 인간 시선 고정 패턴 — happiness→입, anger/sadness→눈 | 방법 3의 핵심 참조 |
| Eisenbarth & Alpers (2011), PLOS ONE | 감정 인식 시 시선 역학 — 시간적 주시 패턴 제공 | 방법 3의 시간적 패턴 근거 |
Venue별 통합 방안
| Venue 형식 | 본문 포함 | 보충자료 | 권장 방법 조합 |
|---|---|---|---|
| CHI Poster (6pp) | ΔHeatmap grid 1개 (방법 5A) + 7분할 attention 표 1개 | 전체 aggregate heatmap, permutation test 결과 | 방법 2+4+5A |
| CHI LBW (4pp) | ΔHeatmap 1개 + permutation test p-value 표 | 영역별 bar chart, Human 비교 radar | 방법 2+4+5A |
| Full Paper | Phase 1-3 + 방법 1-5 전체 + “Interpretability Analysis” 섹션 | AU 상세 분석, 인종별 비교 | 방법 1-5 전체 |
| ACII / FG | AU 기반 ROI 분석 + permutation test | Semantic region 보조 분석 | 방법 1+4+5 |
| Workshop | 대표 ΔHeatmap 1개 + 핵심 통계 1문장 | — | 방법 5A만 |
저자에 대한 강력 권고
Grad-CAM 분석을 사용하지 않은 것은 이 논문의 가장 큰 기회 손실이다.
4,320개의 시각화가 이미 생성되어 있고, aggregate heatmap 생성은 추가 실험 없이 가능하며, 이것이 리뷰어의 가장 직접적인 비판(“Insufficient Exploration of Bias Causes”)에 대한 답변이 된다. Phase 1 (aggregate heatmap) 만으로도 논문의 기여도를 유의미하게 높일 수 있다.
V2.5 수정된 개선 우선순위
v1의 4.5절 우선순위를 저자 컨텍스트를 반영하여 업데이트한다.
v1 → v2 변경사항 요약
| 항목 | v1 판정 | v2 수정 | 변경 사유 |
|---|---|---|---|
| Spearman 선택 (C1) | CRITICAL (부적절) | CRITICAL (근거 미기술 + CCC 누락) | 척도 차이는 유효한 근거이나, 논문에 기술되지 않음 |
| 자극 검증 (C2) | CRITICAL | CRITICAL → 보강 시 MAJOR | 별도 DB 논문 전략은 합리적; 최소 1문장 validation 필요 |
| 아키텍처 비교 (C3) | CRITICAL (무효) | MAJOR (재프레이밍 필요) | SE vs. Transformer attention은 실질적 차이. v1이 과도하게 단순화 |
| Grad-CAM 활용 | 미언급 | 새로 추가: 높은 우선순위 | 이미 4,320개 생성 완료, 즉시 활용 가능한 강력한 자산 |
수정된 우선순위
[최우선 — 재투고 전 필수]
A1-A8 (형식 수정)
+ B1 (z-score 정규화 후 CCC 산출) ← Methods에 척도 차이 근거 기술
+ B3 (다중비교 보정)
+ Grad-CAM Phase 1 (aggregate heatmap 생성) ← 신규 추가
+ C3 재프레이밍 ("controlled architectural comparison")
+ Savchenko 정확한 인용 (A4)
→ 이것만으로 CHI LBW / HCI Korea / ACII Workshop 재투고 가능
[중요 — CHI Poster 수준 도달]
+ Grad-CAM Phase 2-3 (ROI 정량화, gender 차이 시각화) ← 신규 추가
+ Fisher z-test (모델 간 상관 차이 검정 + 성별 간 차이 검정) ← 구체화
+ B2 (inter-rater reliability)
+ 자극 validation 최소 1문장 (pilot 결과 또는 confusion matrix 활용) ← 완화
→ CHI 2027 Poster / ACII Full Paper 수준
[이상적 — Full Paper 수준 도달]
+ C1 (모델 확장: 최소 3-5개 추가)
+ C2 (독립 자극 validation 연구)
+ C3-C5 (AffectNet 분석, real face control, mixed-effects)
→ IJHCS / IEEE TAC / Frontiers in Psychology 수준
v1 대비 핵심 변화
- Grad-CAM이 최우선 순위에 추가됨: 추가 데이터 수집 없이 즉시 활용 가능한 가장 효율적인 개선
- 자극 validation의 부담 완화: 별도 DB 논문이 있으므로, CHI 논문에는 최소 1문장 + supplementary로 충분
- 아키텍처 비교의 심각도 하향: 재프레이밍만으로 CRITICAL → MAJOR로 해결 가능
- 통계 보강의 구체적 방법 제시: “CCC를 추가하라”에서 “z-score 정규화 후 CCC 산출, Methods에 척도 차이 근거 기술”로 구체화
V2.6 종합: v1 + v2 통합 판정
| # | 이슈 | v1 심각도 | v2 심각도 | 해결 난이도 | 비고 |
|---|---|---|---|---|---|
| C1 | 통계 방법론 (Spearman only) | CRITICAL | CRITICAL | 낮음 | z-score + CCC 추가, 기존 데이터로 가능 |
| C2 | 자극 타당성 미검증 | CRITICAL | CRITICAL→MAJOR* | 낮음 | *최소 1문장 validation 포함 시 |
| C3 | 아키텍처 비교 프레이밍 | CRITICAL | MAJOR | 낮음 | 재프레이밍 + Savchenko 인용으로 해결 |
| C4 | Hess et al. 인용 오독 | CRITICAL | CRITICAL | 낮음 | 인용 내용 수정 |
| N— | Grad-CAM 미활용 | 미평가 | MAJOR | 낮음 | 이미 4,320개 생성 완료, aggregate만 필요 |
| M1 | 모델 수 부족 (N=2) | MAJOR | MAJOR | 중간 | 모델 확장은 중기 과제 |
| M2 | 다중비교 보정 미적용 | MAJOR | MAJOR | 낮음 | BH-FDR 적용 |
| M3 | Sadness paradox 과대 해석 | MAJOR | MAJOR | 낮음 | 용어 완화 + 대안 설명 추가 |
v2 결론: v1에서 4건의 CRITICAL 문제 중 C3이 MAJOR로 하향되어, 실질적 CRITICAL은 3건(C1, C2, C4)이다. 이 중 C1과 C4는 해결 난이도가 낮고(기존 데이터 + 텍스트 수정), C2는 별도 DB 논문과 연계하여 최소 검증으로 완화 가능하다. Grad-CAM 활용을 추가하면, 리뷰어 지적의 직접적 해소 + 논문 기여도 향상이라는 이중 효과를 얻을 수 있다.
v2 한줄 평: 저자 컨텍스트를 반영하면, v1의 일부 판정이 과도하게 단순화되었음을 인정한다. 특히 두 모델의 아키텍처 차이(SE vs. Transformer attention)는 실질적이며, Spearman 선택도 부분적으로 합리적이었다. 그러나 이러한 합리적 판단들이 논문에 기술되지 않았다는 것이 핵심 문제이다. 가장 큰 기회 손실은 이미 생성된 4,320개 Grad-CAM 시각화를 활용하지 않은 것이며, 이를 aggregate heatmap으로 통합하는 것만으로도 “bias 원인 탐색 부족”이라는 핵심 비판에 대한 직접적 답변이 된다. 기존 데이터와 자산만으로 실현 가능한 개선의 폭이 v1 예상보다 넓다.