CHI26 Manuscript & Review 종합 평가 보고서

논문: “Facial Emotion Perception Similarity and Gender Bias: Comparing Humans and AI in Detection and Rating Performance”
저자: Jini Tae, Ju-Hyeon Park, Wonil Choi (GIST)
제출: CHI 2026 Poster Track | 결과: Desk-Reject
평가일: 2026-02-14
평가 방법: 3개 독립 전문 에이전트 병렬 분석 + 리뷰 타당성 교차 검증


목차

  1. 논문 독립 평가
  2. 리뷰 타당성 평가
  3. Desk-Reject 판정의 적절성
  4. 개선 권고사항

1. 논문 독립 평가

1.1 평가 에이전트 개요

에이전트관점종합 평점
Ruthless Paper Reviewer전반적 학술 품질, novelty, CHI venue 적합성4.5 / 10
Cognitive Psychology Reviewer실험 설계, Circumplex Model, 통계 방법론, 심리학적 타당성3.6 / 10
AI/ML Reviewer모델 선택, 벤치마크 방법론, 기술적 깊이3.0 / 10
가중 평균3.7 / 10

1.2 에이전트 간 수렴 분석

3개 에이전트가 완전히 독립적으로 도출한 결론들이 수렴하는 지점을 정리한다. 수렴도가 높을수록 해당 문제의 객관성이 높다.

완전 수렴 (3/3 에이전트 동의) — 객관적 결함

#수렴 포인트RuthlessCogPsychAI/ML
1Spearman correlation ≠ Agreement: ICC/CCC를 사용해야 함C1C2C3
2AI 생성 자극의 표정 품질 미검증: construct validity 위협C2C1Domain shift
32개 모델로 “AI” 일반화 불가: 모델 수 부족M1M3C2
4”Sadness paradox” 과대 해석: 대안 설명 미검토M3C4M2
5다중비교 보정 미적용: 36+ tests without correctionM2체크리스트C3
6AffectNet 귀인이 검증되지 않은 추론: 인과 근거 부재Claim 분석Claim 4Claim 4

부분 수렴 (2/3 에이전트 동의)

#수렴 포인트동의 에이전트
7모델 귀속(attribution) 오류: Savchenko 미인용Ruthless, AI/ML
8Inter-rater reliability 미보고CogPsych, AI/ML
9핵심 참고문헌 다수 누락 (Hu & Kollias 2024, Dominguez-Catena 2025 등)Ruthless, AI/ML
10Effect size / 정확한 통계량(CI, df, exact p) 미보고Ruthless, CogPsych

개별 에이전트 고유 발견

에이전트고유 발견
CogPsychHess et al. (2004) 인용 오독 — 원 논문은 stereotype 확인이 아니라 역전을 보여줌
CogPsych사전 예측(a priori predictions)의 완전 부재 — 탐색적 연구임도 명시하지 않음
CogPsych”Ecological validity”와 “experimental control” 개념 혼동
AI/ML두 모델이 동일 프레임워크(EmotiEffLib/HSEmotion, Savchenko)에서 동일 training pipeline으로 학습됨 — “distinct architectures” 비교가 사실상 backbone 변이 비교
AI/MLCCC가 VA estimation의 de facto standard (ABAW 2020-2025)인데 전혀 사용되지 않음
AI/MLSpearman rho를 (p)로 표기하는 notation 오류 — p-value와의 혼동 유발
Ruthless합성 얼굴의 fear/disgust 인식률이 3-14%까지 낮을 수 있다는 선행연구 (PAGE test, 2025)

1.3 논문의 강점 (3개 에이전트 공통 인정)

  1. 대규모 인간 표본: N=1,000, 성별/연령 균형 배분, 각 이미지당 50개 독립 평정 — 3개 에이전트 모두 “인상적”으로 평가
  2. 체계적 자극 설계: 240 identities × 6 emotions × 2 genders × 3 races — 균형 잡힌 factorial design
  3. 연구 질문의 사회적 의미: AI 감정 인식의 공정성 문제는 HCI 분야에서 중요한 주제
  4. IRB 승인: 윤리적 절차 준수
  5. Figure 시각화: Heatmap (Figure 2B, 3B)은 효과적인 결과 전달

1.4 논문의 핵심 약점 (심각도순)

CRITICAL — 결과 해석의 기반을 흔드는 문제

C1. 통계 분석의 근본적 부적절성 (3/3 수렴)

  • Spearman correlation은 association을 측정하지, agreement를 측정하지 않음
  • AI가 인간보다 체계적으로 2점 높게 평정해도 rho = 1.0 가능 — 이것이 “alignment”인가?
  • 필요한 대안: ICC(2,k), CCC (Concordance Correlation Coefficient), Bland-Altman plot
  • ABAW competition (2020-2025)에서 CCC는 VA estimation의 표준 metric

C2. AI 생성 자극의 타당성 미검증 (3/3 수렴)

  • GIST-AIFaceDB의 감정 표현이 해당 감정을 정확히 대표하는지 검증 없음
  • 선행연구(PAGE test 2025)에 따르면 AI-generated face의 감정 인식률은 fear 3%, disgust 14%까지 낮아질 수 있음
  • Two-step pipeline (neutral base → emotional editing)의 표정이 자연스러운 AU 패턴에 기반하는지 불명확
  • “Sadness paradox”가 자극 artifact일 가능성을 배제할 수 없음
  • 논문이 “high ecological validity”를 주장하지만, AI 생성 얼굴은 experimental control을 높이는 것이지 ecological validity를 높이는 것이 아님 (CogPsych 에이전트 지적)

C3. 모델 귀속(Attribution) 오류 (2/3 수렴, AI/ML 에이전트 핵심 발견)

  • enet_b0_8_va_mtl을 Tan & Le (2019)로 인용했으나, 이는 EfficientNet backbone 논문일 뿐
  • 실제 모델은 Savchenko (CVPR Workshop 2023, ECCV Workshop 2022)의 EmotiEffLib 프레임워크에서 개발
  • MobileViT 모델도 마찬가지: Mehta & Rastegari (2021)는 architecture 논문이고, VA estimation 모델은 Savchenko의 fine-tuned checkpoint
  • 두 모델이 동일 프레임워크에서 동일 training pipeline (VGGFace2 → AffectNet MTL)으로 학습됨
  • 따라서 “distinct computational architectures” 비교라는 주장이 사실상 무효

C4. Hess et al. (2004) 인용 오독 (CogPsych 에이전트 고유 발견)

  • 논문은 Hess et al.을 “male faces = anger, female faces = happiness/sadness” stereotype 확인으로 인용
  • 그러나 원 논문의 핵심 발견은 facial morphology를 통제했을 때 이 stereotype가 역전된다는 것
  • Introduction의 이론적 논거가 근본적으로 약화됨

MAJOR — 반드시 수정 필요하지만 극복 가능

#문제수렴도
M12개 lightweight 모델만으로 “AI”를 대표하는 과도한 일반화3/3
M2다중비교 보정 미적용 (36+ tests, familywise error 팽창)3/3
M3”Sadness paradox”의 대안 설명 미검토 (range restriction, 개념 정의 불일치, 자극 artifact)3/3
M4Inter-rater reliability 미보고 (50명 평정의 신뢰성 검증 없음)2/3
M5핵심 참고문헌 다수 누락 (Savchenko, Hu & Kollias, Dominguez-Catena 등)2/3
M6사전 예측(hypothesis) 부재 — 탐색적 연구임도 명시하지 않음CogPsych
M7Domain shift 미검토 (AffectNet 학습 모델 → AI-generated face 테스트)AI/ML
M8Wang et al. (2024) 불완전 인용 (제목, venue, DOI 전부 누락)3/3

2. 리뷰 타당성 평가

CHI26 리뷰의 각 지적사항을 3개 에이전트의 독립 분석 결과와 교차 검증한다.

2.1 리뷰 지적사항별 판정

지적 1: “Static Stimulus Materials” — 외적 타당도 제한

“Using only static facial images fails to encompass dynamic and multimodal emotional expressions in real-world interactions, potentially affecting external validity.”

판정: 부분적으로 타당 ⚠️

측면평가
타당한 부분정적 자극이 동적 상호작용의 복잡성을 포착하지 못한다는 지적 자체는 맞음
과소 평가리뷰어가 더 심각한 문제를 놓침 — 자극이 “정적”인 것보다 **“AI 생성 표정의 품질이 미검증”**인 것이 더 근본적 문제
맥락 부족CHI poster (6pp) 형식에서 동적 자극까지 요구하는 것은 과도할 수 있으나, AI 생성 자극의 validation은 반드시 필요
에이전트 근거3/3 에이전트가 자극 validation 부재를 Critical로 판정. Ruthless: “합성 얼굴의 fear 인식률 3%”, CogPsych: “FACS AU 코딩 미수행”, AI/ML: “domain shift 미검토”

종합: 리뷰어의 방향은 맞지만, 더 핵심적인 문제를 빗나감. “동적 자극이 아니라서 문제”가 아니라 “검증되지 않은 합성 자극이라서 문제”가 더 정확한 진단.


지적 2: “Limited Model Selection” — 2개 모델의 대표성 부족

“Testing only two lightweight models does not cover a wider range of AI architectures, potentially limiting the representativeness of the conclusions.”

판정: 타당 ✅ (사실 리뷰어가 인지한 것보다 더 심각)

측면평가
타당한 부분2개 모델이 AI 전반을 대표하지 못한다는 지적은 정확
과소 평가리뷰어가 놓친 더 심각한 문제: 두 모델이 동일 프레임워크(Savchenko의 EmotiEffLib)에서 동일 training pipeline으로 학습되었으므로, 실질적으로 backbone 변이 비교에 불과
에이전트 근거AI/ML(C2): “N=2 실험에서 population-level 결론을 내리는 것과 같다”. 최소 5개 모델(다른 training data, 다른 규모, 다른 paradigm) 필요

종합: 리뷰어의 지적이 완전히 타당하며, 실제로는 리뷰어가 인지한 것보다 더 심각한 문제. AI/ML 에이전트가 밝힌 “동일 training pipeline” 사실이 이 문제를 Critical 수준으로 격상시킴.


지적 3: “Insufficient Exploration of Bias Causes”

“While pointing out the limitations of training data (such as AffectNet), no further specific data optimization or model correction strategies are proposed.”

판정: 타당 ✅

측면평가
타당한 부분AffectNet 귀인에 대한 검증이 없다는 방향은 정확
보완 필요리뷰어는 “mitigation strategy 부재”에 초점을 맞추었으나, 더 근본적 문제는 원인 추론 자체가 검증 불가라는 점
에이전트 근거3/3 에이전트가 AffectNet 귀인의 논리적 취약성을 지적. CogPsych: “다른 감정에서도 동일 문제가 나타나야 하지 않는가?”, AI/ML: “AffectNet sadness arousal 분포 분석 필요”, Ruthless: “다른 training data 모델과의 비교 필요”

종합: 리뷰어의 지적이 타당하나, 문제의 본질을 약간 빗나감. “해결책이 없다”보다 “원인 진단 자체가 검증되지 않았다”가 더 정확.


지적 4: “Incorrect Citation Format”

“Incorrect Citation Format.”

판정: 타당하지만 피상적 ⚠️

측면평가
타당한 부분ACM citation format 미준수는 사실
과소 평가형식 문제보다 더 심각한 내용적 인용 문제가 있음: (1) enet_b0_8_va_mtl의 실제 개발자(Savchenko) 미인용 — 모델 귀속 오류, (2) Hess et al. (2004) 결론 오독, (3) Wang et al. (2024) 불완전 인용 (제목/venue/DOI 전무)
에이전트 근거AI/ML: “저자들이 자신이 사용하는 모델의 실제 출처와 training procedure를 파악하지 못했다”. CogPsych: “Hess et al. 인용이 원 논문과 정반대”

종합: 리뷰어가 “형식 오류”로만 지적한 것은 아쉬움. 실제로는 형식보다 심각한 인용 내용의 오류(귀속 오류, 오독)가 존재.


지적 5: “Anonymous Submission Requirements Not Met”

“The manuscript did not meet the requirements for anonymous submission.”

판정: 타당 ✅ (Desk-Reject의 정당한 사유)

측면평가
타당한 부분CHI 2026은 mutually anonymous review 요구. 익명성 미준수는 규정적 위반
에이전트 근거Ruthless(C3): “규정적 문제이며, 연구의 질과 무관하게 desk reject의 정당한 사유”. 이것은 완전히 회피 가능한 문제

종합: 절차적으로 완전히 타당한 지적. 이것만으로도 desk-reject의 충분 조건.


2.2 리뷰어가 놓친 중요한 문제점 (누락된 지적)

3개 에이전트가 독립적으로 발견했으나 CHI26 리뷰어가 지적하지 않은 문제들:

#누락된 지적심각도수렴도설명
N1Correlation ≠ AgreementCRITICAL3/3Spearman은 association 측정, agreement 측정 아님. ICC/CCC 필요. 결과 해석의 기반 자체가 흔들림
N2합성 자극 품질 미검증CRITICAL3/3리뷰어는 “정적”만 지적. 더 근본적으로 AI가 생성한 표정이 해당 감정을 대표하는지 검증 없음
N3모델 귀속 오류CRITICAL2/3Savchenko 모델을 backbone 논문으로만 인용. 실제 training pipeline 파악 실패
N4Hess et al. (2004) 오독CRITICAL1/3이론적 배경의 핵심 인용이 원 논문과 정반대로 기술됨
N5다중비교 보정 미적용MAJOR3/336+ statistical tests without correction
N6Inter-rater reliability 미보고MAJOR2/350명 평정의 신뢰성이 감정 범주별로 검증되지 않음
N7Domain shift 미분석MAJOR1/3Real-face-trained 모델을 synthetic face에 적용하면서 gap 미검토
N8”Sadness paradox” 대안 설명 부재MAJOR3/3Range restriction, 개념 정의 불일치, 자극 artifact 등 최소 3가지 대안

2.3 리뷰 품질 종합 평가

평가 항목등급설명
정확성B-지적한 내용은 대부분 맞으나, 표면적 수준에 머무름
포괄성D+가장 심각한 문제(통계 방법론, 자극 validation, 모델 귀속)를 모두 놓침
건설성C+“Future work” 제안은 있으나 구체성 부족. 개선 방향이 모호
깊이D방법론적 근본 문제에 대한 분석 없이 표면적 한계만 나열
공정성B장점(연구 설계, 응용 가치)을 인정한 점은 공정

리뷰 한계: 이 리뷰는 논문의 “무엇이 부족한가”를 일부 짚었으나, “왜 결과를 신뢰할 수 없는가”에 대한 근본적 분석이 결여되어 있다. 특히 통계 방법론(correlation ≠ agreement)과 자극 validity 문제는 결과 해석의 전제 조건이므로, 이를 놓친 것은 리뷰 품질의 심각한 한계.


3. Desk-Reject 판정의 적절성

3.1 절차적 관점

Desk-reject는 절차적으로 정당하다.

  • 익명 제출 요건 미충족: CHI 2026의 mutually anonymous review 정책 위반
  • 인용 형식 오류: ACM Reference Format 미준수
  • 이 두 가지는 submission requirement 위반이므로, desk-reject의 충분 조건

3.2 내용적 관점

형식 문제가 없었더라도 acceptance는 어려웠을 것으로 판단한다.

3개 에이전트의 독립 평가를 종합하면:

판단 근거에이전트 소견
통계 방법론Spearman correlation은 alignment/agreement를 측정하지 못함. 결과 해석의 기반이 무효화됨 (3/3 동의)
자극 타당성AI 생성 표정의 품질 미검증으로 모든 발견의 internal validity 의문 (3/3 동의)
모델 대표성동일 프레임워크 2개 모델로 “AI”를 일반화하는 것은 설득력 없음 (3/3 동의)
Novelty”Sadness paradox”는 이미 알려진 arousal annotation 문제의 재기술. Dominguez-Catena et al. (2025), Hu & Kollias (2024) 등이 더 체계적으로 유사 문제를 다룸

3.3 Desk-Reject vs. Major Revision 판단

시나리오판단
현 상태 그대로Desk-reject 정당 (형식 위반)
형식만 수정한 경우Reject (내용적 Critical 4건)
형식 + 통계 수정Major Revision 가능 (CCC 추가, ICC 보고, 다중비교 보정)
형식 + 통계 + 자극검증 + 모델확장Accept 가능 (사실상 새 논문 수준의 보강)

종합 의견: Desk-reject 판정 자체는 적절하나, 리뷰의 질이 저자에게 충분한 피드백을 제공하지 못했다. 리뷰어가 형식 문제와 일반적 한계에만 초점을 맞추어, 저자가 근본적 방법론 문제(통계, 자극, 모델 귀속)를 인지하지 못할 위험이 있다.


4. 개선 권고사항

4.1 즉시 수정 가능 (재투고 전 필수)

#항목예상 소요난이도
A1익명 제출 형식 준수 (anonymous template)1일낮음
A2ACM Reference Format으로 전체 인용 수정1일낮음
A3Wang et al. (2024) 완전 인용 또는 삭제1시간낮음
A4enet_b0_8_va_mtl → Savchenko (2022, 2023) 정확히 인용1일낮음
A5Hess et al. (2004) 인용 내용 수정 (원 논문의 실제 결론 반영)1일낮음
A6”Sadness paradox” → “sadness arousal divergence”로 용어 완화1시간낮음
A7Notation 수정: Spearman’s rho 표기 통일 (p → ρ_s)1시간낮음
A8오타 수정: “human dta” → “human data”, email 주소 .kr 누락 등1시간낮음

4.2 분석 보강 (기존 데이터로 가능)

#항목예상 소요영향도
B1ICC/CCC 산출: 각 감정 × 성별 조건에서 Human-AI agreement 재계산1주CRITICAL
B2Inter-rater reliability: 50명 평정의 ICC(2,1)을 감정 범주별 보고3일MAJOR
B3다중비교 보정: Benjamini-Hochberg FDR correction 적용2일MAJOR
B4Fisher z-test: Male vs. Female 상관계수 차이의 통계적 검정2일MAJOR
B5Effect size 보고: Cohen’s d 또는 MAE/RMSE 추가3일MAJOR
B6Human rating descriptive statistics: 감정/성별별 평균, SD, 분포2일MINOR
B7”Sadness paradox” 대안 설명 추가: Range restriction, 개념 정의 불일치, 자극 artifact를 Discussion에서 체계적으로 논의3일MAJOR

4.3 추가 실험/분석 필요 (새 데이터 수집)

#항목예상 소요영향도
C1AI 모델 확장: 최소 3-5개 추가 (다른 training data, 다른 규모, VLM 포함)2-4주CRITICAL
C2자극 validation: 독립 pilot study로 forced-choice emotion categorization 수행2-3주CRITICAL
C3AffectNet sadness arousal 분포 분석: Training data의 bias를 직접 검증1주MAJOR
C4Real face control condition: 동일 분석을 validated real face DB에서도 수행3-4주MAJOR
C5Mixed-effects model: Image/participant를 random effect로 포함하는 multilevel 분석2주MAJOR

4.4 추천 재투고 전략

단기 (4.1 + 4.2 수행 후)

순위Venue예상 결과비고
1CHI 2027 Late-Breaking Work가능Poster보다 exploratory 성격 허용
2ACII 2027 Workshop가능Affective computing 전문
3HCI Korea 2027높음Local venue, 기여 인정 가능성

중기 (4.1 + 4.2 + 4.3 수행 후)

순위Venue예상 결과비고
1CHI 2027 Poster보통-높음통계 보강 + 모델 확장 시
2ACII 2027 Full Paper보통CCC + 5개 모델 + domain shift 분석
3IEEE FG 2027보통얼굴 분석 전문 학회
4IJHCS낮음-보통Full paper로 확장 시
5Frontiers in Psychology보통Open-access, interdisciplinary

4.5 우선순위 요약

[최우선] A1-A8 (형식 수정) + B1 (CCC/ICC) + B3 (다중비교 보정)
   → 이것만으로 CHI LBW / HCI Korea 재투고 가능

[중요] C1 (모델 확장) + C2 (자극 validation) + B2 (inter-rater reliability)
   → CHI Poster / ACII 수준 도달

[이상적] C3-C5 (AffectNet 분석, real face control, mixed-effects)
   → Full paper (IJHCS, IEEE TAC) 수준 도달

부록: 에이전트별 상세 평점

A. Ruthless Paper Reviewer

항목점수비고
Novelty3.5”Sadness paradox”는 reframing 수준
Technical Soundness3.0Correlation ≠ Agreement; 자극 미검증
Experimental Rigor5.0N=1,000 강점, 그러나 분석 방법 부적절
Clarity & Writing4.5구조 양호, overclaiming과 불완전 인용
Significance & Impact4.0관찰 보고 수준; 메커니즘 미제시
Reproducibility3.0DB 미공개; 생성 파이프라인 상세 부족
종합4.5/10

B. Cognitive Psychology Reviewer

항목점수비고
Technical Novelty3.5AI-generated face DB는 참신, 분석은 기본적
Conceptual Novelty3.0”Sadness paradox”는 포장; 이론적 기여 미약
Technical Soundness2.5통계 근본적 부적절, 자극 미검증
Experimental Rigor4.0표본 규모 긍정적, 핵심 통제 누락
Logical Coherence3.0이론→예측 단절, 인용 오독
Clarity & Writing5.5Figure 효과적, 통계 보고 불완전
Significance & Impact3.5HCI 함의 있으나 과대 해석
Reproducibility4.0자극 DB 공개 예정, 코드 미언급
종합3.6/10

C. AI/ML Reviewer

항목점수비고
Technical Novelty2.0Inference-only, 새 method 없음
Conceptual Novelty3.5Gender-stratified VA는 약간의 관점 기여
Technical Soundness2.5모델 귀속 오류, CCC 미사용, domain shift 무시
Experimental Rigor3.0Human data 우수, AI 분석 불충분
Logical Coherence3.0다수의 논리적 비약
Clarity & Writing4.5구조 양호, notation/인용 오류
Significance & Impact3.5Human benchmark 가치 있으나 AI 분석이 제한
Reproducibility2.0모델 출처 불명확, 코드 미공개
종합3.0/10

최종 한줄 평: 1,000명 규모의 대규모 인간 벤치마크 데이터라는 인상적인 인프라를 갖추었으나, 검증되지 않은 합성 자극, 동일 프레임워크의 모델 2개만으로의 과도한 일반화, agreement가 아닌 association만 측정하는 통계 방법, 그리고 핵심 인용의 오독이 결합되어 — 데이터 수집은 훌륭하나 분석과 해석이 이를 따라가지 못하는 논문이다. 리뷰 역시 형식적 문제에만 초점을 맞추어 근본적 방법론 문제를 놓쳤다. 그러나 기존 데이터를 활용한 통계 보강(CCC, ICC, 다중비교 보정)과 모델 확장만으로도 유의미한 개선이 가능하며, CHI 2027 또는 ACII 재투고가 현실적 목표이다.


V2 Addendum: 저자 컨텍스트 반영 추가 분석 (2026-02-14)

배경: v1 보고서 완성 후, 제1저자(Park)가 4가지 추가 컨텍스트를 제공했다. 이를 반영하여 v1의 일부 판정을 보완·수정하고, 구체적 revision 전략을 추가한다. v1의 전체적 평가 기조(3.7/10)는 유지하되, 저자 컨텍스트를 반영한 nuanced 분석을 제공한다.


V2.1 Spearman 선택의 전략적 기술 방안

저자 컨텍스트

“AI 모델은 -11 연속값, 인간 평정은 19 Likert 척도를 사용한다. 척도가 근본적으로 다르므로 ICC 적용이 어렵다고 판단하여 Spearman을 선택했다.”

평가

저자의 판단은 부분적으로 타당하다. 그러나 현 manuscript에는 이 근거가 전혀 기술되어 있지 않아, 리뷰어가 “왜 ICC/CCC가 아닌가?”라는 의문을 제기할 수밖에 없다.

측면평가
타당한 부분Spearman은 rank-based이므로 척도 차이에 본질적으로 강건하다. AI(-11)와 Human(19)처럼 원 척도가 다를 때, 변환 없이 순서적 관계(monotonic relationship)를 평가할 수 있다는 점은 정당한 근거
불충분한 부분Spearman은 association(연관)을 측정하지, agreement(일치)를 측정하지 않는다는 v1의 핵심 비판은 여전히 유효. 리뷰어는 “높은 Spearman = 높은 alignment”라는 논문의 해석을 문제 삼을 것
해결 가능성z-score 정규화 후 CCC 산출이 표준 해법. ABAW competition(2020-2025)에서 CCC는 VA estimation의 de facto standard metric (Kollias et al., 2024)

구체적 revision 전략

1. Methods 섹션에 추가할 내용:

“AI models output continuous valence-arousal predictions in [-1, 1], while human raters used a 9-point Likert scale (1-9). Due to this fundamental scale mismatch, we employed Spearman’s rank correlation (ρ) to assess monotonic relationships independent of scale (Spearman, 1904). Additionally, we applied z-score normalization to both scales and computed Lin’s Concordance Correlation Coefficient (CCC; Lin, 1989) to evaluate absolute agreement, following the standard evaluation protocol of the ABAW competition (Kollias et al., 2024).”

2. Results 섹션 보강:

  • Spearman ρ (현재 보고)와 CCC (추가) 를 병행 보고
  • 해석 기준: CCC < 0.3 = poor, 0.3-0.5 = fair, 0.5-0.7 = moderate, > 0.7 = good (참고: Koo & Li, 2016)
  • 두 지표의 불일치가 있다면 Discussion에서 해석 (예: “높은 ρ + 낮은 CCC = 순서는 일치하나 절대적 수준에서 체계적 편차 존재”)

3. Discussion 섹션 보강:

“The discrepancy between Spearman ρ and CCC reveals that while AI models rank emotional stimuli in a similar order to humans (high ρ), their absolute predictions systematically differ from human ratings (lower CCC), suggesting a calibration gap rather than a fundamental perceptual divergence.”

v1 판정 수정

v1의 C1 (통계 분석의 근본적 부적절성) 판정을 다음과 같이 수정한다:

  • v1: “Spearman correlation은 association을 측정하지, agreement를 측정하지 않음” → CRITICAL
  • v2: “Spearman 선택은 척도 차이를 고려한 합리적 판단이었으나, 이 근거가 논문에 기술되지 않았고, CCC를 병행하지 않아 agreement 측정이 누락됨” → CRITICAL 유지, 다만 해결 가능성 상향 (기존 데이터로 즉시 보강 가능)

V2.2 AI 생성 얼굴 검증: 별도 DB 논문과의 관계

저자 컨텍스트

“GIST-AIFaceDB의 구축과 검증은 별도 DB 논문으로 제출 예정이므로, 이 논문에서 상세히 다루기 어렵다.”

평가

전략 자체는 합리적이나, CHI 논문에도 최소한의 검증 정보는 필수적이다.

측면평가
합리적인 부분DB 구축 논문과 활용 논문을 분리하는 것은 학술적으로 일반적인 관행. DB 논문에서 상세 검증을 제시하고, 활용 논문에서 인용하는 구조는 타당
문제점CHI 리뷰어는 DB 논문을 접할 수 없다. 자극의 validity에 대한 최소한의 근거가 없으면, 연구 전체의 internal validity에 대한 의문이 해소되지 않음
심각도v1에서 3/3 에이전트가 이 문제를 CRITICAL로 판정. 선행연구(PAGE test, 2025)에서 AI 생성 얼굴의 fear 인식률이 3%까지 낮아질 수 있음을 고려하면, “검증은 다른 논문에서”만으로는 불충분

CHI 논문에 최소한 포함해야 할 검증 수준

1단계: 필수 (1-2문장으로 가능)

“A forced-choice emotion categorization pilot (N=30) confirmed that AI-generated facial expressions were recognized at above-chance accuracy across all six emotions (mean accuracy = XX%, range: XX-XX%), validating stimulus quality [details in forthcoming DB paper].”

이 1문장만으로도 “자극이 해당 감정을 대표하는가?”라는 근본적 의문을 상당 부분 해소할 수 있다. Pilot 데이터가 없다면, 적어도 인간 평정의 confusion matrix (Figure 2A에 이미 존재)를 자극 validation의 간접적 근거로 활용할 수 있다:

“Human recognition accuracy for AI-generated expressions (Figure 2A diagonal) ranged from XX% (sadness) to XX% (happiness), suggesting adequate stimulus quality for most emotion categories.”

2단계: 권장 (보충자료로 가능)

  • AI 생성 파이프라인의 FACS AU 일관성 검토
  • Real face DB(예: AffectNet, KDEF)와의 표정 인식률 비교

익명 리뷰 시 “under review” 인용 제약 대처법

방법설명추천도
Anonymous supplementaryDB 검증 결과를 supplementary material로 첨부 (익명 유지)⭐⭐⭐
Self-citation 우회”The database was validated in a separate study (anonymized for review)” + 보충자료에 핵심 결과 포함⭐⭐⭐
Inline validation위 1단계의 1문장을 Methods에 직접 포함⭐⭐
Anonymous repositoryOSF 등에 익명 preregistration으로 DB 검증 결과 등록

v1 판정 수정

  • v1 C2 (AI 생성 자극의 타당성 미검증): CRITICAL 유지
  • v2 추가: 별도 DB 논문 전략은 합리적이나, CHI 논문에 최소 1문장의 validation 근거를 포함해야 함. 이 보강이 이루어지면 심각도를 MAJOR로 하향 가능

V2.3 두 모델 아키텍처 논쟁: v1 판정 수정

저자 컨텍스트

“공저자가 두 모델의 결과가 유사하니 하나로 합치자고 제안했으나, 저자(Park)가 아키텍처 차이(attention block 구조)를 근거로 강하게 반대하여 두 모델을 유지했다.”

v1 판정의 재검토

v1 보고서의 C3 판정(AI/ML 에이전트 고유 발견)은 다음과 같았다:

“두 모델이 동일 프레임워크(EmotiEffLib/HSEmotion, Savchenko)에서 동일 training pipeline으로 학습됨 — ‘distinct architectures’ 비교가 사실상 backbone 변이 비교”

이 판정은 과도하게 단순화되어 있었다. v2에서 수정한다.

SE Attention vs. Transformer Self-Attention: 실질적 차이 분석

특성EfficientNet-B0 (SE Attention)MobileViT (Transformer Self-Attention)
Attention 유형Squeeze-and-Excitation: channel-wise recalibrationMulti-Head Self-Attention: position-wise global dependency
작동 범위채널 간 관계 모델링 (Global Average Pooling → MLP → channel weights)전체 시퀀스의 모든 토큰 간 관계 모델링 (QKV dot-product)
Inductive bias강한 locality bias (Conv 기반, 제한된 receptive field)약한 inductive bias (global receptive field from first layer)
Feature 특성로컬 특징(미세 근육 움직임, 질감) 포착에 강점글로벌 맥락(얼굴 전체 구조, 원거리 영역 관계) 포착에 강점
데이터 효율제한된 데이터에서 더 효과적 (강한 prior)대규모 데이터 필요 (약한 prior)

결론: SE attention과 Transformer self-attention은 근본적으로 다른 연산이다. Hu et al. (2018)의 SE는 channel recalibration이고, Vaswani et al. (2017)의 self-attention은 spatial/positional dependency modeling이다. 이 차이는 감정 인식에서도 실질적으로 다른 feature representation을 생성한다 (Nature Scientific Reports, 2024; MVT-CEAM, 2024).

그러나 training pipeline 공유의 의미도 무시할 수 없다

공유 요소의미
Pretraining: VGGFace2 → AffectNet fine-tuning두 모델이 동일한 data distribution에서 학습 → 유사한 decision boundary 형성 가능
Framework: Savchenko의 EmotiEffLib/HSEmotion동일한 학습 hyperparameter, augmentation, loss function 공유 가능성
Task head: 동일한 8-class + VA MTL 구조출력 layer의 동일성이 예측 패턴 유사성에 기여

중재 의견: 공저자 vs. 저자

입장근거판정
공저자 (합치기)결과가 유사하므로 하나만 보고해도 충분△ 결과 유사성만으로는 합치기의 충분 조건 아님
저자 (분리 유지)Attention block 아키텍처가 근본적으로 다름○ 아키텍처 차이는 실재하므로 분리 보고가 타당
v2 중재분리 유지하되, 프레이밍을 수정◎ 아래 재프레이밍 전략 참조

재프레이밍 전략

현 논문의 프레이밍: “두 개의 distinct AI architectures를 비교”
→ 문제: 독립적인 두 시스템을 비교한 것처럼 들림

제안하는 재프레이밍:

“We conducted a controlled architectural comparison within a shared training framework (Savchenko, 2022; 2023). Both models were trained on AffectNet using the EmotiEffLib pipeline, isolating the effect of attention mechanism: channel-wise squeeze-and-excitation (Hu et al., 2018) vs. multi-head self-attention (Vaswani et al., 2017). This controlled setup allows us to attribute performance differences specifically to the attention architecture rather than confounding factors such as training data, augmentation, or loss function.”

이 프레이밍의 장점:

  1. Training pipeline 공유를 약점이 아닌 통제 변인(controlled variable) 으로 전환
  2. 아키텍처 차이를 독립 변인으로 명확히 설정
  3. Reviewer의 “동일 프레임워크” 비판을 선제적으로 흡수

Fisher z-test로 두 모델 상관 차이 통계적 검정

두 모델의 Human-AI agreement가 통계적으로 유의하게 다른지 확인하기 위해 Fisher z-test를 적용할 수 있다:

1. 각 모델의 Spearman ρ (또는 CCC)를 Fisher z 변환: z' = arctanh(r)
2. 검정 통계량: Z = (z'₁ - z'₂) / √[(1/(n₁-3)) + (1/(n₂-3))]
3. 양측 검정: |Z| > 1.96이면 p < 0.05

이 검정을 감정 범주별 × 성별 조건별로 실시하면, “두 아키텍처가 실질적으로 다른 패턴을 보이는 조건”을 식별할 수 있다. 만약 대부분의 조건에서 유의한 차이가 없다면, 공저자의 의견(합치기)이 데이터에 의해 지지되는 셈이다. 유의한 차이가 있는 조건이 존재한다면, 저자의 의견(분리)이 지지된다.

v1 판정 수정

  • v1 C3: “두 모델이 동일 프레임워크에서 동일 training pipeline으로 학습됨 → ‘distinct architectures’ 비교가 사실상 무효” → CRITICAL
  • v2 C3 수정: “두 모델의 attention 아키텍처(SE vs. Transformer)는 실질적으로 다르며, 분리 비교는 타당하다. 그러나 training pipeline 공유로 인해 ‘distinct architectures’가 아닌 ‘controlled architectural comparison within shared training’으로 재프레이밍해야 한다. Savchenko 귀속 오류(실제 개발자 미인용)는 여전히 수정 필요” → MAJOR로 하향 (재프레이밍 + 정확한 인용으로 해결 가능)

V2.4 Grad-CAM 분석의 전략적 활용

저자 컨텍스트

“원인 분석용으로 이미 4,320개 Grad-CAM 시각화를 생성 완료했다(gradcam.ipynb). 그러나 글을 쓰는데 아직 사용하지 않았다.”

기존 자산의 가치 평가

GRADCAM_ANALYSIS_REPORT.md 검토 결과, 이미 생성된 자산은 다음과 같다:

항목수량상태
EmoNet Grad-CAM1,440개생성 완료, target layer: conv4
ENet-B0 Grad-CAM1,440개생성 완료, target layer: encoder.blocks[-1]
MobileViT Grad-CAM1,440개생성 완료, target layer: blocks[-1]
Total4,320개3 models × 240 identities × 6 emotions
TensorBoard 로그3개모델별 학습/평가 메트릭 포함
파일 명명 규칙체계적{Race}_{Gender}_{ID}_{Emotion}_{Model}_gradcam.png

이것은 사용되지 않은 강력한 자산이다. CHI 리뷰어의 지적 3 (“Insufficient Exploration of Bias Causes”)에 대한 가장 직접적인 대응 도구가 이미 준비되어 있다.

”Bias 원인 탐색 부족” 비판에 대한 직접적 대응

v1 보고서 2.1절의 지적 3 판정에서, 리뷰어와 3개 에이전트 모두 “AffectNet 귀인에 대한 검증이 없다”를 핵심 문제로 지적했다. Grad-CAM 분석은 이 비판에 대해 다음의 구체적 답변을 제공할 수 있다:

질문Grad-CAM으로 답변 가능한 방법
”AI가 감정을 인식할 때 어디를 보는가?”감정별 aggregate heatmap으로 주시 영역(ROI) 식별
”남성/여성 얼굴에서 다른 영역을 보는가?”성별 × 감정 조건별 heatmap 비교 → 차별적 주시 패턴 검출
”Sadness에서 왜 인간과 불일치하는가?”Sadness의 heatmap이 다른 감정과 겹치는 영역 분석
”인종별로 다른 특징에 의존하는가?”인종 × 감정 조건별 heatmap 비교

구체적 분석 계획

Phase 1: Aggregate Heatmap 생성 (필수, 즉시 가능)

6 emotions × 2 genders × 3 races × 3 models = 108개 aggregate heatmap
+ 6 emotions × 2 genders × 3 models = 36개 (race-collapsed) aggregate heatmap
+ 6 emotions × 3 models = 18개 (gender+race-collapsed) aggregate heatmap

각 조건에 해당하는 개별 Grad-CAM을 평균하여, 해당 조건에서 모델이 “일반적으로 어디를 보는가”를 시각화한다.

Phase 2: ROI 정량화 (권장)

Attention-IoU 방법(SegDebias, 2024; FaceSaliencyAug, 2024)을 적용:

  1. 얼굴을 의미론적 영역으로 분할 (눈, 코, 입, 이마, 볼 등)
  2. 각 Grad-CAM heatmap과 ROI의 IoU 산출
  3. 감정별 × 성별별 IoU 패턴 비교

이를 통해 “AI가 happiness 인식 시 입 영역에 88% 집중하지만, sadness 인식 시에는 눈(45%)과 입(30%)에 분산됨” 등의 정량적 발견이 가능하다.

Phase 3: Gender 차이 시각화 (강력 권장)

ΔHeatmap = Mean_Heatmap(Male) - Mean_Heatmap(Female)

이 차분 heatmap이 논문의 핵심 발견(“gender-dependent perception differences”)에 대한 시각적 증거를 제공한다.

Grad-CAM 해석 방법론 가이드: 5가지 접근법

Grad-CAM heatmap 4,320개를 어떻게 해석할 것인가는 단순히 “어디가 빨간가”를 넘어선 체계적 방법론이 필요하다. 아래 5가지 접근법을 계층적으로 조합하여 사용할 것을 권고한다.

방법 1: FACS Action Unit (AU) 기반 ROI 비교

핵심 아이디어: 각 감정에는 심리학적으로 기대되는 근육 활성화 패턴(AU)이 있다. Grad-CAM이 이 영역에 집중하는지 검증한다.

감정기대 AU공간적 위치
HappinessAU6 (cheek raiser) + AU12 (lip corner puller)볼 + 입꼬리
SadnessAU1 (inner brow raiser) + AU4 (brow lowerer) + AU15 (lip corner depressor)눈썹 안쪽 + 입꼬리
AngerAU4 + AU5 (upper lid raiser) + AU7 (lid tightener) + AU23/24눈썹 + 눈 + 입술
FearAU1 + AU2 (outer brow raiser) + AU4 + AU5 + AU20 (lip stretcher)눈썹 + 눈 + 입
SurpriseAU1 + AU2 + AU5 + AU26 (jaw drop)눈썹 + 눈 + 턱
DisgustAU9 (nose wrinkler) + AU15 + AU16 (lower lip depressor)코 + 입

구현 방법:

  1. MediaPipe Face Mesh (468 landmarks) 또는 dlib (68 landmarks)로 얼굴 영역 분할
  2. 각 AU에 해당하는 spatial ROI를 landmark 기반으로 정의
  3. Energy-Based Pointing Game 산출: AU_score = Σ(Grad-CAM ∈ AU_region) / Σ(Grad-CAM ∈ entire_face)
  4. 감정별로 기대 AU region에 에너지가 집중되는지 확인

해석 예시: “Happiness에서 ENet-B0은 AU12 영역(입꼬리)에 에너지의 72%를 집중하여 FACS 이론과 높은 일치를 보였으나, Sadness에서는 기대 AU(눈썹 + 입꼬리)에 35%만 집중하여 모델이 비표준 특징에 의존할 가능성을 시사한다.”

중요 한계: Gebele et al. (2025)에 따르면, ML 모델이 학습한 특징은 FACS 이론과 반드시 일치하지 않는다. AU 분석은 “모델이 심리학적으로 올바른 곳을 보는가”를 검증하는 도구이지, 불일치가 곧 오류를 의미하지는 않는다. 모델이 FACS 외 영역에서 진단적 정보를 추출할 수 있다.

방법 2: Semantic Face Region 7분할 정량화

핵심 아이디어: 얼굴을 7개 의미론적 영역으로 나누고, 각 영역의 attention 비율을 정량화한다. AU보다 해석이 단순하고 시각화에 적합하다.

영역 정의 (MediaPipe 468 landmarks 기반):

┌─────────────────────┐
│      이마 (Forehead) │
├───────┬─────┬───────┤
│ 왼눈  │  코  │ 오른눈│
│(L-Eye)│(Nose)│(R-Eye)│
├───────┤     ├───────┤
│ 왼볼  │     │ 오른볼│
│(L-Chk)│     │(R-Chk)│
├───────┴─────┴───────┤
│       입 (Mouth)     │
└─────────────────────┘

정량화 방법:

# 각 영역별 attention 비율 산출
attention_dist = {}
for region_name, mask in region_masks.items():
    attention_dist[region_name] = np.sum(gradcam * mask) / np.sum(gradcam)
# 결과 예: {'forehead': 0.05, 'left_eye': 0.18, 'right_eye': 0.17,
#           'nose': 0.12, 'mouth': 0.35, 'left_cheek': 0.07, 'right_cheek': 0.06}

활용: 감정별 × 성별별 attention distribution을 stacked bar chart로 시각화하면, “AI가 남성 anger에서는 눈 영역에 42% 집중하지만 여성 anger에서는 입 영역에 38% 집중한다”와 같은 정량적 발견이 가능하다.

방법 3: 인간 시선 패턴(Eye-Tracking)과의 비교

핵심 아이디어: 심리학 문헌에서 인간이 감정 인식 시 어디를 보는지는 잘 연구되어 있다. Grad-CAM과 인간 시선 패턴의 일치도를 측정하면 “AI가 인간과 유사하게 판단하는가”를 직접적으로 평가할 수 있다.

인간 시선 패턴 (eye-tracking 문헌 종합):

감정인간의 주요 주시 영역특성참고문헌
Happiness (초기 + 지속적)입이 가장 먼저, 가장 오래 주시됨Calvo & Nummenmaa (2008)
Sadness (지속적)눈 영역이 연장된 주시 시간을 받음Eisenbarth & Alpers (2011)
Anger (초기 + 지속적)눈을 가장 먼저, 가장 오래 주시Calvo & Nummenmaa (2008)
Fear눈 + 입 (균형적)두 영역에 균형 있게 분산Schurgin et al. (2014)
Surprise눈 + 입 (균형적)두 영역 모두 주의를 끔Eisenbarth & Alpers (2011)
Disgust코/볼 (초기)코 주름 영역이 초기 주시를 받음Calvo & Nummenmaa (2008)

비교 방법:

  1. 인간 시선 패턴을 7분할 영역의 “기대 attention 분포”로 변환
  2. Grad-CAM의 7분할 attention 분포와 Spearman 순위 상관 산출
  3. 감정별로 “인간-AI attention 일치도” 보고

해석 예시: “Happiness에서 세 모델 모두 인간과 유사하게 입 영역에 최고 attention을 보였으나(ρ = 0.89), Sadness에서는 인간(눈 중심)과 AI(분산적) 간 attention 패턴 불일치가 크게 나타났다(ρ = 0.31). 이 불일치가 Sadness에서의 낮은 Human-AI agreement를 부분적으로 설명할 수 있다.”

문화적 고려사항: 서양인은 얼굴 전체를 스캔하되 눈 우세, 동아시아인은 눈 영역에 강하게 집중하는 경향이 있다 (Blais et al., 2008). 본 연구의 인간 참여자가 한국인이므로, 동아시아인 시선 패턴 문헌을 우선 참조해야 한다.

방법 4: Cross-Demographic 통계적 비교 (Bias Detection)

핵심 아이디어: 동일 감정에 대해 남성/여성 (또는 인종별) 얼굴의 Grad-CAM 패턴이 통계적으로 유의하게 다른지 검정한다. 이것이 “AI의 gender bias 원인”에 대한 가장 직접적인 증거이다.

검정 방법 3가지:

방법측정 대상장점적합한 상황
Permutation test + Wasserstein distance두 heatmap 분포의 공간적 거리비모수적, 공간 구조 반영, 강건함1차 분석 (권장)
Bootstrap CI + 영역별 attention 차이각 영역에서 남성-여성 attention 비율 차이해석 용이, 영역별 결론 가능2차 분석 (시각화용)
KL divergence (Jensen-Shannon)두 attention 분포의 정보론적 거리분포 차이에 민감보조 지표

Permutation test 절차:

1. 각 (모델, 감정) 조합에서 Male/Female heatmap 분리
2. Mean_Male, Mean_Female heatmap 산출
3. Wasserstein distance(Mean_Male, Mean_Female) = D_obs
4. Male/Female 라벨을 10,000번 무작위 셔플하여 null distribution 생성
5. p = P(D_null ≥ D_obs)
6. 유의수준: p < 0.05 (Bonferroni 보정 적용: 6 emotions × 3 models = 18 tests → α = 0.0028)

결과 표 형식 예시:

ModelEmotionW-distancep-value유의 영역 (Male > Female)유의 영역 (Female > Male)
ENet-B0Happiness0.1420.001**Eyes (+12%)Mouth (+8%)
MobileViTSadness0.0890.034*Forehead (+5%)

이 표는 “어떤 감정에서, 어떤 모델이, 어떤 얼굴 영역에서 gender-biased attention을 보이는가”를 한눈에 보여준다.

방법 5: ΔHeatmap + Aggregate 시각화

핵심 아이디어: 방법 1-4의 정량적 결과를 시각적으로 전달하는 최종 산출물이다.

3가지 핵심 시각화:

A. Emotion × Gender Aggregate Heatmap Grid (Figure용)

              Happiness  Sadness   Anger    Fear    Surprise  Disgust
Male Face:    [heatmap]  [heatmap] [heatmap] [heatmap] [heatmap] [heatmap]
Female Face:  [heatmap]  [heatmap] [heatmap] [heatmap] [heatmap] [heatmap]
ΔDifference:  [diff map] [diff map][diff map][diff map][diff map][diff map]

→ 3행 × 6열 = 18 패널. Poster에 가장 적합한 형태.

B. Region Attention Bar Chart (정량적 비교용)

각 감정에 대해 7개 영역의 Male vs. Female attention 비율을 grouped bar chart로 표시. Bootstrap 95% CI를 error bar로 포함.

C. Human-AI Attention Alignment Radar Chart (종합 비교용)

7개 영역을 축으로 하는 radar chart에 Human 기대치, ENet-B0, MobileViT를 겹쳐 그린다. 감정별로 1개씩 생성.

방법론 선택 가이드: Venue별 권장 조합

Venue권장 방법 조합근거
CHI Poster (6pp)방법 2 (7분할 정량화) + 방법 5A (ΔHeatmap grid)공간 제약, 시각적 임팩트 우선
CHI LBW (4pp)방법 2 + 방법 4 (permutation test) + 방법 5A통계적 근거 + 시각화
CHI Full Paper방법 1-5 전체포괄적 분석 가능
ACII / FG방법 1 (AU 기반) + 방법 4 + 방법 5CV 커뮤니티에서 AU 분석 중시

최소 권장 조합 (어떤 venue든): 방법 2 + 방법 4 + 방법 5A

  • 방법 2: 정량적 근거 (어디를 보는가)
  • 방법 4: 통계적 근거 (성별 차이가 유의한가)
  • 방법 5A: 시각적 전달 (한눈에 보이는가)

2024-2025 문헌에서의 Grad-CAM 활용 트렌드

참고문헌기여관련성
Gebele et al. (2025), SpringerGrad-CAM으로 FER 모델의 감정 해석, 인간 연구로 시각화 효과 검증직접 관련 — 동일 방법론
FaceSaliencyAug (2024), SIVPGrad-CAM saliency map 기반 데이터 augmentation으로 gender bias 완화Bias 탐지 방법론 참조 가능
Dominguez-Catena et al. (2024), TPAMIFER 데이터셋 demographic bias 측정 메트릭 체계화정량적 bias 측정 프레임워크
SegDebias (2024), arXivAttention-IoU로 ViT 기반 모델의 demographic fairness 정량화IoU 기반 ROI 분석 방법론
XAI for Bias Detection (2024), ESWAGrad-CAM + SHAP + LIME 다층 설명으로 bias 탐지다중 XAI 방법론 통합 접근
Are Explainability Tools Gender Biased? (2023), arXivGrad-CAM 자체가 성별 편향을 보일 수 있음 — 설명 품질이 인구통계에 따라 다를 수 있다는 경고해석 시 한계 기술에 필수 인용
Faces of Fairness (2025), arXivFER 데이터셋 + 모델 수준 bias 체계적 평가, 범용 모델이 높은 정확도와 높은 bias를 동시 표출모델 bias 논의의 최신 맥락
Feature-level Bias Evaluation (2025), arXiv특징 수준 bias 평가 프레임워크 — 모델이 인구통계별로 다른 특징에 의존하는지 분석방법 4의 이론적 근거
Calvo & Nummenmaa (2008), Cognition & Emotion감정별 인간 시선 고정 패턴 — happiness→입, anger/sadness→눈방법 3의 핵심 참조
Eisenbarth & Alpers (2011), PLOS ONE감정 인식 시 시선 역학 — 시간적 주시 패턴 제공방법 3의 시간적 패턴 근거

Venue별 통합 방안

Venue 형식본문 포함보충자료권장 방법 조합
CHI Poster (6pp)ΔHeatmap grid 1개 (방법 5A) + 7분할 attention 표 1개전체 aggregate heatmap, permutation test 결과방법 2+4+5A
CHI LBW (4pp)ΔHeatmap 1개 + permutation test p-value 표영역별 bar chart, Human 비교 radar방법 2+4+5A
Full PaperPhase 1-3 + 방법 1-5 전체 + “Interpretability Analysis” 섹션AU 상세 분석, 인종별 비교방법 1-5 전체
ACII / FGAU 기반 ROI 분석 + permutation testSemantic region 보조 분석방법 1+4+5
Workshop대표 ΔHeatmap 1개 + 핵심 통계 1문장방법 5A만

저자에 대한 강력 권고

Grad-CAM 분석을 사용하지 않은 것은 이 논문의 가장 큰 기회 손실이다.

4,320개의 시각화가 이미 생성되어 있고, aggregate heatmap 생성은 추가 실험 없이 가능하며, 이것이 리뷰어의 가장 직접적인 비판(“Insufficient Exploration of Bias Causes”)에 대한 답변이 된다. Phase 1 (aggregate heatmap) 만으로도 논문의 기여도를 유의미하게 높일 수 있다.


V2.5 수정된 개선 우선순위

v1의 4.5절 우선순위를 저자 컨텍스트를 반영하여 업데이트한다.

v1 → v2 변경사항 요약

항목v1 판정v2 수정변경 사유
Spearman 선택 (C1)CRITICAL (부적절)CRITICAL (근거 미기술 + CCC 누락)척도 차이는 유효한 근거이나, 논문에 기술되지 않음
자극 검증 (C2)CRITICALCRITICAL → 보강 시 MAJOR별도 DB 논문 전략은 합리적; 최소 1문장 validation 필요
아키텍처 비교 (C3)CRITICAL (무효)MAJOR (재프레이밍 필요)SE vs. Transformer attention은 실질적 차이. v1이 과도하게 단순화
Grad-CAM 활용미언급새로 추가: 높은 우선순위이미 4,320개 생성 완료, 즉시 활용 가능한 강력한 자산

수정된 우선순위

[최우선 — 재투고 전 필수]
  A1-A8 (형식 수정)
  + B1 (z-score 정규화 후 CCC 산출) ← Methods에 척도 차이 근거 기술
  + B3 (다중비교 보정)
  + Grad-CAM Phase 1 (aggregate heatmap 생성) ← 신규 추가
  + C3 재프레이밍 ("controlled architectural comparison")
  + Savchenko 정확한 인용 (A4)
  → 이것만으로 CHI LBW / HCI Korea / ACII Workshop 재투고 가능

[중요 — CHI Poster 수준 도달]
  + Grad-CAM Phase 2-3 (ROI 정량화, gender 차이 시각화) ← 신규 추가
  + Fisher z-test (모델 간 상관 차이 검정 + 성별 간 차이 검정) ← 구체화
  + B2 (inter-rater reliability)
  + 자극 validation 최소 1문장 (pilot 결과 또는 confusion matrix 활용) ← 완화
  → CHI 2027 Poster / ACII Full Paper 수준

[이상적 — Full Paper 수준 도달]
  + C1 (모델 확장: 최소 3-5개 추가)
  + C2 (독립 자극 validation 연구)
  + C3-C5 (AffectNet 분석, real face control, mixed-effects)
  → IJHCS / IEEE TAC / Frontiers in Psychology 수준

v1 대비 핵심 변화

  1. Grad-CAM이 최우선 순위에 추가됨: 추가 데이터 수집 없이 즉시 활용 가능한 가장 효율적인 개선
  2. 자극 validation의 부담 완화: 별도 DB 논문이 있으므로, CHI 논문에는 최소 1문장 + supplementary로 충분
  3. 아키텍처 비교의 심각도 하향: 재프레이밍만으로 CRITICAL → MAJOR로 해결 가능
  4. 통계 보강의 구체적 방법 제시: “CCC를 추가하라”에서 “z-score 정규화 후 CCC 산출, Methods에 척도 차이 근거 기술”로 구체화

V2.6 종합: v1 + v2 통합 판정

#이슈v1 심각도v2 심각도해결 난이도비고
C1통계 방법론 (Spearman only)CRITICALCRITICAL낮음z-score + CCC 추가, 기존 데이터로 가능
C2자극 타당성 미검증CRITICALCRITICAL→MAJOR*낮음*최소 1문장 validation 포함 시
C3아키텍처 비교 프레이밍CRITICALMAJOR낮음재프레이밍 + Savchenko 인용으로 해결
C4Hess et al. 인용 오독CRITICALCRITICAL낮음인용 내용 수정
N—Grad-CAM 미활용미평가MAJOR낮음이미 4,320개 생성 완료, aggregate만 필요
M1모델 수 부족 (N=2)MAJORMAJOR중간모델 확장은 중기 과제
M2다중비교 보정 미적용MAJORMAJOR낮음BH-FDR 적용
M3Sadness paradox 과대 해석MAJORMAJOR낮음용어 완화 + 대안 설명 추가

v2 결론: v1에서 4건의 CRITICAL 문제 중 C3이 MAJOR로 하향되어, 실질적 CRITICAL은 3건(C1, C2, C4)이다. 이 중 C1과 C4는 해결 난이도가 낮고(기존 데이터 + 텍스트 수정), C2는 별도 DB 논문과 연계하여 최소 검증으로 완화 가능하다. Grad-CAM 활용을 추가하면, 리뷰어 지적의 직접적 해소 + 논문 기여도 향상이라는 이중 효과를 얻을 수 있다.

v2 한줄 평: 저자 컨텍스트를 반영하면, v1의 일부 판정이 과도하게 단순화되었음을 인정한다. 특히 두 모델의 아키텍처 차이(SE vs. Transformer attention)는 실질적이며, Spearman 선택도 부분적으로 합리적이었다. 그러나 이러한 합리적 판단들이 논문에 기술되지 않았다는 것이 핵심 문제이다. 가장 큰 기회 손실은 이미 생성된 4,320개 Grad-CAM 시각화를 활용하지 않은 것이며, 이를 aggregate heatmap으로 통합하는 것만으로도 “bias 원인 탐색 부족”이라는 핵심 비판에 대한 직접적 답변이 된다. 기존 데이터와 자산만으로 실현 가능한 개선의 폭이 v1 예상보다 넓다.