Introduction

Emotional Intelligence(EI)는 정서를 인식, 이해, 조절, 활용하는 능력으로, 직장 내 성과, 대인관계, 정신건강과 밀접하게 관련됨. 수행 기반(performance-based) EI 검사는 자기보고식 검사보다 객관적이지만 개발에 수년이 소요됨
LLM이 다양한 심리 검사에서 인간 수준 이상의 성능을 보이고 있으나, 수행 기반 정서지능 검사에서의 체계적 평가는 부족한 상태였음 — 기존 연구는 자기보고식 EI 또는 단일 모델에 한정
핵심 연구 질문: (1) LLM이 기존의 타당화된 수행 기반 EI 검사를 인간보다 잘 풀 수 있는가? (2) LLM이 심리측정적으로 건전한 새로운 EI 검사 문항을 생성할 수 있는가?
주요 기여: (1) 6개 최신 LLM을 5개 수행 기반 EI 검사에서 체계적으로 평가, (2) ChatGPT-4로 생성한 검사 문항의 심리측정적 속성을 467명 인간 참가자 대상 5개 연구로 검증, (3) AI 생성 검사가 원본과 동등한 난이도·신뢰도·타당도를 보임을 실증

New Paradigms for Assessing Emotional Intelligence: Theory and Data (MacCann & Roberts, 2008): STEM(Situational Test of Emotion Management)과 STEU(Situational Test of Emotion Understanding) 개발 — 상황판단검사(SJT) 형식의 수행 기반 EI 평가 패러다임 제시
The Geneva Emotional Competence Test (GECo) (Schlegel & Mortillaro, 2019): 직장 맥락의 능력 기반 EI 검사 — 정서 인식, 이해, 자기조절(Regulation), 타인관리(Management) 4개 하위검사, IRT 기반 높은 측정 정밀도 (총 N=888)
EmoBench: Evaluating the Emotional Intelligence of Large Language Models (He et al., 2024, ACL): LLM의 정서 이해 및 적용 능력을 평가하는 벤치마크 — 본 연구와 달리 기존 타당화된 심리측정 도구가 아닌 새로운 벤치마크 사용
EQ-Bench (Paech, 2024): LLM의 정서적 지능을 대화 시나리오에서 평가하는 벤치마크 — 정서 강도 예측 과제 중심, 수행 기반 EI 검사와는 다른 접근
The Emotional Intelligence of the GPT-4 Large Language Model (Dugan et al., 2024): GPT-4의 정서지능을 단일 모델로 평가 — 본 연구는 6개 모델 비교 및 검사 생성 능력까지 확장

Methods

Phase 1 — LLM의 기존 EI 검사 수행: 6개 LLM(ChatGPT-4, ChatGPT-o1, Gemini 1.5 Flash, Copilot 365, Claude 3.5 Haiku, DeepSeek V3)에게 5개 수행 기반 EI 검사를 2024년 12월–2025년 1월 시행
5개 EI 검사:
- STEM (Situational Test of Emotion Management): 정서적 상황에서 가장 효과적인 대처 행동 선택 (4지선다)
- STEU (Situational Test of Emotion Understanding): 특정 상황에서 발생할 감정 추론 (5지선다)
- GEMOK-Blends (Geneva Emotion Knowledge Test — Blends): 복합 정서(emotion blends) 이해 평가
- GECo-Regulation: 직장 맥락에서 자신의 정서 조절 전략 선택
- GECo-Management: 직장 맥락에서 타인의 정서를 관리하는 전략 선택
LLM 평가 방식: 각 검사 문항의 시나리오와 선택지를 텍스트로 제시, 정답률(% correct) 산출, 인간 원본 타당화 연구의 평균 정확도와 비교
Phase 2 — ChatGPT-4를 활용한 신규 검사 문항 생성: ChatGPT-4에게 각 검사의 구조와 원칙을 설명한 후 동일한 수의 새로운 문항 생성 지시
5개 인간 참가자 연구 (총 N=467, Prolific 모집): 각 연구에서 참가자가 원본 검사와 AI 생성 검사를 모두 수행, 추가로 어휘력 검사 및 외부 능력 검사 수행
평가 지표:
- 검사 난이도 동등성: Cohen’s d (±0.25 기준) 및 95% CI (±0.50 미초과)
- 내적 일관성: Cronbach’s alpha
- 버전 간 상관: 원본-AI 생성 검사 상관 (r)
- 외부 타당도: 어휘력 검사 및 외부 EI 검사와의 상관
- 참가자 평가: 문항 명확성(clarity), 현실성(realism), 내용 다양성(content diversity)

방법론 다이어그램

graph TD
    A["Phase 1: LLM EI 검사 수행"] --> B["6개 LLM 모델"]
    B --> C["ChatGPT-4"]
    B --> D["ChatGPT-o1"]
    B --> E["Gemini 1.5 Flash"]
    B --> F["Copilot 365"]
    B --> G["Claude 3.5 Haiku"]
    B --> H["DeepSeek V3"]

    A --> I["5개 수행 기반 EI 검사"]
    I --> I1["STEM<br/>(정서 관리)"]
    I --> I2["STEU<br/>(정서 이해)"]
    I --> I3["GEMOK-Blends<br/>(복합 정서)"]
    I --> I4["GECo-Regulation<br/>(자기 조절)"]
    I --> I5["GECo-Management<br/>(타인 관리)"]

    B --> J["정답률 산출<br/>(vs 인간 평균 56%)"]

    K["Phase 2: AI 검사 생성"] --> L["ChatGPT-4로<br/>신규 문항 생성"]
    L --> M["5개 인간 연구<br/>(총 N=467)"]
    M --> N["원본 vs AI 생성 검사<br/>동시 시행"]
    N --> O["심리측정적 비교"]
    O --> P["난이도 동등성<br/>(Cohen's d ± 0.25)"]
    O --> Q["내적 일관성<br/>(Cronbach's α)"]
    O --> R["버전 간 상관<br/>(r = 0.46)"]
    O --> S["외부 타당도<br/>(어휘력·능력 검사)"]

    style A fill:#e1f5fe
    style K fill:#fff9c4
    style J fill:#e8f5e9
    style O fill:#fce4ec

Results

LLM 전체 평균 정확도 81% vs 인간 평균 56% — 6개 모델 모두 인간 평균을 1 표준편차 이상 상회
ChatGPT-o1과 DeepSeek V3가 가장 우수: 인간 평균 대비 2 표준편차 이상 상회하는 성능
모든 LLM이 5개 검사 전반에서 인간보다 유의미하게 높은 정확도를 보임 — LLM의 문항 난이도 패턴이 인간의 문항 난이도 패턴과 유사(쉬운 문항은 LLM도 쉽게, 어려운 문항은 LLM도 상대적으로 어렵게 풀음)
AI 생성 검사의 심리측정적 속성:
- 원본과 AI 생성 검사 간 난이도 차이가 모두 Cohen’s d ± 0.25 이내
- 95% 신뢰구간이 중간 효과크기(d ± 0.50)를 초과하지 않음 → 통계적 동등성 확인
- 원본-AI 생성 검사 간 상관 r = 0.46 (강한 상관)
- 참가자들이 AI 생성 문항을 원본과 동등하게 명확하고 현실적이라고 평가
- 내적 일관성(Cronbach’s alpha), 어휘력 검사 상관, 외부 능력 검사 상관 모두 원본과 유사
제한점: AI 생성 검사의 외부 측정치와의 상관이 원본보다 약간 낮은 경향 — 외부 타당도에서 미세한 차이 존재

LLM vs 인간 정확도 비교

비교 대상	평균 정확도	인간 평균 대비
인간 평균 (원본 타당화 연구)	56%	—
LLM 전체 평균 (6개 모델)	81%	+25%p
ChatGPT-o1	최상위	>2 SD above mean
DeepSeek V3	최상위	>2 SD above mean
ChatGPT-4	상위	>1 SD above mean
Gemini 1.5 Flash	상위	>1 SD above mean
Copilot 365	상위	>1 SD above mean
Claude 3.5 Haiku	상위	>1 SD above mean

AI 생성 검사 vs 원본 검사 동등성

평가 지표	결과	해석
난이도 차이 (Cohen’s d)	±0.25 이내	동등
95% CI 상한	d ± 0.50 미초과	동등
버전 간 상관 (r)	0.46	강한 상관
문항 명확성	동등 평가	차이 없음
문항 현실성	동등 평가	차이 없음
내적 일관성 (α)	유사	차이 미미
외부 타당도 상관	약간 낮음	미세 차이

Discussion

핵심 발견 1: LLM은 수행 기반 EI 검사에서 인간 평균을 크게 상회 — 이는 LLM이 정서적 상황에 대한 인지적 공감(cognitive empathy), 즉 정서를 이해하고 추론하는 능력이 뛰어남을 시사. 단, 이것이 정의적 공감(affective empathy), 즉 실제로 감정을 느끼는 것을 의미하지는 않음
핵심 발견 2: ChatGPT-4가 생성한 EI 검사 문항이 원본과 동등한 심리측정적 속성을 보임 — 기존에 수년이 걸리던 검사 개발 과정을 AI가 상당 부분 가속화할 수 있는 가능성 제시
한계 1: LLM의 훈련 데이터에 기존 EI 검사 문항이 포함되었을 가능성(data contamination) — 검사 문항이 인터넷에 공개된 경우 단순 암기로 높은 점수 가능
한계 2: 텍스트 기반 검사만 사용 — 실제 정서적 상호작용에서의 실시간 정서 인식·조절 능력은 평가 불가. 비언어적 단서(표정, 음성)를 포함하는 멀티모달 EI 평가는 미포함
한계 3: AI 생성 검사의 외부 타당도 상관이 원본보다 약간 낮음 → AI가 검사를 완전히 대체하기보다는 보조적 도구로 활용하는 것이 적절
한계 4: 문화적 맥락의 제한 — 사용된 EI 검사가 주로 서구 문화권에서 개발·타당화되었으며, 다른 문화권에서의 적용 가능성은 검증 필요
향후 방향: (1) 멀티모달 EI 검사(영상, 음성 기반)에서의 LLM 평가, (2) 교육·코칭·갈등 해결 분야에서 AI 기반 EI 검사 개발 도구 활용, (3) LLM의 EI 능력을 활용한 정서 인식 훈련 시스템 개발, (4) data contamination 통제를 위한 비공개 검사 문항 활용 연구

Juhyeon's Blog

탐색기

Large language models are pro solving and creating emotional intelligence tests

Introduction

Methods

방법론 다이어그램

Results

LLM vs 인간 정확도 비교

AI 생성 검사 vs 원본 검사 동등성

Discussion

그래프 뷰

목차

Properties

백링크

Large language models are pro solving and creating emotional intelligence tests

Introduction

Related Papers

Methods

방법론 다이어그램

Results

LLM vs 인간 정확도 비교

AI 생성 검사 vs 원본 검사 동등성

Discussion

그래프 뷰

목차

Properties

백링크