SIQA: 사회적 상황 추론 벤치마크

Digest: 물리적 상식(PIQA)과 달리, 사회적 상호작용에서의 추론은 감정, 의도, 반응을 이해해야 한다. **SIQA(Social Interaction QA)**는 ATOMIC 지식 그래프를 기반으로 38,000개 3지선다 문제를 구성했다. 각 문제는 사회적 상황(context)에서 등장인물의 감정(React), 의도(Want), 필요(Need) 등을 추론한다. 인간 정확도 ~88%, RoBERTa-Large 76.2%로 사회적 추론에서 모델의 한계를 드러낸다.


메타데이터

항목내용
제목Social IQa: Commonsense Reasoning about Social Interactions
저자Maarten Sap, Hannah Rashkin, Derek Chen, Ronan Le Bras, Yejin Choi
소속UW, AI2
연도2019
발표EMNLP 2019, arXiv:1904.09728
링크arXiv, Dataset
키워드SIQA, social commonsense, emotional reasoning, ATOMIC

데이터셋 구성

규모 및 분할

Split예시 수
Train33,410
Dev1,954
Test2,224
합계~38k

Feature/Column 구조

필드설명예시
context사회적 상황”Cameron decided to have a barbecue…”
question추론 유형”How would Cameron feel afterwards?”
answerA보기 A”Happy and satisfied”
answerB보기 B”Annoyed”
answerC보기 C”Lonely”
correct정답A

추론 유형

유형설명비율
xReactX의 감정 반응~25%
xWantX가 원하는 것~20%
xNeedX에게 필요한 것~15%
oReact상대방의 감정~15%
xEffectX에게 일어날 일~15%
xAttrX의 성격 특성~10%

실제 데이터 예시

예시 1

Context: "Tracy had accidentally broken her friend's vase."
Question: "How would Tracy feel afterwards?"
A: "Guilty and embarrassed" ✓
B: "Proud of herself"
C: "Indifferent"

예시 2

Context: "Alex made dinner for their friends."
Question: "What will Alex's friends want to do next?"
A: "Thank Alex for cooking" ✓
B: "Complain about the food"
C: "Leave immediately"

방법 (Method)

graph TB
    A["ATOMIC 지식 그래프<br/>(사회적 상식)"] --> B["상황(context) 생성"]
    B --> C["MTurk workers가<br/>질문 + 3 보기 작성"]
    C --> D["Adversarial Filtering<br/>쉬운 문제 제거"]
    D --> E["SIQA Dataset<br/>~38k 문제"]

발견 (Findings)

주요 결과

모델정확도
Human~88%
RoBERTa-Large76.2%
BERT-Large66.0%
GPT-3 (few-shot)~73%
Llama 2 70B~78%

핵심 발견

  1. 사회적 추론의 어려움: 감정/의도 추론에서 모델이 인간 대비 ~12%p 낮음
  2. 물리 vs 사회: PIQA보다 SIQA에서 모델 성능이 낮음 — 사회적 상식이 더 어려움
  3. ATOMIC의 유용성: 지식 그래프에서 체계적으로 추론 유형을 커버

관련 연구


핵심 용어 정리

용어정의
SIQASocial Interaction QA. 사회적 상식 추론 벤치마크
ATOMICAtlas of Machine Commonsense. 사회적 상식 지식 그래프
Social Commonsense감정, 의도, 사회적 규범에 대한 상식

태그

paper #2019 benchmark social_commonsense SIQA emotional_reasoning ATOMIC