SIQA: 사회적 상황 추론 벤치마크

Digest: 물리적 상식(PIQA)과 달리, 사회적 상호작용에서의 추론은 감정, 의도, 반응을 이해해야 한다. **SIQA(Social Interaction QA)**는 ATOMIC 지식 그래프를 기반으로 38,000개 3지선다 문제를 구성했다. 각 문제는 사회적 상황(context)에서 등장인물의 감정(React), 의도(Want), 필요(Need) 등을 추론한다. 인간 정확도 ~88%, RoBERTa-Large 76.2%로 사회적 추론에서 모델의 한계를 드러낸다.

메타데이터

항목	내용
제목	Social IQa: Commonsense Reasoning about Social Interactions
저자	Maarten Sap, Hannah Rashkin, Derek Chen, Ronan Le Bras, Yejin Choi
소속	UW, AI2
연도	2019
발표	EMNLP 2019, arXiv:1904.09728
링크	arXiv, Dataset
키워드	SIQA, social commonsense, emotional reasoning, ATOMIC

데이터셋 구성

규모 및 분할

Split	예시 수
Train	33,410
Dev	1,954
Test	2,224
합계	~38k

Feature/Column 구조

필드	설명	예시
`context`	사회적 상황	”Cameron decided to have a barbecue…”
`question`	추론 유형	”How would Cameron feel afterwards?”
`answerA`	보기 A	”Happy and satisfied”
`answerB`	보기 B	”Annoyed”
`answerC`	보기 C	”Lonely”
`correct`	정답	`A`

추론 유형

유형	설명	비율
xReact	X의 감정 반응	~25%
xWant	X가 원하는 것	~20%
xNeed	X에게 필요한 것	~15%
oReact	상대방의 감정	~15%
xEffect	X에게 일어날 일	~15%
xAttr	X의 성격 특성	~10%

실제 데이터 예시

예시 1

Context: "Tracy had accidentally broken her friend's vase."
Question: "How would Tracy feel afterwards?"
A: "Guilty and embarrassed" ✓
B: "Proud of herself"
C: "Indifferent"

예시 2

Context: "Alex made dinner for their friends."
Question: "What will Alex's friends want to do next?"
A: "Thank Alex for cooking" ✓
B: "Complain about the food"
C: "Leave immediately"

방법 (Method)

graph TB
    A["ATOMIC 지식 그래프<br/>(사회적 상식)"] --> B["상황(context) 생성"]
    B --> C["MTurk workers가<br/>질문 + 3 보기 작성"]
    C --> D["Adversarial Filtering<br/>쉬운 문제 제거"]
    D --> E["SIQA Dataset<br/>~38k 문제"]

발견 (Findings)

주요 결과

모델	정확도
Human	~88%
RoBERTa-Large	76.2%
BERT-Large	66.0%
GPT-3 (few-shot)	~73%
Llama 2 70B	~78%

핵심 발견

사회적 추론의 어려움: 감정/의도 추론에서 모델이 인간 대비 ~12%p 낮음
물리 vs 사회: PIQA보다 SIQA에서 모델 성능이 낮음 — 사회적 상식이 더 어려움
ATOMIC의 유용성: 지식 그래프에서 체계적으로 추론 유형을 커버

핵심 용어 정리

용어	정의
SIQA	Social Interaction QA. 사회적 상식 추론 벤치마크
ATOMIC	Atlas of Machine Commonsense. 사회적 상식 지식 그래프
Social Commonsense	감정, 의도, 사회적 규범에 대한 상식

Juhyeon's Blog

탐색기

Social IQa - Commonsense Reasoning about Social Interactions

SIQA: 사회적 상황 추론 벤치마크

메타데이터

데이터셋 구성

규모 및 분할

Feature/Column 구조

추론 유형

실제 데이터 예시

예시 1

예시 2

방법 (Method)

발견 (Findings)

주요 결과

핵심 발견

관련 연구

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크