CommonsenseQA: ConceptNet 기반 상식 추론 벤치마크

Digest: 상식 추론을 체계적으로 평가하기 위해, CommonsenseQA는 ConceptNet 지식 그래프에서 관련 개념들을 추출하고, crowdworker가 이 개념들을 구분할 수 있는 12,247개 5지선다 질문을 작성했다. 핵심은 보기가 모두 같은 ConceptNet 관계로 연결된 개념이므로, 단순 연관성이 아닌 구체적 상식 추론이 필요하다는 것이다. 예: “Where do you put your grapes just before checking out?” — 보기가 모두 “grapes”와 관련된 장소이지만 정답은 “grocery cart”. BERT 55.9%, 인간 88.9%로 큰 격차를 보였다.

메타데이터

항목	내용
제목	CommonsenseQA: A Question Answering Challenge Targeting World Knowledge
저자	Alon Talmor, Jonathan Herzig, Nicholas Lourie, Jonathan Berant
소속	Tel Aviv University, AI2
연도	2018 (arXiv), NAACL 2019
발표	NAACL 2019, arXiv:1811.00937
링크	arXiv, Leaderboard
키워드	CommonsenseQA, ConceptNet, commonsense reasoning, 5-way multiple choice

데이터셋 구성

규모 및 분할

Split	예시 수
Train	9,741
Dev	1,221
Test	1,285
합계	12,247

Feature/Column 구조

필드	설명	예시
`question`	상식 질문	”Where do you put your grapes…?”
`choices`	5개 보기	[“winery”, “fruit stand”, “grocery cart”, “vineyard”, “jar”]
`answerKey`	정답	`C`
`question_concept`	ConceptNet 소스 개념	`grapes`

질문 생성 과정

단계	설명
1	ConceptNet에서 소스 개념 선택 (예: `grapes`)
2	관련 타겟 개념 3개 추출 (예: `winery`, `vineyard`, `fruit stand`)
3	Crowdworker가 하나의 정답만 맞는 질문 작성
4	추가 오답 2개 추가 → 5지선다 완성

실제 데이터 예시

예시 1

Question: "Where do you put your grapes just before checking out?"
A. winery  B. fruit stand  C. grocery cart ✓  D. vineyard  E. jar
(모든 보기가 포도와 관련, 하지만 "checking out" 맥락은 장보기)

예시 2

Question: "What do people typically do while playing guitar?"
A. cry  B. hear sounds  C. singing ✓  D. arthritis  E. making music

발견 (Findings)

주요 결과

모델	정확도
Human	88.9%
BERT-Large	55.9%
RoBERTa + CSKG	76.2%
GPT-3 (few-shot)	~74%
Llama 2 70B	~78%
GPT-4	~85%+

핵심 발견

ConceptNet 기반 설계의 효과: 보기가 모두 의미적으로 관련되어 표면적 단서로 풀기 어려움
지식 그래프 통합의 가치: ConceptNet을 활용한 모델이 순수 LM보다 높은 성능
상식 추론의 잔여 격차: GPT-4도 인간 대비 ~4%p 격차 — 완전히 해결되지 않음

핵심 용어 정리

용어	정의
CommonsenseQA	ConceptNet 기반 상식 추론 QA 벤치마크
ConceptNet	상식 지식 그래프. 개념 간 관계(IsA, AtLocation 등) 표현
Distractor	오답 보기. 정답과 의미적으로 관련되어 있어 혼동을 유발

Juhyeon's Blog

탐색기

CommonsenseQA - A Question Answering Challenge Targeting World Knowledge

CommonsenseQA: ConceptNet 기반 상식 추론 벤치마크

메타데이터

데이터셋 구성

규모 및 분할

Feature/Column 구조

질문 생성 과정

실제 데이터 예시

예시 1

예시 2

발견 (Findings)

주요 결과

핵심 발견

관련 연구

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크