CommonsenseQA: ConceptNet 기반 상식 추론 벤치마크

Digest: 상식 추론을 체계적으로 평가하기 위해, CommonsenseQAConceptNet 지식 그래프에서 관련 개념들을 추출하고, crowdworker가 이 개념들을 구분할 수 있는 12,247개 5지선다 질문을 작성했다. 핵심은 보기가 모두 같은 ConceptNet 관계로 연결된 개념이므로, 단순 연관성이 아닌 구체적 상식 추론이 필요하다는 것이다. 예: “Where do you put your grapes just before checking out?” — 보기가 모두 “grapes”와 관련된 장소이지만 정답은 “grocery cart”. BERT 55.9%, 인간 88.9%로 큰 격차를 보였다.


메타데이터

항목내용
제목CommonsenseQA: A Question Answering Challenge Targeting World Knowledge
저자Alon Talmor, Jonathan Herzig, Nicholas Lourie, Jonathan Berant
소속Tel Aviv University, AI2
연도2018 (arXiv), NAACL 2019
발표NAACL 2019, arXiv:1811.00937
링크arXiv, Leaderboard
키워드CommonsenseQA, ConceptNet, commonsense reasoning, 5-way multiple choice

데이터셋 구성

규모 및 분할

Split예시 수
Train9,741
Dev1,221
Test1,285
합계12,247

Feature/Column 구조

필드설명예시
question상식 질문”Where do you put your grapes…?”
choices5개 보기[“winery”, “fruit stand”, “grocery cart”, “vineyard”, “jar”]
answerKey정답C
question_conceptConceptNet 소스 개념grapes

질문 생성 과정

단계설명
1ConceptNet에서 소스 개념 선택 (예: grapes)
2관련 타겟 개념 3개 추출 (예: winery, vineyard, fruit stand)
3Crowdworker가 하나의 정답만 맞는 질문 작성
4추가 오답 2개 추가 → 5지선다 완성

실제 데이터 예시

예시 1

Question: "Where do you put your grapes just before checking out?"
A. winery  B. fruit stand  C. grocery cart ✓  D. vineyard  E. jar
(모든 보기가 포도와 관련, 하지만 "checking out" 맥락은 장보기)

예시 2

Question: "What do people typically do while playing guitar?"
A. cry  B. hear sounds  C. singing ✓  D. arthritis  E. making music

발견 (Findings)

주요 결과

모델정확도
Human88.9%
BERT-Large55.9%
RoBERTa + CSKG76.2%
GPT-3 (few-shot)~74%
Llama 2 70B~78%
GPT-4~85%+

핵심 발견

  1. ConceptNet 기반 설계의 효과: 보기가 모두 의미적으로 관련되어 표면적 단서로 풀기 어려움
  2. 지식 그래프 통합의 가치: ConceptNet을 활용한 모델이 순수 LM보다 높은 성능
  3. 상식 추론의 잔여 격차: GPT-4도 인간 대비 ~4%p 격차 — 완전히 해결되지 않음

관련 연구


핵심 용어 정리

용어정의
CommonsenseQAConceptNet 기반 상식 추론 QA 벤치마크
ConceptNet상식 지식 그래프. 개념 간 관계(IsA, AtLocation 등) 표현
Distractor오답 보기. 정답과 의미적으로 관련되어 있어 혼동을 유발

태그

paper #2018 benchmark commonsense CommonsenseQA ConceptNet knowledge_graph