Digest: 상식 추론을 체계적으로 평가하기 위해, CommonsenseQA는 ConceptNet 지식 그래프에서 관련 개념들을 추출하고, crowdworker가 이 개념들을 구분할 수 있는 12,247개 5지선다 질문을 작성했다. 핵심은 보기가 모두 같은 ConceptNet 관계로 연결된 개념이므로, 단순 연관성이 아닌 구체적 상식 추론이 필요하다는 것이다. 예: “Where do you put your grapes just before checking out?” — 보기가 모두 “grapes”와 관련된 장소이지만 정답은 “grocery cart”. BERT 55.9%, 인간 88.9%로 큰 격차를 보였다.
메타데이터
항목
내용
제목
CommonsenseQA: A Question Answering Challenge Targeting World Knowledge
저자
Alon Talmor, Jonathan Herzig, Nicholas Lourie, Jonathan Berant
Question: "Where do you put your grapes just before checking out?"
A. winery B. fruit stand C. grocery cart ✓ D. vineyard E. jar
(모든 보기가 포도와 관련, 하지만 "checking out" 맥락은 장보기)
예시 2
Question: "What do people typically do while playing guitar?"
A. cry B. hear sounds C. singing ✓ D. arthritis E. making music
발견 (Findings)
주요 결과
모델
정확도
Human
88.9%
BERT-Large
55.9%
RoBERTa + CSKG
76.2%
GPT-3 (few-shot)
~74%
Llama 2 70B
~78%
GPT-4
~85%+
핵심 발견
ConceptNet 기반 설계의 효과: 보기가 모두 의미적으로 관련되어 표면적 단서로 풀기 어려움