Digest: 실제 시험에서 “오픈북”이란 교과서를 펴놓고 치는 시험이다. OpenBookQA는 이를 모방하여 **1,326개 핵심 과학 사실(open book)**을 제공하되, 문제를 풀려면 추가적인 상식 추론이 필요하도록 설계했다. 5,957개 4지선다 문제로 구성되며, 각 문제는 “교과서 사실 + 일상 상식”을 결합해야 답할 수 있다. 예: “금속이 열을 전도한다”(교과서) + “숟가락은 금속이다”(상식) → “뜨거운 수프에 넣은 숟가락은 뜨거워진다”. 2018년 최고 모델 55.8%, 인간 ~92%로 상식과 과학 지식의 결합이 여전히 어렵다.
메타데이터
항목
내용
제목
Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering
저자
Todor Mihaylov, Peter Clark, Tushar Khot, Ashish Sabharwal
OpenBookQA, open book exam, science facts, commonsense reasoning
데이터셋 구성
규모 및 분할
Split
예시 수
Train
4,957
Dev
500
Test
500
합계
5,957
Open Book (과학 사실)
1,326
Feature/Column 구조
필드
설명
예시
question_stem
문제 텍스트
”Which of these would let the most heat travel through?”
choices
4개 보기
[“a]a]wooden spoon”, “b)metal fork”, …]
answerKey
정답
B
fact1
관련 과학 사실
”Metal is a thermal conductor”
실제 데이터 예시
예시 1
Fact: "Metal is a thermal conductor"
Question: "Which of these would let the most heat travel through?"
A. a wooden spoon B. a metal fork ✓ C. a plastic straw D. a cotton shirt
(과학 사실 + "포크는 금속" 상식 결합)
예시 2
Fact: "An animal requires energy to survive"
Question: "A fox requires what to survive?"
A. water B. food ✓ C. internet D. a car
(과학 사실 + "음식은 에너지원" 상식 결합)
방법 (Method)
graph TB
A["1,326개 핵심 과학 사실<br/>(Open Book)"] --> B["각 사실에 대해<br/>문제 4-5개 작성"]
B --> C["정답: 사실+상식 결합 필요"]
B --> D["오답: 그럴듯하지만<br/>사실에 모순"]
C --> E["검증: 사실만으로 풀 수<br/>없는지 확인"]
D --> E
E --> F["OpenBookQA Dataset<br/>5,957 문제"]