OpenBookQA: 오픈북 시험 형태의 과학 상식 벤치마크

Digest: 실제 시험에서 “오픈북”이란 교과서를 펴놓고 치는 시험이다. OpenBookQA는 이를 모방하여 **1,326개 핵심 과학 사실(open book)**을 제공하되, 문제를 풀려면 추가적인 상식 추론이 필요하도록 설계했다. 5,957개 4지선다 문제로 구성되며, 각 문제는 “교과서 사실 + 일상 상식”을 결합해야 답할 수 있다. 예: “금속이 열을 전도한다”(교과서) + “숟가락은 금속이다”(상식) → “뜨거운 수프에 넣은 숟가락은 뜨거워진다”. 2018년 최고 모델 55.8%, 인간 ~92%로 상식과 과학 지식의 결합이 여전히 어렵다.

메타데이터

항목	내용
제목	Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering
저자	Todor Mihaylov, Peter Clark, Tushar Khot, Ashish Sabharwal
소속	AI2, Heidelberg University
연도	2018
발표	EMNLP 2018, arXiv:1809.02789
링크	arXiv, Dataset
키워드	OpenBookQA, open book exam, science facts, commonsense reasoning

데이터셋 구성

규모 및 분할

Split	예시 수
Train	4,957
Dev	500
Test	500
합계	5,957
Open Book (과학 사실)	1,326

Feature/Column 구조

필드	설명	예시
`question_stem`	문제 텍스트	”Which of these would let the most heat travel through?”
`choices`	4개 보기	[“a]a]wooden spoon”, “b)metal fork”, …]
`answerKey`	정답	`B`
`fact1`	관련 과학 사실	”Metal is a thermal conductor”

실제 데이터 예시

예시 1

Fact: "Metal is a thermal conductor"
Question: "Which of these would let the most heat travel through?"
A. a wooden spoon  B. a metal fork ✓  C. a plastic straw  D. a cotton shirt
(과학 사실 + "포크는 금속" 상식 결합)

예시 2

Fact: "An animal requires energy to survive"
Question: "A fox requires what to survive?"
A. water  B. food ✓  C. internet  D. a car
(과학 사실 + "음식은 에너지원" 상식 결합)

방법 (Method)

graph TB
    A["1,326개 핵심 과학 사실<br/>(Open Book)"] --> B["각 사실에 대해<br/>문제 4-5개 작성"]
    B --> C["정답: 사실+상식 결합 필요"]
    B --> D["오답: 그럴듯하지만<br/>사실에 모순"]
    C --> E["검증: 사실만으로 풀 수<br/>없는지 확인"]
    D --> E
    E --> F["OpenBookQA Dataset<br/>5,957 문제"]

발견 (Findings)

주요 결과

모델	정확도
Human	~92%
Random	25.0%
IR + PMI	50.2%
BERT-Large	55.8%
GPT-3 (few-shot)	~78%
Llama 2 70B	~82%
GPT-4	~92%+

핵심 발견

이중 지식 요구: 과학 사실 + 상식 모두 필요 — 단일 지식으로 불충분
Open Book의 역설: 사실을 제공해도 상식이 없으면 풀 수 없음
LLM의 수렴: GPT-4급에서 인간 수준에 도달 — 대규모 사전학습이 상식 커버

핵심 용어 정리

용어	정의
OpenBookQA	오픈북 시험 형태의 과학 상식 QA 벤치마크
Open Book	문제 풀이 시 제공되는 1,326개 핵심 과학 사실
Multi-hop Reasoning	여러 지식(사실 + 상식)을 결합하여 추론

Juhyeon's Blog

탐색기

Can a Suit of Armor Conduct Electricity A New Dataset for Open Book Question Answering

OpenBookQA: 오픈북 시험 형태의 과학 상식 벤치마크

메타데이터

데이터셋 구성

규모 및 분할

Feature/Column 구조

실제 데이터 예시

예시 1

예시 2

방법 (Method)

발견 (Findings)

주요 결과

핵심 발견

관련 연구

핵심 용어 정리

태그

그래프 뷰

목차

Properties

백링크