OpenBookQA: 오픈북 시험 형태의 과학 상식 벤치마크

Digest: 실제 시험에서 “오픈북”이란 교과서를 펴놓고 치는 시험이다. OpenBookQA는 이를 모방하여 **1,326개 핵심 과학 사실(open book)**을 제공하되, 문제를 풀려면 추가적인 상식 추론이 필요하도록 설계했다. 5,957개 4지선다 문제로 구성되며, 각 문제는 “교과서 사실 + 일상 상식”을 결합해야 답할 수 있다. 예: “금속이 열을 전도한다”(교과서) + “숟가락은 금속이다”(상식) → “뜨거운 수프에 넣은 숟가락은 뜨거워진다”. 2018년 최고 모델 55.8%, 인간 ~92%로 상식과 과학 지식의 결합이 여전히 어렵다.


메타데이터

항목내용
제목Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering
저자Todor Mihaylov, Peter Clark, Tushar Khot, Ashish Sabharwal
소속AI2, Heidelberg University
연도2018
발표EMNLP 2018, arXiv:1809.02789
링크arXiv, Dataset
키워드OpenBookQA, open book exam, science facts, commonsense reasoning

데이터셋 구성

규모 및 분할

Split예시 수
Train4,957
Dev500
Test500
합계5,957
Open Book (과학 사실)1,326

Feature/Column 구조

필드설명예시
question_stem문제 텍스트”Which of these would let the most heat travel through?”
choices4개 보기[“a]a]wooden spoon”, “b)metal fork”, …]
answerKey정답B
fact1관련 과학 사실”Metal is a thermal conductor”

실제 데이터 예시

예시 1

Fact: "Metal is a thermal conductor"
Question: "Which of these would let the most heat travel through?"
A. a wooden spoon  B. a metal fork ✓  C. a plastic straw  D. a cotton shirt
(과학 사실 + "포크는 금속" 상식 결합)

예시 2

Fact: "An animal requires energy to survive"
Question: "A fox requires what to survive?"
A. water  B. food ✓  C. internet  D. a car
(과학 사실 + "음식은 에너지원" 상식 결합)

방법 (Method)

graph TB
    A["1,326개 핵심 과학 사실<br/>(Open Book)"] --> B["각 사실에 대해<br/>문제 4-5개 작성"]
    B --> C["정답: 사실+상식 결합 필요"]
    B --> D["오답: 그럴듯하지만<br/>사실에 모순"]
    C --> E["검증: 사실만으로 풀 수<br/>없는지 확인"]
    D --> E
    E --> F["OpenBookQA Dataset<br/>5,957 문제"]

발견 (Findings)

주요 결과

모델정확도
Human~92%
Random25.0%
IR + PMI50.2%
BERT-Large55.8%
GPT-3 (few-shot)~78%
Llama 2 70B~82%
GPT-4~92%+

핵심 발견

  1. 이중 지식 요구: 과학 사실 + 상식 모두 필요 — 단일 지식으로 불충분
  2. Open Book의 역설: 사실을 제공해도 상식이 없으면 풀 수 없음
  3. LLM의 수렴: GPT-4급에서 인간 수준에 도달 — 대규모 사전학습이 상식 커버

관련 연구


핵심 용어 정리

용어정의
OpenBookQA오픈북 시험 형태의 과학 상식 QA 벤치마크
Open Book문제 풀이 시 제공되는 1,326개 핵심 과학 사실
Multi-hop Reasoning여러 지식(사실 + 상식)을 결합하여 추론

태그

paper #2018 benchmark science_commonsense OpenBookQA open_book AI2