SQuAD 2.0: 답변 불가능한 질문을 포함한 독해 벤치마크

Digest: Stanford QA Dataset(SQuAD)은 기계 독해의 사실상 표준 벤치마크였으나, SQuAD 1.1의 모든 질문에는 반드시 지문 내 답이 존재했다. 이로 인해 모델은 “아무 답이나 추출”하는 전략으로 높은 점수를 얻을 수 있었다. SQuAD 2.0은 기존 100k+ 답변 가능 질문에 53,775개의 답변 불가능(unanswerable) 질문을 추가하여, 모델이 “답이 있는지 없는지”를 먼저 판별해야 하는 현실적 설정을 만들었다. 답변 불가 질문은 crowdworker가 답변 가능 질문과 유사하되 지문으로는 답할 수 없게 설계했다. 최고 모델은 EM 66.3으로 인간(86.8) 대비 20점 이상 격차를 보였다(Table 4).

메타데이터

항목	내용
제목	Know What You Don’t Know: Unanswerable Questions for SQuAD
저자	Pranav Rajpurkar, Robin Jia, Percy Liang
소속	Stanford University
연도	2018
발표	ACL 2018, arXiv:1806.03822
링크	arXiv, Leaderboard
키워드	SQuAD, reading comprehension, unanswerable questions, extractive QA

데이터셋 구성

규모 및 분할

항목	Answerable	Unanswerable	전체
Train	86,821	43,498	130,319
Dev	5,928	5,945	11,873
전체	~100k	~53k	~150k

Feature/Column 구조

필드	설명	예시
`context`	Wikipedia 지문	”Beyoncé Giselle Knowles-Carter…”
`question`	질문	”When did Beyoncé start becoming popular?”
`answers`	정답 span (list)	`[{"text": "in the late 1990s", "answer_start": 269}]`
`is_impossible`	답변 불가 여부	`true` / `false`
`plausible_answers`	답변 불가 시 그럴듯한 오답	`[{"text": "1990", "answer_start": 0}]`

실제 데이터 예시

예시 1: Answerable

Context: "The Normans were the people who in the 10th and 11th
centuries gave their name to Normandy..."
Question: "In what country is Normandy located?"
Answer: "France"

예시 2: Unanswerable

Context: "The Normans were the people who in the 10th and 11th
centuries gave their name to Normandy..."
Question: "Who gave their name to Normandy in the 9th century?"
Answer: (unanswerable — 본문은 10th/11th century이라고 함)

왜 이 연구를 하는가?

핵심 질문

모델이 답을 모를 때 “모른다”고 말할 수 있는가, 아니면 항상 무언가를 추출하는가?

기존 접근법의 한계

한계	설명
항상 답이 존재	SQuAD 1.1은 모든 질문에 답이 있어 “추출 전략”만으로 충분
과신 문제	모델이 답이 없어도 높은 확신으로 오답을 추출
현실 괴리	실제 QA에서는 답변 불가능한 질문이 빈번함

방법 (Method)

프레임워크 개요

graph TB
    A["SQuAD 1.1<br/>100k+ QA pairs"] --> B["Crowdworkers에게<br/>unanswerable 질문 작성 요청"]
    B --> C["답변 가능 질문과<br/>유사하되 답 없는 질문"]
    C --> D["검증: 다른 annotator가<br/>답변 불가 확인"]
    D --> E["SQuAD 2.0<br/>~150k QA pairs"]

    E --> F["모델 평가"]
    F --> G["답변 가능 질문: span 추출"]
    F --> H["답변 불가 질문: no-answer 반환"]

발견 (Findings)

주요 결과 (Dev set)

모델	EM	F1
Human	86.8	89.5
BiDAF + Self Attention + ELMo	66.3	69.6
DocQA + ELMo	65.1	67.6
BiDAF Baseline	59.2	62.1

(Table 4, 2018 기준)

이후 발전

모델	EM	F1	연도
BERT-Large	82.1	84.8	2018
XLNet	87.9	90.7	2019
GPT-4	~90+	~92+	2023

핵심 발견

인간-모델 격차: 최고 모델(66.3 EM)과 인간(86.8 EM) 간 20점 이상 격차 (Table 4)
답변 불가 질문의 어려움: 모델이 답변 불가 질문에서 특히 취약 — plausible answer를 자주 추출
No-answer 판별: threshold 기반 no-answer 판별이 핵심 기술적 과제

이론적 의의

추출형 QA의 완성

SQuAD 2.0은 “답이 있으면 추출, 없으면 기각”이라는 추출형 QA의 완전한 프레임워크를 확립했다. 이후 BERT, XLNet 등 Pre-trained LM의 표준 평가 과제가 되었으며, 모델의 “무지 인식(epistemic humility)” 능력을 측정하는 최초의 대규모 벤치마크다.

핵심 용어 정리

용어	정의
SQuAD	Stanford Question Answering Dataset. 추출형 독해 벤치마크
Unanswerable Question	주어진 지문으로는 답할 수 없는 질문
Extractive QA	지문에서 답을 직접 추출하는 QA 방식
EM (Exact Match)	예측과 정답이 정확히 일치하는 비율
Plausible Answer	답변 불가 질문에 대해 그럴듯하지만 틀린 답

Juhyeon's Blog

탐색기

Know What You Don't Know - Unanswerable Questions for SQuAD